11 điểm bởi GN⁺ 2025-12-06 | 1 bình luận | Chia sẻ qua WhatsApp
  • GPT-5, Claude, Gemini, Grok, DeepSeek cùng 5 mô hình ngôn ngữ lớn đã thực hiện giao dịch cổ phiếu ảo trong 8 tháng dựa trên dữ liệu thị trường thực
  • Mỗi mô hình giao dịch các mã cổ phiếu chính theo đơn vị ngày với 100.000 USD vốn mô phỏng, đồng thời ghi lại toàn bộ quyết định và thay đổi danh mục đầu tư
  • Kết quả là Grok đạt tỷ suất sinh lời cao nhất, DeepSeek xếp thứ hai với cách biệt sít sao, còn Gemini đứng cuối với danh mục tập trung vào cổ phiếu phi công nghệ
  • Thí nghiệm được tiến hành từ 3/2/2025 đến 20/10/2025, đồng thời xây dựng môi trường API lọc theo thời gian để mô hình chỉ có thể truy cập dữ liệu sau thời điểm huấn luyện
  • Nhóm nghiên cứu xem thí nghiệm này là điểm khởi đầu và có kế hoạch kiểm chứng có hệ thống năng lực phân tích tài chính của LLM thông qua giao dịch thời gian thực và các thí nghiệm kiểm soát biến số

Tổng quan về AI Trade Arena

  • AI Trade Arena là nền tảng thử nghiệm được xây dựng để đánh giá khả năng phân tích và dự đoán dữ liệu tài chính thực của LLM
    • Được Kam và Josh đồng phát triển
    • Được thiết kế để các mô hình thực hiện giao dịch cổ phiếu dựa trên tin tức, báo cáo tài chính doanh nghiệp và dữ liệu thị trường
  • Nền tảng theo dõi các mã đang nắm giữ, lịch sử giao dịch và hiệu suất của từng mô hình, đồng thời công khai toàn bộ quá trình giao dịch dưới dạng demo tương tác

Thí nghiệm đầu tiên: giao dịch cổ phiếu của 5 LLM

  • Đối tượng thử nghiệm gồm GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
    • Mỗi mô hình được cấp 100.000 USD vốn mô phỏng
    • Không bao gồm giao dịch quyền chọn, chỉ giao dịch các cổ phiếu chính
  • Mọi giao dịch đều được thực hiện dựa trên giá cổ phiếu lịch sử thực, và mô hình chỉ được truy cập thông tin đã công bố tại đúng thời điểm đó
    • API tin tức, thông tin tài chính doanh nghiệp và dữ liệu thị trường được cung cấp dưới dạng lọc theo thời gian
  • Thời gian thí nghiệm là 3/2/2025~20/10/2025, kéo dài khoảng 8 tháng

Khái niệm và giới hạn của backtesting

  • Backtest là phương pháp kiểm chứng hiệu suất của thuật toán giao dịch bằng dữ liệu quá khứ
    • Mô phỏng xem LLM sẽ đưa ra quyết định gì tại một thời điểm trong quá khứ
    • API được tách theo chuỗi thời gian để tránh rò rỉ dữ liệu tương lai
  • Ưu điểm
    • Có thể đánh giá mô hình quy mô lớn
    • Có thể kiểm thử nhanh nhiều kịch bản khác nhau
    • Có thể thu được kết quả có ý nghĩa thống kê
  • Nhược điểm
    • Không thể tái hiện hoàn toàn môi trường cạnh tranh và thanh khoản của thị trường thực
    • Tồn tại rủi ro slippage, giới hạn khối lượng giao dịch và rò rỉ dữ liệu tương lai
    • Có khả năng overfitting với dữ liệu quá khứ

Kết quả và quan sát từ thí nghiệm

  • Tất cả các mô hình đều chỉ được thử nghiệm trong giai đoạn sau mốc cắt dữ liệu huấn luyện
    • Thiết lập này nhằm ngăn mô hình giao dịch trong trạng thái đã ghi nhớ kết quả thị trường quá khứ
  • Grok đạt hiệu suất cao nhất, DeepSeek xếp thứ hai với chênh lệch nhỏ
    • Phần lớn mô hình xây dựng danh mục tập trung vào cổ phiếu công nghệ và ghi nhận tỷ suất sinh lời cao
    • Gemini có tỷ trọng cổ phiếu phi công nghệ cao nên cho kết quả thấp nhất
  • Nhóm nghiên cứu công khai toàn bộ quá trình giao dịch và lý do để đảm bảo tính minh bạch
    • Có thể kiểm tra trực tiếp căn cứ của từng giao dịch trên UI

Kế hoạch tiếp theo

  • Nhóm nghiên cứu dự kiến mở rộng từ backtest sang thí nghiệm giao dịch thời gian thực
    • Cách tiếp cận 3 giai đoạn: backtest kịch bản quá khứ → giao dịch mô phỏng thời gian thực → giao dịch trên thị trường thực
  • Mục tiêu là hiểu một cách có hệ thống năng lực phân tích thị trường tài chính và chất lượng ra quyết định của LLM
    • Sử dụng dữ liệu thị trường làm chỉ số đánh giá bám sát thực tế
    • Thử phân biệt may mắn và năng lực bằng phân tích nhân tố Barra
  • Thông qua nhật ký giao dịch, có thể nhận diện sự khác biệt giữa phán đoán dựa trên ghi nhớ và suy luận thực sự
    • Ví dụ: phân biệt giữa việc chỉ đơn giản nhớ Nvidia rồi mua vào với việc phân tích báo cáo 10-K để rút ra insight nền tảng
  • Việc phân tích quyết định minh bạch như vậy cũng có thể giúp cải thiện cấu hình công cụ và workflow của mô hình

Tham gia và khám phá dữ liệu

  • Có thể trực tiếp khám phá giao dịch, chiến lược và quá trình suy luận của từng mô hình trong demo tương tác trên website
  • Nhóm nghiên cứu đang lên kế hoạch cho các thí nghiệm bổ sung và hiện thu thập ý kiến qua cộng đồng Discord và Twitter DM

1 bình luận

 
GN⁺ 2025-12-06
Ý kiến Hacker News
  • Grok đạt kết quả tốt nhất, còn DeepSeek đứng thứ hai với khoảng cách rất sít sao
    Có vẻ hầu hết các mô hình đều có danh mục tập trung vào cổ phiếu công nghệ nên mới cho kết quả tốt
    Trong khi đó, Gemini có tỷ trọng cổ phiếu phi công nghệ cao hơn nên đứng cuối bảng
    Tôi không phải nhà đầu tư cũng không phải nhà nghiên cứu, nhưng kết quả này khiến tôi cảm thấy như chỉ số đo lường có gì đó không đúng

    • Nếu tin rằng lĩnh vực công nghệ sẽ tiếp tục tăng, thì có thể đánh bại mức trung bình của thị trường
      Nhưng vấn đề là không thể dự đoán được thời điểm điều chỉnh
      Nếu dữ liệu không bao gồm thị trường đi xuống, mô hình sẽ không thể học được tình huống đó
      Có lẽ sẽ thú vị hơn nếu chia dữ liệu làm hai nửa, dùng một nửa để huấn luyện và nửa còn lại để kiểm thử
      Điều này cũng gợi nhớ rằng ngay cả hedge fund cũng chỉ có thể vượt thị trường trong 2~4 năm, còn trên 10 năm thì gần như là bất khả thi
    • Cách tiếp cận hợp lý hơn là tạo 100 danh mục cho mỗi mô hình rồi chạy mô phỏng Monte Carlo để xem hiệu suất trung bình
    • Sẽ rất hay nếu lặp lại nghiên cứu này cả trong thị trường giá xuống (bear market)
    • Ngay cả S&P 500 cũng có tỷ trọng công nghệ cao và là một chỉ số khó đánh bại về dài hạn
    • Thí nghiệm này có vẻ chỉ cho thấy hiệu suất gần đây mà không xét đến bối cảnh theo từng thời điểm
      Nếu huấn luyện lại mô hình theo từng giai đoạn và backtest thì mới có thể thu được kết quả ý nghĩa hơn
  • Trước đây tôi từng làm ở một API môi giới cho giao dịch thuật toán, và rất nhiều chiến lược chạy tốt trong backtest lại thất bại trên thị trường thực
    Ngay cả giao dịch giấy theo thời gian thực (paper trading) cũng vận hành khác với thị trường thật
    DeepSeek đạt kết quả tốt vì nắm giữ nhiều cổ phiếu công nghệ mà không bán ra, nhưng chiến lược tập trung vào một lĩnh vực là rất rủi ro
    Việc chỉ được giao dịch một lần mỗi ngày cũng có nghĩa đây không phải thí nghiệm về ra quyết định thời gian thực
    Nếu LLM có thể chuyển đổi lĩnh vực đúng thời điểm thì mới thực sự ấn tượng

    • Trên thị trường thật, lệnh có thể bị khớp ưu tiên bởi market maker (front running),
      và còn có market impact khi các bên tham gia khác hủy lệnh hoặc giao dịch theo
      Những hiện tượng này không xảy ra trong paper trading
    • Khi có tiền thật trong cuộc, yếu tố cảm xúc sẽ chen vào, khiến rất khó để hoàn toàn tin vào phán đoán của máy móc
    • Nếu thử đủ nhiều chiến lược, sẽ luôn có khả năng tình cờ tìm ra một chiến lược khớp với dữ liệu quá khứ, nên chỉ backtest thì vô nghĩa
    • Tôi cũng từng nhân đôi hoặc nhân ba tiền khi paper trade bằng ThinkOrSwim, nhưng trên thị trường thật thì thất bại hoàn toàn
  • Nếu mỗi mô hình chỉ được chạy đúng một lần thì đó không phải backtest đúng nghĩa
    Nếu chỉ nhìn kết quả ở một thời điểm duy nhất, thì ngay cả chiến lược đơn giản kiểu “mua cổ phiếu AI” cũng có thể tình cờ đúng
    Cần chạy độc lập 100 lần trên 10 giai đoạn thị trường khác nhau thì mới có thống kê có ý nghĩa
    Thí nghiệm hiện tại chẳng khác gì một bộ tạo số ngẫu nhiên (random number generator) đắt tiền

    • Ngân sách có hạn nên không thể chạy mô hình nhiều lần
      Ví dụ như Claude tốn khoảng 200~300 USD để chạy trong 8 tháng
      Tôi muốn mở rộng ở quy mô lớn hơn để có kết quả đủ ý nghĩa thống kê
    • Ngay trong bài cũng có ghi rõ rằng kết quả không có ý nghĩa thống kê, nhưng đáng lẽ điểm đó nên được nhấn mạnh hơn
      Hiện tại nó trông giống một bài viết thiên về kết quả hơn
    • Việc không có chỉ số (metric) nào ngoài tổng lợi nhuận cũng là một vấn đề
      Vì ngay cả chọn cổ phiếu ngẫu nhiên cũng có xác suất cao đánh bại S&P 500
    • Nếu cực đoan hơn, ta thậm chí có thể làm thí nghiệm kiểu “nếu mua cổ phiếu nào vào ngày 1/1/2010 thì 15 năm sau lợi nhuận sẽ cao nhất?”
      Nhưng sẽ chẳng ai dùng nguyên chiến lược đó cho suốt 15 năm tiếp theo
    • Kết quả của một lần chạy về cơ bản chỉ là random walk
  • Cũng đang có bảng xếp hạng nof1.ai
    Kết quả khá dưới kỳ vọng, và phần lớn AI đều tập trung lướt sóng ngắn hạn ở nhóm Mag7 rồi bị lỗ

    • Hạn chế của nof1 là hầu như không dùng dữ liệu phân tích doanh nghiệp mà nhà đầu tư thực tế có thể tham khảo
      Chúng tôi đang cố khắc phục điều đó bằng một thí nghiệm tương tự tại rallies.ai/arena
    • Hôm qua tôi thấy nó gây chú ý trên X (Twitter) nên tưởng đó là kết quả của nof1, nhưng hóa ra là một thí nghiệm hoàn toàn khác
      Dù vậy, bảng điều khiển bình luận đầu tư theo thời gian thực của nof1 vẫn khá thú vị để theo dõi
    • Nhìn vào trang đó thì có vẻ các mô hình chỉ có thể giao dịch một số ít cổ phiếu công nghệ và coin XYZ100
    • Tôi hơi nghi ngờ liệu “mô hình bí ẩn” đó có phải là mô hình nội bộ của họ hay không
    • Vì thông tin giá lan truyền quá nhanh, kết quả sẽ phụ thuộc rất nhiều vào kiến trúc agent và vòng phản hồi
  • Tôi là tác giả (OP)
    Tôi biết rõ những giới hạn của backtest và vốn giả lập, nhưng vẫn muốn cho thấy mô hình nhìn nhận thị trường như thế nào
    Điều đó không có nghĩa là chúng có thể đánh bại thị trường về dài hạn

    • Cũng sẽ hay nếu làm một thí nghiệm đối chứng để so sánh với người tham gia là con người
    • Vì đây không phải giao dịch bằng tiền thật nên hoàn toàn không có market impact
    • Nếu không công bố lợi nhuận điều chỉnh theo rủi ro thì ý nghĩa của kết quả sẽ rất yếu
      Trong thị trường tăng, việc có một danh mục beta cao không phải thành tích gì đặc biệt
    • Cách nói đúng phải là “came in a close second”, không phải “came close to second”
    • Với tư cách tiến sĩ nghiên cứu thị trường vốn, tôi cho rằng cần phải tính lợi nhuận bất thường (alpha) thì mới có thể đánh giá đúng mức vượt trội thực sự
  • Chúng tôi cũng đang tiến hành thí nghiệm thời gian thực với cổ phiếu và quyền chọn
    Mô hình có quyền truy cập nhiều công cụ như hồ sơ SEC, dữ liệu cơ bản doanh nghiệp, giá theo thời gian thực, dữ liệu quyền chọn, v.v.
    Tôi cho rằng backtest không còn nhiều ý nghĩa vì LLM đã ghi nhớ gần như toàn bộ dữ liệu quá khứ
    Vì vậy chúng tôi đang làm forward test, và dù dữ liệu còn ít nhưng đã có những kết quả ban đầu khá thú vị
    rallies.ai/arena

    • Có ý kiến đặt câu hỏi rằng nếu mã nguồn hay prompt không phải mã nguồn mở thì liệu có đáng tin hay không
    • Tôi tò mò vì sao Qwen lại cho kết quả kém hơn hẳn các mô hình khác
  • Đã từng có một thí nghiệm tương tự với tiền mã hóa được thực hiện bằng vốn thật và giao dịch thời gian thực
    Liên kết liên quan
    Tôi cho rằng việc ngăn rò rỉ dữ liệu tương lai với LLM là gần như bất khả thi
    Nghiên cứu cũng đã chỉ ra điều đó, và bản thân tôi khi làm với các mô hình dự báo cũng trực tiếp trải nghiệm độ khó của vấn đề này

  • Backtest không khác giao dịch thực tế, nên không có nhiều ý nghĩa
    Hơn nữa, 8 tháng là khoảng thời gian quá ngắn
    Với tôi, thị trường sau 8 năm quan trọng hơn nhiều so với 8 tháng

    • Muốn backtest LLM thì phải tẩy sạch (white-wash) hoàn toàn dữ liệu quá khứ
      Dù xóa tên mã cổ phiếu đi, mô hình vẫn có thể đã được huấn luyện tới mức chỉ nhìn đồ thị là đoán ra NVDA
  • Rất khó tin vào kết quả backtest của những mô hình kiểu này
    Chỉ khi làm thí nghiệm thời gian thực trong 8 tháng có tính cả chi phí thực tế thì mới có ý nghĩa

    • Hiện chúng tôi đang tiến hành thí nghiệm live với cổ phiếu và quyền chọn
      rallies.ai/arena
  • Đây là một cách tiếp cận hoàn toàn sai
    Tôi thực sự đang làm việc với vai trò nhà nghiên cứu ứng dụng LLM vào giao dịch
    LLM ngây thơ, dễ bị thuyết phục, và phi định tính (non-deterministic)
    Nếu lặp lại cùng một thí nghiệm 10 lần, kết quả có thể khác nhau mỗi lần
    Cách đúng là trước hết xây dựng thuật toán giao dịch có tính quyết định, rồi mới đặt LLM lên trên như một công cụ hỗ trợ
    Nếu đưa LLM trực tiếp vào pipeline giao dịch thì chỉ làm tăng thêm bất định không cần thiết
    Chúng có giá trị trong các tác vụ như phân tích cảm xúc hay kết nối nhanh các tác vụ ML phụ trợ
    Nhưng những thí nghiệm như thế này là ví dụ điển hình của việc gắn AI vào mà không hiểu domain
    Nghiên cứu thực sự có ý nghĩa phải kiểm soát các biến như mức độ phơi nhiễm theo lĩnh vực và lặp lại hàng nghìn lần để phân tích mẫu thiên lệch theo từng LLM
    Nếu một LLM tự nói rằng “tôi sẽ thiết kế thuật toán quant” và thực sự làm được điều đó, thì đó mới là điều đáng kinh ngạc