- GPT-5, Claude, Gemini, Grok, DeepSeek cùng 5 mô hình ngôn ngữ lớn đã thực hiện giao dịch cổ phiếu ảo trong 8 tháng dựa trên dữ liệu thị trường thực
- Mỗi mô hình giao dịch các mã cổ phiếu chính theo đơn vị ngày với 100.000 USD vốn mô phỏng, đồng thời ghi lại toàn bộ quyết định và thay đổi danh mục đầu tư
- Kết quả là Grok đạt tỷ suất sinh lời cao nhất, DeepSeek xếp thứ hai với cách biệt sít sao, còn Gemini đứng cuối với danh mục tập trung vào cổ phiếu phi công nghệ
- Thí nghiệm được tiến hành từ 3/2/2025 đến 20/10/2025, đồng thời xây dựng môi trường API lọc theo thời gian để mô hình chỉ có thể truy cập dữ liệu sau thời điểm huấn luyện
- Nhóm nghiên cứu xem thí nghiệm này là điểm khởi đầu và có kế hoạch kiểm chứng có hệ thống năng lực phân tích tài chính của LLM thông qua giao dịch thời gian thực và các thí nghiệm kiểm soát biến số
Tổng quan về AI Trade Arena
- AI Trade Arena là nền tảng thử nghiệm được xây dựng để đánh giá khả năng phân tích và dự đoán dữ liệu tài chính thực của LLM
- Được Kam và Josh đồng phát triển
- Được thiết kế để các mô hình thực hiện giao dịch cổ phiếu dựa trên tin tức, báo cáo tài chính doanh nghiệp và dữ liệu thị trường
- Nền tảng theo dõi các mã đang nắm giữ, lịch sử giao dịch và hiệu suất của từng mô hình, đồng thời công khai toàn bộ quá trình giao dịch dưới dạng demo tương tác
Thí nghiệm đầu tiên: giao dịch cổ phiếu của 5 LLM
- Đối tượng thử nghiệm gồm GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- Mỗi mô hình được cấp 100.000 USD vốn mô phỏng
- Không bao gồm giao dịch quyền chọn, chỉ giao dịch các cổ phiếu chính
- Mọi giao dịch đều được thực hiện dựa trên giá cổ phiếu lịch sử thực, và mô hình chỉ được truy cập thông tin đã công bố tại đúng thời điểm đó
- API tin tức, thông tin tài chính doanh nghiệp và dữ liệu thị trường được cung cấp dưới dạng lọc theo thời gian
- Thời gian thí nghiệm là 3/2/2025~20/10/2025, kéo dài khoảng 8 tháng
Khái niệm và giới hạn của backtesting
- Backtest là phương pháp kiểm chứng hiệu suất của thuật toán giao dịch bằng dữ liệu quá khứ
- Mô phỏng xem LLM sẽ đưa ra quyết định gì tại một thời điểm trong quá khứ
- API được tách theo chuỗi thời gian để tránh rò rỉ dữ liệu tương lai
- Ưu điểm
- Có thể đánh giá mô hình quy mô lớn
- Có thể kiểm thử nhanh nhiều kịch bản khác nhau
- Có thể thu được kết quả có ý nghĩa thống kê
- Nhược điểm
- Không thể tái hiện hoàn toàn môi trường cạnh tranh và thanh khoản của thị trường thực
- Tồn tại rủi ro slippage, giới hạn khối lượng giao dịch và rò rỉ dữ liệu tương lai
- Có khả năng overfitting với dữ liệu quá khứ
Kết quả và quan sát từ thí nghiệm
- Tất cả các mô hình đều chỉ được thử nghiệm trong giai đoạn sau mốc cắt dữ liệu huấn luyện
- Thiết lập này nhằm ngăn mô hình giao dịch trong trạng thái đã ghi nhớ kết quả thị trường quá khứ
- Grok đạt hiệu suất cao nhất, DeepSeek xếp thứ hai với chênh lệch nhỏ
- Phần lớn mô hình xây dựng danh mục tập trung vào cổ phiếu công nghệ và ghi nhận tỷ suất sinh lời cao
- Gemini có tỷ trọng cổ phiếu phi công nghệ cao nên cho kết quả thấp nhất
- Nhóm nghiên cứu công khai toàn bộ quá trình giao dịch và lý do để đảm bảo tính minh bạch
- Có thể kiểm tra trực tiếp căn cứ của từng giao dịch trên UI
Kế hoạch tiếp theo
- Nhóm nghiên cứu dự kiến mở rộng từ backtest sang thí nghiệm giao dịch thời gian thực
- Cách tiếp cận 3 giai đoạn: backtest kịch bản quá khứ → giao dịch mô phỏng thời gian thực → giao dịch trên thị trường thực
- Mục tiêu là hiểu một cách có hệ thống năng lực phân tích thị trường tài chính và chất lượng ra quyết định của LLM
- Sử dụng dữ liệu thị trường làm chỉ số đánh giá bám sát thực tế
- Thử phân biệt may mắn và năng lực bằng phân tích nhân tố Barra
- Thông qua nhật ký giao dịch, có thể nhận diện sự khác biệt giữa phán đoán dựa trên ghi nhớ và suy luận thực sự
- Ví dụ: phân biệt giữa việc chỉ đơn giản nhớ Nvidia rồi mua vào với việc phân tích báo cáo 10-K để rút ra insight nền tảng
- Việc phân tích quyết định minh bạch như vậy cũng có thể giúp cải thiện cấu hình công cụ và workflow của mô hình
Tham gia và khám phá dữ liệu
- Có thể trực tiếp khám phá giao dịch, chiến lược và quá trình suy luận của từng mô hình trong demo tương tác trên website
- Nhóm nghiên cứu đang lên kế hoạch cho các thí nghiệm bổ sung và hiện thu thập ý kiến qua cộng đồng Discord và Twitter DM
1 bình luận
Ý kiến Hacker News
Grok đạt kết quả tốt nhất, còn DeepSeek đứng thứ hai với khoảng cách rất sít sao
Có vẻ hầu hết các mô hình đều có danh mục tập trung vào cổ phiếu công nghệ nên mới cho kết quả tốt
Trong khi đó, Gemini có tỷ trọng cổ phiếu phi công nghệ cao hơn nên đứng cuối bảng
Tôi không phải nhà đầu tư cũng không phải nhà nghiên cứu, nhưng kết quả này khiến tôi cảm thấy như chỉ số đo lường có gì đó không đúng
Nhưng vấn đề là không thể dự đoán được thời điểm điều chỉnh
Nếu dữ liệu không bao gồm thị trường đi xuống, mô hình sẽ không thể học được tình huống đó
Có lẽ sẽ thú vị hơn nếu chia dữ liệu làm hai nửa, dùng một nửa để huấn luyện và nửa còn lại để kiểm thử
Điều này cũng gợi nhớ rằng ngay cả hedge fund cũng chỉ có thể vượt thị trường trong 2~4 năm, còn trên 10 năm thì gần như là bất khả thi
Nếu huấn luyện lại mô hình theo từng giai đoạn và backtest thì mới có thể thu được kết quả ý nghĩa hơn
Trước đây tôi từng làm ở một API môi giới cho giao dịch thuật toán, và rất nhiều chiến lược chạy tốt trong backtest lại thất bại trên thị trường thực
Ngay cả giao dịch giấy theo thời gian thực (paper trading) cũng vận hành khác với thị trường thật
DeepSeek đạt kết quả tốt vì nắm giữ nhiều cổ phiếu công nghệ mà không bán ra, nhưng chiến lược tập trung vào một lĩnh vực là rất rủi ro
Việc chỉ được giao dịch một lần mỗi ngày cũng có nghĩa đây không phải thí nghiệm về ra quyết định thời gian thực
Nếu LLM có thể chuyển đổi lĩnh vực đúng thời điểm thì mới thực sự ấn tượng
và còn có market impact khi các bên tham gia khác hủy lệnh hoặc giao dịch theo
Những hiện tượng này không xảy ra trong paper trading
Nếu mỗi mô hình chỉ được chạy đúng một lần thì đó không phải backtest đúng nghĩa
Nếu chỉ nhìn kết quả ở một thời điểm duy nhất, thì ngay cả chiến lược đơn giản kiểu “mua cổ phiếu AI” cũng có thể tình cờ đúng
Cần chạy độc lập 100 lần trên 10 giai đoạn thị trường khác nhau thì mới có thống kê có ý nghĩa
Thí nghiệm hiện tại chẳng khác gì một bộ tạo số ngẫu nhiên (random number generator) đắt tiền
Ví dụ như Claude tốn khoảng 200~300 USD để chạy trong 8 tháng
Tôi muốn mở rộng ở quy mô lớn hơn để có kết quả đủ ý nghĩa thống kê
Hiện tại nó trông giống một bài viết thiên về kết quả hơn
Vì ngay cả chọn cổ phiếu ngẫu nhiên cũng có xác suất cao đánh bại S&P 500
Nhưng sẽ chẳng ai dùng nguyên chiến lược đó cho suốt 15 năm tiếp theo
Cũng đang có bảng xếp hạng nof1.ai
Kết quả khá dưới kỳ vọng, và phần lớn AI đều tập trung lướt sóng ngắn hạn ở nhóm Mag7 rồi bị lỗ
Chúng tôi đang cố khắc phục điều đó bằng một thí nghiệm tương tự tại rallies.ai/arena
Dù vậy, bảng điều khiển bình luận đầu tư theo thời gian thực của nof1 vẫn khá thú vị để theo dõi
Tôi là tác giả (OP)
Tôi biết rõ những giới hạn của backtest và vốn giả lập, nhưng vẫn muốn cho thấy mô hình nhìn nhận thị trường như thế nào
Điều đó không có nghĩa là chúng có thể đánh bại thị trường về dài hạn
Trong thị trường tăng, việc có một danh mục beta cao không phải thành tích gì đặc biệt
Chúng tôi cũng đang tiến hành thí nghiệm thời gian thực với cổ phiếu và quyền chọn
Mô hình có quyền truy cập nhiều công cụ như hồ sơ SEC, dữ liệu cơ bản doanh nghiệp, giá theo thời gian thực, dữ liệu quyền chọn, v.v.
Tôi cho rằng backtest không còn nhiều ý nghĩa vì LLM đã ghi nhớ gần như toàn bộ dữ liệu quá khứ
Vì vậy chúng tôi đang làm forward test, và dù dữ liệu còn ít nhưng đã có những kết quả ban đầu khá thú vị
rallies.ai/arena
Đã từng có một thí nghiệm tương tự với tiền mã hóa được thực hiện bằng vốn thật và giao dịch thời gian thực
Liên kết liên quan
Tôi cho rằng việc ngăn rò rỉ dữ liệu tương lai với LLM là gần như bất khả thi
Nghiên cứu cũng đã chỉ ra điều đó, và bản thân tôi khi làm với các mô hình dự báo cũng trực tiếp trải nghiệm độ khó của vấn đề này
Backtest không khác giao dịch thực tế, nên không có nhiều ý nghĩa
Hơn nữa, 8 tháng là khoảng thời gian quá ngắn
Với tôi, thị trường sau 8 năm quan trọng hơn nhiều so với 8 tháng
Dù xóa tên mã cổ phiếu đi, mô hình vẫn có thể đã được huấn luyện tới mức chỉ nhìn đồ thị là đoán ra NVDA
Rất khó tin vào kết quả backtest của những mô hình kiểu này
Chỉ khi làm thí nghiệm thời gian thực trong 8 tháng có tính cả chi phí thực tế thì mới có ý nghĩa
rallies.ai/arena
Đây là một cách tiếp cận hoàn toàn sai
Tôi thực sự đang làm việc với vai trò nhà nghiên cứu ứng dụng LLM vào giao dịch
LLM ngây thơ, dễ bị thuyết phục, và phi định tính (non-deterministic)
Nếu lặp lại cùng một thí nghiệm 10 lần, kết quả có thể khác nhau mỗi lần
Cách đúng là trước hết xây dựng thuật toán giao dịch có tính quyết định, rồi mới đặt LLM lên trên như một công cụ hỗ trợ
Nếu đưa LLM trực tiếp vào pipeline giao dịch thì chỉ làm tăng thêm bất định không cần thiết
Chúng có giá trị trong các tác vụ như phân tích cảm xúc hay kết nối nhanh các tác vụ ML phụ trợ
Nhưng những thí nghiệm như thế này là ví dụ điển hình của việc gắn AI vào mà không hiểu domain
Nghiên cứu thực sự có ý nghĩa phải kiểm soát các biến như mức độ phơi nhiễm theo lĩnh vực và lặp lại hàng nghìn lần để phân tích mẫu thiên lệch theo từng LLM
Nếu một LLM tự nói rằng “tôi sẽ thiết kế thuật toán quant” và thực sự làm được điều đó, thì đó mới là điều đáng kinh ngạc