- Đây là giải đấu tiền mặt đầu tiên trên thế giới nơi các LLM so tài poker, được tổ chức nhằm kiểm chứng năng lực suy luận của AI trong các trò chơi thông tin không hoàn hảo
- Hiện tại Grok 4 đang đứng đầu, tiếp theo là Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 và OpenAI o3
- Giải đấu diễn ra theo thể thức cash game Texas Hold'em $10/$20, với 4 bàn 9 người diễn ra đồng thời, và mô hình tích lũy được nhiều vốn nhất trong một tuần sẽ chiến thắng
- Tất cả các mô hình tham gia đều sử dụng cùng một system prompt, và ở mỗi thời điểm ra quyết định, LLM sẽ tạo ra nhận định và hành động dựa trên bài tẩy, stack, thống kê đối thủ và ghi chú
- Giải đấu diễn ra hoàn toàn bằng cạnh tranh giữa các mô hình, không có người chơi con người, nên có thể trực tiếp so sánh hiệu quả thuật toán và kết quả học tập
- Sau giải đấu, bộ dữ liệu suy luận theo từng hand và quá trình tư duy của từng mô hình sẽ được phân tích để dùng làm tư liệu đánh giá chất lượng tư duy chiến lược của LLM
- Thử nghiệm này là một nỗ lực nhằm kiểm chứng độ tin cậy trong suy luận và tiềm năng học chiến lược của AI, và đang được chú ý như một hình thức nghiên cứu mới để hiểu tư duy xác suất mang tính con người
Tổng quan về PokerBattle.ai
- PokerBattle.ai là giải đấu poker tiền mặt đầu tiên dành cho LLM
- Người tham gia không phải con người mà là các mô hình ngôn ngữ, và mỗi mô hình tự thực hiện chiến lược poker của mình
- Có tiền thưởng thực, nên kết quả cạnh tranh được gắn trực tiếp với giá trị tài chính
- Dự án này được thiết kế như một nền tảng thử nghiệm để kiểm chứng năng lực ra quyết định chiến lược của AI
- Thông qua poker, một trò chơi thông tin không hoàn hảo, dự án đánh giá khả năng suy luận và thích nghi của mô hình
- Trọng tâm không phải là tạo sinh ngôn ngữ đơn thuần mà là đánh giá hành vi dựa trên ra quyết định
Tổng quan và mục tiêu của giải đấu
- Poker là một trò chơi mà thông tin không hoàn hảo và phán đoán xác suất giữ vai trò cốt lõi, với cấu trúc ra quyết định phức tạp xoay quanh việc cân bằng giữa rủi ro và phần thưởng
- Giải đấu được tổ chức để thử nghiệm xem liệu LLM có thể diễn giải hợp lý những bài toán như vậy và xây dựng chiến lược nhất quán hay không
- Mục tiêu là kiểm chứng liệu LLM có thể thực hiện một cách tích hợp các phương pháp học poker truyền thống như phân tích hand, tính toán toán học, sử dụng solver, v.v. hay không
Cách thức diễn ra
- Tất cả các trận đấu đều được tiến hành dưới hình thức đối đầu trực tiếp giữa các LLM
- Không có người chơi con người tham gia, và mỗi mô hình tự đưa ra quyết định hành động một cách độc lập
- Kết quả được tính tự động theo luật poker để xác định thắng thua và tiền thưởng
- Diễn ra theo thời gian thực và công khai kết quả để đảm bảo tính minh bạch
- Nhật ký hành động hoặc các lựa chọn chiến lược của từng mô hình đều được ghi lại để có thể phân tích
- Giai đoạn 1: Thu thập dữ liệu (27~31 tháng 10)
- Giai đoạn 2: Phân tích hand và suy luận
- Ở giai đoạn 1, giải đấu trực tuyến thời gian thực sẽ được tiến hành để thu thập dữ liệu chơi của từng LLM
- Sau đó, đường đi suy luận (reasoning trace) của từng mô hình sẽ được phân tích để so sánh năng lực phán đoán chiến lược
Luật giải đấu
- Thể thức game: Texas Hold'em, blind $10/$20, không có ante/straddle
- Cấu hình: 4 bàn đồng thời, mỗi bàn 9 người
- Quản lý stack: nếu giảm xuống dưới 100bb thì sẽ tự động nạp lại
- Điều kiện chiến thắng: sau một tuần, mô hình sở hữu bankroll lớn nhất sẽ vô địch
Cách các mô hình hoạt động
- Tất cả LLM tham gia đều hoạt động dựa trên cùng một system prompt
- Ở mỗi lượt, mô hình sẽ nhận đầu vào gồm:
- Thông tin hand hiện tại (vị trí, stack, bài)
- Thống kê cách chơi của đối thủ (VPIP, PFR, 3bet, v.v.)
- Ghi chú về đối thủ được viết từ các hand trước
- Đầu ra của mô hình:
- Suy luận logic cho quyết định
- Hành động sẽ thực hiện (call, raise, fold, v.v.)
- Tóm tắt cho khán giả (reasoning summary)
- Có giới hạn token, và nếu xảy ra lỗi phản hồi hoặc quá thời gian thì sẽ được xử lý thành tự động fold
Người tổ chức
- Max Pavlov — chuyên gia quản lý sản phẩm và người đam mê deep learning, AI và poker
- Ông thiết kế dự án này để khám phá xem LLM có thể tái hiện tư duy xác suất phức tạp và suy luận chiến lược kiểu con người đến mức nào
2 bình luận
Wow, nếu có bài viết, phỏng vấn hay bài giảng nào được công khai của người tinh chỉnh mô hình này thì tôi rất muốn xem.
Ý kiến trên Hacker News
Tôi có bằng tiến sĩ chuyên ngành lý thuyết trò chơi thuật toán và đã nghiên cứu về poker
Vì những lý do này, việc LLM hiện tại chơi poker mạnh là điều không thể về mặt kỹ thuật. Khác với cờ vua, poker không có chiến lược tối ưu xác định và cần phải duy trì tính nhất quán
Phần khó nhất là viết mô phỏng Monte Carlo một cách hiệu quả. Cần gán trọng số xác suất dựa trên lịch sử bài của người chơi và phản ánh được tính ngẫu nhiên riêng của họ
Tôi không dùng lý thuyết trò chơi, nhưng nếu dùng thì có lẽ kết quả đã tốt hơn nhiều. LLM hoàn toàn không có khả năng hiểu các khái niệm như thế này
Trong tương lai, khả năng để LLM gọi game engine bên ngoài sẽ trở nên quan trọng. Nhưng khi đó thì thực chất engine mới là bên chơi game. Bot poker cấp độ chuyên nghiệp thì đã tồn tại rồi
Pluribus bị giới hạn ở stack cố định, và cả huấn luyện lẫn chơi đều rất tốn tính toán
Tôi không đồng ý với ý kiến cho rằng LLM không thể học chiến lược hỗn hợp. LLM xuất ra phân phối token và lấy mẫu ngẫu nhiên từ đó
Poker là trò chơi zero-sum nên yếu tố may mắn có thể ảnh hưởng rất lớn lúc đầu. Nếu chỉ có đúng một giải đấu thì độ tin cậy thống kê rất thấp
Ngoài ra còn có những điểm kỳ lạ trong dữ liệu — tổng số tiền nhiều hơn $20, thiếu một số số hiệu hand, và dù có ante $30 vẫn tồn tại pot $0.
Vì thế tôi nghi ngờ độ tin cậy của kết quả
Nếu các LLM có thể trò chuyện và bluff với nhau thì đây sẽ là một thí nghiệm cực kỳ thú vị. Xem cũng sẽ rất vui
Tôi là chuyên gia về trò chơi thông tin không hoàn hảo, và thí nghiệm lần này rất thú vị
Những trò như poker hay Diplomacy khó hơn cờ vua rất nhiều, đặc biệt poker từ 3 người trở lên không phải zero-sum nên cân bằng Nash không tồn tại
Những trò như vậy giống với việc ra quyết định trong thế giới thực nên là sân thử nghiệm tốt cho nghiên cứu LLM
AI poker tốt nhất hiện nay dựa trên Counterfactual Regret Minimization (CFR), kết hợp với tìm kiếm thời gian thực
Noam Brown đã mở rộng cách tiếp cận này thành tìm kiếm ở thời điểm suy luận để tạo ra Pluribus, và nó đã đánh bại dân chuyên
Sau đó anh ấy gia nhập OpenAI, và có vẻ những ý tưởng này cũng được phản ánh trong tính năng “thinking” của mô hình o1-preview
Nghiên cứu AI poker đang có ảnh hưởng lớn đến các tiến bộ AI hiện đại
Thời đại học, tôi đã kiếm được 500 nghìn USD nhờ AI poker, sau đó tạo ra PokerTableRatings.com để phát hiện gian lận
Tôi bán công ty cho Zynga và làm CTO của Zynga Poker, gần đây đang phát triển nền tảng học tập dựa trên Pluribus qua pokerskill.com
Chúng tôi đã tổ chức một giải poker LLM tại TEN Protocol bằng blockchain và tạo số ngẫu nhiên dựa trên TEE
Năm LLM đã thi đấu nhiều giải trong nhiều tháng, và ván dài nhất kéo dài hơn 50 giờ
Có thể tham khảo ảnh chụp màn hình trận đấu, tóm tắt trên tweet, liên kết bài viết
Nếu muốn, chúng tôi có thể mở một giải mới để bạn theo dõi
Tôi tò mò liệu LLM có ngày càng tiến bộ hơn không. Tôi cũng muốn tự mình tham gia
Nhưng hiện tại đôi khi chúng còn nhận diện hand cơ bản sai. Ví dụ nói là “top pair” nhưng thực ra không phải
Tôi là tác giả của rs-poker. Để LLM chơi poker giỏi thì cần toán học, nói dối và tính ngẫu nhiên, nhưng hiện tại cả ba đều còn thiếu
Tôi biết cách tính nước đi tối ưu, nhưng lượng tính toán là quá lớn
Tuy vậy, có khả năng giải poker bằng mô hình attention dựa trên BERT. Cần dataset tốt hơn và huấn luyện mô hình chuyên dụng. Nếu quan tâm thì liên hệ (elliott.neil.clark@gmail.com)
Ngay cả với một cấu trúc học đơn giản cũng có vẻ có thể huấn luyện khá tốt
Thí nghiệm này cho thấy LLM mạnh ở các tác vụ như nén hoặc OCR, chứ không có tư duy logic
Ví dụ, chúng thường mắc lỗi cơ bản kiểu như “board paired thì có thể hoàn thành straight”
Với trình độ như vậy thì tôi nghĩ con đường đến AGI vẫn còn xa
Cấu trúc prompt khi LLM chơi đã được công bố
Ở mỗi lượt, system prompt là như nhau, và LLM tham khảo thống kê người chơi (VPIP, PFR, 3bet, v.v.) cùng ghi chú trước đó
Phản hồi bao gồm lý do, hành động và tóm tắt, và có giới hạn token. Nếu có vấn đề thì sẽ xử lý thành fold
Việc mô hình trực tiếp nhìn thấy thống kê của các mô hình khác có phần hơi đáng thất vọng.
Nếu buộc chúng chỉ đánh giá bằng ghi chú và ngữ cảnh thì có lẽ sẽ thú vị hơn. Cũng có thể là để giảm chi phí
Tôi nghĩ đây thực sự là một ý tưởng thiên tài
Với thiết kế thí nghiệm này, có vẻ AI khó tiến hóa chiến lược mới. Việc xử lý poker dưới dạng văn bản giống với vấn đề thiếu khả năng hiểu thực tại trừu tượng như trong toán học
Nếu cho phép trò chuyện và bluff thì đúng là sẽ thành một thí nghiệm vừa buồn cười vừa hấp dẫn 😄