- Xây dựng một testbed để đo lường khả năng đặt câu hỏi hay của tác nhân AI trong môi trường bất định bằng cách tái cấu trúc trò chơi suy luận kinh điển Battleship dưới dạng hỏi đáp ngôn ngữ tự nhiên
- Trò chơi diễn ra theo cấu trúc captain hỏi vị trí tàu ẩn và spotter là đồng đội trả lời theo thời gian thực; từ dữ liệu hơn 40 người chơi đã tạo ra bộ dữ liệu BattleshipQA
- Ngay cả khi không huấn luyện trước, các mô hình lớn như GPT-5 vẫn thắng với ít lượt hơn con người, nhưng các mô hình nhỏ còn kém trong việc tạo ra câu hỏi hữu ích nên nhóm nghiên cứu áp dụng chiến lược suy luận Monte Carlo
- Llama 4 Scout tăng tỷ lệ thắng trước người chơi từ 8% lên 82%, vượt GPT-5 trong khi chi phí chỉ khoảng 1%
- Kết quả cho thấy mô hình nhỏ có thể vượt mô hình lớn một cách hiệu quả về chi phí, đồng thời gợi mở tiềm năng trong các lĩnh vực khám phá khoa học cần tìm kim đáy bể (needle-in-a-haystack)
Bối cảnh nghiên cứu: giới hạn của việc tìm kiếm thông tin ở tác nhân AI
- Kỳ vọng dành cho tác nhân AI vào năm 2026 đang cao hơn bao giờ hết, với các mô hình ngôn ngữ (LM) thực hiện những tác vụ được xác định rõ như dịch vụ khách hàng và phát triển phần mềm
- Nhưng ở những lĩnh vực như chẩn đoán y khoa hay khám phá khoa học, nơi phải tìm kiếm lời giải rộng lớn trong môi trường bất định, LM vẫn gặp khó khăn
- Nhóm nghiên cứu từ MIT CSAIL và Harvard SEAS đã chọn Battleship — vốn được dùng trong khoa học nhận thức để nghiên cứu cách con người tìm kiếm thông tin — làm bài kiểm tra nhằm phân tích vấn đề cốt lõi của LM trong các tình huống rủi ro cao
Trò chơi Collaborative Battleship và bộ dữ liệu BattleshipQA
- Trò chơi được tái cấu trúc xoay quanh hỏi đáp ngôn ngữ tự nhiên; một người tham gia đóng vai captain hỏi vị trí tàu ẩn, còn đồng đội đóng vai spotter trả lời theo thời gian thực
- Hơn 40 người đã cùng chơi để thu thập câu hỏi và câu trả lời có/không, từ đó xây dựng bộ dữ liệu BattleshipQA
- Dữ liệu này được dùng làm mốc so sánh khi kiểm thử các LM mới nhất như GPT-5 và các mô hình nhỏ như Llama 4 Scout
- Ngay cả khi không huấn luyện trước, các LM hàng đầu vẫn có thể “thắng” bằng cách kết thúc trò chơi với ít lượt hơn con người, nhưng các hệ thống nhỏ tỏ ra kém hợp lý hơn nhiều
Đặt câu hỏi tốt hơn — chiến lược suy luận Monte Carlo
- Vấn đề cốt lõi là nhiều mô hình không tạo ra được câu hỏi hữu ích
- Nhóm nghiên cứu trang bị cho từng mô hình một chiến lược suy luận Monte Carlo để ước lượng khả năng đúng của từng lựa chọn sau mỗi câu trả lời, và nhờ đó đạt kết quả đánh bại người chơi thông thường bất kể quy mô mô hình
- LM xử lý các phỏng đoán khả dĩ như những particle riêng lẻ, rồi sau mỗi câu trả lời của spotter sẽ tăng trọng số cho các phỏng đoán có vẻ hợp lý hơn theo cách thích ứng
- Cách này hoạt động như một quả bóng trong trò chơi phình ra hoặc co lại sau mỗi lượt, giúp captain khai thác được nhiều thông tin hơn hẳn từ spotter
- Llama 4 Scout ban đầu chỉ đạt tỷ lệ thắng 8% trước người chơi, nhưng sau khi cải thiện chiến lược suy luận đã đạt 82%, vượt GPT-5 trong khi chi phí chỉ khoảng 1%
Trả lời chính xác hơn — chuyển đổi sang mã Python
- GPT-5 là một spotter đáng tin cậy, nhưng các hệ thống nhỏ có xu hướng trả lời sai vị trí tàu
- Nhóm nghiên cứu tự động chuyển câu hỏi của captain thành lệnh được mã hóa để spotter LM tự kiểm chứng câu trả lời, giúp tăng độ chính xác trung bình 15%
- Ví dụ: "Có tàu nào nằm ở cột 1 và kéo dài qua hai hàng không?" → được chuyển thành lệnh khám phá vùng tương ứng và đánh giá độ rộng của quân cờ trong trò chơi
- Khi đưa ra chỉ dẫn rõ ràng bằng Python, ngôn ngữ mà mô hình đặc biệt hiểu tốt, tỷ lệ trả lời đúng tăng đáng kể
- Mô hình nhẹ GPT-4o-mini tăng hiệu năng khoảng 30%, còn mô hình lớn Claude 4 Opus cũng tăng khoảng 8 điểm
- Dựa trên thành công của chiến lược auto-formalization, nơi LM tạo mã để kiểm chứng lời giải, nghiên cứu cho thấy việc cải thiện năng lực tìm kiếm và thu thập thông tin có thể giúp tạo ra lời giải tốt hơn
Mở rộng sang trò chơi khác — Guess Who?
- Cùng kỹ thuật đó được áp dụng cho Guess Who?, nơi phải thu hẹp từ 100 lựa chọn để đoán ra nhân vật ẩn
- Llama 4 Scout tăng từ 30% lên hơn 72%, còn GPT-4o tăng từ 62% lên 90%, với GPT-5 đóng vai spotter trong mỗi trò chơi
- Dù vậy, mô hình vẫn gặp khó khi trả lời các câu hỏi phức tạp hơn con người
- GPT-5 có thể đánh bại người chơi Battleship trung bình và cải thiện nhẹ khi áp dụng kỹ thuật này, nhưng khác với cờ vua, các người chơi chuyên gia vẫn rất khó bị bất kỳ mô hình nào đánh bại
Thách thức còn lại và hướng đi tiếp theo
- Tác nhân AI cho thấy tiềm năng trong việc tìm kiếm needle-in-a-haystack để phát hiện lời giải hiếm trong không gian lựa chọn khổng lồ
- Điều này có thể hữu ích như một trợ lý nghiên cứu mạnh trong các bài toán khoa học như xác định cấu trúc phân tử của hợp chất
- Collaborative Battleship vẫn là một testbed tương đối đơn giản, vì vậy cần thêm kiểm chứng trong các môi trường phức tạp đòi hỏi xem xét nhiều lựa chọn hơn
- Nhóm nghiên cứu dự định tiếp tục khảo sát hiệu quả hợp tác giữa người và AI, fine-tuning dựa trên mô phỏng trò chơi, và phát triển năng lực suy luận nâng cao bằng nhiều tài nguyên tính toán hơn
- Khi tác nhân trở nên tự động hơn, những vấn đề xã hội như theo dõi nền tảng chung, hóa giải hiểu lầm và thích nghi với đối tác sẽ là khó khăn lớn nhất; đánh giá cho rằng nút thắt thực sự không chỉ là tính ra câu hỏi tối ưu mà còn là suy luận thực dụng để tận dụng câu trả lời tối đa
Chưa có bình luận nào.