-
Hiện tượng kỳ lạ của LLM và cờ vua
- Đã có những cuộc thảo luận về việc liệu LLM (mô hình ngôn ngữ lớn) có thể chơi cờ vua giỏi hay không. Dù LLM được thiết kế để dự đoán ngôn ngữ, chúng vẫn cho thấy khả năng dự đoán các ván cờ.
- Việc LLM có thể chơi một ván cờ đến tận cuối là điều thú vị. Đây có thể là gợi ý về cách LLM hoạt động trong những bối cảnh khác.
-
Những gì tôi đã làm
- Để LLM chơi cờ, tôi đã dùng các prompt cụ thể. Ví dụ như: "Bạn là một đại kiện tướng cờ vua. Hãy chọn nước đi tiếp theo."
- Tôi đã chơi 50 ván bằng mô hình
llama-3.2-3b, nhưng kết quả không tốt. Tôi cũng thử các mô hình lớn hơn là llama-3.1-70b và llama-3.1-70b-instruct, nhưng vẫn không khả quan.
- Mô hình
gpt-3.5-turbo-instruct cho thấy hiệu năng rất xuất sắc. Tuy nhiên, tất cả các mô hình khác đều cho kết quả kém.
-
Thảo luận
- Nhiều người đã thử dùng LLM để chơi cờ, nhưng đa số mô hình không cho kết quả tốt.
- Có nhiều giả thuyết về lý do mô hình
gpt-3.5-turbo-instruct chơi cờ tốt hơn các mô hình khác.
- Có một giả thuyết cho rằng việc tinh chỉnh theo chỉ thị bổ sung có thể làm suy giảm hiệu năng của mô hình.
-
Các giả thuyết có thể có
- Giả thuyết 1: Mô hình nền ở quy mô đủ lớn có thể chơi cờ, nhưng việc tinh chỉnh theo chỉ thị cản trở điều đó.
- Giả thuyết 2: Có khả năng
gpt-3.5-instruct đã được huấn luyện với nhiều ván cờ hơn.
- Giả thuyết 3: Có thể tồn tại khác biệt giữa các kiến trúc transformer khác nhau.
- Giả thuyết 4: Có thể có sự "cạnh tranh" giữa các loại dữ liệu.
-
Chi tiết
- Thí nghiệm được tiến hành bằng cách sử dụng ký pháp đại số chuẩn cho các ván cờ.
- Các mô hình OpenAI không có hỗ trợ ngữ pháp hoàn chỉnh, nên tác giả thử tối đa 10 lần cho đến khi tạo ra được một nước đi hợp lệ.
-
Hiện tượng bất thường của token
- Nếu prompt có chứa khoảng trắng, hiệu năng của mô hình sẽ giảm đáng kể. Điều này có vẻ là vấn đề của tokenizer.
- Cách đúng đắn là dùng "token healing", nhưng tôi chưa tìm ra cách dễ dàng để triển khai nó.
1 bình luận
Ý kiến trên Hacker News
Có vẻ như đã bỏ qua khả năng OpenAI từng coi cờ vua là một tiêu chí quan trọng và đã xử lý đặc biệt cho gpt-3.5-turbo-instruct, nhưng không bổ sung điều đó vào các mẫu kế nhiệm
Đã chạy mọi mẫu mở với lượng tử hóa Q5_K_M, nhưng cho rằng điều này không quan trọng vì đó chỉ là nén mất mát đối với toàn bộ tham số
Không hiểu vì sao những người được đào tạo bài bản lại kỳ vọng LLM sẽ chơi cờ vua giỏi
Tò mò liệu kết quả tốt có thể lặp lại được hay không
Nếu thực sự muốn một mẫu hình thông minh, có lẽ cần phải dừng token hóa
Tìm thấy kết quả thực nghiệm cho thấy gpt-3.5-turbo-instruct vượt trội hơn trong cờ vua
Nếu việc học cờ vua là học về thứ tự, thì có thể phát sinh vấn đề
Có thể thử tăng thêm tính toán trong không gian tìm kiếm của bài toán
Có giả thuyết rằng GPT-3.5-instruct có thể gọi một engine cờ vua truyền thống để chơi cờ
Biết rằng trong nhiều trải nghiệm của con người tồn tại nhiều loại kỹ năng và trí tuệ khác nhau