-
Gần đây có một điều bí ẩn là các mô hình ngôn ngữ lớn (LLM) chơi cờ vua không giỏi. Tuy nhiên,
gpt-3.5-turbo-instructlại là một ngoại lệ khi chơi cờ vua khá tốt ở trình độ nghiệp dư. Mô hình này cũ hơn và cũng nhỏ hơn các mô hình mới khác. -
Một số giả thuyết đã được đưa ra:
- Giả thuyết 1: Các mô hình nền đủ lớn có thể chơi cờ vua tốt, nhưng sau khi được căn chỉnh chỉ dẫn để trở thành mô hình chat thì không còn như vậy.
- Giả thuyết 2: Có khả năng
gpt-3.5-turbo-instructđã được huấn luyện trên nhiều dữ liệu cờ vua hơn. - Giả thuyết 3: Có điều gì đó đặc biệt trong một kiến trúc LLM cụ thể.
- Giả thuyết 4: Có sự "cạnh tranh" giữa các loại dữ liệu, nên để LLM chơi cờ vua giỏi thì cần nhiều dữ liệu ván cờ.
- Giả thuyết 5: Cáo buộc OpenAI gian lận.
- Giả thuyết 6: Lập luận rằng LLM thực ra không thể chơi cờ vua.
-
Cáo buộc OpenAI gian lận khó có thể tin được.
gpt-3.5-turbo-instructchọn nước đi khác với engine cờ vua, và theo tiêu chuẩn chuyên gia thì cũng không quá xuất sắc. -
LLM có thể chơi cờ vua.
gpt-3.5-turbo-instructgần như không đề xuất các nước đi bất hợp lệ, và vẫn chơi tốt ngay cả với các trạng thái bàn cờ mới. -
gpt-3.5-turbo-instructlà mô hình "completion", nhận văn bản rồi sinh ra văn bản mới.gpt-4o-minivàgpt-4olà các mô hình "chat", sử dụng system prompt và user prompt. -
Qua nhiều thí nghiệm khác nhau, có thể thấy việc điều chỉnh prompt, thêm ví dụ và fine-tuning đều có thể ảnh hưởng đến hiệu năng của mô hình.
-
Việc thêm ví dụ có ảnh hưởng lớn đến hiệu năng, và fine-tuning cũng hữu ích. Tuy nhiên, việc cung cấp các nước đi hợp lệ lại làm giảm hiệu năng.
-
Nếu dẫn dắt
gpt-4ohoạt động giống chế độ "completion" thì hiệu năng được cải thiện. Điều này cho thấygpt-4-basecó khả năng chơi cờ vua tốt. -
Kết luận lại, nhiều khả năng các mô hình nền của OpenAI đã học từ nhiều dữ liệu cờ vua hơn, còn các mô hình chat có thể hoạt động kém hơn mô hình completion.
-
Việc tìm ra prompt, ví dụ và fine-tuning tối ưu là công việc khó khăn và tốn kém.
1 bình luận
Ý kiến Hacker News
Tác giả không cung cấp dữ liệu về tần suất của các nước đi bất hợp lệ, nên khó rút ra kết luận có ý nghĩa
gpt-3.5-turbo-instructhầu như không đề xuất các nước đi bất hợp lệ ngay cả ở tàn cuộcMột cách kiểm tra xem nó có hiểu cờ vua hay không là cho nó đi nước tiếp theo từ 1000 thế cờ hợp lệ ngẫu nhiên
Không phải tất cả mọi người đều sai
LLM tạo cảm giác như đang tìm ra các câu thần chú
Có ý kiến cho rằng huấn luyện bằng các mẫu code sẽ cải thiện "suy luận"
Có thể tồn tại một trường hợp đặc biệt trong đó
gpt-3.5-turbo-instructnhận diện ký hiệu cờ vua và gọi một engine cờ vua bên ngoàiKết quả vẫn được đo lường dù không hề chỉ thị rõ ràng cho LLM rằng phải thắng ván đấu
Fine-tuning có ích, và ví dụ có thể thay thế fine-tuning
Sẽ rất thú vị nếu chơi cờ với LLM mà không cần suy nghĩ về prompt