Hiện tượng kỳ lạ xảy ra với LLM và cờ vua

(substack.com/dynomight)

1 điểm bởi GN⁺ 2024-11-15 | 1 bình luận | Chia sẻ qua WhatsApp

Khi đưa nhiều LLM vào chơi cờ vua trong cùng điều kiện, đa số đều sụp đổ sau khai cuộc, nhưng chỉ gpt-3.5-turbo-instruct cho thấy hiệu năng rất mạnh trước Stockfish ở mức độ khó thấp nhất
Thí nghiệm diễn ra bằng cách để LLM đi quân trắng đấu với Stockfish ở mức độ khó thấp nhất, rồi đánh giá trạng thái bàn cờ ở mỗi lượt bằng điểm centipawn của engine cờ vua
llama-3.2-3b, llama-3.1-70b, Qwen-2.5-72b, command-r-v01, gemma-2-27b, gpt-3.5-turbo, gpt-4o-mini, gpt-4o, o1-mini đều không thể tiệm cận gpt-3.5-turbo-instruct
Khi so sánh các model cùng họ, có vẻ như instruction/chat tuning làm giảm năng lực chơi cờ, nhưng mức suy giảm khác nhau: có model giảm ít, có model giảm rất nhiều
Ở các model mở, xuất hiện vấn đề tokenizer khi chỉ một dấu cách ở cuối prompt cũng làm hiệu năng thay đổi lớn, và đầu vào ký hiệu cờ vua phản ứng rất nhạy với biểu diễn nội bộ cùng các ràng buộc sinh của LLM

Thiết lập thí nghiệm và cách đánh giá

LLM được đưa một prompt yêu cầu chọn nước đi tiếp theo như một đại kiện tướng cờ vua, và đầu vào là một bản ghi ván cờ đã diễn ra một phần
- Ký hiệu dùng ký pháp đại số chuẩn như e4, Rdf8, R1a3
- Có chỉ thị không ghi số lượt và cũng không giải thích lý do lựa chọn
Trong mọi ván đấu, LLM đi quân trắng, còn đối thủ là Stockfish, AI cờ vua tiêu chuẩn, ở mức độ khó thấp nhất
Sau mỗi lượt, trạng thái bàn cờ được chấm điểm bằng engine cờ vua để so sánh hiệu năng giữa các model
- Đơn vị là centipawn; một quân tốt được tính là 100 điểm và cũng phản ánh giá trị vị trí
- Nếu ván cờ kết thúc, thắng của LLM được tính +1500, hòa là 0, thua là -1500

Các model suy yếu nhanh chóng sau khai cuộc

llama-3.2-3b là base model 3 tỷ tham số và thua cả 50 ván
- Model có thể đi được vài nước khai cuộc tiêu chuẩn nhưng nhanh chóng bắt đầu mất quân
- Dù đối thủ chỉ là Stockfish ở thiết lập thấp nhất, nó vẫn thua toàn bộ
llama-3.1-70b với 70 tỷ tham số chỉ khá hơn đôi chút và vẫn cho kết quả rất tệ
llama-3.1-70b-instruct, Qwen-2.5-72b, command-r-v01, gemma-2-27b cũng được thử theo cách tương tự nhưng không cho thấy năng lực cờ vua mạnh
llama-3.1-405b, dù chỉ được chơi vài ván và là model lớn hơn gpt-3.5-turbo, vẫn cho kết quả kém

gpt-3.5-turbo-instruct mạnh một cách ngoại lệ

gpt-3.5-turbo-instruct là model đóng của OpenAI nên chi tiết cụ thể không rõ, nhưng trong 10 lần thử nó cho thấy hiệu năng rất tốt
Nó mạnh đến mức vẫn thắng mọi ván ngay cả khi tăng độ khó của Stockfish lên vài nấc
gpt-3.5-turbo, có tên gần giống, là model được tinh chỉnh theo hướng hội thoại hơn, và năng lực chơi cờ khác biệt rất lớn so với gpt-3.5-turbo-instruct
gpt-4o-mini, gpt-4o, o1-mini cũng nằm trong nhóm thử nghiệm, và gpt-4o dù thua chậm hơn đôi chút vẫn thua trong mọi ván
Xu hướng các thí nghiệm cờ vua với LLM trên Internet từng thu hút nhiều chú ý vào khoảng tháng 9~10/2023 khi có vẻ đạt trình độ nghiệp dư cao, nhưng ở các model gần đây lại quay về kiểu sụp đổ sau khai cuộc

instruction/chat tuning và năng lực cờ vua

Khi so sánh model gần base với model đã được tinh chỉnh thêm trong cùng một họ, instruction tuning bổ sung đều cho kết quả theo hướng làm xấu đi năng lực chơi cờ
Mức suy giảm không đồng đều
- Có hai trường hợp khác biệt nhỏ
- Có một trường hợp khác biệt rất lớn
Tên gọi gpt-3.5-turbo-instruct cần được hiểu khác với quy ước đặt tên thông thường
- Ở đây nó được xem là model gần với base model hơn gpt-3.5-turbo
- Điều này ngược với cách hiểu thường thấy rằng instruct hay it nghĩa là được tinh chỉnh mạnh hơn cho hội thoại và làm theo chỉ thị

Các nguyên nhân khả dĩ

Base model lớn có thể chơi cờ, nhưng instruction tuning có thể làm hỏng khả năng đó
- Điều này phù hợp với kết quả thí nghiệm, nhưng có phản ví dụ là llama-3.1-405b lớn hơn vẫn cho kết quả tệ
gpt-3.5-turbo-instruct có thể đã được học từ nhiều ván cờ hơn
- Khả năng cao mọi model đều đã học từ rất nhiều ván cờ, nhưng khó biết chính xác số lượng
Khác biệt trong kiến trúc Transformer có thể đã ảnh hưởng
- Cũng khó loại trừ khả năng các model dòng Llama đặc biệt yếu với cờ vua
Có thể đã tồn tại sự cạnh tranh giữa các loại dữ liệu khác nhau
- Một Transformer chỉ được huấn luyện bằng các ván cờ có thể chơi cờ rất giỏi
- Nếu gpt-3.5-turbo-instruct được huấn luyện trên dữ liệu có tỷ lệ ván cờ cao hơn, phần lớn hơn trong tham số của nó có thể đã được dùng cho cờ vua
- Nếu giả thuyết này đúng, thì model đủ lớn vẫn phải có thể chơi cờ tốt ngay cả khi tỷ lệ dữ liệu cờ thấp, miễn là đã học đủ dữ liệu cờ vua

Chi tiết triển khai và các ràng buộc

Các model mở được chạy trực tiếp, và mọi model không phải của OpenAI được phân loại là model mở
Việc chạy model mở dùng lượng tử hóa Q5_K_M
Với model mở, các nước đi hợp lệ hiện tại được tạo trực tiếp và dùng llama.cpp grammars để ràng buộc đầu ra sao cho luôn sinh ra nước đi hợp lệ
Các model OpenAI không hỗ trợ grammar đầy đủ, nên hệ thống cho sinh tối đa 10 lần; nếu vẫn không có nước đi hợp lệ thì chọn ngẫu nhiên một nước
Với các chat model như llama-3.1-70b-instruct, gemma-2-27b-it, gpt-3.5-turbo, gpt-4o-mini, gpt-4o, một system prompt riêng được sử dụng
o1-mini không thể thay đổi system prompt nên được chạy nguyên trạng
Model mở chạy ở temperature 0.7, còn model OpenAI dùng mặc định

Dấu cách trong prompt và hiện tượng lạ của tokenizer

Ở các model mở, prompt kết thúc bằng dấu cách như 1. e4 e5 2. cho hiệu năng tệ hơn rất nhiều so với prompt kết thúc không có dấu cách như 1 e4 e5 2.
Nguyên nhân được cho là liên quan đến tokenizer
- Tokenizer của Llama sinh e như một token duy nhất sau 1.
- Điều này không giống với việc sinh e sau một token dấu cách
- Nếu thêm dấu cách ở cuối đầu vào rồi để model sinh token kế tiếp, model sẽ rơi vào tình huống gây nhầm lẫn
Cách xử lý phù hợp là token healing: xóa token cuối của đầu vào, rồi thực hiện constrained generation trên mọi chuỗi bắt đầu bằng phần chuỗi đã bị xóa
Trong triển khai, thay vì token healing, dấu cách được bỏ đi và grammar được sửa để có thể sinh hoặc không sinh dấu cách, rồi tạo nước đi hợp lệ hiện tại cùng dấu cách tùy chọn
Bản cập nhật cho biết nguyên nhân của hiện tượng này thực sự đã được xác định, đồng thời thêm gợi ý rằng chưa ai đoán đúng lời giải thích chính xác

Khả năng có tối ưu hóa từ OpenAI

Một giả định là OpenAI, sau khi thấy sự quan tâm đến năng lực chơi cờ, có thể đã tối ưu một phần nào đó như dữ liệu huấn luyện, fine-tuning hoặc thuật toán để nâng cao năng lực cờ vua của gpt-3.5-turbo-instruct
Theo cùng giả định đó, tối ưu hóa này có thể không được duy trì ở các model về sau do trade-off như chi phí hoặc suy giảm ở các năng lực khác
Tuy nhiên đây không phải kết luận có căn cứ rõ ràng, mà chỉ là suy đoán ở mức “OpenAI có thể đã cố ý làm vậy”, và cũng không chắc thời điểm có thực sự khớp hay không

1 bình luận

GN⁺ 2024-11-15

Ý kiến trên Hacker News

Bài viết có vẻ đã bỏ lỡ một khả năng hiển nhiên: OpenAI có thể đã xem cờ vua là một benchmark “phải thắng” và xử lý đặc biệt riêng cờ vua trong gpt-3.5-turbo-instruct, nhưng ở các mô hình sau thì không đưa xử lý đặc biệt đó vào vì nó không còn tạo được sự chú ý liên tục từ truyền thông
- Tôi nghĩ chính xác là vậy. Pull request thêm đánh giá cờ vua ở đây: https://github.com/openai/evals/pull/45
- Tôi cũng nghi ngờ như vậy. Thay vì LLM “học chơi cờ vua”, có thể nó đã “học” cách nhận diện một ván cờ vua rồi chuyển chỉ dẫn sang một chess engine. Nếu đúng vậy thì chẳng ấn tượng chút nào
- Khả năng đó có vẻ khá cao, nhưng tôi tò mò liệu xử lý đặc biệt này được đưa vào bên trong LLM bằng reinforcement learning, hay ở phía bên kia của lệnh gọi OpenAI API họ đang chạy kèm một instance Stockfish chứ không chỉ LLM hàng nghìn tỷ tham số
- Cờ vua đương nhiên là một benchmark đáng để thắng, từ thời Watson đã vậy rồi. Trước đó nữa thì có thể lần ngược đến Mechanical Turk
- Công bằng mà nói, trong bài cũng có nhắc “Lý thuyết 2: GPT-3.5-instruct được huấn luyện trên nhiều biên bản ván cờ hơn”
Có vài điểm quan trọng trong phần thử nghiệm: với các mô hình OpenAI đóng, nếu không sinh ra nước đi hợp lệ thì cho sinh tối đa 10 lần, vẫn không được thì chọn ngẫu nhiên; các mô hình mở được tự chạy với lượng tử hóa Q5_K_M; hiệu năng của mô hình mở thay đổi rất lớn chỉ vì có hay không có dấu cách ở cuối prompt; mô hình mở dùng temperature 0.7, còn mô hình OpenAI dùng giá trị mặc định
Hành vi kỳ lạ của tokenizer, temperature, lượng tử hóa, nước đi ngẫu nhiên và prompt cờ vua đều trộn lẫn với nhau, nên tôi không biết nên diễn giải kết quả thế nào. Dù vậy bài viết vẫn thú vị
- Đây là nội dung bị chôn ở phần cuối bài. Trước đây khi tôi thấy LLM chơi cờ vua, chúng thậm chí còn không đi nổi nước hợp lệ, nên tôi đã thắc mắc làm sao ở đây các mô hình lại đều có thể đi nước hợp lệ
Có lẽ nếu thật sự muốn một mô hình thông minh, ta phải ngừng token hóa. Ngay từ đầu, chúng ta đã giới hạn những gì mô hình nhìn thấy và cách nó nhận thức thế giới bằng cấu trúc của luồng thông tin đầu vào
Tôi biết xử lý bit hoặc byte thô thì chậm, nhưng việc phản chứng giả thuyết rằng các vấn đề lớn có thể đến từ token hóa có vẻ tương đối rẻ và dễ. Tôi ngạc nhiên là không thấy nhiều nghiên cứu hơn về các cách token hóa khác biệt triệt để
- Tôi nghĩ phần lớn những thứ được gọi là “vấn đề token hóa” thực ra là vấn đề suy luận, nhưng thường bị quy nhầm cho một vấn đề kỹ thuật nhỏ
  Ví dụ người ta hay nói LLM không đếm được những thứ cơ bản là do token hóa, nhưng cùng LLM đó nếu dùng prompt chuỗi suy nghĩ thì lại đếm tốt. Vậy thì không thể giải thích bằng token hóa được. Vấn đề là con người phải chỉ cho nó rằng nếu giải từng bước thì sẽ ra đáp án chính xác; nếu không có sự trợ giúp đó thì nó dễ chỉ đoán mò
- Tôi nghĩ huấn luyện ở cấp byte là không thực tế. Dù vậy, việc dùng token do con người tạo thủ công, rốt cuộc vẫn theo kiểu của con người, cho cảm giác rất sai. Nhìn tokenizer thực tế sẽ thấy có những thứ thú vị như regex thay đổi việc token hóa dựa trên kinh nghiệm
  Nếu có thể biến hình ảnh thành token và âm thanh cũng thành token, tôi cứ nghĩ liệu có thể tạo ra một tập token biểu diễn ngữ nghĩa do chính mô hình chọn, rồi giải mã các token đó trở lại thành văn bản hay không. Nhược điểm là quá trình chuyển token đã mã hóa về lại văn bản có tính mất mát, nên sẽ không thể trích dẫn văn bản đã thấy theo kiểu 1:1
  Theo hiểu biết của tôi, OpenAI có vẻ đã làm đúng chuyện như vậy với hình ảnh trong báo cáo gpt-4o. Xem “Explorations of capabilities”: https://openai.com/index/hello-gpt-4o/
- Có lý do khiến não người có vùng chuyên xử lý ngôn ngữ. Token hóa nhiều khả năng là một chiến lược khá vững chắc. Điểm cốt lõi thật sự là ngôn ngữ không phải là cách tốt để mã hóa mọi dạng tri thức
- https://youtu.be/zduSFxRajkE
  Karpathy cũng đồng ý với quan điểm này. Đây là video dài 2 giờ, trong đó anh ấy vừa xây lại tokenizer vừa bày tỏ sự ghét tokenizer
- Nếu đi từ token xuống byte, kích thước mô hình sẽ bùng nổ. Hiện tôi không tìm được tài liệu tham khảo, nhưng nghe nói nếu giảm kích thước token trung bình thì độ rộng của mô hình, tức kích thước của từng tầng, sẽ tăng theo bình phương tương ứng. Điều này ảnh hưởng không chỉ đến tốc độ suy luận mà cả tốc độ huấn luyện
Đáng để thử nghiệm bằng cách thay đổi prompt và vị trí bàn cờ theo nhiều cách. Để tham khảo, vị trí bàn cờ được đưa cho mô hình là hình này: https://i.imgur.com/qRxalgH.png
Có thể có hơn một điểm kỳ lạ trong thí nghiệm này. Chẳng hạn, việc đưa chỉ dẫn cho biến thể mô hình chưa được instruction-tune có thể lại phản tác dụng. Quan trọng hơn, khi chỉ đưa PGN bị cắt cụt, tôi tự hỏi liệu ở vị trí này Trắng có trông giống người chơi đẳng cấp đại kiện tướng không. Ngay cả khi mô hình hiểu cờ vua tốt, nó vẫn sẽ cố dự đoán nước đi có vẻ hợp lý nhất ở vị trí hiện tại; nếu nó đánh giá Trắng là người chơi kém, nó có thể dự đoán các nước đi kém là có khả năng cao hơn
- Tôi có thể tìm được một số ván giữa các kỳ thủ mạnh bắt đầu như vậy, nên giả thuyết của tôi rằng mô hình cố ý dự đoán nước đi kém bị lung lay: https://www.365chess.com/search_result.php?search=1&p=1&m=8&n=3071&order=welo&ms=e4.e6.d3.c5.Nf3.Nc6.g3.Nf6&rev=&wid=&bid=
  Dù vậy, việc đặt Stockfish ở mức thấp nhất nhưng cho nó đấu như “đối thủ rất mạnh” có thể đã khiến mô hình hơi bối rối. Nếu tôi diễn giải biểu đồ đúng, vài nước đầu của mô hình trông ổn, rồi sau đó mới bắt đầu có vấn đề. Rất đáng lặp lại thí nghiệm với hướng dẫn prompt, độ mạnh của Stockfish, vị trí bắt đầu, tên người chơi giả định, v.v. được thay đổi
- Thí nghiệm bắt đầu từ nước đầu tiên của ván và chơi từng ván đến hết. Vị trí bạn liên kết chỉ là ví dụ về định dạng đưa trạng thái ván cờ vào mô hình sau mỗi nước đi
  Nếu chỉ đối đầu với một nước đi đơn lẻ thì “thắng” hay “thua” rốt cuộc có nghĩa là gì?
Đồng ý. Có thể thử vài biến thể prompt: nếu cho phép mô hình có quá trình suy nghĩ thì sao, trong thí nghiệm này điều đó bị cấm một cách rõ ràng. Ngoài ra, nếu mỗi bước đều mô tả vị trí bàn cờ trong prompt, mô hình sẽ không cần tự tính toán hay ước lượng nội bộ
- Đây là chơi cả ván, chứ không phải một nước đơn lẻ
Tôi tò mò liệu mô hình có thử đi nước không hợp lệ không. Tác giả bài gốc không nhắc đến chuyện này, nhưng luật cờ vua khá tùy ý, còn LLM thì nổi tiếng là ở các bài khó, thay vì thừa nhận không có đáp án, chúng lại bịa ra thứ nghe có vẻ hợp lý, nên tôi nghĩ ít nhất một lần chuyện đó gần như chắc chắn sẽ xảy ra
- Theo kinh nghiệm của tôi, đi được 10 nước hợp lệ liên tiếp đã là may rồi. Ví dụ: https://news.ycombinator.com/item?id=41527143#41529024
- Đúng vậy. Bài có nói đến việc dùng ràng buộc ngữ pháp để chỉ cho phép các nước hợp lệ
Tôi không hiểu vì sao những người có học lại kỳ vọng LLM có thể chơi cờ vua ở mức tạm ổn
LLM không biết chất lượng dữ liệu của chính nó. Prompt “hãy hành xử như x” không thay thế được suy luận thực sự và tính toán quyết định, vốn rõ ràng là cần thiết trong cờ vua
- Nếu vậy, chẳng phải ta nên ngạc nhiên trước việc turbo-instruct thực sự chơi tốt sao? Có quá nhiều lập luận đại khái dựa trên trực giác nhân cách hóa vô căn cứ kiểu “suy luận thực sự”. Tôi xem tình huống hiện tại là bằng chứng tốt cho thấy không ai thật sự hiểu chuyện gì đang diễn ra
  Nếu một mô hình tinh thần nào đó nói rằng LLM lẽ ra không thể chơi cờ vua, thì nó không giải thích được một LLM chơi cờ mạnh. Ngược lại, mô hình nói rằng chúng lẽ ra phải chơi tốt lại không giải thích được vì sao nhiều mô hình lớn thất bại thảm hại ở cờ vua. Rõ ràng đang có chuyện phức tạp hơn diễn ra
- Một trong những mục đích chính của việc làm thí nghiệm là kiểm tra xem định kiến của chúng ta có đúng không. Tất nhiên nếu bạn không quan tâm câu hỏi đó thì không cần nhìn vào kính thiên văn
- Nếu có đủ thông tin huấn luyện, chuyện này gần với một câu đố hơn. LLM có thể xuất thành công trạng thái bàn cờ sau các nước đã cho, tạo tóm tắt thế cờ cũng không quá tệ, và ít nhất có thể liệt kê các nguy cơ trước một nước
  “Mức tạm ổn” là chủ quan, nhưng chừng đó thì phải thắng được người mới chơi. Mức thấp nhất của Stockfish dùng trong bài cũng là trình độ trung cấp hạng thấp. Còn tùy bạn đang nói đến các triển khai công khai hiện nay hay ý tưởng LLM nói chung; nếu muốn kết quả tốt hơn, cũng có thể nạp cho nó nhiều sách cờ và phân tích các ván cũ hơn rất nhiều
- Cờ vua chỉ là một tác vụ mô hình hóa chuỗi xác suất, và tôi đã tận mắt thấy GPT-3.5-turbo-instruct chơi ở trình độ nghiệp dư cao cấp. Tuy nhiên RLHF và chưng cất trong các mô hình mới có vẻ đã làm hỏng năng lực đó
- Nếu vậy thì câu hỏi là vì sao gpt-3.5-instruct có thể thắng Stockfish
Việc chạy mô hình mở với lượng tử hóa Q5_K_M chỉ có nghĩa là đã nén mất dữ liệu tất cả tham số. Chắc không quan trọng đâu nhỉ?
- Nếu so với mô hình không lượng tử hóa của OpenAI thì có lẽ sẽ quan trọng
Tôi nghĩ cách học cờ vua như một chuỗi tạo ra nhiều vấn đề hơn lợi ích. Học 1 nghìn tỷ ván cũng không cứu được: https://en.wikipedia.org/wiki/Shannon_number
Để đầy đủ, xin nói thêm rằng các engine cờ vua hiện đại dùng những mô hình chuyên cho cờ vua chất lượng cao như một phần công cụ, và có thể ít nhất hòa mọi kỳ thủ hiện tại hay trong quá khứ, ở mọi ván. Nếu đối thủ mắc dù chỉ một sai lầm rất nhỏ thì sẽ thua. Tăng mức Stockfish lên tối đa, hoặc ít nhất lên kỳ thủ Elo 1800+, có thể cho ra các ván thành công hơn, nhưng đó chỉ là kết quả của việc nhiễu trong dữ liệu huấn luyện giảm vì kỳ thủ mạnh ít đi các nước rác hơn, chứ không có nghĩa là chơi tốt hơn
- Đúng. Như trước đây đã từng chỉ ra, số thế cờ vua khả dĩ dễ dàng, và vượt xa đến mức khổng lồ, so với số nguyên tử trong vũ trụ đã biết dù ước tính hào phóng đến đâu
- Vì đã nhắc đến Shannon, cho tôi hỏi: kích thước mẫu đại diện tối thiểu của không gian vấn đề đó là bao nhiêu? Nó có đủ gần với số lượng nước cờ được công khai trên Internet và trong sách không?
- Đúng. Một khi lệch khỏi chuỗi là sẽ lạc đường
  Học nước tốt nhất từ hàng tỷ, hàng nghìn tỷ thế cờ rồi đưa nó vào một AI nào đó có thể hiệu quả hơn. Các thế cờ tương tự thường có cùng kiểu nước tốt nhất
- Thành thật mà nói, nếu loại bỏ những nước tuyệt đối sẽ không bao giờ đi, rồi xét các đối xứng và những thế bàn cờ về thực chất là tương tự nhau, cờ vua có thể không phải là một trò chơi lớn đến vậy. Những thế đó có thể được phát hiện ngay cả bằng một bộ khớp mẫu rất đơn giản
Tôi tìm thấy một loạt thí nghiệm liên quan, bao gồm gpt-3.5-turbo-instruct, gpt-3.5-turbo, gpt-4
Kết luận cũng gây ngạc nhiên tương tự: gpt-3.5-turbo-instruct chơi cờ vua tốt hơn hẳn
https://blog.mathieuacher.com/GPTsChessEloRatingLegalMoves/
- Tôi cược là có khả năng nó đang gọi hàm đến một engine cờ vua thật. Có lẽ phân tích thời gian xem thời gian suy luận thay đổi, hoặc không thay đổi, theo số token hay độ phức tạp của ván sẽ chứng minh được điều đó
OpenAI có rất nhiều kinh nghiệm làm AI chơi game. Nếu bạn còn nhớ, trong vài năm đó từng là lĩnh vực trọng tâm của họ. Vì vậy có vẻ họ đã tinh chỉnh một mô hình cho phù hợp với cờ vua, để xem việc học cờ có ảnh hưởng đến trí thông minh tổng quát hay không. Giống như con người học cờ có thể thông minh hơn, và học toán hay lập trình cũng có thể như vậy
- Việc chơi gắn rất chặt với biểu diễn trừu tượng của trạng thái trò chơi. Dù người chơi không ý thức được, cờ vua gần như là bài toán tìm kiếm nông hoặc beam search trong tập các nước có thể đi
  LLM không suy luận hay tìm kiếm, mà viết văn bản dựa trên văn bản trước đó. Vì thế trước mắt chúng ta nó có thể trông như đang chơi, nhưng thực chất là một phỏng đoán thông minh dựa trên các ván trước. Giống như Kasparov ghi nước đi mà không thực sự tưởng tượng vị trí các quân cờ. Thí nghiệm thú vị là xem mô hình có chơi được khi chỉ được cung cấp luật không, và có lẽ là không. Hiện tại nó đang phát lại từ trí nhớ, chứ không theo dõi mục tiêu. Vẫn chưa có thứ như attention hướng về phía trước, còn beam search thì đủ đắt đỏ, nên thà fallback sang thuật toán cờ vua cổ điển còn hơn
- Có vẻ bạn đang nhầm OpenAI với DeepMind
  OpenAI chưa làm gì ngoài các tác tử hội thoại

Hiện tượng kỳ lạ xảy ra với LLM và cờ vua

Thiết lập thí nghiệm và cách đánh giá

Các model suy yếu nhanh chóng sau khai cuộc

gpt-3.5-turbo-instruct mạnh một cách ngoại lệ

instruction/chat tuning và năng lực cờ vua

Các nguyên nhân khả dĩ

Base model lớn có thể chơi cờ, nhưng instruction tuning có thể làm hỏng khả năng đó

gpt-3.5-turbo-instruct có thể đã được học từ nhiều ván cờ hơn

Khác biệt trong kiến trúc Transformer có thể đã ảnh hưởng

Có thể đã tồn tại sự cạnh tranh giữa các loại dữ liệu khác nhau

Chi tiết triển khai và các ràng buộc

Dấu cách trong prompt và hiện tượng lạ của tokenizer

Khả năng có tối ưu hóa từ OpenAI

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News

`gpt-3.5-turbo-instruct` có thể đã được học từ nhiều ván cờ hơn