1 điểm bởi GN⁺ 2024-11-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gần đây có một điều bí ẩn là các mô hình ngôn ngữ lớn (LLM) chơi cờ vua không giỏi. Tuy nhiên, gpt-3.5-turbo-instruct lại là một ngoại lệ khi chơi cờ vua khá tốt ở trình độ nghiệp dư. Mô hình này cũ hơn và cũng nhỏ hơn các mô hình mới khác.

  • Một số giả thuyết đã được đưa ra:

    • Giả thuyết 1: Các mô hình nền đủ lớn có thể chơi cờ vua tốt, nhưng sau khi được căn chỉnh chỉ dẫn để trở thành mô hình chat thì không còn như vậy.
    • Giả thuyết 2: Có khả năng gpt-3.5-turbo-instruct đã được huấn luyện trên nhiều dữ liệu cờ vua hơn.
    • Giả thuyết 3: Có điều gì đó đặc biệt trong một kiến trúc LLM cụ thể.
    • Giả thuyết 4: Có sự "cạnh tranh" giữa các loại dữ liệu, nên để LLM chơi cờ vua giỏi thì cần nhiều dữ liệu ván cờ.
    • Giả thuyết 5: Cáo buộc OpenAI gian lận.
    • Giả thuyết 6: Lập luận rằng LLM thực ra không thể chơi cờ vua.
  • Cáo buộc OpenAI gian lận khó có thể tin được. gpt-3.5-turbo-instruct chọn nước đi khác với engine cờ vua, và theo tiêu chuẩn chuyên gia thì cũng không quá xuất sắc.

  • LLM có thể chơi cờ vua. gpt-3.5-turbo-instruct gần như không đề xuất các nước đi bất hợp lệ, và vẫn chơi tốt ngay cả với các trạng thái bàn cờ mới.

  • gpt-3.5-turbo-instruct là mô hình "completion", nhận văn bản rồi sinh ra văn bản mới. gpt-4o-minigpt-4o là các mô hình "chat", sử dụng system prompt và user prompt.

  • Qua nhiều thí nghiệm khác nhau, có thể thấy việc điều chỉnh prompt, thêm ví dụ và fine-tuning đều có thể ảnh hưởng đến hiệu năng của mô hình.

  • Việc thêm ví dụ có ảnh hưởng lớn đến hiệu năng, và fine-tuning cũng hữu ích. Tuy nhiên, việc cung cấp các nước đi hợp lệ lại làm giảm hiệu năng.

  • Nếu dẫn dắt gpt-4o hoạt động giống chế độ "completion" thì hiệu năng được cải thiện. Điều này cho thấy gpt-4-base có khả năng chơi cờ vua tốt.

  • Kết luận lại, nhiều khả năng các mô hình nền của OpenAI đã học từ nhiều dữ liệu cờ vua hơn, còn các mô hình chat có thể hoạt động kém hơn mô hình completion.

  • Việc tìm ra prompt, ví dụ và fine-tuning tối ưu là công việc khó khăn và tốn kém.

1 bình luận

 
GN⁺ 2024-11-23
Ý kiến Hacker News
  • Tác giả không cung cấp dữ liệu về tần suất của các nước đi bất hợp lệ, nên khó rút ra kết luận có ý nghĩa

    • Ví dụ, điều này giống như tuyên bố một LLM là bác sĩ cấp chuyên gia nhưng chỉ đưa ra dữ liệu sau khi đã loại bỏ các lời khuyên y tế sai
  • gpt-3.5-turbo-instruct hầu như không đề xuất các nước đi bất hợp lệ ngay cả ở tàn cuộc

    • Có ý kiến cho rằng mô hình này "hiểu" cờ vua và có "tư duy logic"
    • Điều này bị nghi ngờ vì ngay cả người chơi cờ vua "nghiệp dư trình độ cao" cũng hiếm khi thực hiện nước đi bất hợp lệ
  • Một cách kiểm tra xem nó có hiểu cờ vua hay không là cho nó đi nước tiếp theo từ 1000 thế cờ hợp lệ ngẫu nhiên

    • Kiểm tra xem nó có đề xuất nước đi bất hợp lệ trong các thế cờ được tạo qua dự án ChessPositionRanking hay không
    • Những thế cờ này hữu ích để kiểm tra tính hợp lệ của nước đi tiếp theo, nhưng kém hữu ích hơn trong việc phân biệt chất lượng
  • Không phải tất cả mọi người đều sai

    • Cần giả định rằng các benchmark đã công bố là mục tiêu cụ thể trong quá trình huấn luyện
    • Việc OpenAI đưa các ván cờ vào dữ liệu huấn luyện là điều tự nhiên
  • LLM tạo cảm giác như đang tìm ra các câu thần chú

    • Mong rằng đổi mới công nghệ sẽ tiếp tục; LLM thật đáng kinh ngạc nhưng đôi khi cũng mang cảm giác như trong phim khoa học viễn tưởng
  • Có ý kiến cho rằng huấn luyện bằng các mẫu code sẽ cải thiện "suy luận"

    • Nếu bài báo "world models from language" hoạt động, thì cờ vua nên là trường hợp nhỏ nhất
  • Có thể tồn tại một trường hợp đặc biệt trong đó gpt-3.5-turbo-instruct nhận diện ký hiệu cờ vua và gọi một engine cờ vua bên ngoài

    • Có suy đoán rằng một số mô hình cụ thể có thể đã được huấn luyện để chuyển sang LLM khác khi nhận ra ký hiệu cờ vua
  • Kết quả vẫn được đo lường dù không hề chỉ thị rõ ràng cho LLM rằng phải thắng ván đấu

    • Đặt câu hỏi liệu điều này có được hàm ý trong prompt "Bạn là một đại kiện tướng cờ vua" hay không
  • Fine-tuning có ích, và ví dụ có thể thay thế fine-tuning

    • Điều thú vị là việc cung cấp ví dụ có thể mang lại hiệu quả tương đương với fine-tuning
  • Sẽ rất thú vị nếu chơi cờ với LLM mà không cần suy nghĩ về prompt

    • Đây có thể trở thành một cách mới để cảm nhận cách LLM "suy nghĩ"