1 điểm bởi GN⁺ 2024-06-16 | 1 bình luận | Chia sẻ qua WhatsApp

Giới hạn của Leela Chess Zero

  • Leela Chess Zero đã trở thành nhà vô địch thế giới sau hàng chục tỷ lần huấn luyện thông qua tự đấu với chính mình
  • Tuy nhiên, nó đã thua áp đảo trước Stockfish
  • Ngay cả khi huấn luyện một mạng lớn hơn, nó vẫn không thể đánh bại Stockfish
  • Stockfish dùng một mô hình nhỏ hơn Leela rất nhiều, nhưng chiến thắng nhờ khả năng tìm kiếm tốt hơn

Suy nghĩ thêm về chiến thắng của Stockfish

  • Leela đã mất ngôi vô địch thế giới vì không giỏi tìm kiếm
  • Việc bổ sung năng lực tìm kiếm cho LLM đã ở rất gần, nhưng lại không được chú ý
  • Các mô hình Foundation như GPT-4 không có năng lực tìm kiếm
  • Giả định rằng cần mô hình lớn hơn để làm được tìm kiếm đang chiếm ưu thế, nhưng có những phản ví dụ
  • Theo nghiên cứu của DeepMind, hành vi tìm kiếm xuất hiện một cách tự nhiên trong các thuật toán cờ vua
  • Đã có các thuật toán tìm kiếm hiệu quả, nên không cần chờ việc tìm kiếm sơ khai và kém hiệu quả tình cờ xuất hiện trong các mô hình lớn
  • Các mô hình ngày nay đã đủ lớn để cho phép tìm kiếm, thậm chí có thể còn lớn hơn mức cần thiết

Tìm kiếm cho phép phân bổ tài nguyên tính toán vào miền mục tiêu

  • Giả sử một công ty dược muốn dùng AI để nghiên cứu thuốc mới
  • Trong một thế giới nơi AI có thể tìm kiếm, có hai lựa chọn
    1. chờ đến năm 2030 để OpenAI phát hành một mô hình lớn hơn 4 bậc độ lớn, hoặc
    2. dùng ngay hôm nay lượng tài nguyên tính toán suy luận nhiều hơn 4 bậc độ lớn
  • Công ty dược sẽ ưu tiên lựa chọn thứ hai
  • Thông qua tìm kiếm, có thể tận dụng ngay năng lực ở cấp độ ASI của năm 2030

Kịch bản phát triển AI dựa trên tìm kiếm

  • Người ta phát hiện rằng tìm kiếm hoạt động trên các mô hình hiện có
  • Chính phủ hoặc các viện nghiên cứu lớn nhận ra rằng có thể lập tức áp dụng tìm kiếm cho nghiên cứu AI hoặc thu thập thông tin ở nước ngoài
  • Vì tài nguyên tính toán suy luận bị giới hạn, việc này sẽ chủ yếu bị giới hạn trong an ninh hoặc nghiên cứu AI của chính phủ hay các viện lớn
  • Sự phát triển AI do tìm kiếm dẫn dắt sẽ khám phá ra các thuật toán tìm kiếm và kiến trúc mô hình hiệu quả hơn
  • Tìm kiếm không đòi hỏi thêm nhiều dữ liệu huấn luyện, nên giúp giải quyết vấn đề 'rào cản dữ liệu'
  • Vụ nổ trí tuệ bắt đầu từ năm sau thay vì năm 2030

Khả năng áp dụng tìm kiếm vào chính nghiên cứu AI

  • Nếu AI phát triển đủ để có thể tự nghiên cứu chính mình, có thể kỳ vọng vào động lực phát triển tăng tốc mạnh
  • Cũng như công ty dược có thể nghiên cứu thuốc mới mà không cần chờ GPT-8, các phòng thí nghiệm AI cũng sẽ có thể nghiên cứu AI mà không cần chờ các mô hình lớn hơn
  • Để thay thế các nhà nghiên cứu AI là con người, có thể vẫn cần gỡ bỏ thêm nhiều giới hạn
  • Tuy nhiên, ngay cả một chatbot đơn giản có trí tuệ ở mức GPT-8 cũng được kỳ vọng là đủ để đẩy nhanh sự phát triển AI

1 bình luận

 
GN⁺ 2024-06-16
Ý kiến trên Hacker News

Tóm tắt bình luận trên Hacker News

  • Hiệu quả của tìm kiếm gắn chặt với chất lượng của hàm giá trị: Các hàm giá trị hiện nay rất chuyên biệt cho từng miền cụ thể, và có rất ít bằng chứng cho thấy có thể tạo ra hàm giá trị có khả năng khái quát sang các miền mới.
  • Nghiên cứu của Yann LeCun: Yann LeCun đang nghiên cứu vai trò của tìm kiếm trong việc tạo ra AGI, và đang cố xây dựng một mô hình thế giới vững chắc thông qua JEPA.
  • Giới hạn của mô hình ngôn ngữ: Có hoài nghi về việc liệu các LLM hiện tại có thể mô phỏng một mô hình thế giới đủ phong phú hay không; lý do video quan trọng là vì con người có thể rút ra các mô hình thế giới hữu ích từ chuỗi hình ảnh.
  • Sự mơ hồ của bài viết: Bài đăng bắt đầu với một tiền đề thú vị nhưng không định nghĩa "tìm kiếm" trong ngữ cảnh của LLM, cũng không giải thích cho tuyên bố rằng "Pfizer có thể dùng khả năng GPT-8 ngay hôm nay".
  • Tìm kiếm trong engine cờ vua: Tìm kiếm trong engine cờ vua khả thi vì có một hàm mục tiêu khách quan, nhưng vẫn còn nghi ngờ liệu LLM có một thước đo như vậy hay không.
  • Sự cần thiết của tìm kiếm: Tìm kiếm gần như chắc chắn là cần thiết, và điều quan trọng là phải tìm ra cách để một cụm chi phí thấp có thể đánh bại một cụm chi phí cao.
  • Khác biệt giữa cờ vua và các trò chơi khác: Cờ vua có ít yếu tố cần cắt tỉa hơn nên có thể áp dụng cách tiếp cận theo bề rộng, trong khi các tình huống ngoài đời thực có nhiều yếu tố cần cắt tỉa hơn rất nhiều.
  • Khái quát hóa của tìm kiếm: Tìm kiếm là một dạng khái quát hóa của "generate and test" và rejection sampling; tốc độ phụ thuộc vào việc tạo ứng viên và thời gian kiểm tra.
  • Vấn đề với trang web: Một số trang web cụ thể gây cản trở các chức năng mặc định của trình duyệt, tạo ra sự bất tiện.
  • Cây trò chơi của Leela Chess Zero: Leela mô hình hóa ván cờ như một cây trò chơi và sử dụng thuật toán tìm kiếm.
  • Khả năng tìm kiếm của LLM: Không rõ không gian khả năng mà LLM có thể tìm kiếm là gì.
  • Giới hạn của LLM: Vì LLM không thể làm hoặc đánh giá một chiếc cheesecake, cần hạ thấp kỳ vọng về AGI.
  • Vấn đề mang tính lý thuyết thông tin: Việc huấn luyện LLM cần quá nhiều dữ liệu cho thấy vấn đề nằm ở sự thiếu khái quát hóa và thiếu mô hình hóa thế giới nội tại.