Tìm kiếm bằng AI: bài học đắng chát hơn

(yellow-apartment-148.notion.site)

1 điểm bởi GN⁺ 2024-06-16 | 1 bình luận | Chia sẻ qua WhatsApp

Nếu gắn năng lực tìm kiếm (search) dùng nhiều thời gian suy luận hơn cho các mô hình nền tảng, có thể mở ra một lộ trình phát triển AI khác với việc chờ phát hành các mô hình lớn hơn
Leela Chess Zero đã đánh bại Stockfish bằng tự đấu và deep learning, nhưng Stockfish đã giành lại ưu thế bằng cách kết hợp một mạng nơ-ron nhỏ hơn với một pipeline tìm kiếm mạnh
“Tìm kiếm” ở đây là khả năng cải thiện hiệu năng giải quyết vấn đề bằng cách dùng nhiều compute suy luận hơn, chứ không chỉ có nghĩa là MCTS hay AlphaBeta kiểu cờ vua
Tìm kiếm có thể tập trung compute chỉ vào những lĩnh vực cần thiết, tạo cho các công ty như Pfizer lựa chọn tự chi trả chi phí suy luận thay vì chờ mô hình lớn hơn từ OpenAI
Nếu tìm kiếm được áp dụng trước tiên vào nghiên cứu AI, nó có thể được dùng để tìm ra các thuật toán tìm kiếm và kiến trúc mô hình hiệu quả hơn, khiến AI tự cải thiện có thể gần hơn dự đoán

“Bài học đắng chát hơn” mà Leela và Stockfish cho thấy

Leela Chess Zero là một engine cờ vua bắt đầu chỉ với luật chơi và học bằng hàng tỷ ván tự đấu
- Không hardcode trực tiếp tri thức cờ vua của con người, nó tự học theo cách tạo ra những nước đi đảo ngược chính thống cờ vua của con người
- Nó thể hiện những hy sinh dài hạn và các nước đi sáng tạo, đồng thời vô địch giải vô địch thế giới
Điểm mạnh của Leela là deep learning, và nó cho thấy rất rõ sức mạnh của tính toán quy mô lớn và học tập mà The Bitter Lesson nói tới
- Điều này gắn với xu hướng rằng các biểu diễn tự học có thể trở nên mạnh hơn tri thức do con người thiết kế
Năm 2018, nhóm Leela quan sát thấy các mạng lớn hơn mạnh hơn các mạng nhỏ hơn một cách nhất quán
- Các mạng lớn hơn cho thấy đặc tính nổi sinh như thể có thể nhìn trước vài nước ngay cả khi không có tìm kiếm tường minh
Năm 2020, để huấn luyện các mạng lớn hơn, nhóm Leela đã gom compute từ các nhà tài trợ doanh nghiệp và từ những chiếc GTX 1070 của người quen; họ chuẩn bị mô hình lớn nhất ngay trước giải thế giới nhưng vẫn thất bại

Stockfish lội ngược dòng: mô hình nhỏ và tìm kiếm mạnh

Stockfish là chương trình cờ vua thống trị trong thập niên 2010, và đến năm 2019 vẫn gần với kiểu AI cũ, nơi con người mã hóa tri thức trò chơi vào code bằng các kỹ thuật toán học
Leela đã đánh bại Stockfish năm 2019 bằng deep learning và cách tiếp cận tabula rasa, nhưng sau đó Stockfish lấy các kỹ thuật deep learning của Leela để huấn luyện một mô hình nhỏ hơn rất nhiều
- Mô hình đó nhỏ hơn hàng trăm lần so với mô hình Leela hàng đầu
- Stockfish đưa mô hình nhỏ này vào pipeline tìm kiếm hiện có và nhanh chóng áp đảo Leela
Chiến thắng này trông như đi ngược lại các định luật scaling vốn theo đuổi mô hình lớn hơn
- Mô hình nhỏ hơn, nhưng thuật toán tìm kiếm hiệu quả hơn, tận dụng phần cứng tốt hơn và có thể nhìn xa hơn
“Bài học đắng chát hơn” là ngay cả trong thời đại deep learning hào nhoáng, không nên đánh giá thấp sức mạnh của tìm kiếm trong AI

Định nghĩa tìm kiếm cho mô hình nền tảng và các giới hạn hiện tại

Các mô hình nền tảng như GPT-4 đang thiếu tìm kiếm theo nghĩa mà bài viết này nói tới
- Hiện chưa thể yêu cầu GPT-4 suy nghĩ về một bài toán trong một tháng rồi kỳ vọng câu trả lời tốt hơn
- Yêu cầu “hãy suy nghĩ step-by-step” có thể cải thiện hiệu năng, nhưng lợi ích giảm dần rất nhanh
Tìm kiếm trong mô hình nền tảng là khả năng giải bài toán tốt hơn bằng cách dùng nhiều compute suy luận hơn, chứ không phải compute huấn luyện
- Nó không chỉ nói đến MCTS hay tìm kiếm AlphaBeta kiểu cờ vua
- Tư duy nội quan và cộng tác của con người cũng nằm trong định nghĩa này
Các nhà nghiên cứu AI, nhà kinh tế học và CEO có thể đang đánh giá thấp việc trao cho mô hình nền tảng khả năng tìm kiếm vừa gần đến đâu vừa quan trọng đến mức nào
Có thể tóm gọn lý do tìm kiếm quan trọng thành ba điểm
- Việc triển khai không nhất thiết đòi hỏi scale mô hình lớn hơn
- Có thể tập trung compute chỉ vào nơi cần thiết
- Có thể đẩy nhanh tự động hóa nghiên cứu AI

Scale có thể không phải điều kiện tiên quyết của tìm kiếm

Giả định phổ biến là để LLM có thể tìm kiếm thì cần mô hình lớn hơn
- Sholto Douglas nói rằng để xử lý tư duy dài hạn sẽ cần nhiều “nines” hơn về độ tin cậy của LLM
- Leopold Aschenbrenner cho rằng pretraining có thể đã chứa các thành phần cần cho tìm kiếm, và chỉ cần “scale thêm một chút nữa” cùng nhiều token hơn
Nhưng trường hợp cờ vua làm lung lay quan điểm rằng scale là điều kiện tiên quyết của tìm kiếm
- DeepMind nghiên cứu thuật toán cờ vua không tìm kiếm, trong đó hành vi nhìn trước xuất hiện tự nhiên mà không cần scaffolding bên ngoài
- Vì cờ vua đã có sẵn các thuật toán tìm kiếm, nên logic là không có nhiều lý do để chờ một khả năng nhìn trước kém hiệu quả tình cờ xuất hiện trong mô hình lớn
Scaling Scaling Laws with Board Games cho thấy cứ tăng compute khi huấn luyện lên 10 lần thì có thể giảm compute khi kiểm thử khoảng 15 lần
- Kết quả này vẫn được quan sát ngay cả khi giảm xuống tới mô hình chỉ có một nơ-ron
- Điều này liên hệ với trường hợp Stockfish thắng Leela bằng một mô hình nhỏ hơn 3 chữ số
Các mô hình hiện nay có thể đã đủ lớn để cho phép tìm kiếm, thậm chí có thể còn lớn hơn mức cần thiết

Kinh tế học của tìm kiếm và khả năng tự động hóa nghiên cứu AI

Tìm kiếm cho phép đánh đổi giữa compute lúc huấn luyện và compute lúc suy luận, đồng thời chỉ tiêu tiền cho những miền cụ thể
Ví dụ Pfizer cho thấy tìm kiếm có thể dẫn tới chi tiêu compute theo từng domain như thế nào
- Nếu Pfizer muốn nghiên cứu thuốc mới, họ có thể chờ tới năm 2030 khi OpenAI tung ra mô hình lớn hơn 4 chữ số
- Hoặc họ có thể cố đạt năng lực tương tự ngay bây giờ bằng cách dùng nhiều compute suy luận hơn 4 chữ số
Giả sử Pfizer chi 100.000 USD mỗi năm cho GPT-4, thì để tiếp cận năng lực cấp ASI vào năm 2030, họ sẽ phải tăng ngân sách AI thêm 4 chữ số lên 1 tỷ USD mỗi năm
- Ngân sách R&D của Pfizer đã là 12 tỷ USD
- Trong khi đó, để huấn luyện một mô hình có cùng năng lực, OpenAI có thể phải tốn tới hàng nghìn tỷ USD
Lộ trình ASI năm 2030 của Leopold Aschenbrenner là chuỗi phát triển qua các cluster lớn, doanh thu tăng, các khoản vay doanh nghiệp quy mô lớn, việc chính phủ xây dựng các cluster còn lớn hơn, rồi mô hình trở nên đủ lớn để tự làm nghiên cứu AI
- Trong một thế giới không có tìm kiếm, lộ trình này có vẻ hợp lý
Trong một thế giới nơi tìm kiếm hoạt động, có thể có một con đường khác
- Tìm kiếm hoạt động trên các mô hình hiện có
- Các phòng thí nghiệm lớn và chính phủ ngay lập tức áp dụng tìm kiếm vào nghiên cứu AI hoặc tình báo hải ngoại
- Compute suy luận bị giới hạn nên chính phủ hoặc các phòng thí nghiệm lớn hạn chế mục đích sử dụng vào bảo mật hoặc nghiên cứu AI
- Tiến bộ AI dựa trên tìm kiếm phát hiện ra các thuật toán tìm kiếm và kiến trúc mô hình hiệu quả hơn
- Tìm kiếm không đòi hỏi nhiều dữ liệu huấn luyện hơn nên vấn đề rào cản dữ liệu yếu đi
- Điều này dẫn đến triển vọng rằng bùng nổ trí tuệ có thể bắt đầu không phải vào năm 2030 mà là ngay năm sau
Nếu dùng tìm kiếm cho nghiên cứu AI, khác với khám phá thuốc mới, kết quả có thể trực tiếp góp phần tạo ra AI tốt hơn nữa
- Các mô hình được tăng cường tìm kiếm ban đầu có thể chưa có tính chủ thể kiểu con người như dùng công cụ hay chạy test
- Dù vậy, chúng vẫn có thể thúc đẩy tiến bộ thuật toán như những “armchair theorists” siêu nhân
- Có một phép tính rằng nếu GPT-4 được huấn luyện với 1 nghìn tỷ token và 15 triệu USD mà tìm ra thuật toán giúp giảm 3% chi phí huấn luyện hoặc tăng 10% hiệu quả tìm kiếm, thì có thể hoàn vốn
Dự đoán này dựa trên hai tiền đề
- Tồn tại các thuật toán tìm kiếm cho mô hình nền tảng có thể tạo ra cải thiện hiệu năng tương tự như đã thấy trong các hệ RL
- Tìm kiếm chuyển hóa lượng vốn hiện có thành trí tuệ hiệu quả hơn so với scale mô hình
Khác với các định luật scaling của thập niên 2020, hiện vẫn thiếu bằng chứng tốt về hiệu năng và tính kinh tế của tìm kiếm, và vẫn còn phần ngoại suy dựa trên kinh nghiệm từ RL trong game

1 bình luận

GN⁺ 2024-06-16

Các ý kiến trên Hacker News

Hiệu quả của tìm kiếm đi cùng với chất lượng của hàm giá trị. Nhưng các hàm giá trị hiện nay mang tính đặc thù theo miền quá mạnh, và tôi thấy bằng chứng cho việc có thể tạo ra một hàm giá trị khái quát tốt sang các miền mới là yếu hoặc gần như không có
Bài viết này về cơ bản đã có một bước nhảy khái niệm từ “trong cờ vua có hàm giá trị tốt” sang “có thể tạo ra hàm giá trị tốt cho phép tìm kiếm phục vụ nghiên cứu AI”
Tất nhiên nếu làm được thì sẽ rất tuyệt, gần như chén thánh, nhưng tôi nghi ngờ liệu điều đó có thật sự khả thi không. Hơn nữa, nếu chi phí thời gian suy luận để chạy LLM tăng thêm 1000 lần hay 10000 lần thì chi phí sẽ lên mức phi lý
- Tôi nghĩ ở một mức nào đó cũng có các hàm giá trị tổng quát, tức benchmark LLM. Vấn đề là không có xấp xỉ đủ rẻ để thực hiện tìm kiếm cây ở thời điểm suy luận
  Cờ vua hoạt động được vì lợi thế quân cờ là một xấp xỉ khá tốt cho khả năng thắng và cũng rất dễ tính toán
- Tôi tò mò liệu bạn có tin sẽ có đột phá “AI đa dụng” không. Phần bạn vừa nói, theo tôi, diễn đạt rất đúng lý do tôi hoài nghi các nhà nghiên cứu AI tin rằng “chúng ta sắp đạt tới đó”
  Ngay từ đầu, dường như AI đa dụng chính xác là gì cũng chưa được định nghĩa rõ
- Trong một số miền, chỉ tự đánh giá thôi cũng có thể là đủ. Khi đó AI sẽ thử nhiều lần và tự đánh giá lặp đi lặp lại để tìm câu trả lời đạt điểm cao hơn theo tiêu chí của chính nó
- Thứ cần cho một hàm giá trị tốt chỉ là mô phỏng chất lượng cao của tác vụ đó
  Một số miền làm việc này tốt hơn. Ví dụ, trình chứng minh định lý trong toán học cho biết chính xác thành công hay thất bại
  Nhân tiện, có thể thêm vào Lean một chức năng giống như tìm kiếm để hỗ trợ các nhà nghiên cứu con người, và điều đó cũng có thể giúp thúc đẩy tiến bộ AI trong toán học
- Stockfish, dù trong một thế cờ nhất định số nước đi hợp lệ bị giới hạn và các nhánh thua có thể bị cắt tỉa mạnh từ sớm, vẫn rất có thể phải đánh giá hàng triệu thế cờ khi nhìn trước 40 nước
  Chi phí đánh giá hàng triệu câu tiếp theo của LLM để chọn một đáp án tối ưu là điều khó mà tưởng tượng nổi
  Điểm mà tìm kiếm cây có vẻ hợp lý hơn với LLM có thể không phải là các lựa chọn thay thế ở cấp độ từ, mà là suy luận khám phá các đường đi ở đơn vị thô hơn kiểu “nếu nghĩ theo cách này thì sao”. Dù vậy, chi phí sinh, đánh giá và cắt tỉa vẫn có thể dễ dàng trở nên không kham nổi, và cách tiếp cận thiên lệch như vậy dường như ở một mặt nào đó không hẳn phù hợp với bài học cay đắng, mà thậm chí còn đi ngược trực diện với nó
Đây là một vấn đề thật sự khó giải quyết một cách tổng quát, và cả những nhà nghiên cứu thông minh như Yann LeCun cũng đang tìm xem vai trò của tìm kiếm trong việc tạo ra AGI là gì
Canh bạc hiện tại của Yann có vẻ là dùng Joint Embedding Predictive Architectures, tức JEPA, cho học biểu diễn để xây dựng một mô hình thế giới vững chắc, rồi để tác tử thử các hành động khác nhau nhằm kiểm nghiệm lý thuyết
Bài báo này [0] tóm tắt khá tốt tầm nhìn tiềm năng của ông ấy, nhưng tất nhiên việc đó khó hơn nhiều so với chỉ tìm kiếm + transformer
Có một giả định rằng ngôn ngữ biểu diễn thế giới đủ tốt để tác tử có thể tìm kiếm hiệu quả trên đó và tạo ra các ý tưởng mới, hữu ích. Tôi cảm thấy đây vẫn là một câu hỏi mở. LLM biết gì? Nó có thật sự biết gì không? Các nhà nghiên cứu cần tìm ra
Nếu LLM hiện nay có thể mô phỏng một mô hình thế giới đủ phong phú thì tìm kiếm thực sự có thể trở nên hữu ích, nhưng nếu nó chỉ bắt chước thì đó chỉ là tìm kiếm trên những niềm tin không đáng tin cậy
Vì thế video rất quan trọng. Bởi đó là bằng chứng cho thấy con người có thể rút ra một mô hình thế giới hữu ích từ chuỗi hình ảnh
Ngôn ngữ và cờ vua về cơ bản có không gian hành động rời rạc, nên có thể huấn luyện mô hình sinh bằng cách tái tạo toàn bộ đầu vào để tính loss. Khi chuyển sang video, transformer phải mở rộng trên phân phối liên tục, vì vậy việc tạo ra một mô hình thế giới dự đoán hữu ích trở nên khó hơn nhiều
[0]: https://arxiv.org/abs/2306.02572
- Tôi cảm thấy bản thân ý tưởng rằng AGI là khả thi xuất phát từ một tưởng tượng sâu rộng rằng bộ não con người là máy tính. Nhưng bộ não con người không phải là máy tính
  Dù viết chương trình phức tạp đến đâu thì nó vẫn là máy Turing, còn con người về căn bản thì không như vậy
  https://aeon.co/essays/your-brain-does-not-process-informati...
  Ẩn dụ xử lý thông tin về trí tuệ con người hiện đang chi phối tư duy của con người cả trong đời thường lẫn khoa học. Nhưng rốt cuộc đó cũng chỉ là một ẩn dụ khác mà chúng ta tạo ra để hiểu một thứ mình chưa thật sự hiểu, và một ngày nào đó nó sẽ được thay thế bằng ẩn dụ khác hoặc bằng tri thức thực sự
  Dù cùng nghe bản giao hưởng số 5 của Beethoven trong cùng một buổi hòa nhạc, những thay đổi diễn ra trong não tôi và trong não người khác gần như chắc chắn hoàn toàn khác nhau. Vì các thay đổi đó diễn ra trên những cấu trúc thần kinh được định hình bởi trải nghiệm độc nhất của mỗi người
  Vì vậy ngay cả khi hai người nghe cùng một câu chuyện, họ cũng không lặp lại nó y hệt nhau, và theo thời gian các lần kể lại càng khác nhau hơn. Không có “bản sao” của câu chuyện được tạo ra; thay vào đó, mỗi cá nhân nghe câu chuyện sẽ thay đổi ở một mức độ nào đó
- Tôi nghĩ câu trả lời cho câu hỏi “Nó có thật sự biết gì không?” là có. Chỉ là nó cũng nghĩ rằng mình biết cả những điều hoàn toàn sai
  Đặc điểm lớn nhất tôi quan sát thấy ở LLM là chúng xử lý logic và toán học không tốt. Ngay cả khi tốt hơn nên trả lời “không biết”, chúng vẫn tự tin đưa ra thông tin rõ ràng là sai. Tôi cho rằng khả năng đây là thiết kế có chủ đích là rất thấp
Bài viết bắt đầu bằng một tiền đề thú vị, nhưng lại chưa định nghĩa tìm kiếm là gì trong ngữ cảnh LLM, và cũng không giải thích câu “Pfizer có thể tiến gần đến năng lực GPT-8 ngày nay bằng nhiều compute suy luận hơn”, nên cảm thấy còn thiếu sót
Dù tôi là người làm AI thực tế, vẫn thấy khó theo kịp. Cần có ai đó giải thích thêm ý của bài gốc là gì
Việc tìm kiếm của engine cờ vua, tức cách nhìn trước vài nước đi, có vẻ khả thi vì có một hàm mục tiêu để xếp hạng kết quả. Có một thước đo để đánh giá nước đi tiềm năng nào “tốt hơn”, và điều này thường gần với một đặc tính cố hữu của học tăng cường. Tôi thắc mắc liệu LLM có thước đo như vậy không
- Điểm này tôi cũng rất bối rối
  Nếu đoán, có thể ý là với từng token dự đoán hàng đầu của mô hình, chạy tiếp thêm vài token, theo dõi nhánh nào hoạt động tốt nhất so với dữ liệu huấn luyện, rồi dùng thông tin đó cho việc huấn luyện
  Nhưng tìm kiếm đáng lẽ phải làm tăng hiệu quả ở thời điểm suy luận, còn cách này thì không làm được vậy
- Có lẽ ý là như thế, và tôi nghĩ không có thước đo như vậy. Mọi người sẽ thử đánh giá đối kháng, nhưng cuối cùng có vẻ rất có khả năng hội tụ về dự đoán trung bình
  Ngoài ra suy luận LLM không rẻ. Sự đánh đổi giữa chi phí suy luận và chi phí huấn luyện khác nhau rất nhiều theo từng ứng dụng. Có thể có những miền mà việc chấp nhận chi phí suy luận cao hơn 100 lần hay 1000 lần để đổi lấy chi phí huấn luyện thấp hơn 10 lần là hợp lý
Charlie Steiner đã chỉ ra điều này trên Less Wrong từ 5 năm trước
Nếu huấn luyện GPT-3 bằng một tập sách giáo khoa y khoa rồi yêu cầu nó nói ra cách chữa Alzheimer, nó sẽ không nói ra cách chữa, mà sẽ nói những gì con người từng nói về điều trị Alzheimer
Ý là nó trở thành một oracle trực giác kể ra câu chuyện nghe hợp lý dựa trên các liên hệ trong dữ liệu huấn luyện, hơn là một oracle logic
Việc chữa Alzheimer khó hàm ý rằng thiết kế này đang thiếu một thứ, và thứ đó là tìm kiếm. Không có nghĩa là mạng nơ-ron không thể trực tiếp xuất ra cách chữa, nhưng có vẻ như trong mô hình đã học phải có sẵn một chiều “cách chữa Alzheimer”
Nếu ta chưa biết cách chữa, cách thực tế là đi chậm qua không gian logic qua nhiều bước lập luận, dần thu hẹp các khả năng cho đến khi cuối cùng tìm được thứ đáp ứng điều kiện. Tức là giải một bài toán tìm kiếm
Nếu AI có thể nói ra cách chữa Alzheimer, nhiều khả năng nó hoặc đang tìm kiếm cách chữa một cách tường minh, hoặc trạng thái nội bộ của nó đang ngầm thực hiện tìm kiếm
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- Tôi tự hỏi nếu không giới hạn điều này ở GPT mà khái quát hóa, có thể nói như sau không
  “Nếu huấn luyện một cỗ máy logic bằng một tập sách giáo khoa y khoa rồi yêu cầu nó nói ra cách chữa Alzheimer, nó sẽ không nói ra cách chữa, mà sẽ nói những gì các sách giáo khoa đó nói về điều trị Alzheimer”
  Có lẽ không phải vậy. GPT nhìn chung có vẻ bị giới hạn ở việc nhắc lại và tái tổ hợp những gì đã đọc, nhưng một thuật toán khác với logic tốt hơn thực tế có thể làm nghiên cứu meta. Nghĩa là nó có thể lấy toàn bộ kết quả thí nghiệm Alzheimer cho đến nay và thu hẹp xuống một không gian lời giải hẹp hơn mức con người đã đạt được
  Con người có thể không đủ khả năng chứa đồng thời mọi kết quả liên quan, nhưng máy tính thì có thể
  Khi bảo GPT “hãy suy nghĩ từng bước”, hiệu năng của nó tốt hơn, nên rõ ràng nó có một dạng logic cần thiết nào đó. Nó cũng làm tốt các yêu cầu kiểu “đây là dữ liệu, hãy biến đổi nó”
  Giới hạn nằm ở chất lượng logic và kích thước cửa sổ có thể thực hiện phép biến đổi đó. Tuy nhiên, dữ liệu ghi nhớ được từ huấn luyện có thể lớn hơn rất nhiều so với cửa sổ token đầu vào, nên đó có thể là một cách đi vòng một phần
  Nếu có cả hai năng lực, khó có thể nói là không thể mở rộng. Tôi không biết liệu có thể loại trừ khả năng một phiên bản tiến hóa của GPT tìm được cách chữa Alzheimer trong dữ liệu hiện có hay không, và với một hệ thống phù hợp hơn cho việc này thì có thể còn không cần đến AGI
  Tất nhiên, trong dữ liệu phải có các thành phần cần thiết cho lời giải. Nhưng đoạn trích dường như loại trừ chính khả năng nhận diện cách chữa, ngay cả khi mọi thông tin đều có trong dữ liệu và chỉ còn thiếu lời giải hoàn chỉnh
Tìm kiếm gần như chắc chắn là cần thiết, và những người nói về các cụm máy tính trị giá hàng nghìn tỷ đô la giờ nên trao đổi với những người đã tạo ra engine cờ vua siêu nhân chạy được cả trên smartphone
Vì có thể ai đó sẽ tìm ra cách dùng một cụm trị giá một triệu đô la, hoặc 500 nghìn cụm trị giá một triệu đô la, để đánh bại một cụm trị giá nghìn tỷ đô la
Kết luận của tôi về cờ vua là hệ số phân nhánh của cờ vua không lớn đến mức khiến cách tiếp cận theo chiều rộng trở nên bất khả thi. Hệ số phân nhánh trung vị, tức số nước đi hợp lệ, tối đa khoảng 40 và thường quanh mức 30
Số nước đi nhiều nhất tôi từng thấy trong một thế cờ thực tế là 147, nhưng ở thời điểm đó gần như mọi nước đi đều là chiếu hết
Lý do việc làm cho engine cờ vây đạt mức siêu nhân từng khó trong thời gian dài là vì hệ số phân nhánh lớn hơn cờ vua rất nhiều
MCTS kém triệt để hơn, nên việc tìm kiếm đầy đủ có thể tìm ra và khai thác điểm yếu là điều hợp lý. Vấn đề là liệu có thể áp dụng cách tiếp cận theo chiều rộng cho các trò chơi và tình huống lớn hơn hay không, và tôi nghĩ câu trả lời rõ ràng là không
Hệ số phân nhánh của các tình huống trong thế giới thực lớn hơn cờ vua vài bậc độ lớn
Tuy nhiên, khác với cờ vua, trong đời thực hầu hết các quyết định nhỏ không quan trọng lắm. Khi đi từ New York đến LA, việc lái xe, đi máy bay hay đi bộ là rất quan trọng. Nhưng khi bước ra khỏi cửa, việc bước chân trái hay chân phải trước, hay chớp mắt bây giờ hay sau 2 giây, nhìn chung không quan trọng
- Hệ số phân nhánh của LLM, tính theo số token khả dĩ tiếp theo, có lẽ vào khoảng 50 nghìn
Bài viết có vẻ khá khó nắm bắt và hơi quá tự tin khi dự đoán tương lai, nhưng có vẻ vẫn đáng thử
“Tìm kiếm” là sự khái quát hóa của “tạo rồi thử” và lấy mẫu loại bỏ. Đó là AI cổ điển
Trước thời dot-com, khi học lớp nhập môn AI, tôi đã học cách viết chương trình tìm kiếm bằng Prolog
Tốc độ phụ thuộc vào thời gian tạo ra một ứng viên, thời gian kiểm thử nó, và cần thử bao nhiêu ứng viên. Nếu những thứ này chậm thì toàn bộ cũng chậm
Một ví dụ về lấy mẫu loại bỏ có con người trong vòng lặp là dùng trình tạo ảnh và liên tục thử các prompt khác nhau cho đến khi có ảnh ưng ý. Nhưng thời gian tạo ảnh mới lâu nên vòng lặp chậm
Nếu việc tạo ảnh chạy nhanh như Google Image Search thì nó có thể trở thành điều gì đó thật sự có ý nghĩa
Chứng minh định lý và fuzzing chương trình có vẻ phù hợp để kết hợp LLM với tìm kiếm, vì chúng được tự động hóa, nhanh và có hàm đánh giá tốt
Có vẻ Google đã công bố một fuzzer [1] có thể kết nối với LLM mà bạn muốn; không biết đã có ai dùng thử chưa
[1] https://github.com/google/oss-fuzz-gen
- Trong lĩnh vực chứng minh định lý hay lập kế hoạch, các thủ tục tìm kiếm và “hàm đánh giá” đã biết về mặt lý thuyết đã gần tới giới hạn tối ưu
  Vì vậy thứ cần thiết không phải là hàm đánh giá hay thủ tục tìm kiếm mới, mà là toán học mới để đảm bảo ngay từ đầu rằng việc thử là có lý do
  Lấy chứng minh định lý làm ví dụ: SLD-Resolution là một thủ tục chứng minh định lý tự động đúng đắn và đầy đủ cho suy luận quy nạp. Một triển khai tiết kiệm không gian có thể dùng tìm kiếm theo chiều sâu, nhưng có thể rơi vào vòng lặp với đệ quy trái; một triển khai tiết kiệm thời gian có thể dùng tìm kiếm theo chiều rộng kèm memoization, nhưng độ phức tạp không gian tăng theo cấp số nhân
  Ở đây “hàm đánh giá” không áp dụng. Bởi bản thân Resolution đã là một dạng hàm đánh giá tính đúng của các mệnh đề logic hình thức, hoặc mức độ chắc chắn của giá trị chân lý
  Và nó đúng đắn, đầy đủ, cũng như bán quyết định được đối với logic rõ ràng. Miễn là không vi phạm Church-Turing thì đó là mức tốt nhất
  Có thể cải thiện hiệu quả bằng tìm kiếm heuristic. Chẳng hạn từng có những nỗ lực như vậy để tránh tính NP-khó của quan hệ bao hàm, một phần quan trọng trong SLD-Resolution thực tế, và khi đó hàm chi phí heuristic theo nghĩa rộng hơn được đưa vào
  Nhưng có hai vấn đề. a) dùng tìm kiếm heuristic nghĩa là hy sinh tính đầy đủ, và b) trong lập kế hoạch đã có các phương pháp khá vững chắc để suy ra hàm heuristic bằng cách nới lỏng bài toán lập kế hoạch
  Bài học là chỉ được chọn hai trong ba: tính đúng đắn, tính đầy đủ, hiệu quả. Các cách tiếp cận machine learning thống kê như LLM chỉ có thể chọn một bộ hai khác với các kỹ thuật hiện có
  Về cơ bản, với giới hạn hiệu năng tổng thể của AI dựa trên tìm kiếm, giờ chúng ta đã tới điểm chỉ còn thu được lợi ích bên lề. Nó sẽ ở đó cho đến khi ai đó đưa ra toán học tốt hơn
- Terence Tao, nhà toán học nổi tiếng và là người ủng hộ mạnh mẽ chứng minh định lý có máy tính hỗ trợ, cho rằng machine learning sẽ mở ra con đường mới trong lĩnh vực các trình chứng minh định lý
Tôi nghĩ mình hiểu không gian trò chơi mà Leela và Stockfish hiện nay tìm kiếm. Nhưng tôi không biết tác giả cho rằng LLM đang tìm kiếm trong không gian khả năng nào
Không rõ là 1) các từ đã viết, 2) các mô hình toán học, reinforcement learning, khoa học vật liệu, 3) những không gian nhỏ hơn và được hình thức hóa như không gian trò chơi của cờ vua, tất cả những thứ đó, hay một thứ gì khác. Có thể tác giả đã nói rõ ở đâu đó mà tôi bỏ lỡ
- Có vẻ họ muốn bản thân thuật toán tìm kiếm đi tìm các thuật toán tìm kiếm tốt hơn. Tức là tự cải thiện. Khi đó một số ràng buộc miền hẹp hơn có thể biến mất
Trước khi để LLM khám phá phương pháp chữa ung thư, tôi đề xuất trước hết hãy để nó khám phá một bài toán dễ xử lý hơn: “bánh cheesecake của Chúa”
Tức là một chiếc cheesecake ngon đến mức 100 đầu bếp công bằng đều đánh giá là ngon nhất trong mọi thứ họ từng ăn
LLM chỉ cần tìm kiếm một cách thông minh trong “không gian cheesecake” bị giới hạn tổ hợp hơn nhiều, để tìm ra công thức cheesecake ngon nhất có thể
Nhưng LLM không thể nướng cheesecake, và ngay cả nếu có nướng được thì cũng không thể đánh giá hương vị của nó
Cho đến khi AI giải được bài toán “cheesecake của Chúa”, có lẽ tất cả chúng ta nên bình tĩnh hơn một chút về AGI
- Những chiếc bánh quy này rất ngon, nhưng chưa tới tầm thần thánh. Với một chút đầu tư và các kỹ thuật hiện đại hơn, tôi nghĩ có thể tạo ra công thức khá tốt, và có lẽ còn tốt hơn bất kỳ con người nào
  Tôi nghĩ AI có thể tạo ra một công thức thắng một cuộc thi làm bánh rất cạnh tranh. Tuy nhiên, đánh bại toàn bộ 100 giám khảo là điều không ai làm được
  https://static.googleusercontent.com/media/research.google.c...
- Tôi tự hỏi sẽ nhìn nhận thế nào nếu câu trả lời là “để đưa ra một câu trả lời có ý nghĩa thì cần 2 tuần và 5000 đô la”
- Ngay cả trong giới hạn của một LLM chạy hoàn toàn trên máy tính, nếu LLM có thể viết truyện ngắn thật xuất sắc hoặc nội dung quảng cáo hay, thì đó cũng là chuyện có thể thay đổi thế giới
- TikTok là phiên bản số của vấn đề này
- Tôi tự hỏi liệu có ai nghĩ rằng nếu thử-sai công thức cheesecake bằng một chương trình được LLM hỗ trợ rồi để hội đồng giám khảo đánh giá, thì sẽ không tạo ra chiếc cheesecake ngon nhất lịch sử hay không
  Phần nướng bánh thuộc về robotics nên so sánh hơi kém công bằng, nhưng ở một mức độ nào đó điều đó đã khả thi
Vấn đề lớn nhất mà tác giả chưa nhận ra là lượng compute cần cho việc này lớn đến mức nào
Bài này giống như câu nói rằng nếu cho khỉ đủ thời gian thì chúng sẽ viết được Shakespeare. Dĩ nhiên là đúng, nhưng không gian tìm kiếm lớn đến mức không thể xử lý được, và dù câu trả lời có ở đâu đó thì cũng không thể tìm ra trong mớ hỗn độn ấy
Tôi đã làm toàn thời gian hơn 1 năm để xây dựng các hệ thống LLM cắt tỉa và tiến hóa
Tôi đã thử tạo nhiều thuật toán “tìm kiếm” hoặc “khám phá”. Vấn đề là sau vài bước, agent ban đầu được giao nhiệm vụ nghiên cứu hoặc thực hiện sinh học lại đang nói về tàu chiến. Đây là ví dụ từ công việc thực tế trước đây
Chỉ một bước gần như là tình huống duy nhất mà hàm tìm kiếm thực sự hoạt động. Với agent nhiều bước, số khả năng bùng nổ thành vô hạn rất nhanh
Một bước cũng có vấn đề. Ví dụ, chạy 1000 lần một câu hỏi zero-shot yêu cầu giải bài toán lập trình có thể giúp tìm được lời giải tốt hơn, nhưng điều đó khả thi vì không gian tìm kiếm bị giới hạn. Sự giới hạn đó là điểm tốt
Gần đây tôi đã thử nghiệm trên nhiều mô hình LLM bằng cách đưa một prompt đầu vào duy nhất vào và chỉ thay đổi cấu hình đầu vào để suy luận 10.000 lần. Mỗi prompt riêng lẻ không có vô hạn khả năng phản hồi. Nó bị giới hạn. Vì vậy hiện nay LLM mới có thể hoạt động được
Hiện tượng agent hoạt động không tốt là một ví dụ của vấn đề này. Không gian tìm kiếm một bước đã rất lớn, nhưng mỗi khi agent đi thêm một bước, nó tăng theo cấp số nhân
Tôi đang xây dựng công cụ và hệ thống để giải quyết vấn đề này, nhưng tìm kiếm quy mô lớn có vẻ xa vời chẳng kém gì việc nói rằng “tăng kích thước mô hình AI lên 100 lần là sẽ giải quyết được”
Tính tự chủ không giống với trí thông minh hay suy luận
Cách nói “Leela Chess Zero được gọi là zero vì nó bắt đầu chỉ với việc biết luật” khá phổ biến nhưng sai
Leela và các hệ cùng dòng còn có một tri thức đặc thù về cờ vua khác, thiết yếu cho hiệu năng. Đó là mô hình thế giới trò chơi biểu diễn ván cờ dưới dạng cây trò chơi. Cấu trúc này được chia thành từng ply theo lượt của mỗi người chơi
Cây trò chơi này được các thuật toán tìm kiếm đối kháng như minimax hoặc Monte Carlo Tree Search duyệt qua. Theo hiểu biết của tôi, Leela chọn MCTS
Cách mô hình hóa trò chơi chính xác hơn dưới dạng cây trò chơi không chỉ áp dụng cho cờ vua mà còn cho nhiều trò chơi khác. Tuy nhiên, cây trò chơi cụ thể dùng trong engine cờ vua có dạng phù hợp với các board game hai người, tổng bằng không, thông tin hoàn hảo, giống cờ vua
Các loại trò chơi khác cần mô hình khác và thuật toán tìm kiếm khác. Ví dụ có thể xem Poker và Libratus [1]
Các cây trò chơi như vậy, tức mô hình thế giới trò chơi, hiện chưa thể loại bỏ nếu mục tiêu là hiệu năng vượt trội. Bài viết có nhắc đến các thuật toán không tìm kiếm và chạm ngắn vào giới hạn cốt lõi của chúng, tức là câu hỏi “vì sao?”
Đây cũng là mối bận tâm đối với bài học cay đắng. Vì người ta chọn một cách tiện lợi xem thứ gì là tri thức miền, tức “mô hình” với tư cách lý thuyết
Như Rodney Brooks [2] và những người khác cũng đã nói, mạng nơ-ron tích chập đã thống trị phân loại ảnh nhờ dùng các lớp tích chập để thiết lập tính bất biến vị trí. Đó là một mô hình thị giác máy do con người phát minh
Điều này cũng giống như cây trò chơi là mô hình trò chơi do con người phát minh, và phần lớn những gì AI và machine learning đã làm đến nay cũng vậy. Con người tạo ra mô hình của thế giới, môi trường, miền và quy trình; máy tính tính toán bằng mô hình đó, và đôi khi cho ra kết quả vượt qua con người như trong cờ vua, cờ vây, hoặc ít nhất là những kết quả không thể đạt được bằng các lời giải thủ công
Bài học cần rút ra là một điều khác. Mô hình của con người + tính toán bằng máy đã giải quyết mọi bài toán khó của AI trong 80 năm qua. Và chúng ta hoàn toàn chưa biết cách làm bất kỳ điều gì khác dù chỉ hơi khác một chút
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- Tôi vẫn chưa thấy thuật toán nào tạo được mô hình thế giới chỉ từ quan sát. Tôi đã thấy vài gợi ý, nhưng chưa ở mức giống con người
  Một ngày nào đó điều đó sẽ đến. Chúng ta đang sống trong một thời đại thú vị

Tìm kiếm bằng AI: bài học đắng chát hơn

“Bài học đắng chát hơn” mà Leela và Stockfish cho thấy

Stockfish lội ngược dòng: mô hình nhỏ và tìm kiếm mạnh

Định nghĩa tìm kiếm cho mô hình nền tảng và các giới hạn hiện tại

Scale có thể không phải điều kiện tiên quyết của tìm kiếm

Kinh tế học của tìm kiếm và khả năng tự động hóa nghiên cứu AI

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News