- Các mô hình ngôn ngữ lớn (LLM) được tiền huấn luyện trên lượng ngôn ngữ con người khổng lồ và thể hiện năng lực suy luận mạnh mẽ
- Phương pháp "Chain-of-Thought (CoT)" giúp mô hình đi đến câu trả lời bằng cách tạo ra quá trình suy luận theo từng bước
- Tuy nhiên, suy luận của LLM phải được tạo ra dưới dạng từ ngữ, điều này tạo nên một ràng buộc căn bản cho mô hình
- Con người không phải lúc nào cũng diễn đạt suy nghĩ bằng ngôn ngữ. AI có nhất thiết cũng phải như vậy không?
- Bài nghiên cứu của Meta "Training Large Language Models to Reason in a Continuous Latent Space" đề xuất một phương pháp mới là COCONUT (Chain of Continuous Thought) để giải quyết giới hạn này
Phương pháp Chain-of-Thought (CoT)
- CoT nhận câu hỏi làm đầu vào và tạo ra câu trả lời cuối cùng thông qua suy luận từng bước
- Mô hình xử lý các token đầu vào để tạo ra token phản hồi đầu tiên (khởi đầu của quá trình suy luận)
- Sau đó lặp lại việc đưa câu hỏi và các token suy luận trước đó trở lại mô hình để hoàn thiện toàn bộ quá trình suy luận, rồi cuối cùng tạo ra câu trả lời
Phương pháp Chain of Continuous Thought (COCONUT)
- COCONUT luân phiên sử dụng chế độ ngôn ngữ và chế độ suy nghĩ tiềm ẩn (latent thought)
- Chế độ ngôn ngữ: hoạt động như mô hình ngôn ngữ tiêu chuẩn, tạo token tiếp theo
- Chế độ suy nghĩ tiềm ẩn: dùng hidden state cuối cùng để tính bước tiếp theo
- Trong chế độ suy nghĩ tiềm ẩn, việc dùng hidden state cuối cùng làm đầu vào tiếp theo giúp suy luận hiệu quả hơn
- Bắt đầu chế độ suy nghĩ tiềm ẩn bằng token
<bot>, kết thúc bằng token <eot>, sau đó chuyển sang chế độ ngôn ngữ
Quy trình huấn luyện
- Mô hình được huấn luyện dựa trên dữ liệu CoT sẵn có (câu hỏi, các bước suy luận, câu trả lời cuối cùng)
- Huấn luyện theo từng giai đoạn:
- Ở giai đoạn đầu, mô hình được huấn luyện để tạo ra các bước suy luận dựa trên ngôn ngữ và câu trả lời
- Ở các giai đoạn sau, các bước suy luận được loại bỏ, thay vào đó là thêm các token suy nghĩ tiềm ẩn để huấn luyện
- Ở mỗi giai đoạn, hàm mất mát được tính trên các bước suy luận dựa trên ngôn ngữ còn lại và câu trả lời
- Suy nghĩ tiềm ẩn có thể vi phân hoàn toàn, nên cho phép back-propagation (lan truyền ngược)
Chuyển từ tạo suy nghĩ sang tạo token từ ngữ
- Có hai chiến lược để mô hình chuyển từ chế độ suy nghĩ tiềm ẩn sang chế độ ngôn ngữ.
- Chiến lược thứ nhất là "để mô hình quyết định bằng bộ phân loại nhị phân", chiến lược thứ hai là "dùng một số lượng token suy nghĩ tiềm ẩn cố định"
- Cả hai chiến lược cho kết quả tương tự nhau, nên nhóm nghiên cứu chọn cách đơn giản hơn là dùng số lượng cố định
Kết quả thực nghiệm
- Phương pháp Coconut cho hiệu năng vượt trội hơn No-CoT trên mọi bộ dữ liệu.
- So với CoT, CoT tốt hơn trong toán học, nhưng trên ProsQA — nơi cần năng lực lập kế hoạch — Coconut lại tốt hơn.
- So với i-CoT, Coconut cho độ chính xác tốt hơn trong toán học.
- Hiệu năng của Coconut:
- GSM8K (toán học): thấp hơn CoT
- ProsQA (yêu cầu lập kế hoạch): cao hơn CoT
- No-CoT (tạo câu trả lời trực tiếp không qua suy luận): vượt trội trên mọi bộ dữ liệu
- Về hiệu quả, tạo ra ít token hơn CoT
- So sánh với i-CoT:
- Độ chính xác cao hơn trong toán học
- Hiệu năng tương đương trong lập kế hoạch và suy luận logic
- Hiệu quả của curriculum learning:
- Mô hình "w/o curriculum" có hiệu năng giảm đáng kể
Năng lực suy luận tương tự BFS
- Trên bộ dữ liệu ProsQA, COCONUT cho kết quả nổi bật trong việc giải quyết các bài toán thiên về lập kế hoạch
- Ví dụ tìm kiếm trên đồ thị:
- CoT: "hallucinate" ra các quan hệ không tồn tại và dẫn đến câu trả lời sai
- Coconut: có thể tìm đường đi chính xác bằng cách tận dụng nhiều token suy nghĩ tiềm ẩn
- Coconut có thể khám phá nhiều đường đi khả dĩ, nên thể hiện tốt hơn trong các tác vụ đòi hỏi lập kế hoạch dày đặc
Kết luận và hướng nghiên cứu tiếp theo
- Kết luận:
- Phương pháp COCONUT cải thiện đáng kể năng lực suy luận của LLM
- Suy luận trong không gian tiềm ẩn mang lại hiệu năng vượt trội trong các tác vụ thiên về lập kế hoạch thông qua mẫu hình tương tự BFS
- Hướng nghiên cứu tiếp theo:
- Tích hợp tư duy liên tục ngay từ giai đoạn tiền huấn luyện
- Nâng cao hiệu quả để xử lý suy luận tuần tự đa bước
- Khám phá khả năng kết hợp CoT với suy nghĩ tiềm ẩn
1 bình luận
Ý kiến trên Hacker News
Việc nhấn mạnh vào BFS đi ngược với điều tôi đã thử. Con người chia công việc thành các bước ngắn theo bản năng và trực giác, cùng các bước dài để tóm tắt/lưu lại bước tiếp theo. Khi thất bại, họ tóm tắt cây thất bại để loại trừ khỏi các lựa chọn trong tương lai.
Bước tiếp theo là tạo ra các biểu diễn không có ngôn ngữ con người. Nếu LLM có thể giao tiếp chỉ bằng embedding mà không cần đầu vào văn bản của con người, điều đó sẽ mở ra một chương mới cho AI.
Meta bắt đầu với một mô hình ngôn ngữ đã được tiền huấn luyện rồi fine-tune bằng các ví dụ suy luận từng bước. Họ đưa vào các token mới để mô hình chuyển sang chế độ suy nghĩ trong không gian tiềm ẩn.
Tôi tự hỏi liệu việc bỏ qua các bước embedding/unembedding cho suy nghĩ nội tại có phải là cải tiến lớn hay không, hay phương pháp huấn luyện dạy cách chuyển đổi giữa CoT, "suy nghĩ tiềm ẩn" và đầu ra văn bản mới là yếu tố chính.
Đây có thể là khoảnh khắc "đó" của AI/LLM. Con người không suy nghĩ bằng "token". Nếu ở lại trong không gian tiềm ẩn, mô hình có thể biểu đạt ý tưởng ở độ phân giải cao hơn ngôn ngữ.
Các đối thủ đang nhanh chóng bắt kịp. Tôi kỳ vọng sẽ thấy nhiều SkyNet cạnh tranh với nhau.
Tôi tự hỏi liệu tệp người dùng của các nhân vật do AI tạo ra trên Facebook có thể có tương tác tốt hơn hay không.
Trang này nói rằng họ đơn giản hóa bài báo, nhưng có quá nhiều quảng cáo và tôi không thể tìm thấy "Coconut" trên trang Meta FAIR chính thức. Tôi nghi ngờ liệu đây có phải là liên kết tốt nhất hay không.
Đây là bài đăng trùng từ 20 ngày trước.