Coconut của Meta AI – Cải thiện suy luận của LLM bằng chuỗi tư duy liên tục

(aipapersacademy.com)

6 điểm bởi GN⁺ 2025-01-01 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình ngôn ngữ lớn (LLM) được tiền huấn luyện trên lượng ngôn ngữ con người khổng lồ và thể hiện năng lực suy luận mạnh mẽ
Phương pháp "Chain-of-Thought (CoT)" giúp mô hình đi đến câu trả lời bằng cách tạo ra quá trình suy luận theo từng bước
Tuy nhiên, suy luận của LLM phải được tạo ra dưới dạng từ ngữ, điều này tạo nên một ràng buộc căn bản cho mô hình
Con người không phải lúc nào cũng diễn đạt suy nghĩ bằng ngôn ngữ. AI có nhất thiết cũng phải như vậy không?
Bài nghiên cứu của Meta "Training Large Language Models to Reason in a Continuous Latent Space" đề xuất một phương pháp mới là COCONUT (Chain of Continuous Thought) để giải quyết giới hạn này

Phương pháp Chain-of-Thought (CoT)

CoT nhận câu hỏi làm đầu vào và tạo ra câu trả lời cuối cùng thông qua suy luận từng bước
Mô hình xử lý các token đầu vào để tạo ra token phản hồi đầu tiên (khởi đầu của quá trình suy luận)
Sau đó lặp lại việc đưa câu hỏi và các token suy luận trước đó trở lại mô hình để hoàn thiện toàn bộ quá trình suy luận, rồi cuối cùng tạo ra câu trả lời

Phương pháp Chain of Continuous Thought (COCONUT)

COCONUT luân phiên sử dụng chế độ ngôn ngữ và chế độ suy nghĩ tiềm ẩn (latent thought)
- Chế độ ngôn ngữ: hoạt động như mô hình ngôn ngữ tiêu chuẩn, tạo token tiếp theo
- Chế độ suy nghĩ tiềm ẩn: dùng hidden state cuối cùng để tính bước tiếp theo
Trong chế độ suy nghĩ tiềm ẩn, việc dùng hidden state cuối cùng làm đầu vào tiếp theo giúp suy luận hiệu quả hơn
Bắt đầu chế độ suy nghĩ tiềm ẩn bằng token <bot>, kết thúc bằng token <eot>, sau đó chuyển sang chế độ ngôn ngữ

Quy trình huấn luyện

Mô hình được huấn luyện dựa trên dữ liệu CoT sẵn có (câu hỏi, các bước suy luận, câu trả lời cuối cùng)
Huấn luyện theo từng giai đoạn:
- Ở giai đoạn đầu, mô hình được huấn luyện để tạo ra các bước suy luận dựa trên ngôn ngữ và câu trả lời
- Ở các giai đoạn sau, các bước suy luận được loại bỏ, thay vào đó là thêm các token suy nghĩ tiềm ẩn để huấn luyện
Quảng cáo
Ở mỗi giai đoạn, hàm mất mát được tính trên các bước suy luận dựa trên ngôn ngữ còn lại và câu trả lời
Suy nghĩ tiềm ẩn có thể vi phân hoàn toàn, nên cho phép back-propagation (lan truyền ngược)

Chuyển từ tạo suy nghĩ sang tạo token từ ngữ

Có hai chiến lược để mô hình chuyển từ chế độ suy nghĩ tiềm ẩn sang chế độ ngôn ngữ.
Chiến lược thứ nhất là "để mô hình quyết định bằng bộ phân loại nhị phân", chiến lược thứ hai là "dùng một số lượng token suy nghĩ tiềm ẩn cố định"
Cả hai chiến lược cho kết quả tương tự nhau, nên nhóm nghiên cứu chọn cách đơn giản hơn là dùng số lượng cố định

Kết quả thực nghiệm

Phương pháp Coconut cho hiệu năng vượt trội hơn No-CoT trên mọi bộ dữ liệu.
So với CoT, CoT tốt hơn trong toán học, nhưng trên ProsQA — nơi cần năng lực lập kế hoạch — Coconut lại tốt hơn.
So với i-CoT, Coconut cho độ chính xác tốt hơn trong toán học.
Hiệu năng của Coconut:
- GSM8K (toán học): thấp hơn CoT
- ProsQA (yêu cầu lập kế hoạch): cao hơn CoT
- No-CoT (tạo câu trả lời trực tiếp không qua suy luận): vượt trội trên mọi bộ dữ liệu
- Về hiệu quả, tạo ra ít token hơn CoT
So sánh với i-CoT:
- Độ chính xác cao hơn trong toán học
- Hiệu năng tương đương trong lập kế hoạch và suy luận logic
Hiệu quả của curriculum learning:
- Mô hình "w/o curriculum" có hiệu năng giảm đáng kể

Năng lực suy luận tương tự BFS

Trên bộ dữ liệu ProsQA, COCONUT cho kết quả nổi bật trong việc giải quyết các bài toán thiên về lập kế hoạch
Ví dụ tìm kiếm trên đồ thị:
- CoT: "hallucinate" ra các quan hệ không tồn tại và dẫn đến câu trả lời sai
- Coconut: có thể tìm đường đi chính xác bằng cách tận dụng nhiều token suy nghĩ tiềm ẩn
Coconut có thể khám phá nhiều đường đi khả dĩ, nên thể hiện tốt hơn trong các tác vụ đòi hỏi lập kế hoạch dày đặc

Kết luận và hướng nghiên cứu tiếp theo

Kết luận:
- Phương pháp COCONUT cải thiện đáng kể năng lực suy luận của LLM
- Suy luận trong không gian tiềm ẩn mang lại hiệu năng vượt trội trong các tác vụ thiên về lập kế hoạch thông qua mẫu hình tương tự BFS
Hướng nghiên cứu tiếp theo:
- Tích hợp tư duy liên tục ngay từ giai đoạn tiền huấn luyện
- Nâng cao hiệu quả để xử lý suy luận tuần tự đa bước
- Khám phá khả năng kết hợp CoT với suy nghĩ tiềm ẩn

1 bình luận

GN⁺ 2025-01-01

Ý kiến trên Hacker News

Việc nhấn mạnh vào BFS đi ngược với điều tôi đã thử. Con người chia công việc thành các bước ngắn theo bản năng và trực giác, cùng các bước dài để tóm tắt/lưu lại bước tiếp theo. Khi thất bại, họ tóm tắt cây thất bại để loại trừ khỏi các lựa chọn trong tương lai.
- Hiệu quả của bản năng giảm rất nhanh khi khoảng cách tăng lên. Dùng BFS sẽ hạ thấp giá trị của bản năng và ưu tiên tính toán hơn. Cách tiếp cận thay đổi tùy theo loại vấn đề.
- Nếu muốn cùng làm prototype, hãy liên hệ.
Bước tiếp theo là tạo ra các biểu diễn không có ngôn ngữ con người. Nếu LLM có thể giao tiếp chỉ bằng embedding mà không cần đầu vào văn bản của con người, điều đó sẽ mở ra một chương mới cho AI.
Meta bắt đầu với một mô hình ngôn ngữ đã được tiền huấn luyện rồi fine-tune bằng các ví dụ suy luận từng bước. Họ đưa vào các token mới để mô hình chuyển sang chế độ suy nghĩ trong không gian tiềm ẩn.
- Layer ẩn cuối cùng được sao chép lặp đi lặp lại vào layer đầu vào để tạo thêm insight.
- Việc huấn luyện dần thay thế các bước suy luận bằng ngôn ngữ bằng các bước tự hồi quy trong không gian tiềm ẩn. Mô hình học cách tự kích hoạt và kết thúc chế độ suy nghĩ trong không gian tiềm ẩn.
Tôi tự hỏi liệu việc bỏ qua các bước embedding/unembedding cho suy nghĩ nội tại có phải là cải tiến lớn hay không, hay phương pháp huấn luyện dạy cách chuyển đổi giữa CoT, "suy nghĩ tiềm ẩn" và đầu ra văn bản mới là yếu tố chính.
- Việc một số lượng cố định "suy nghĩ tiềm ẩn" hoạt động tương đương bộ phân loại nhị phân là điều thú vị.
Đây có thể là khoảnh khắc "đó" của AI/LLM. Con người không suy nghĩ bằng "token". Nếu ở lại trong không gian tiềm ẩn, mô hình có thể biểu đạt ý tưởng ở độ phân giải cao hơn ngôn ngữ.
- Không gian tiềm ẩn có chi phí chạy rẻ. Có thể suy nghĩ mà không cần các bước mã hóa/giải mã ngôn ngữ. Có thể đưa vào nhiều loại dữ liệu khác nhau để suy luận.
Các đối thủ đang nhanh chóng bắt kịp. Tôi kỳ vọng sẽ thấy nhiều SkyNet cạnh tranh với nhau.
Tôi tự hỏi liệu tệp người dùng của các nhân vật do AI tạo ra trên Facebook có thể có tương tác tốt hơn hay không.
Trang này nói rằng họ đơn giản hóa bài báo, nhưng có quá nhiều quảng cáo và tôi không thể tìm thấy "Coconut" trên trang Meta FAIR chính thức. Tôi nghi ngờ liệu đây có phải là liên kết tốt nhất hay không.
Đây là bài đăng trùng từ 20 ngày trước.

Coconut của Meta AI – Cải thiện suy luận của LLM bằng chuỗi tư duy liên tục

Phương pháp Chain-of-Thought (CoT)

Phương pháp Chain of Continuous Thought (COCONUT)

Quy trình huấn luyện

Chuyển từ tạo suy nghĩ sang tạo token từ ngữ

Kết quả thực nghiệm

Năng lực suy luận tương tự BFS

Kết luận và hướng nghiên cứu tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News