Phân tích các LLM để hiểu năng lực suy luận
(magazine.sebastianraschka.com)Tìm hiểu: mô hình suy luận
-
Định nghĩa mô hình suy luận: Mô hình suy luận là quá trình trả lời những câu hỏi cần tạo nhiều bước, bao gồm các bước trung gian, để giải quyết vấn đề phức tạp. Ví dụ, câu hỏi như "Nếu một đoàn tàu chạy 60 dặm/giờ trong 3 giờ thì đi được bao xa?" cần suy luận, khác với câu hỏi đơn giản dựa trên sự thật.
-
Vì sao cần mô hình suy luận: Phù hợp với các tác vụ phức tạp như câu đố, bài toán nâng cao và bài toán lập trình phức tạp. Tuy nhiên, chúng không cần thiết cho các tác vụ đơn giản như tóm tắt, dịch thuật và hỏi đáp dựa trên tri thức. Mô hình suy luận tốn kém hơn và đôi khi có thể gây lỗi do suy nghĩ quá mức.
Pipeline huấn luyện DeepSeek R1
-
DeepSeek-R1-Zero: Mô hình dựa trên DeepSeek-V3 đã tiền huấn luyện 671B, được huấn luyện chỉ bằng học tăng cường (RL). Đây được gọi là huấn luyện "cold start", và khác với RLHF thông thường ở chỗ không có giai đoạn fine-tuning có giám sát (SFT).
-
DeepSeek-R1: Mô hình suy luận chủ lực của DeepSeek, được cải thiện từ DeepSeek-R1-Zero thông qua giai đoạn SFT bổ sung và huấn luyện RL.
-
DeepSeek-R1-Distill: Sử dụng dữ liệu SFT được tạo ở giai đoạn trước để fine-tune các mô hình Qwen và Llama nhằm cải thiện năng lực suy luận.
4 phương pháp chính để xây dựng và cải thiện mô hình suy luận
-
Scaling tại thời điểm suy luận: Cách tăng tài nguyên tính toán trong lúc suy luận để cải thiện chất lượng đầu ra. Ví dụ, thêm các cụm từ như "hãy nghĩ từng bước" vào prompt đầu vào để khuyến khích mô hình tạo ra các bước suy luận trung gian.
-
Học tăng cường thuần túy (RL): DeepSeek-R1-Zero cho thấy suy luận có thể xuất hiện như một hành vi thông qua RL thuần túy. Mô hình sử dụng phần thưởng về độ chính xác và phần thưởng về định dạng để phát triển các kỹ năng suy luận cơ bản.
-
Fine-tuning có giám sát (SFT) và học tăng cường (RL): DeepSeek-R1 kết hợp SFT và RL để cải thiện hiệu năng suy luận. Đây là một cách tiếp cận quan trọng để xây dựng mô hình suy luận hiệu năng cao.
-
Fine-tuning có giám sát (SFT) thuần túy và chưng cất: DeepSeek huấn luyện các mô hình nhỏ hơn để tăng hiệu quả. Dù là mô hình nhỏ hơn, chúng vẫn cho hiệu năng tương đối mạnh so với DeepSeek-R1-Zero.
Nhận định về DeepSeek R1
- DeepSeek-R1 được phát hành theo giấy phép MIT mã nguồn mở, trở thành một nguồn tài nguyên hữu ích cho giới nghiên cứu. So với o1 của OpenAI, DeepSeek-R1 hiệu quả hơn về thời gian suy luận. Tuy nhiên, do thiếu chi tiết về o1 của OpenAI, việc so sánh trực tiếp là khó khăn.
Phát triển mô hình suy luận với ngân sách hạn chế
- Chưng cất mô hình có thể là một lựa chọn thay thế hiệu quả về chi phí. Nhóm DeepSeek đã chứng minh điều này với các mô hình R1-distilled, nhỏ hơn rất nhiều so với DeepSeek-R1 nhưng vẫn thể hiện hiệu năng suy luận mạnh mẽ.
1 bình luận
Ý kiến trên Hacker News
Có xu hướng các mô hình suy luận của LLM được tối ưu hóa quá mức cho các bài toán lập trình và toán học
Cần có nghiên cứu về việc huấn luyện LLM bằng ngôn ngữ hình thức bị giới hạn thay vì ngôn ngữ tự nhiên
"Suy nghĩ quá mức" của các mô hình suy luận có thể trở thành vấn đề lớn tiếp theo
Bài báo R1 khá dễ đọc và kết quả tự tự giải thích
Việc LLM có thực sự "nghĩ" hay không là một cuộc thảo luận riêng
Có những trường hợp thực tế AI nhận diện quá mức trong ảnh y khoa
Cần hiểu rằng LLM không thể suy luận
Tuyên bố về "aha moment" trong báo cáo kỹ thuật DeepSeek-R1 là đáng nghi
Vài tháng trước đã đề xuất trên HN một phương pháp tinh chỉnh để cải thiện LLM, và hiện nay điều đó được mô tả là "suy luận"