DeepSeek-R1 minh họa
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
Giới thiệu DeepSeek-R1
- DeepSeek-R1 là một cột mốc quan trọng trong sự phát triển của AI, tạo ảnh hưởng lớn tới cộng đồng nghiên cứu và phát triển ML.
- Mô hình này là một mô hình mở trọng số, đồng thời cũng cung cấp các phiên bản distilled có kích thước nhỏ hơn.
- Chia sẻ và áp dụng phương pháp huấn luyện nhằm tái tạo các mô hình suy luận như OpenAI O1.
-
Tóm tắt huấn luyện LLM
- DeepSeek-R1, tương tự các LLM hiện có, tạo ra từng token một và đặc biệt giỏi giải các bài toán toán học và suy luận.
- Quy trình phổ biến để tạo ra một LLM chất lượng cao thường gồm:
- Giai đoạn mô hình hóa ngôn ngữ, sử dụng lượng lớn dữ liệu web để dự đoán từ tiếp theo.
- Giai đoạn tinh chỉnh có giám sát để giúp mô hình làm theo chỉ dẫn và trả lời câu hỏi.
- Giai đoạn căn chỉnh theo sở thích để tinh chỉnh hành vi của mô hình theo sở thích của con người.
-
Quy trình huấn luyện DeepSeek-R1
- DeepSeek-R1 sử dụng mô hình nền tảng của DeepSeek-V3 và trải qua các giai đoạn SFT cùng căn chỉnh theo sở thích.
- Ba điểm đặc biệt đáng chú ý trong quá trình tạo ra R1:
- Dữ liệu SFT chuỗi suy luận dài: bao gồm 600.000 ví dụ suy luận dài.
- LLM suy luận chất lượng cao tạm thời: một mô hình chuyên biệt cho suy luận, được tạo ra bằng một lượng nhỏ dữ liệu gán nhãn và học tăng cường quy mô lớn.
- Tạo mô hình suy luận thông qua học tăng cường quy mô lớn: tạo ra các ví dụ suy luận thông qua một mô hình tên là R1-Zero, rồi dùng chúng để huấn luyện mô hình tổng quát.
-
Đặc tính của R1-Zero
- R1-Zero thể hiện xuất sắc trong các tác vụ suy luận ngay cả khi không có tập huấn luyện SFT được gán nhãn.
- Điều này cho thấy các mô hình nền tảng hiện đại đang vượt qua một ngưỡng nhất định về chất lượng và năng lực.
- Các bài toán suy luận có thể được xác minh hoặc gán nhãn tự động.
-
Tạo dữ liệu suy luận SFT
- Mô hình suy luận tạm thời trải qua giai đoạn huấn luyện SFT bằng vài nghìn ví dụ bài toán suy luận.
- Dữ liệu này được tạo ra bằng cách xử lý đầu ra của R1-Zero để dễ đọc hơn.
-
Giai đoạn huấn luyện RL tổng quát
- R1 thể hiện tốt cả ở các tác vụ suy luận lẫn không suy luận.
- Mô hình được áp dụng cho nhiều ứng dụng khác nhau bằng cách tận dụng các mô hình phần thưởng về tính hữu ích và an toàn.
-
Kiến trúc
- DeepSeek-R1 gồm 61 khối decoder Transformer.
- Ba khối đầu là các lớp dense, phần còn lại là các lớp mixture-of-experts.
-
Kết luận
- Nội dung này giúp hiểu các khái niệm chính của mô hình DeepSeek-R1.
- Có thể tìm thêm thông tin trong cuốn Hands-On Large Language Models hoặc trên GitHub.
Chưa có bình luận nào.