- DeepSeek-V3.2 là mô hình ngôn ngữ lớn nguồn mở kết hợp hiệu quả tính toán cao với hiệu năng suy luận và tác vụ agent
- Kiến trúc DeepSeek Sparse Attention (DSA) mới giúp duy trì hiệu năng trong ngữ cảnh dài đồng thời giảm mạnh độ phức tạp tính toán
- Thông qua khung học tăng cường (RL) có thể mở rộng, mô hình đạt hiệu năng ở mức GPT-5; phiên bản hiệu năng cao có năng lực suy luận tương đương Gemini-3.0-Pro
- Với pipeline tổng hợp tác vụ agent quy mô lớn, mô hình tạo ra 1.800 môi trường và 85.000 prompt, cải thiện khả năng khái quát hóa và thực thi chỉ lệnh trong các môi trường tương tác phức tạp
- Mô hình mở đang thu hẹp khoảng cách với mô hình đóng, đồng thời khẳng định vị thế như một lựa chọn thay thế hiệu quả về chi phí
Tổng quan về DeepSeek-V3.2
- DeepSeek-V3.2 là mô hình được thiết kế để vượt qua giới hạn về suy luận và hiệu năng agent của LLM nguồn mở
- Gồm ba công nghệ cốt lõi: DeepSeek Sparse Attention (DSA), khung học tăng cường có thể mở rộng, và pipeline tổng hợp tác vụ agent quy mô lớn
- Phiên bản hiệu năng cao DeepSeek-V3.2-Speciale vượt GPT-5 và sở hữu năng lực suy luận tương đương Gemini-3.0-Pro
- Ghi nhận thành tích ở mức huy chương vàng tại Olympic Toán học Quốc tế (IMO) và Olympic Tin học Quốc tế (IOI) năm 2025
- Đồng thời cải thiện cả hiệu quả lẫn hiệu năng của mô hình mở, qua đó thu hẹp khoảng cách hiệu năng với các mô hình đóng
Giới hạn của mô hình mở và hướng cải tiến
- Có ba giới hạn chính được chỉ ra để giải thích vì sao LLM nguồn mở vẫn thua kém các mô hình đóng
- Sự kém hiệu quả của kiến trúc attention cơ bản khiến chi phí tính toán rất lớn khi xử lý chuỗi dài
- Thiếu tài nguyên tính toán ở giai đoạn hậu huấn luyện (post-training) làm suy giảm hiệu năng ở các bài toán khó
- Thiếu khả năng khái quát hóa agent và thực thi chỉ lệnh khiến mô hình còn hạn chế trong ứng dụng thực tế
- Để giải quyết, DeepSeek-V3.2 đưa vào kiến trúc attention hiệu quả, huấn luyện RL có thể mở rộng, và pipeline tích hợp suy luận sử dụng công cụ
DeepSeek Sparse Attention (DSA)
- DSA gồm lightning indexer và cơ chế chọn token tinh mịn
- lightning indexer hoạt động ở độ chính xác FP8 và quyết định top-k cặp key-value mà mỗi token truy vấn sẽ chọn
- Nhờ đó, độ phức tạp được giảm từ O(L²) xuống O(Lk), cho phép xử lý ngữ cảnh dài hiệu quả hơn
- Được triển khai dựa trên MLA, nhờ vậy vẫn giữ khả năng tương thích với DeepSeek-V3.1-Terminus hiện có
- Thực hiện quy trình continual learning hai giai đoạn
- Giai đoạn Dense Warm-up để khởi tạo indexer
- Giai đoạn Sparse Training để toàn bộ mô hình thích nghi với mẫu DSA, huấn luyện trên 943,7B token
Đánh giá hiệu năng và hiệu quả
- DeepSeek-V3.2-Exp cải thiện đáng kể hiệu quả xử lý ngữ cảnh dài nhưng vẫn duy trì kết quả tương đương DeepSeek-V3.1-Terminus mà không suy giảm hiệu năng
- Ghi nhận điểm suy luận được cải thiện so với thế hệ trước trên các benchmark độc lập như AA-LCR3 và Fiction.liveBench
- Trên cụm GPU H800, chi phí trên mỗi token được cắt giảm mạnh, qua đó đạt được tốc độ end-to-end cao hơn
Cấu trúc hậu huấn luyện (Post-Training) và học tăng cường
- Kết hợp Specialist Distillation và Mixed RL
- Sáu mô hình miền chuyên biệt gồm toán học, lập trình, suy luận logic, agent tổng quát, agent mã nguồn, và agent tìm kiếm được huấn luyện bằng RL
- Dữ liệu từ các mô hình chuyên biệt này được chưng cất để tạo ra checkpoint cuối cùng
- Sử dụng thuật toán Group Relative Policy Optimization (GRPO) để thống nhất việc huấn luyện suy luận, agent và alignment
- Kết hợp reward model, length penalty, phần thưởng nhất quán ngôn ngữ và các thành phần khác
- DeepSeek-V3.2-Speciale còn áp dụng thêm dữ liệu và cơ chế phần thưởng của DeepSeekMath-V2 để tăng cường năng lực chứng minh toán học
Kỹ thuật ổn định hóa học tăng cường (Scaling GRPO)
- Ước lượng KL không chệch (Unbiased KL Estimate) giúp đảm bảo hội tụ ổn định
- Giải quyết vấn đề gradient không ổn định của bộ ước lượng K3 trước đây
- Off-Policy Sequence Masking che các mẫu âm có độ lệch chính sách lớn, giúp cải thiện độ ổn định huấn luyện
- Keep Routing duy trì tính nhất quán định tuyến trong mô hình Mixture-of-Experts
- Keep Sampling Mask ngăn chênh lệch không gian hành động giữa các chính sách khi dùng sampling top-p, top-k
Suy luận sử dụng công cụ (Thinking in Tool-Use)
- Giới thiệu Thinking Context Management để tránh suy luận lại không cần thiết khi gọi công cụ
- Chỉ xóa nội dung suy luận trước đó khi có thêm tin nhắn mới từ người dùng
- Giữ lại lịch sử gọi công cụ để quản lý ngữ cảnh hiệu quả
- Ở giai đoạn Cold-Start, dữ liệu suy luận và dữ liệu agent được kết hợp
- Dữ liệu reasoning dùng thẻ
<think></think> để biểu thị lộ trình suy luận
- Xây dựng nền tảng huấn luyện tích hợp bằng prompt hệ thống có kèm lời gọi công cụ
- Thông qua tổng hợp tác vụ agent quy mô lớn, mô hình tạo ra 1.800 môi trường và 85.000 prompt
- Tiến hành huấn luyện RL trên môi trường thực với API tìm kiếm web thực tế, công cụ thực thi mã và Jupyter Notebook
- Search Agent sử dụng pipeline đa agent để tự động hóa việc tạo câu hỏi, xác thực và đánh giá phần thưởng
- Áp dụng mô hình phần thưởng lai để đồng thời tối ưu độ tin cậy thực tế và tính hữu dụng thực tiễn
Kết luận
- DeepSeek-V3.2 kết hợp kiến trúc attention hiệu quả và huấn luyện RL có thể mở rộng để phá vỡ giới hạn của mô hình mở
- Mô hình thu hẹp đáng kể khoảng cách với các mô hình đóng về hiệu năng tích hợp giữa suy luận và agent, đồng thời nổi lên như một phương án thay thế hiệu quả về chi phí
- Đây được đánh giá là một ví dụ cho thấy định hướng phát triển hiệu năng cao bền vững của LLM nguồn mở
Chưa có bình luận nào.