Ra mắt DeepSeek-V3.2 - Mở rộng giới hạn của mô hình ngôn ngữ lớn nguồn mở

(huggingface.co)

6 điểm bởi GN⁺ 2025-12-02 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

DeepSeek-V3.2 là mô hình ngôn ngữ lớn nguồn mở kết hợp hiệu quả tính toán cao với hiệu năng suy luận và tác vụ agent
Kiến trúc DeepSeek Sparse Attention (DSA) mới giúp duy trì hiệu năng trong ngữ cảnh dài đồng thời giảm mạnh độ phức tạp tính toán
Thông qua khung học tăng cường (RL) có thể mở rộng, mô hình đạt hiệu năng ở mức GPT-5; phiên bản hiệu năng cao có năng lực suy luận tương đương Gemini-3.0-Pro
Với pipeline tổng hợp tác vụ agent quy mô lớn, mô hình tạo ra 1.800 môi trường và 85.000 prompt, cải thiện khả năng khái quát hóa và thực thi chỉ lệnh trong các môi trường tương tác phức tạp
Mô hình mở đang thu hẹp khoảng cách với mô hình đóng, đồng thời khẳng định vị thế như một lựa chọn thay thế hiệu quả về chi phí

Tổng quan về DeepSeek-V3.2

DeepSeek-V3.2 là mô hình được thiết kế để vượt qua giới hạn về suy luận và hiệu năng agent của LLM nguồn mở
- Gồm ba công nghệ cốt lõi: DeepSeek Sparse Attention (DSA), khung học tăng cường có thể mở rộng, và pipeline tổng hợp tác vụ agent quy mô lớn
Phiên bản hiệu năng cao DeepSeek-V3.2-Speciale vượt GPT-5 và sở hữu năng lực suy luận tương đương Gemini-3.0-Pro
- Ghi nhận thành tích ở mức huy chương vàng tại Olympic Toán học Quốc tế (IMO) và Olympic Tin học Quốc tế (IOI) năm 2025
Đồng thời cải thiện cả hiệu quả lẫn hiệu năng của mô hình mở, qua đó thu hẹp khoảng cách hiệu năng với các mô hình đóng

Có ba giới hạn chính được chỉ ra để giải thích vì sao LLM nguồn mở vẫn thua kém các mô hình đóng
- Sự kém hiệu quả của kiến trúc attention cơ bản khiến chi phí tính toán rất lớn khi xử lý chuỗi dài
- Thiếu tài nguyên tính toán ở giai đoạn hậu huấn luyện (post-training) làm suy giảm hiệu năng ở các bài toán khó
- Thiếu khả năng khái quát hóa agent và thực thi chỉ lệnh khiến mô hình còn hạn chế trong ứng dụng thực tế
Để giải quyết, DeepSeek-V3.2 đưa vào kiến trúc attention hiệu quả, huấn luyện RL có thể mở rộng, và pipeline tích hợp suy luận sử dụng công cụ

DSA gồm lightning indexer và cơ chế chọn token tinh mịn
- lightning indexer hoạt động ở độ chính xác FP8 và quyết định top-k cặp key-value mà mỗi token truy vấn sẽ chọn
- Nhờ đó, độ phức tạp được giảm từ O(L²) xuống O(Lk), cho phép xử lý ngữ cảnh dài hiệu quả hơn
Được triển khai dựa trên MLA, nhờ vậy vẫn giữ khả năng tương thích với DeepSeek-V3.1-Terminus hiện có
Thực hiện quy trình continual learning hai giai đoạn
- Giai đoạn Dense Warm-up để khởi tạo indexer
- Giai đoạn Sparse Training để toàn bộ mô hình thích nghi với mẫu DSA, huấn luyện trên 943,7B token

DeepSeek-V3.2-Exp cải thiện đáng kể hiệu quả xử lý ngữ cảnh dài nhưng vẫn duy trì kết quả tương đương DeepSeek-V3.1-Terminus mà không suy giảm hiệu năng
Ghi nhận điểm suy luận được cải thiện so với thế hệ trước trên các benchmark độc lập như AA-LCR3 và Fiction.liveBench
Trên cụm GPU H800, chi phí trên mỗi token được cắt giảm mạnh, qua đó đạt được tốc độ end-to-end cao hơn

Kết hợp Specialist Distillation và Mixed RL
- Sáu mô hình miền chuyên biệt gồm toán học, lập trình, suy luận logic, agent tổng quát, agent mã nguồn, và agent tìm kiếm được huấn luyện bằng RL
- Dữ liệu từ các mô hình chuyên biệt này được chưng cất để tạo ra checkpoint cuối cùng
Sử dụng thuật toán Group Relative Policy Optimization (GRPO) để thống nhất việc huấn luyện suy luận, agent và alignment
- Kết hợp reward model, length penalty, phần thưởng nhất quán ngôn ngữ và các thành phần khác
DeepSeek-V3.2-Speciale còn áp dụng thêm dữ liệu và cơ chế phần thưởng của DeepSeekMath-V2 để tăng cường năng lực chứng minh toán học

Ước lượng KL không chệch (Unbiased KL Estimate) giúp đảm bảo hội tụ ổn định
- Giải quyết vấn đề gradient không ổn định của bộ ước lượng K3 trước đây
Off-Policy Sequence Masking che các mẫu âm có độ lệch chính sách lớn, giúp cải thiện độ ổn định huấn luyện
Keep Routing duy trì tính nhất quán định tuyến trong mô hình Mixture-of-Experts
Keep Sampling Mask ngăn chênh lệch không gian hành động giữa các chính sách khi dùng sampling top-p, top-k

Giới thiệu Thinking Context Management để tránh suy luận lại không cần thiết khi gọi công cụ
- Chỉ xóa nội dung suy luận trước đó khi có thêm tin nhắn mới từ người dùng
- Giữ lại lịch sử gọi công cụ để quản lý ngữ cảnh hiệu quả
Ở giai đoạn Cold-Start, dữ liệu suy luận và dữ liệu agent được kết hợp
- Dữ liệu reasoning dùng thẻ <think></think> để biểu thị lộ trình suy luận
- Xây dựng nền tảng huấn luyện tích hợp bằng prompt hệ thống có kèm lời gọi công cụ
Thông qua tổng hợp tác vụ agent quy mô lớn, mô hình tạo ra 1.800 môi trường và 85.000 prompt
- Tiến hành huấn luyện RL trên môi trường thực với API tìm kiếm web thực tế, công cụ thực thi mã và Jupyter Notebook
- Search Agent sử dụng pipeline đa agent để tự động hóa việc tạo câu hỏi, xác thực và đánh giá phần thưởng
- Áp dụng mô hình phần thưởng lai để đồng thời tối ưu độ tin cậy thực tế và tính hữu dụng thực tiễn

DeepSeek-V3.2 kết hợp kiến trúc attention hiệu quả và huấn luyện RL có thể mở rộng để phá vỡ giới hạn của mô hình mở
Mô hình thu hẹp đáng kể khoảng cách với các mô hình đóng về hiệu năng tích hợp giữa suy luận và agent, đồng thời nổi lên như một phương án thay thế hiệu quả về chi phí
Đây được đánh giá là một ví dụ cho thấy định hướng phát triển hiệu năng cao bền vững của LLM nguồn mở