- Mô hình ngôn ngữ lớn dựa trên Mixture-of-Experts (MoE) hỗ trợ ngữ cảnh 1M token, được công bố với hai phiên bản: Pro (1.6T tham số) và Flash (284B tham số)
- Kiến trúc attention lai kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA), chỉ dùng 27% FLOPs suy luận và 10% KV cache so với DeepSeek-V3.2 ở mốc 1 triệu token
- Sau khi tiền huấn luyện với hơn 32T token, áp dụng pipeline hậu huấn luyện 2 giai đoạn: huấn luyện độc lập các chuyên gia theo từng miền rồi hợp nhất vào một mô hình duy nhất bằng on-policy distillation
- DeepSeek-V4-Pro-Max đạt hiệu năng mã nguồn mở tốt nhất trên các benchmark lập trình như LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206
- Hỗ trợ ba chế độ suy luận: Non-Think, Think High, Think Max, cho phép lựa chọn theo nhu cầu từ tác vụ hằng ngày đến suy luận độ khó cao nhất
Tổng quan mô hình và kiến trúc
- Dòng DeepSeek-V4 gồm hai mô hình: DeepSeek-V4-Pro (tổng 1.6T tham số, 49B tham số kích hoạt) và DeepSeek-V4-Flash (tổng 284B tham số, 13B tham số kích hoạt)
- Cả hai mô hình đều hỗ trợ độ dài ngữ cảnh 1 triệu token
- Ba nâng cấp chính về kiến trúc và tối ưu hóa:
- Hybrid Attention Architecture: kết hợp CSA và HCA để cải thiện mạnh hiệu quả với ngữ cảnh dài; ở mốc 1 triệu token, FLOPs suy luận cho mỗi token giảm còn 27% và KV cache còn 10% so với DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections (mHC): tăng cường kết nối residual truyền thống để đồng thời bảo đảm độ ổn định lan truyền tín hiệu giữa các layer và năng lực biểu diễn của mô hình
- Muon Optimizer: mang lại tốc độ hội tụ nhanh hơn và độ ổn định huấn luyện cao hơn
Pipeline huấn luyện và hậu huấn luyện
- Tiền huấn luyện với hơn 32T token đa dạng, chất lượng cao
- Hậu huấn luyện áp dụng mô hình 2 giai đoạn:
- Giai đoạn 1: huấn luyện độc lập các chuyên gia theo từng miền bằng SFT và RL (dùng GRPO)
- Giai đoạn 2: dùng on-policy distillation để hợp nhất chuyên môn của nhiều miền vào một mô hình duy nhất
Chế độ suy luận
- Cả DeepSeek-V4-Pro và DeepSeek-V4-Flash đều hỗ trợ ba chế độ suy luận:
- Non-Think: phản hồi nhanh và trực quan, phù hợp với công việc hằng ngày hoặc quyết định rủi ro thấp
- Think High: phân tích logic có chủ đích, phù hợp để giải quyết bài toán phức tạp hoặc lập kế hoạch
- Think Max: đẩy năng lực suy luận tới giới hạn, dùng để khám phá biên khả năng suy luận của mô hình
Hiệu năng benchmark — mô hình Base
- DeepSeek-V4-Pro-Base vượt V3.2-Base và V4-Flash-Base trên phần lớn benchmark:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
- V4-Flash-Base chứng minh hiệu quả khi chỉ với 13B tham số kích hoạt vẫn tiệm cận hoặc vượt V3.2-Base (37B tham số kích hoạt) trên một số benchmark
Hiệu năng benchmark — mô hình Instruct (V4-Pro-Max so với các mô hình frontier)
- Nổi bật ở benchmark lập trình:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
- Ở mảng tri thức và suy luận:
- SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4, vượt đa số mô hình nhưng vẫn thấp hơn Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
- Tác vụ agent:
- Thuộc nhóm dẫn đầu với SWE Verified 80.6, MCPAtlas Public 73.6
- Nhưng ở Terminal Bench 2.0 (67.9) và HLE w/ tools (48.2) vẫn thấp hơn một số mô hình nguồn đóng
- V4-Flash-Max khi được cấp thinking budget lớn hơn có thể đạt hiệu năng suy luận tiệm cận bản Pro, nhưng vẫn hơi thua do khác biệt quy mô tham số ở các tác vụ tri thức thuần và workflow agent phức tạp
So sánh hiệu năng theo chế độ
- V4-Pro Max đạt hiệu năng cao nhất trên mọi benchmark
- Xu hướng hiệu năng tăng nhất quán từ Non-Think → Think High → Think Max:
- Ví dụ: trên GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Ví dụ: trên LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
- V4-Flash Max đạt hiệu năng tương đương hoặc vượt V4-Pro High trên nhiều benchmark
Tải mô hình và độ chính xác
- Cung cấp bốn mô hình: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
- Mô hình Base dùng độ chính xác FP8 Mixed, mô hình Instruct dùng FP4 + FP8 Mixed
- Tham số chuyên gia MoE dùng FP4, phần lớn còn lại dùng FP8
- Có thể tải từ HuggingFace và ModelScope
Mẫu chat và chạy cục bộ
- Không kèm chat template định dạng Jinja; thay vào đó, thư mục
encodingcung cấp script Python và test case để mã hóa/phân tích cú pháp tin nhắn theo định dạng tương thích OpenAI - Khi triển khai cục bộ, tham số sampling được khuyến nghị là: temperature 1.0, top_p 1.0
- Với chế độ Think Max, khuyến nghị cửa sổ ngữ cảnh tối thiểu 384K token
Giấy phép
- Cả trọng số mô hình và repository đều dùng MIT License
1 bình luận
Ý kiến trên Hacker News
Với một mô hình khổng lồ như v4 pro, giá khoảng 4 USD cho mỗi 1 triệu token đầu ra, nên tôi không chắc câu chuyện kiểu "các phòng thí nghiệm tuyến đầu đang trợ giá suy luận đến mức điên rồ" có thật sự đúng không
Gói thuê bao có vẻ cũng đã đủ sinh lời rồi, còn giá API thì càng có vẻ như vậy hơn
Đầu vào là $1.74/M, đầu ra là $3.48/M theo OpenRouter
Trong thông cáo báo chí có nói rằng khi card tính toán Ascend 950 ra mắt vào nửa cuối năm nay, giá Pro sẽ giảm mạnh
Dù vậy, gần đây các ước tính chi phí đó cũng đang có xu hướng cao hơn dự kiến
Dịch vụ thuê bao có lẽ đã có lãi rồi, còn câu chuyện trợ giá rốt cuộc trông giống như một lập luận để rút biên lợi nhuận cao hơn từ API khách hàng doanh nghiệp
Chi phí điện ở Trung Quốc cũng rẻ hơn
Hơi ấm lòng một cách kỳ lạ khi tài liệu cho lập trình viên ra trước cả thông cáo báo chí hào nhoáng
Xem bản đã chỉnh sửa thì có vẻ cụm "open source" đã bị bỏ khỏi bình luận đứng đầu
Đã có trên OpenRouter rồi
Pro là đầu vào $1.74/m, đầu ra $3.48/m, còn Flash là đầu vào $0.14/m, đầu ra $0.28/m
Ở đây hiện Api Error
Tất cả mô hình khác đều hoạt động bình thường
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
Việc có mã nguồn mở thực sự từ Trung Quốc vẫn là điều đáng mừng
Tôi biết có thể có động cơ ẩn phía sau, nhưng vẫn thấy thiện cảm
Động cơ ẩn của Trung Quốc là một giả định, còn phía Mỹ thì lại bày ra rất công khai
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Họ đã đưa mô hình nền 1.6T Pro lên Hugging Face
Đây là lần đầu tôi thấy cách ghi mô hình cỡ T ở đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Mô hình đã được công bố và khá ấn tượng
Hiệu năng cấp frontier nhưng chi phí thấp hơn rất nhiều, và tôi thấy còn tốt hơn Opus 4.6
Người dùng Opus thì đằng nào cũng sẽ tiếp tục tin nó là tốt nhất, còn người không dùng thì không muốn cái chi phí, lock-in và các hạn chế đó
Là người không dùng, tôi vẫn chọn mô hình rẻ và nhanh nhất mà vẫn hoàn thành được công việc, và lúc này MiniMax M2.5 đang làm vai trò đó
Thỉnh thoảng tôi thử cả các mô hình mới đắt hơn nhưng kết quả tương tự, nên đôi lúc cũng thấy có phải sự cường điệu của toàn ngành AI đang khiến mọi thứ trông như chỉ tiến bộ trên benchmark hay không
Tôi đã dùng 4.7 khá tập trung suốt tuần này khi tham gia hackathon Anthropic Opus 4.7, và dù nó ngốn token hơn nhiều so với 4.6 thì vẫn khá ấn tượng
Không biết đã thử code thực tế với agent harness chưa
Nếu năng lực coding tốt hơn Claude Code + Opus 4.6 thì tôi sẽ đổi ngay
Ngày nào cũng có bài ra mắt nói tốt hơn Opus 4.6, nhưng chính deepseek cũng không khẳng định là tốt hơn opus nếu tính cả thinking
Dsv3 không phải kiểu mô hình thổi phồng benchmark, và ở các tác vụ ngoài benchmark cũng khá ổn định; dù chưa đạt SoTA nhưng vẫn tốt
Mô hình lần này trông cũng tương tự
Ở mức ngay dưới top hiệu năng nhưng chênh lệch không lớn và giá thì thấp hơn rất nhiều
Mô hình lớn hiện được ds tự phục vụ với giá $1.74 in / $3.48 out / $0.14 cache nên cực rẻ so với giá trị nhận được
Mô hình nhỏ thì $0.14 in / $0.28 out / $0.028 cache, thực tế là rẻ tới mức gần như không cần bận tâm, và có thể là ứng viên thực tế để chạy tại nhà
Nếu hiệu năng đủ tốt thì hoàn toàn có thể cạnh tranh với dòng haiku hay gemini-flash
Mức cải thiện trung bình khoảng 2%, nên thật lòng khó nói là rất lớn hay khá tầm thường
Claude 4.6 tốt hơn gần 10pp ở hỏi đáp ngữ cảnh dài, đặc biệt là corpuses của CorpusQA và đối thoại nhiều vòng của MRCR
Trong khi đó DSv4 lại cao hơn tới 14pp ở IMOAnswerBench và 12pp ở SimpleQA-Verified
Có thể tải trọng số tại đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
Có cả mô hình base mới nên thật sự rất tuyệt
Tôi theo dõi lĩnh vực này rất sâu và cũng thực sự gắn lợi ích của mình với nó, nhưng thành thật mà nói giờ cố theo kịp tất cả đã khiến tôi kiệt sức
Cảm giác như đã qua rất lâu cái thời điểm mà để theo kịp tiến bộ AI thì AI phải tự tóm tắt tiến bộ AI cho mình
Nó giống tin tức thôi, khi đến lúc thật sự cần biết thì sẽ có người báo cho bạn trước
Cứ theo dõi như xem thể thao, và nếu chấp nhận chuyện vị trí số một sẽ thay đổi thì cũng không quá mệt
Mô hình mới ra thì chỉ kiểu hơn vài benchmark, còn trải nghiệm chủ quan khi dùng thực tế thì gần như y nguyên
Từ đó đến nay không có nhiều thứ thực sự gây kinh ngạc, và giờ có cảm giác lĩnh vực này đang chững lại thành thứ chỉ nhóm nhiệt thành mới còn quan tâm
Điều làm tôi khó chịu hơn cả chuyện High Flyer công khai sao chép Anthropic để làm cái này là việc GAB đã vô tình cho họ đủ thời gian để nhét vào bên trong hàng chục easter egg cấp xz
Tôi vừa thử trên Pi Coding agent qua OpenRouter, và nó khá thường xuyên không dùng được đúng cách các công cụ read và write
Khá thất vọng, và tôi tự hỏi ngoài kiểu prompt như "đừng dùng gọi trực tiếp, luôn dùng công cụ được cung cấp" thì có giải pháp nào tốt hơn không
Khả năng cao là kiểm thử trước với Pi vẫn chưa được làm đủ nhiều