DeepSeek v4: mô hình ngôn ngữ lớn hiệu quả cao hỗ trợ ngữ cảnh 1 triệu token

(huggingface.co)

10 điểm bởi GN⁺ 2026-04-24 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ lớn dựa trên Mixture-of-Experts (MoE) hỗ trợ ngữ cảnh 1M token, được công bố với hai phiên bản: Pro (1.6T tham số) và Flash (284B tham số)
Kiến trúc attention lai kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA), chỉ dùng 27% FLOPs suy luận và 10% KV cache so với DeepSeek-V3.2 ở mốc 1 triệu token
Sau khi tiền huấn luyện với hơn 32T token, áp dụng pipeline hậu huấn luyện 2 giai đoạn: huấn luyện độc lập các chuyên gia theo từng miền rồi hợp nhất vào một mô hình duy nhất bằng on-policy distillation
DeepSeek-V4-Pro-Max đạt hiệu năng mã nguồn mở tốt nhất trên các benchmark lập trình như LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206
Hỗ trợ ba chế độ suy luận: Non-Think, Think High, Think Max, cho phép lựa chọn theo nhu cầu từ tác vụ hằng ngày đến suy luận độ khó cao nhất

Tổng quan mô hình và kiến trúc

Dòng DeepSeek-V4 gồm hai mô hình: DeepSeek-V4-Pro (tổng 1.6T tham số, 49B tham số kích hoạt) và DeepSeek-V4-Flash (tổng 284B tham số, 13B tham số kích hoạt)
Cả hai mô hình đều hỗ trợ độ dài ngữ cảnh 1 triệu token
Ba nâng cấp chính về kiến trúc và tối ưu hóa:
- Hybrid Attention Architecture: kết hợp CSA và HCA để cải thiện mạnh hiệu quả với ngữ cảnh dài; ở mốc 1 triệu token, FLOPs suy luận cho mỗi token giảm còn 27% và KV cache còn 10% so với DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections (mHC): tăng cường kết nối residual truyền thống để đồng thời bảo đảm độ ổn định lan truyền tín hiệu giữa các layer và năng lực biểu diễn của mô hình
- Muon Optimizer: mang lại tốc độ hội tụ nhanh hơn và độ ổn định huấn luyện cao hơn

Pipeline huấn luyện và hậu huấn luyện

Tiền huấn luyện với hơn 32T token đa dạng, chất lượng cao
Hậu huấn luyện áp dụng mô hình 2 giai đoạn:
- Giai đoạn 1: huấn luyện độc lập các chuyên gia theo từng miền bằng SFT và RL (dùng GRPO)
- Giai đoạn 2: dùng on-policy distillation để hợp nhất chuyên môn của nhiều miền vào một mô hình duy nhất

Chế độ suy luận

Cả DeepSeek-V4-Pro và DeepSeek-V4-Flash đều hỗ trợ ba chế độ suy luận:
- Non-Think: phản hồi nhanh và trực quan, phù hợp với công việc hằng ngày hoặc quyết định rủi ro thấp
- Think High: phân tích logic có chủ đích, phù hợp để giải quyết bài toán phức tạp hoặc lập kế hoạch
- Think Max: đẩy năng lực suy luận tới giới hạn, dùng để khám phá biên khả năng suy luận của mô hình

Hiệu năng benchmark — mô hình Base

DeepSeek-V4-Pro-Base vượt V3.2-Base và V4-Flash-Base trên phần lớn benchmark:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
V4-Flash-Base chứng minh hiệu quả khi chỉ với 13B tham số kích hoạt vẫn tiệm cận hoặc vượt V3.2-Base (37B tham số kích hoạt) trên một số benchmark

Hiệu năng benchmark — mô hình Instruct (V4-Pro-Max so với các mô hình frontier)

Nổi bật ở benchmark lập trình:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
Ở mảng tri thức và suy luận:
- SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4, vượt đa số mô hình nhưng vẫn thấp hơn Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
Tác vụ agent:
- Thuộc nhóm dẫn đầu với SWE Verified 80.6, MCPAtlas Public 73.6
- Nhưng ở Terminal Bench 2.0 (67.9) và HLE w/ tools (48.2) vẫn thấp hơn một số mô hình nguồn đóng
V4-Flash-Max khi được cấp thinking budget lớn hơn có thể đạt hiệu năng suy luận tiệm cận bản Pro, nhưng vẫn hơi thua do khác biệt quy mô tham số ở các tác vụ tri thức thuần và workflow agent phức tạp

So sánh hiệu năng theo chế độ

V4-Pro Max đạt hiệu năng cao nhất trên mọi benchmark
Xu hướng hiệu năng tăng nhất quán từ Non-Think → Think High → Think Max:
- Ví dụ: trên GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Ví dụ: trên LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
V4-Flash Max đạt hiệu năng tương đương hoặc vượt V4-Pro High trên nhiều benchmark

Tải mô hình và độ chính xác

Cung cấp bốn mô hình: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
Mô hình Base dùng độ chính xác FP8 Mixed, mô hình Instruct dùng FP4 + FP8 Mixed
- Tham số chuyên gia MoE dùng FP4, phần lớn còn lại dùng FP8
Có thể tải từ HuggingFace và ModelScope

Mẫu chat và chạy cục bộ

Không kèm chat template định dạng Jinja; thay vào đó, thư mục encoding cung cấp script Python và test case để mã hóa/phân tích cú pháp tin nhắn theo định dạng tương thích OpenAI
Khi triển khai cục bộ, tham số sampling được khuyến nghị là: temperature 1.0, top_p 1.0
Với chế độ Think Max, khuyến nghị cửa sổ ngữ cảnh tối thiểu 384K token

Giấy phép

Cả trọng số mô hình và repository đều dùng MIT License

1 bình luận

GN⁺ 2026-04-24

Ý kiến trên Hacker News

Với một mô hình khổng lồ như v4 pro, giá khoảng 4 USD cho mỗi 1 triệu token đầu ra, nên tôi không chắc câu chuyện kiểu "các phòng thí nghiệm tuyến đầu đang trợ giá suy luận đến mức điên rồ" có thật sự đúng không
Gói thuê bao có vẻ cũng đã đủ sinh lời rồi, còn giá API thì càng có vẻ như vậy hơn
Đầu vào là $1.74/M, đầu ra là $3.48/M theo OpenRouter
- Cũng có giải thích rằng giá cao là do DeepSeek đang thiếu card suy luận
  Trong thông cáo báo chí có nói rằng khi card tính toán Ascend 950 ra mắt vào nửa cuối năm nay, giá Pro sẽ giảm mạnh
- Xét theo chi phí vận hành thì có thể đang có lãi, nhưng nếu tính theo chi phí vốn bao gồm cả lịch khấu hao hiện tại thì có thể vẫn chưa
  Dù vậy, gần đây các ước tính chi phí đó cũng đang có xu hướng cao hơn dự kiến
- Tôi cũng nhìn nhận tương tự
  Dịch vụ thuê bao có lẽ đã có lãi rồi, còn câu chuyện trợ giá rốt cuộc trông giống như một lập luận để rút biên lợi nhuận cao hơn từ API khách hàng doanh nghiệp
- Nhận xét đó đúng, nhưng hiện vẫn chưa có nhà cung cấp phương Tây nào chạm được mức giá này
  Chi phí điện ở Trung Quốc cũng rẻ hơn
Hơi ấm lòng một cách kỳ lạ khi tài liệu cho lập trình viên ra trước cả thông cáo báo chí hào nhoáng
- Đúng vậy, đúng kiểu this is the way
- Nếu gọi đây là mã nguồn mở thì dữ liệu huấn luyện và script huấn luyện ở đâu?
  Xem bản đã chỉnh sửa thì có vẻ cụm "open source" đã bị bỏ khỏi bình luận đứng đầu
Đã có trên OpenRouter rồi
Pro là đầu vào $1.74/m, đầu ra $3.48/m, còn Flash là đầu vào $0.14/m, đầu ra $0.28/m
- Ở đây hiện Api Error
  Tất cả mô hình khác đều hoạt động bình thường
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
Việc có mã nguồn mở thực sự từ Trung Quốc vẫn là điều đáng mừng
Tôi biết có thể có động cơ ẩn phía sau, nhưng vẫn thấy thiện cảm
- Các công ty Mỹ thì yêu cầu xác minh danh tính quá mức ngay cả khi trả tiền để truy cập mô hình, lưu trữ/phân tích/dùng dữ liệu cho huấn luyện, và còn công khai nói rằng họ có thể giao nộp cho nhà chức trách nếu được yêu cầu
  Động cơ ẩn của Trung Quốc là một giả định, còn phía Mỹ thì lại bày ra rất công khai
- Bài này giúp hiểu vì sao các phòng thí nghiệm Trung Quốc lại công khai mô hình
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- Đây chỉ là open weights thôi
Họ đã đưa mô hình nền 1.6T Pro lên Hugging Face
Đây là lần đầu tôi thấy cách ghi mô hình cỡ T ở đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Mô hình đã được công bố và khá ấn tượng
Hiệu năng cấp frontier nhưng chi phí thấp hơn rất nhiều, và tôi thấy còn tốt hơn Opus 4.6
- Giờ có lẽ chẳng còn cần phải so mô hình với Opus nữa
  Người dùng Opus thì đằng nào cũng sẽ tiếp tục tin nó là tốt nhất, còn người không dùng thì không muốn cái chi phí, lock-in và các hạn chế đó
  Là người không dùng, tôi vẫn chọn mô hình rẻ và nhanh nhất mà vẫn hoàn thành được công việc, và lúc này MiniMax M2.5 đang làm vai trò đó
  Thỉnh thoảng tôi thử cả các mô hình mới đắt hơn nhưng kết quả tương tự, nên đôi lúc cũng thấy có phải sự cường điệu của toàn ngành AI đang khiến mọi thứ trông như chỉ tiến bộ trên benchmark hay không
- Không biết nếu so với Opus 4.7 thì thế nào
  Tôi đã dùng 4.7 khá tập trung suốt tuần này khi tham gia hackathon Anthropic Opus 4.7, và dù nó ngốn token hơn nhiều so với 4.6 thì vẫn khá ấn tượng
- Tôi tò mò không biết có thật là tốt hơn Opus 4.6 hay chỉ là tối ưu benchmark giỏi hơn thôi
  Không biết đã thử code thực tế với agent harness chưa
  Nếu năng lực coding tốt hơn Claude Code + Opus 4.6 thì tôi sẽ đổi ngay
- Lại bắt đầu rồi
  Ngày nào cũng có bài ra mắt nói tốt hơn Opus 4.6, nhưng chính deepseek cũng không khẳng định là tốt hơn opus nếu tính cả thinking
  Dsv3 không phải kiểu mô hình thổi phồng benchmark, và ở các tác vụ ngoài benchmark cũng khá ổn định; dù chưa đạt SoTA nhưng vẫn tốt
  Mô hình lần này trông cũng tương tự
  Ở mức ngay dưới top hiệu năng nhưng chênh lệch không lớn và giá thì thấp hơn rất nhiều
  Mô hình lớn hiện được ds tự phục vụ với giá $1.74 in / $3.48 out / $0.14 cache nên cực rẻ so với giá trị nhận được
  Mô hình nhỏ thì $0.14 in / $0.28 out / $0.028 cache, thực tế là rẻ tới mức gần như không cần bận tâm, và có thể là ứng viên thực tế để chạy tại nhà
  Nếu hiệu năng đủ tốt thì hoàn toàn có thể cạnh tranh với dòng haiku hay gemini-flash
- Tính sơ theo các con số benchmark đã công bố, trên 20 chỉ số mà cả hai bên đều có điểm thì tổng chênh lệch là 20.1 điểm phần trăm
  Mức cải thiện trung bình khoảng 2%, nên thật lòng khó nói là rất lớn hay khá tầm thường
  Claude 4.6 tốt hơn gần 10pp ở hỏi đáp ngữ cảnh dài, đặc biệt là corpuses của CorpusQA và đối thoại nhiều vòng của MRCR
  Trong khi đó DSv4 lại cao hơn tới 14pp ở IMOAnswerBench và 12pp ở SimpleQA-Verified
Có thể tải trọng số tại đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  Có cả mô hình base mới nên thật sự rất tuyệt
Tôi theo dõi lĩnh vực này rất sâu và cũng thực sự gắn lợi ích của mình với nó, nhưng thành thật mà nói giờ cố theo kịp tất cả đã khiến tôi kiệt sức
Cảm giác như đã qua rất lâu cái thời điểm mà để theo kịp tiến bộ AI thì AI phải tự tóm tắt tiến bộ AI cho mình
- Tốt hơn là đừng cố theo sát
  Nó giống tin tức thôi, khi đến lúc thật sự cần biết thì sẽ có người báo cho bạn trước
- Những tay chơi cốt lõi gần như không thay đổi
  Cứ theo dõi như xem thể thao, và nếu chấp nhận chuyện vị trí số một sẽ thay đổi thì cũng không quá mệt
- Cảm giác là từ sau GPT-4 đến giờ mọi thứ cứ na ná nhau
  Mô hình mới ra thì chỉ kiểu hơn vài benchmark, còn trải nghiệm chủ quan khi dùng thực tế thì gần như y nguyên
  Từ đó đến nay không có nhiều thứ thực sự gây kinh ngạc, và giờ có cảm giác lĩnh vực này đang chững lại thành thứ chỉ nhóm nhiệt thành mới còn quan tâm
Điều làm tôi khó chịu hơn cả chuyện High Flyer công khai sao chép Anthropic để làm cái này là việc GAB đã vô tình cho họ đủ thời gian để nhét vào bên trong hàng chục easter egg cấp xz
Tôi vừa thử trên Pi Coding agent qua OpenRouter, và nó khá thường xuyên không dùng được đúng cách các công cụ read và write
Khá thất vọng, và tôi tự hỏi ngoài kiểu prompt như "đừng dùng gọi trực tiếp, luôn dùng công cụ được cung cấp" thì có giải pháp nào tốt hơn không
- Mới ra chưa lâu nên có lẽ cứ chờ thêm một chút sẽ tốt hơn
  Khả năng cao là kiểm thử trước với Pi vẫn chưa được làm đủ nhiều

DeepSeek v4: mô hình ngôn ngữ lớn hiệu quả cao hỗ trợ ngữ cảnh 1 triệu token

Tổng quan mô hình và kiến trúc

Pipeline huấn luyện và hậu huấn luyện

Chế độ suy luận

Hiệu năng benchmark — mô hình Base

Hiệu năng benchmark — mô hình Instruct (V4-Pro-Max so với các mô hình frontier)

So sánh hiệu năng theo chế độ

Tải mô hình và độ chính xác

Mẫu chat và chạy cục bộ

Giấy phép

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News