- DeepSeek đã công bố hai mô hình preview đầu tiên của dòng V4 là DeepSeek-V4-Pro và DeepSeek-V4-Flash; cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và được phát hành theo giấy phép MIT
- DeepSeek-V4-Pro là mô hình có tổng cộng 1.6T tham số và 49B tham số hoạt động, có vẻ là mô hình open weight lớn mới, vượt Kimi K2.6, GLM-5.1 và DeepSeek V3.2
- Điểm khác biệt cốt lõi của DeepSeek V4 là giá, với Flash ở mức $0.14 cho 1 triệu token đầu vào và $0.28 đầu ra, còn Pro là $1.74 đầu vào và $3.48 đầu ra, thấp hơn các mô hình nhỏ và lớn dùng để so sánh
- Mức giá thấp gắn liền với tối ưu hiệu quả cho ngữ cảnh dài; ở ngữ cảnh 1 triệu token, Pro giảm xuống còn 27% FLOPs mỗi token đơn và 10% KV cache so với DeepSeek-V3.2, còn Flash giảm xuống 10% FLOPs và 7% KV cache
- Trong benchmark nội bộ, DeepSeek-V4-Pro có thể cạnh tranh với các mô hình frontier nhưng vẫn thấp hơn một chút so với GPT-5.4 và Gemini-3.1-Pro, cho thấy quỹ đạo phát triển chậm hơn các mô hình frontier tiên tiến nhất khoảng 3–6 tháng
Công bố mô hình và thông số cơ bản
- Sau V3.2 và V3.2 Speciale vào tháng 12/2025, DeepSeek đã công bố hai mô hình preview đầu tiên của dòng V4 là DeepSeek-V4-Pro và DeepSeek-V4-Flash
- Cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và sử dụng giấy phép MIT tiêu chuẩn
- DeepSeek-V4-Pro có 1.6T tham số tổng cộng và 49B tham số hoạt động, còn DeepSeek-V4-Flash có 284B tham số tổng cộng và 13B tham số hoạt động
- DeepSeek-V4-Pro lớn hơn 1.1T của Kimi K2.6, 754B của GLM-5.1 và 685B của DeepSeek V3.2, nên có vẻ là mô hình open weight lớn nhất mới
- Theo Hugging Face, kích thước mô hình của Pro là 865GB, còn Flash là 160GB; bản Flash được lượng tử hóa nhẹ được kỳ vọng có thể chạy trên MacBook Pro M5 128GB
- Mô hình Pro cũng có thể chạy trên cùng cỗ máy đó nếu chỉ cần stream từ đĩa các expert đang hoạt động cần thiết
-
Thử nghiệm nhanh qua OpenRouter
Giá, hiệu quả và vị trí hiệu năng
- Yếu tố nổi bật nhất của DeepSeek V4 là giá; theo trang giá của DeepSeek, Flash có giá $0.14 cho mỗi 1 triệu token đầu vào và $0.28 cho mỗi 1 triệu token đầu ra
- Pro được định giá $1.74 cho mỗi 1 triệu token đầu vào và $3.48 cho mỗi 1 triệu token đầu ra
- Trong bảng so sánh, DeepSeek V4 Flash rẻ hơn GPT-5.4 Nano với giá đầu vào $0.20 và đầu ra $1.25, cũng như Gemini 3.1 Flash-Lite với giá đầu vào $0.25 và đầu ra $1.50, khiến nó trở thành mô hình nhỏ rẻ nhất
- DeepSeek V4 Pro có giá thấp hơn Gemini 3.1 Pro với đầu vào $2 và đầu ra $12, GPT-5.4 với đầu vào $2.50 và đầu ra $15, Claude Sonnet 4.6 với đầu vào $3 và đầu ra $15, Claude Opus 4.7 với đầu vào $5 và đầu ra $25, cũng như GPT-5.5 với đầu vào $5 và đầu ra $30, khiến nó trở thành mô hình frontier cỡ lớn rẻ nhất
-
Tối ưu hiệu quả là nền tảng cho mức giá thấp
- Bài báo của DeepSeek cho biết bản phát hành lần này tập trung mạnh vào hiệu quả của prompt ngữ cảnh dài
- Ở ngữ cảnh 1 triệu token, DeepSeek-V4-Pro chỉ còn 27% FLOPs cho mỗi token đơn và 10% kích thước KV cache so với DeepSeek-V3.2
- Trong cùng điều kiện, DeepSeek-V4-Flash giảm xuống chỉ còn 10% FLOPs cho mỗi token đơn và 7% kích thước KV cache so với DeepSeek-V3.2
-
Trong benchmark, đã gần chạm frontier nhưng vẫn thua nhóm dẫn đầu
- Benchmark tự công bố của DeepSeek cho thấy mô hình Pro có thể cạnh tranh với các mô hình frontier khác
- Theo bài báo, DeepSeek-V4-Pro-Max khi áp dụng mở rộng token suy luận đạt hiệu năng cao hơn GPT-5.2 và Gemini-3.0-Pro trên các benchmark suy luận tiêu chuẩn
- Tuy vậy, nó vẫn thấp hơn một chút so với GPT-5.4 và Gemini-3.1-Pro, đồng thời cho thấy quỹ đạo phát triển chậm hơn các mô hình frontier tiên tiến nhất khoảng 3–6 tháng
- Cộng đồng cũng đang chờ huggingface.co/unsloth/models phát hành các bản lượng tử hóa của Unsloth, và còn nhiều quan tâm về việc mô hình Flash sẽ chạy tốt đến đâu trên máy cục bộ
Chưa có bình luận nào.