DeepSeek V4 – gần chạm ngưỡng frontier, giá chỉ ở mức một phần

(simonwillison.net)

1 điểm bởi GN⁺ 1 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

DeepSeek đã công bố hai mô hình preview đầu tiên của dòng V4 là DeepSeek-V4-Pro và DeepSeek-V4-Flash; cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và được phát hành theo giấy phép MIT
DeepSeek-V4-Pro là mô hình có tổng cộng 1.6T tham số và 49B tham số hoạt động, có vẻ là mô hình open weight lớn mới, vượt Kimi K2.6, GLM-5.1 và DeepSeek V3.2
Điểm khác biệt cốt lõi của DeepSeek V4 là giá, với Flash ở mức $0.14 cho 1 triệu token đầu vào và $0.28 đầu ra, còn Pro là $1.74 đầu vào và $3.48 đầu ra, thấp hơn các mô hình nhỏ và lớn dùng để so sánh
Mức giá thấp gắn liền với tối ưu hiệu quả cho ngữ cảnh dài; ở ngữ cảnh 1 triệu token, Pro giảm xuống còn 27% FLOPs mỗi token đơn và 10% KV cache so với DeepSeek-V3.2, còn Flash giảm xuống 10% FLOPs và 7% KV cache
Trong benchmark nội bộ, DeepSeek-V4-Pro có thể cạnh tranh với các mô hình frontier nhưng vẫn thấp hơn một chút so với GPT-5.4 và Gemini-3.1-Pro, cho thấy quỹ đạo phát triển chậm hơn các mô hình frontier tiên tiến nhất khoảng 3–6 tháng

Công bố mô hình và thông số cơ bản

Sau V3.2 và V3.2 Speciale vào tháng 12/2025, DeepSeek đã công bố hai mô hình preview đầu tiên của dòng V4 là DeepSeek-V4-Pro và DeepSeek-V4-Flash
Cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và sử dụng giấy phép MIT tiêu chuẩn
DeepSeek-V4-Pro có 1.6T tham số tổng cộng và 49B tham số hoạt động, còn DeepSeek-V4-Flash có 284B tham số tổng cộng và 13B tham số hoạt động
DeepSeek-V4-Pro lớn hơn 1.1T của Kimi K2.6, 754B của GLM-5.1 và 685B của DeepSeek V3.2, nên có vẻ là mô hình open weight lớn nhất mới
Theo Hugging Face, kích thước mô hình của Pro là 865GB, còn Flash là 160GB; bản Flash được lượng tử hóa nhẹ được kỳ vọng có thể chạy trên MacBook Pro M5 128GB
Mô hình Pro cũng có thể chạy trên cùng cỗ máy đó nếu chỉ cần stream từ đĩa các expert đang hoạt động cần thiết
Thử nghiệm nhanh qua OpenRouter
- Sử dụng OpenRouter và llm-openrouter để gọi mô hình bằng lệnh sau
- ```
llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'
```
- Kết quả tạo sinh được công bố gồm SVG con bồ nông của DeepSeek-V4-Flash và SVG con bồ nông của DeepSeek-V4-Pro
- Để so sánh, bài viết cũng đưa ra kết quả từ cùng một prompt của DeepSeek V3.2 tháng 12/2025, V3.1 tháng 8/2025 và V3-0324 tháng 3/2025

Giá, hiệu quả và vị trí hiệu năng

Yếu tố nổi bật nhất của DeepSeek V4 là giá; theo trang giá của DeepSeek, Flash có giá $0.14 cho mỗi 1 triệu token đầu vào và $0.28 cho mỗi 1 triệu token đầu ra
Pro được định giá $1.74 cho mỗi 1 triệu token đầu vào và $3.48 cho mỗi 1 triệu token đầu ra
Trong bảng so sánh, DeepSeek V4 Flash rẻ hơn GPT-5.4 Nano với giá đầu vào $0.20 và đầu ra $1.25, cũng như Gemini 3.1 Flash-Lite với giá đầu vào $0.25 và đầu ra $1.50, khiến nó trở thành mô hình nhỏ rẻ nhất
DeepSeek V4 Pro có giá thấp hơn Gemini 3.1 Pro với đầu vào $2 và đầu ra $12, GPT-5.4 với đầu vào $2.50 và đầu ra $15, Claude Sonnet 4.6 với đầu vào $3 và đầu ra $15, Claude Opus 4.7 với đầu vào $5 và đầu ra $25, cũng như GPT-5.5 với đầu vào $5 và đầu ra $30, khiến nó trở thành mô hình frontier cỡ lớn rẻ nhất
Tối ưu hiệu quả là nền tảng cho mức giá thấp
- Bài báo của DeepSeek cho biết bản phát hành lần này tập trung mạnh vào hiệu quả của prompt ngữ cảnh dài
- Ở ngữ cảnh 1 triệu token, DeepSeek-V4-Pro chỉ còn 27% FLOPs cho mỗi token đơn và 10% kích thước KV cache so với DeepSeek-V3.2
- Trong cùng điều kiện, DeepSeek-V4-Flash giảm xuống chỉ còn 10% FLOPs cho mỗi token đơn và 7% kích thước KV cache so với DeepSeek-V3.2
Trong benchmark, đã gần chạm frontier nhưng vẫn thua nhóm dẫn đầu
- Benchmark tự công bố của DeepSeek cho thấy mô hình Pro có thể cạnh tranh với các mô hình frontier khác
- Theo bài báo, DeepSeek-V4-Pro-Max khi áp dụng mở rộng token suy luận đạt hiệu năng cao hơn GPT-5.2 và Gemini-3.0-Pro trên các benchmark suy luận tiêu chuẩn
- Tuy vậy, nó vẫn thấp hơn một chút so với GPT-5.4 và Gemini-3.1-Pro, đồng thời cho thấy quỹ đạo phát triển chậm hơn các mô hình frontier tiên tiến nhất khoảng 3–6 tháng
- Cộng đồng cũng đang chờ huggingface.co/unsloth/models phát hành các bản lượng tử hóa của Unsloth, và còn nhiều quan tâm về việc mô hình Flash sẽ chạy tốt đến đâu trên máy cục bộ

DeepSeek V4 – gần chạm ngưỡng frontier, giá chỉ ở mức một phần

Công bố mô hình và thông số cơ bản

Thử nghiệm nhanh qua OpenRouter

Giá, hiệu quả và vị trí hiệu năng

Tối ưu hiệu quả là nền tảng cho mức giá thấp

Trong benchmark, đã gần chạm frontier nhưng vẫn thua nhóm dẫn đầu

Bài viết liên quan

Chưa có bình luận nào.