DeepSeek V4 – Gần tiệm cận frontier nhưng rẻ hơn rất nhiều
(simonwillison.net)- DeepSeek đã công bố hai mô hình xem trước đầu tiên của dòng V4 là DeepSeek-V4-Pro và DeepSeek-V4-Flash; cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và được phát hành theo giấy phép MIT
- DeepSeek-V4-Pro là mô hình có tổng cộng 1.6T tham số và 49B tham số hoạt hóa, là mô hình open-weight lớn nhất từ trước tới nay, vượt Kimi K2.6, GLM-5.1 và DeepSeek V3.2
- Điểm khác biệt cốt lõi của DeepSeek V4 là giá, với Flash ở mức $0.14 cho 1 triệu token đầu vào và $0.28 cho đầu ra, còn Pro là $1.74 đầu vào và $3.48 đầu ra, thấp hơn các mô hình nhỏ và lớn dùng để so sánh
- Mức giá thấp này gắn liền với tối ưu hiệu quả ngữ cảnh dài: ở ngữ cảnh 1 triệu token, Pro giảm xuống còn 27% FLOPs mỗi token đơn và 10% KV cache so với DeepSeek-V3.2, còn Flash giảm xuống 10% FLOPs và 7% KV cache
- Trong benchmark nội bộ, DeepSeek-V4-Pro có thể cạnh tranh với các mô hình frontier nhưng vẫn thấp hơn đôi chút so với GPT-5.4 và Gemini-3.1-Pro, cho thấy quỹ đạo phát triển chậm hơn khoảng 3–6 tháng so với các mô hình frontier tối tân nhất
Công bố mô hình và thông số cơ bản
- Sau V3.2 và V3.2 Speciale vào tháng 12/2025, DeepSeek đã công bố DeepSeek-V4-Pro và DeepSeek-V4-Flash là hai mô hình xem trước đầu tiên của dòng V4
- Cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và dùng giấy phép MIT tiêu chuẩn
- DeepSeek-V4-Pro là mô hình có tổng cộng 1.6T tham số và 49B tham số hoạt hóa, còn DeepSeek-V4-Flash có tổng cộng 284B tham số và 13B tham số hoạt hóa
- DeepSeek-V4-Pro lớn hơn 1.1T của Kimi K2.6, 754B của GLM-5.1 và 685B của DeepSeek V3.2, nên có vẻ là mô hình open-weight lớn nhất mới
- Theo Hugging Face, kích thước mô hình là 865GB với Pro và 160GB với Flash; bản Flash được lượng tử hóa nhẹ được kỳ vọng có thể chạy trên MacBook Pro M5 128GB
- Mô hình Pro cũng có thể chạy trên cùng cỗ máy đó nếu chỉ cần stream các expert đang hoạt hóa từ đĩa
-
Thử nghiệm nhanh qua OpenRouter
- Sử dụng OpenRouter và llm-openrouter để gọi mô hình bằng lệnh sau
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Kết quả được công bố gồm SVG bồ nông của DeepSeek-V4-Flash và SVG bồ nông của DeepSeek-V4-Pro
- Để so sánh, bài viết cũng đưa kèm kết quả cho cùng prompt từ DeepSeek V3.2 tháng 12/2025, V3.1 tháng 8/2025 và V3-0324 tháng 3/2025
Giá, hiệu quả và vị thế hiệu năng
- Yếu tố nổi bật nhất của DeepSeek V4 là giá; theo trang giá của DeepSeek, Flash có giá $0.14 cho mỗi 1 triệu token đầu vào và $0.28 cho mỗi 1 triệu token đầu ra
- Pro được định giá $1.74 cho mỗi 1 triệu token đầu vào và $3.48 cho mỗi 1 triệu token đầu ra
- Trong bảng so sánh, DeepSeek V4 Flash rẻ hơn GPT-5.4 Nano với đầu vào $0.20 và đầu ra $1.25, cũng như Gemini 3.1 Flash-Lite với đầu vào $0.25 và đầu ra $1.50, khiến nó trở thành mô hình nhỏ rẻ nhất
- DeepSeek V4 Pro cũng rẻ hơn Gemini 3.1 Pro với đầu vào $2 và đầu ra $12, GPT-5.4 với đầu vào $2.50 và đầu ra $15, Claude Sonnet 4.6 với đầu vào $3 và đầu ra $15, Claude Opus 4.7 với đầu vào $5 và đầu ra $25, cùng GPT-5.5 với đầu vào $5 và đầu ra $30, khiến nó trở thành mô hình frontier cỡ lớn rẻ nhất
-
Tối ưu hiệu quả là nền tảng cho mức giá thấp
- Bài báo của DeepSeek cho biết đợt phát hành này tập trung mạnh vào hiệu quả của prompt ngữ cảnh dài
- Ở ngữ cảnh 1 triệu token, DeepSeek-V4-Pro chỉ còn 27% FLOPs mỗi token đơn và kích thước KV cache chỉ còn 10% so với DeepSeek-V3.2
- Trong cùng điều kiện, DeepSeek-V4-Flash giảm xuống còn 10% FLOPs mỗi token đơn và kích thước KV cache chỉ còn 7% so với DeepSeek-V3.2
-
Trong benchmark thì đã tiệm cận frontier nhưng vẫn chưa vào nhóm dẫn đầu
- Benchmark tự công bố của DeepSeek cho thấy mô hình Pro có khả năng cạnh tranh với các mô hình frontier khác
- Theo bài báo, DeepSeek-V4-Pro-Max khi áp dụng mở rộng token suy luận đạt hiệu năng cao hơn GPT-5.2 và Gemini-3.0-Pro trong các benchmark suy luận tiêu chuẩn
- Tuy vậy, nó vẫn thấp hơn đôi chút so với GPT-5.4 và Gemini-3.1-Pro, đồng thời cho thấy quỹ đạo phát triển chậm hơn khoảng 3–6 tháng so với các mô hình frontier tối tân nhất
- Cộng đồng cũng kỳ vọng huggingface.co/unsloth/models sẽ sớm có các bản lượng tử hóa từ Unsloth, và việc mô hình Flash chạy tốt đến đâu trên máy cục bộ vẫn là điểm đáng quan tâm
2 bình luận
Trước hết, việc nó thực sự rất rẻ là điểm tốt, nhưng vấn đề là quá chậm.... việc mà codex mất 5 phút thì nó ngồi nghĩ 20 phút. Vì vậy thay vì dùng để triển khai, mình đang dùng nó cho mục đích review code, mà khoản review code thì nó làm khá tốt nên cũng thấy hài lòng.
Ý kiến trên Hacker News
Với tôi, điểm khác biệt lớn nhất là DeepSeek chỉ đơn giản làm đúng việc được giao. Gần đây tôi thử cả GPT lẫn Claude cho mục đích reverse engineering, nhưng cả hai đều từ chối, thậm chí tài khoản OpenAI của tôi còn bị cảnh báo
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
Tôi thật sự bực mình, đúng kiểu meme Patrick trong SpongeBob ngày xưa. Tôi không hiểu vì sao người ta cứ muốn biến model thành lực lượng thực thi pháp luật. Việc bất hợp pháp vẫn là bất hợp pháp, và đã có chuyên gia xử lý tội phạm rồi. Google không cần phải làm trọng tài cho chân lý và công lý. Cơ quan thực thi pháp luật vốn đã rất khó bị buộc trách nhiệm, nhưng ít ra họ còn làm việc cho chúng ta
Đồng nghiệp dev ơi, rốt cuộc chúng ta đang xây dựng một thế giới kiểu gì vậy? Chuyện này điên rồ thật. Hãy tưởng tượng một cái búa nói rằng “đừng dùng tôi cho ốc vít, chỉ được đóng đinh thôi. Làm nữa tôi sẽ tự hủy.” Tôi thật sự mong người ta ngừng làm loại phần mềm này
Hãy tưởng tượng sau khi OpenAI thâu tóm 20 công ty, bạn bỗng không dùng được Figma hay Next chỉ vì trước đây từng lỡ bước qua một ranh giới mơ hồ. Không chỉ riêng OpenAI mà cả hệ sinh thái này đang trở nên quá khó đoán
Tôi hỏi Gemini về một câu trích trong Catch-22, hoàn toàn không có bạo lực hay tình dục, thế mà nó cứ dừng giữa lúc stream và bảo không thể nói. Trong sách đúng là có những nội dung như vậy, nhưng điều đó lại khiến tôi nghĩ chỉ vì thế mà cả tài khoản workspace có thể bị trừ điểm
Lý tưởng nhất thì tương lai nên là local, nhưng xét chi phí thực tế và điện năng trong vài năm tới, tôi không biết điều đó thực tế tới đâu với đa số mọi người. Nếu ở trong hệ đó thì chip M* có lẽ là ngoại lệ
DeepSeek v4 Pro cho tôi cảm giác về tính cách khá giống Claude Opus 4.6, còn về chi phí thì rất ấn tượng
Tôi đã yêu cầu nó chỉ tập trung vào một endpoint duy nhất trong một codebase TypeScript khá lớn, rà sâu qua từng lớp API, DTO, service và model cơ sở dữ liệu, hiểu đầy đủ các type liên quan và tránh tạo ra type tạm
Nó tóm tắt cực ngắn nhưng trúng ý về các type được đưa vào, type nào được trả về, v.v., rồi sau đó tôi yêu cầu đơn giản hóa toàn bộ
Cả hai prompt chắc hẳn phải quét qua rất nhiều file, nhưng tổng chi phí của bản Pro chỉ là $0.09. Nếu là Claude Opus thì ngay cả theo mức giá trước khi tăng, chỉ riêng hai prompt này cũng rất dễ ngốn khoảng $9~$13, mà lợi ích thêm vào có lẽ không nhiều
Nhân tiện, tôi dùng trực tiếp DeepSeek API chứ không qua OpenRouter. Vì bản thân OpenRouter đang bị phía DeepSeek giới hạn tốc độ
Vì vậy tôi đã dùng tree-sitter để parse code thành graph, rồi tạo một MCP dựa trên Prolog để model có thể hỏi những câu như “mọi hàm kết nối với hàm này là gì?” Muốn xem một endpoint cụ thể làm gì thì có thể lần theo toàn bộ call subgraph một cách tầm thường và có thể dự đoán được
https://github.com/yogthos/chiasmus
Liên quan chuyện này, có một bản demo trực tiếp chạy DeepSeek v4 Flash trên MacBook 128GB. Video bằng tiếng Ý nhưng có phụ đề tiếng Anh
https://www.youtube.com/watch?v=todMmp6AGCE
Tôi đã gắn nó vào vscode copilot và thử cả flash lẫn pro. Với các proof of concept nhỏ thì flash là đủ, khá nhanh và cực rẻ
Nó có khựng vài lần, có thể do độ trễ, nhưng kết quả vẫn tốt. Tôi dùng pro cho các việc nặng và lập kế hoạch, và nó làm rất ổn
Tôi trả khoảng 10 xu cho một proof of concept nhỏ, và nó hoạt động đúng chính xác như tôi prompt. Với tôi đây là phương án thay thế thật sự sau khi hủy GitHub Copilot vào cuối tháng này
Dù chi phí thấp hơn các model tuyến đầu, có hai yếu tố khiến DS4 Pro và K2.6 không rẻ như vẻ bề ngoài
DS4 Pro có giảm giá trên API chính thức, nhưng điều này thường bị bỏ qua hoặc lẫn lộn trong các cuộc thảo luận. Simon đã dùng giá niêm yết trong so sánh nên ở đây không vấn đề gì
Vấn đề còn lại là DS4 Pro và K2.6 thường dùng nhiều reasoning token hơn hẳn các model tuyến đầu. Trong thử nghiệm của tôi, có vài trường hợp bệnh lý nơi token bị đốt quá nhiều đến mức chi phí request có thể ngang với model tuyến đầu. Công bằng mà nói thì tôi đang dùng DS và Kimi qua nhà cung cấp bên thứ ba, nên cũng có thể là do cấu hình phía đó
Tuy nhiên nếu xem trang model trên Artificial Analysis, trong benchmark trí tuệ thì DSv4 Pro dùng 190M token, K2.6 dùng 170M token, còn GPT 5.5 high chỉ dùng 45M
Tôi khuyên nên xem “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, trên UI là mục “Intelligence vs Cost”. Model mã nguồn mở vẫn rẻ hơn, nhưng không đến mức như người ta kỳ vọng nếu chỉ nhìn giá token
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
Họ đã giới thiệu HCA và mCH, một cách khá mới để cải thiện hiệu quả ngữ cảnh dài và attention. So với v3.2, nó chỉ cần 27% FLOP cho suy luận và 10% cho KV cache. Nghĩa là cùng một lượng tài nguyên tính toán thì có thể phục vụ hơn gấp 3 lần, và chỉ cần 30% KV cache trước đây
Hơn nữa, bản phát hành này mới chỉ là PREVIEW. DeepSeek là một phòng nghiên cứu công bố thật sự, và ở mỗi bản phát hành họ không chỉ làm ra khá nhiều thứ mà còn công khai và chia sẻ chúng. Tôi đang chạy nó local
Nói về mức độ “rẻ” nhé: với v3.2, ở ngữ cảnh 256k thì GPU hết bộ nhớ và bị tràn sang RAM hệ thống, mà tôi vẫn thấy ổn với khoảng 7 nghìn token mỗi giây. Lần này thì toàn bộ ngữ cảnh 1 triệu token nằm 100% trong bộ nhớ GPU, chạy nhanh hơn gấp đôi và kết quả còn tốt hơn
Cái này thực sự rất rẻ. Moonshot đã nói rất rõ là họ thiếu GPU nên mới như vậy. Nếu họ có dung lượng GPU như Mỹ và được hỗ trợ model như ở đây, có lẽ họ đã phát miễn phí rồi
Trước đây khi thử làm vậy với Opus 4.6, nó đã đốt sạch ngân sách $10 tôi đặt ra trước khi prompt đầu tiên kịp quay về
Ngay cả nếu tính theo giá đã giảm mạnh, thì lời giải hoàn chỉnh cũng chỉ tốn mức một chữ số đô la, còn Opus thì tốn mức hai chữ số đô la mà chính xác là không thu được gì
V4 rõ ràng đã nhảy lên một bậc so với V3.2 trong benchmark đa ngôn ngữ của chúng tôi
Tuy vậy có hai điểm cần lưu ý. Khi suy luận qua OpenRouter thì tốc độ (TPS) rất chậm và thường có nhiều vấn đề thiếu ổn định. Ngay lúc này tôi kiểm tra thì mọi nhà cung cấp khả dụng đều chỉ ở mức 10~30 TPS, không cao đối với một model suy nghĩ nhiều như DeepSeek
API chính thức của DeepSeek cũng không đảm bảo quyền riêng tư dữ liệu ngay cả cho người dùng trả phí
Nếu dùng qua Azure AI Foundry thì có thể cả hai điểm này đều không còn là vấn đề. Điểm sau theo như tôi biết là vậy, còn tôi vẫn chưa tự kiểm chứng
Dù sao thì vẫn đáng mừng khi có thêm các model open-weight cạnh tranh được phần nào với các model hàng đầu mới nhất
API chính thức của DeepSeek, nếu dùng liên tục trong các phiên dài trên cùng một codebase, có tỷ lệ cache hit trên 99%, nên rẻ hơn model tuyến đầu rất nhiều. Có ví dụ về một phiên 200M token trong claude code
Tôi ngạc nhiên là mọi người gần như không hề bận tâm chuyện các model kiểu này công khai huấn luyện trên chính dữ liệu của họ, nhất là khi dùng trực tiếp API của nhà phát triển model
Những chuyện như “GitHub giờ tự động opt-in code của mọi người vào huấn luyện model” thì có hàng trăm bình luận tức giận rất chính đáng, nhưng khi nói đến việc dùng model Trung Quốc qua OpenRouter thì chi tiết này gần như chẳng còn được nhắc tới. Có thể giải thích bằng “đó là những nhóm người khác nhau”, nhưng độ chênh quá rõ nên khó tin chỉ có vậy
Đây là một trong những lợi thế lớn của open-weight. Cả Trung Quốc lẫn Mỹ đều không lấy dữ liệu của tôi
Việc này khiến tôi có hy vọng rằng ngay cả khi gánh xiếc trợ giá kết thúc và mọi thứ đều chuyển sang thuần trả theo mức sử dụng, thì nó cũng sẽ không hoàn toàn loại trừ những người bình thường không có ngân sách $200 mỗi tháng
Một là chúng ta liên tục tìm ra cách nhồi thêm trí tuệ vào các model nhỏ hơn, nên cùng một cấu hình phần cứng theo thời gian sẽ cung cấp nhiều năng lực model hơn
Hai là phần cứng tiếp tục cải thiện và nguồn cung dần bắt kịp nhu cầu, nên cùng 1 đô la theo thời gian sẽ mua được cấu hình phần cứng tốt hơn
Tôi hy vọng rồi sẽ có ngày chúng ta nhìn lại mô hình “truy cập AI qua API của nhà cung cấp” giống như cách ngày nay nhìn lại thời ai cũng phải kết nối vào mainframe của công ty
Tôi đã dùng v4 pro vài ngày qua, và về chất lượng thì nhìn chung nó có vẻ ngang OpenAI 5.4 hoặc Opus 4.6. Tôi chưa thử 4.7
Nói rõ là tôi không làm việc gì quá tiên phong. Chủ yếu tôi dùng cho phát triển frontend, mà tôi không giỏi mảng đó nên chỉ cần các prototype trông hợp lý
Với mục đích của tôi thì đây là model hoàn toàn ổn và giá cả hợp lý. Chỉ là tôi thật sự đang chờ một model mở nhỏ đủ để chạy local. Tôi không thích phải phụ thuộc vào máy của người khác và để dữ liệu của mình rò ra trong quá trình đó
Nhân tiện, tôi là đồng sáng lập. Cách này chạy model bên trong secure enclave, và xác minh rằng mã nguồn mở chạy trong enclave khớp với chứng thực runtime. Nó dùng NVIDIA confidential computing
Tài liệu có mô tả quy trình xác minh: https://docs.tinfoil.sh/verification/verification-in-tinfoil