- Giá API DeepSeek-V4-Pro chính thức được giữ ở mức 1/4 giá cũ ngay cả sau khi chương trình giảm giá 75% kết thúc
- Việc tính phí dựa trên mức giá cho mỗi 1 triệu token, và sẽ bị trừ trực tiếp khỏi số dư theo lượng sử dụng token đầu vào và token đầu ra
- Các mô hình được hỗ trợ là DeepSeek-V4-Flash và DeepSeek-V4-Pro; cả hai đều hỗ trợ chế độ không suy luận và chế độ suy luận, với mặc định là chế độ suy luận
- Cả hai mô hình đều có độ dài ngữ cảnh là 1M, đầu ra tối đa là 384K, và giới hạn đồng thời khác nhau: Flash 2500, Pro 500
- Giá cache hit cho đầu vào của tất cả mô hình đã được hạ xuống còn 1/10 giá khi ra mắt, và điều chỉnh này có hiệu lực từ 12:15 UTC ngày 26/4/2026
Tiêu chí tính phí
- Đơn vị giá là mức phí cho mỗi 1 triệu token; token là đơn vị văn bản nhỏ nhất mà mô hình nhận diện, có thể là từ, số hoặc dấu câu
- Cơ sở tính phí là tổng lượng token đầu vào và token đầu ra của mô hình
- Chi phí được tính bằng
số token × đơn giá, và sẽ bị trừ trực tiếp từ số dư nạp hoặc số dư cấp phát
- Nếu có cả số dư nạp và số dư cấp phát, số dư cấp phát sẽ được sử dụng trước
- Giá sản phẩm có thể thay đổi, và DeepSeek bảo lưu quyền điều chỉnh giá
- Nên nạp tiền theo mức sử dụng thực tế và thường xuyên kiểm tra giá mới nhất trên trang này
Mô hình và giá
-
Mô hình được hỗ trợ
- Cung cấp DeepSeek-V4-Flash và DeepSeek-V4-Pro
- Cả hai mô hình đều hỗ trợ chế độ không suy luận và chế độ suy luận, với mặc định là chế độ suy luận
- Tên mô hình
deepseek-chat và deepseek-reasoner sẽ bị ngừng hỗ trợ trong tương lai
- Để đảm bảo tương thích,
deepseek-chat tương ứng với chế độ không suy luận của deepseek-v4-flash, còn deepseek-reasoner tương ứng với chế độ suy luận của deepseek-v4-flash
-
Endpoint và tính năng
-
Ngữ cảnh và giới hạn đầu ra
- Độ dài ngữ cảnh là 1M
- Đầu ra tối đa là 384K
Giá cho mỗi 1 triệu token
| Hạng mục |
DeepSeek-V4-Flash |
DeepSeek-V4-Pro |
| Token đầu vào, cache hit |
$0.0028 |
$0.003625 |
| Token đầu vào, cache miss |
$0.14 |
$0.435 |
| Token đầu ra |
$0.28 |
$0.87 |
| Giới hạn đồng thời |
2500 |
500 |
-
Điều chỉnh giảm giá DeepSeek-V4-Pro
- Giá DeepSeek-V4-Pro được hiển thị theo mức giảm 75%
- Giá token đầu vào cache hit giảm từ $0.0145 xuống $0.003625
- Giá token đầu vào cache miss giảm từ $1.74 xuống $0.435
- Giá token đầu ra giảm từ $3.48 xuống $0.87
- Ngay cả sau khi chương trình giảm giá 75% kết thúc vào 15:59 UTC ngày 31/5/2026, giá API DeepSeek-V4-Pro vẫn được chính thức điều chỉnh xuống còn 1/4 mức giá cũ
-
Giảm giá cache hit
- Giá cache hit cho đầu vào của tất cả mô hình đã được giảm xuống còn 1/10 giá khi ra mắt
- Điều chỉnh giá này có hiệu lực từ 12:15 UTC ngày 26/4/2026
-
Giới hạn đồng thời
- Giới hạn đồng thời của DeepSeek-V4-Flash là 2500
- Giới hạn đồng thời của DeepSeek-V4-Pro là 500
- Có thể xem chi tiết về giới hạn đồng thời tại Rate Limit & Isolation
1 bình luận
Ý kiến Hacker News
Nếu họ tung ra coding agent riêng, có lẽ tôi sẽ bắt đầu dùng mô hình DeepSeek làm chủ lực
Có vẻ họ đang tiếp tục làm những việc “đi đúng hướng”, như mở nguồn mô hình, công bố nghiên cứu và giữ giá thấp
Có thể dùng V4 Pro trong Claude Code 1
Tôi đã thử trực tiếp và thấy rất ấn tượng
Nó cũng hợp với OpenCode rất tốt
Nhóm chúng tôi thường xuyên đụng phải giới hạn 5 giờ của các dịch vụ thuê bao khác, nên có DeepSeek làm phương án dự phòng thì khá ổn
Tôi chỉ nạp 50 USD mà có cảm giác sẽ chẳng bao giờ dùng hết
Dù vẫn chưa đến mức thay thế hoàn toàn các mô hình tối tân, nhưng làm phương án dự phòng thì chắc chắn rất xuất sắc
Tôi không nghĩ DeepSeek nhất thiết phải cung cấp cả coding agent
Chỉ cần gắn mô hình vào bất kỳ coding agent có sẵn nào là được
Cá nhân tôi thích Pi, nhưng ai hợp cái nào thì dùng cái đó
Từ đầu tuần này tôi đã bắt đầu thử các mô hình Trung Quốc trên codebase của mình
Tôi chưa xem nhiều phần coding hội thoại, mà chủ yếu là phân loại issue, tự sửa bug, phân tích log..., và đã so DeepSeek, Kimi, GLM, Qwen, MiMO với GPT-5.5 high, tất cả đều chạy trên harness Pi mà không cần cài đặt
Cho tới giờ thì Kimi và MiMO trông có vẻ hứa hẹn nhất
Tôi chưa thử đủ nghiêm ngặt để kết luận, nhưng ấn tượng ban đầu là trong các tác vụ công việc hằng ngày thông thường, những mô hình này có thể không thua xa như nhiều người nghĩ
Tuy vậy, chúng giống kiểu “chăm chỉ hơn là thông minh”, nên đi đến kết quả tương tự chậm hơn và tốn nhiều token hơn, nhưng giá thì rẻ hơn rất nhiều
Tôi muốn coding agent có mức độ độc lập nhất định với nhà cung cấp mô hình
Các nhà cung cấp thay đổi chất lượng, tính năng và giá quá thường xuyên, nên tôi không muốn cứ mỗi lần như vậy lại phải đổi cả agent
Hy vọng tình hình rồi sẽ chậm lại và ổn định hơn
Không phải là phải như vậy ngay bây giờ, nhưng sẽ tốt nếu đến lúc đó
Nếu bạn vẫn chưa thử DeepSeek V4 thì đang bỏ lỡ khá nhiều
Nó tốt đến mức khó tin so với mức giá
Chuỗi suy luận của DeepSeek đọc thực sự rất thú vị
OpenCode không hiển thị, nhưng nếu tự đọc thì bạn có thể sẽ ngạc nhiên vì mô hình này bị đánh giá thấp đến mức nào
Tôi dùng mô hình rất ít, nhưng vẫn đều đặn trả tiền trực tiếp cho DeepSeek như một cách cảm ơn việc họ mở nguồn mô hình và thể hiện sự ủng hộ với điều mà tôi xem là lợi ích xã hội nói chung
Nó tốt và rẻ, nhưng nếu nhắc tới chính trị thì có thể sẽ kích hoạt kiểu quy tắc kiểm duyệt nào đó
Tôi từng xem quá trình suy luận của nó thì thấy nó đột ngột xóa sạch mọi thứ rồi đề nghị chuyển sang chủ đề khác mà không giải thích gì
Có lần nó còn xuất ra một thông điệp chung chung kiểu báo chí phải phục vụ nhân dân
Cả hai trường hợp đều không phải yêu cầu nhạy cảm, bất hợp pháp hay lật đổ gì cả
Nhưng chỉ cần hơi mang tính chính trị là đủ
Kiểu kiểm duyệt ở phương Tây thường tinh vi hơn, nên cảm giác này vừa rợn người vừa lạ lùng theo cách nào đó
Đúng vậy, mô hình này thực sự rất tốt
Ở công ty tôi dùng Claude, còn cá nhân thì dùng DeepSeek, vì đây là mô hình duy nhất không tích cực đẩy tôi đến phá sản
Tôi thích V4 Pro cho một số tác vụ nhất định, nhưng trong lập trình thì V4 Flash lại khá ấn tượng
Nó ngắn gọn, đi thẳng vào trọng tâm, ít mắc lỗi và khá nhanh
Trong opencode CLI có hiển thị dấu vết suy luận
Có thể là vấn đề cấu hình
Bạn có thể bật hoặc tắt hiển thị suy luận trong opencode
Mức giá này rẻ đến mức đáng ngờ
Nếu cùng mô hình đó được host bởi nhà cung cấp khác thì đắt hơn rất nhiều 0
Nên либо là DeepSeek có thể host rẻ hơn hẳn nơi khác, либо là mô hình kinh doanh của họ khác, và tôi nghĩ khả năng sau đúng hơn
Đặc biệt là vì trong chính sách quyền riêng tư 1, họ nói có thể dùng dữ liệu cá nhân, bao gồm cả “User Input”, cho “cải tiến và phát triển dịch vụ, huấn luyện và cải thiện công nghệ”
Có thể là câu hỏi ngớ ngẩn, nhưng nhìn OpenRouter thì tôi tự hỏi có thật là nơi cung cấp DeepSeek chỉ có ở Mỹ, Singapore và Trung Quốc thôi sao
Đây có vẻ là sản phẩm quá rõ ràng để các nhà cung cấp ở châu Âu hay phương Tây khác không cung cấp
Tôi tin rằng đây sẽ là bước nhảy lớn hơn nhiều so với Mistral
Tôi muốn thử các mô hình này, nhưng muốn tránh những nhà cung cấp dùng dữ liệu của tôi để huấn luyện hoặc lưu trữ vượt quá các yêu cầu pháp lý tiêu chuẩn
Có nhiều yếu tố cùng tác động
Về mặt hiệu quả stack suy luận, nhiều nhà cung cấp chỉ lấy sglang / vllm / trtllm sẵn có rồi hy vọng điều tốt nhất, còn đội DeepSeek thì nổi tiếng là luôn đẩy giới hạn tối ưu hóa
sglang và vllm là phần mềm tuyệt vời, nhưng nếu nhìn vào sparse attention (DSA) của DeepSeek thì nó đã được giới thiệu từ 1,5 năm trước (https://arxiv.org/abs/2512.02556), và đã được dùng trong DeepSeek 3.2, GLM 5, DeepSeek V4
Chỉ bây giờ các engine suy luận lớn mới bắt đầu dần thêm tối ưu hóa cho nó: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 v.v.)
Dĩ nhiên DS V4 còn thêm tối ưu hóa kiến trúc mô hình trên nền DSA, và các engine suy luận mã nguồn mở sẽ còn cần thời gian để tận dụng hết
Về quyền riêng tư, có một canh bạc rằng mọi người sẽ trả thêm tiền cho suy luận được host ngoài Trung Quốc
Điều này đặc biệt đúng vì DeepSeek minh bạch nói rằng họ dùng dữ liệu API để cải thiện mô hình
Ngoài ra còn có các yếu tố như quy mô hoạt động (rất quan trọng với MoE), độ tin cậy và kiểu khóa chặt khách hàng doanh nghiệp một cách mềm mại
Cũng rất có thể có sự thông đồng ngầm
Nhìn giá GLM 5 và GLM 5.1 thì chi phí vận hành của hai bản là như nhau, nhưng 5.1 là mô hình tốt hơn nhiều, và vì Z.AI cũng tăng giá nên các nhà cung cấp đã niêm yết 5.1 ở mức cao hơn
Rõ ràng là họ đang bán lỗ
Nhưng tại sao lại không chứ
Chấp nhận lỗ để giành thị phần đâu phải đặc quyền riêng của nước Mỹ
Có thể bạn chưa biết đủ về nhà sáng lập DeepSeek là Liang Wenfeng
Ông ấy cũng là nhà sáng lập của High-Flyer Quant
Tôi tò mò hơn về phần caching
Họ viết rằng “giá cache hit cho đầu vào của tất cả mô hình đã được giảm xuống 1/10 giá ra mắt, và điều chỉnh giá này có hiệu lực từ 12:15 UTC ngày 2026/4/26”
Không có ngày kết thúc
Hiện tại DeepSeek V4 Flash có giá bằng 2% giá đầu vào, còn với mức giá V4 Pro lần này là 0,8%, cực thấp so với đối thủ và đủ ảnh hưởng tới economics theo đơn vị nên tôi tưởng nó chỉ là tạm thời
Với V4 Pro, chi phí thực tế nếu tính cả caching là khoảng $0.04 cho mỗi 1 triệu token đầu vào (theo chỉ số OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
Còn rẻ hơn rất nhiều so với các mô hình nhỏ của đối thủ
KV cache của DeepSeek V4 rất hiệu quả nhờ kiến trúc sparse attention được nén mạnh
DeepSeek V3.2 chỉ dùng DSA là mô hình nhỏ hơn, nhưng với cửa sổ ngữ cảnh 1 triệu token lại dùng bộ nhớ gấp 10 lần DS V4 Pro
Ngoài ra API DeepSeek có cache hit rate rất tốt
Với cùng khối lượng công việc, các nhà cung cấp suy luận phương Tây lớn cung cấp mô hình open-weight chỉ đạt khoảng 50% KV cache hit rate, còn API DS thì khoảng 80%
Điểm lớn của DeepSeek V4 là kích thước KV cache đã giảm đi rất nhiều
Flash tự thân không phải mô hình cực kỳ cạnh tranh, và giá của nó cũng nằm trong cùng mặt bằng với các mô hình khác trên thị trường
Đối thủ trực tiếp nhất của Flash có lẽ là những cái như sau
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
Nên không hẳn là thứ gì mang tính ma thuật hay đột phá đặc biệt
Sonnet:
Cache Read
$0.30
Gemini 3.5 flash:
Cache Read
$0.15
Hiệu năng trên giá thành quá khủng
Tôi đã dùng GLM 5.1 với GLM Coding Plan Max một thời gian, và cũng thử DeepSeek V4 Pro khoảng 3 tuần, thì với các tác vụ lập trình phức tạp tôi thấy nó tốt hơn GLM 5.1
Tôi đã dùng 65 triệu token và hóa đơn chỉ là 1,5 USD, thực sự quá rẻ
Quá ghê
Với mức giảm giá này, DeepSeek V4 Pro trở nên cực rẻ so với các mô hình khác ngay cả trong cùng phân khúc
Nếu nhìn giá trên mỗi 1 triệu token đầu ra thì như sau
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
Trong workflow agent, khoản này có thể là phần chi phối chính, và chi phí đọc cache của DeepSeek thấp đến mức không cùng một đẳng cấp so sánh
Chỉ $0.003626 cho mỗi 1 triệu token, trong khi cái rẻ tiếp theo trong danh sách cũng hơn $0.2 cho mỗi 1 triệu token
Chênh lệch gần như ở quy mô 100 lần
Nghĩa là hoàn toàn có thể suy luận hiệu quả nếu không phải cho phép người dùng đốt tiền vô hạn mà không ràng buộc
Nếu hai tháng sau khi đăng ký mà họ biến Opus thành còn tệ hơn GPT-3 để cắt chi phí, thì Opus có tốt đến đâu cũng chẳng còn ý nghĩa gì
Ngay cả khi tính mức giảm giá của V4 Pro thì V4 Flash vẫn cho hiệu năng trên mỗi USD tốt nhất, và với các tác vụ kiểu agent, dùng công cụ nhiều thì tổng thể còn làm tốt hơn
V4 Pro thông minh hơn ở suy luận một phát, nhưng chênh lệch tốc độ rất lớn
Nếu gộp hiệu năng, chi phí và tốc độ lại, thì hiện tại theo tiêu chí của chúng tôi V4 Flash là mô hình flash tốt nhất một cách khá áp đảo
Dữ liệu nằm ở https://gertlabs.com/rankings
Kiến trúc MLA của họ giúp giảm KV cache khoảng 5 đến 13 lần so với attention tiêu chuẩn
Nên đây không chỉ là chiến tranh giá để giành thị phần, mà chi phí chạy suy luận thực sự thấp hơn
Nó cho phép ngữ cảnh dài, batch inference và lưu KV cache xuống đĩa trên các nền tảng tiêu dùng phổ thông
Đợt giảm giá này có lẽ là một thử nghiệm thị trường sau phát hành để kiểm tra việc caching hoạt động hiệu quả đến đâu trên thế hệ mô hình mới
Tôi lo về rò rỉ dữ liệu ngoài ý muốn ở mô hình host tại Trung Quốc hơn là mô hình host tại Mỹ
Ví dụ như trường hợp agent đọc file env
Có sai không nếu nghi ngờ rằng chính phủ Trung Quốc sẽ có khả năng cao hơn chính phủ hoặc công ty Mỹ trong việc quét toàn bộ hội thoại và lưu lại thông tin hữu ích?
Tôi còn ngần ngại khi viết bình luận này vì nghe có thể thiên kiến và bài ngoại
Tôi mong có ai đó thuyết phục tôi rằng mình sai
Có ai biết công ty đứng sau dịch vụ host DeepSeek là ai không, và họ có lịch sử tôn trọng quyền riêng tư dữ liệu hay không?
Đây không phải lo ngại vô lý
Đó là lý do phần lớn công ty Mỹ thích AWS Bedrock hoặc các AI lab, và thường yêu cầu hợp đồng không lưu trữ dữ liệu
Nhưng dù host ở đâu thì rủi ro rò rỉ vẫn tồn tại, chỉ khác ở cấu trúc động cơ
Ví dụ các lab cũng quét toàn bộ hội thoại và huấn luyện trên dữ liệu không được bảo vệ bằng hợp đồng ZDR cho doanh nghiệp
Cơ quan thực thi pháp luật có thể yêu cầu truy cập toàn bộ dữ liệu người dùng trong trường hợp có trát hợp lệ hoặc tình huống khẩn cấp 1
Nếu bạn muốn dùng DeepSeek V4 một cách riêng tư, có thể thử Tinfoil(tinfoil.sh)
Họ host tất cả mô hình trong enclave phần cứng bảo mật có thể kiểm chứng, để suy luận riêng tư đầu cuối
Xin nói rõ là tôi là một trong các đồng sáng lập
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Dùng qua Azure là được
Họ host toàn bộ mô hình và cung cấp tại Mỹ
Có lẽ sẽ còn những nhà cung cấp khác như vậy
Chúng tôi đang dùng theo cách đó và thấy rất ổn
Dù họ có làm vậy tôi cũng sẽ không ngạc nhiên
Nếu các mô hình đặt trụ sở ở Mỹ làm điều tương tự cho chính phủ khác thì tôi cũng không bất ngờ lắm
Tôi không kỳ vọng nhiều về tính bảo mật dữ liệu
Microsoft thì đánh dấu đủ mọi checkbox doanh nghiệp, nhưng Azure đôi khi vẫn bị xâm phạm
Tôi cho rằng khả năng đó không phải bằng 0
Bắc Kinh có thể bất cứ lúc nào kết luận rằng DeepSeek đã trở nên quá mạnh hoặc là một mặt hàng xuất khẩu chủ lực và can thiệp
Cũng chẳng có gì đảm bảo là họ chưa làm vậy rồi
Có rất nhiều báo cáo nói rằng các tác nhân nước ngoài, không chỉ riêng Trung Quốc, đã xâm nhập quy mô lớn vào những mạng lưới trọng yếu trải rộng qua nhiều ngành công nghiệp ở Mỹ và đang chờ khai thác vào thời điểm thích hợp
Các mô hình tối tân cũng là một vector tấn công nữa, và nghĩ kỹ thì còn dễ bị lạm dụng hơn nhiều
Thực ra nếu là mô hình host trên cloud thì ở đâu cũng có khả năng này
Dù là do công ty làm mô hình cố ý hay do tác nhân độc hại khai thác lỗ hổng cũng vậy
Tôi không đủ quan trọng để ai đó ở Trung Quốc phải nhắm vào mình
Và DeepSeek cần duy trì đủ niềm tin để người dùng tiếp tục dùng nền tảng
Nếu họ hành xử như keylogger đi đánh cắp ví crypto của mọi người thì niềm tin sẽ sụp đổ
Nếu tôi làm việc gì đó mà chính phủ Trung Quốc xem là quan trọng về chiến lược thì dĩ nhiên tôi sẽ lo, nhưng tôi không làm việc đó
Thực ra tôi còn lo hơn về việc các tỷ phú công nghệ ở đất nước này dùng LLM để lập hồ sơ diện rộng về tôi, rồi tạo ra ở đây một thứ còn phản địa đàng hơn cả điểm tín nhiệm xã hội có thật hay tưởng tượng của Trung Quốc
Những người cố thuyết phục bạn, một cá nhân ở Mỹ, rằng bạn nên lo về chính phủ Trung Quốc có khi lại chính là những người đáng lo nhất
Nếu ai đó định gắn vào copilot, trước đây tôi có viết một script proxy để xử lý kết nối và có thể sẽ hữu ích: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...