DeepSeek áp dụng vĩnh viễn việc giảm giá cho V4 Pro

(api-docs.deepseek.com)

3 điểm bởi GN⁺ 2026-05-23 | 3 bình luận | Chia sẻ qua WhatsApp

Giá API DeepSeek-V4-Pro chính thức được giữ ở mức 1/4 giá cũ ngay cả sau khi chương trình giảm giá 75% kết thúc
Việc tính phí dựa trên mức giá cho mỗi 1 triệu token, và sẽ bị trừ trực tiếp khỏi số dư theo lượng sử dụng token đầu vào và token đầu ra
Các mô hình được hỗ trợ là DeepSeek-V4-Flash và DeepSeek-V4-Pro; cả hai đều hỗ trợ chế độ không suy luận và chế độ suy luận, với mặc định là chế độ suy luận
Cả hai mô hình đều có độ dài ngữ cảnh là 1M, đầu ra tối đa là 384K, và giới hạn đồng thời khác nhau: Flash 2500, Pro 500
Giá cache hit cho đầu vào của tất cả mô hình đã được hạ xuống còn 1/10 giá khi ra mắt, và điều chỉnh này có hiệu lực từ 12:15 UTC ngày 26/4/2026

Tiêu chí tính phí

Đơn vị giá là mức phí cho mỗi 1 triệu token; token là đơn vị văn bản nhỏ nhất mà mô hình nhận diện, có thể là từ, số hoặc dấu câu
Cơ sở tính phí là tổng lượng token đầu vào và token đầu ra của mô hình
Chi phí được tính bằng số token × đơn giá, và sẽ bị trừ trực tiếp từ số dư nạp hoặc số dư cấp phát
Nếu có cả số dư nạp và số dư cấp phát, số dư cấp phát sẽ được sử dụng trước
Giá sản phẩm có thể thay đổi, và DeepSeek bảo lưu quyền điều chỉnh giá
Nên nạp tiền theo mức sử dụng thực tế và thường xuyên kiểm tra giá mới nhất trên trang này

Mô hình và giá

Mô hình được hỗ trợ
- Cung cấp DeepSeek-V4-Flash và DeepSeek-V4-Pro
- Cả hai mô hình đều hỗ trợ chế độ không suy luận và chế độ suy luận, với mặc định là chế độ suy luận
- Tên mô hình deepseek-chat và deepseek-reasoner sẽ bị ngừng hỗ trợ trong tương lai
- Để đảm bảo tương thích, deepseek-chat tương ứng với chế độ không suy luận của deepseek-v4-flash, còn deepseek-reasoner tương ứng với chế độ suy luận của deepseek-v4-flash
Endpoint và tính năng
- Base URL theo định dạng Anthropic là https://api.deepseek.com/anthropic
- Cách chuyển đổi chế độ suy luận có thể xem tại Thinking Mode
- Tài liệu tính năng liên quan gồm Json Output, Tool Calls, Chat Prefix Completion（Beta）, FIM Completion（Beta）
Ngữ cảnh và giới hạn đầu ra
- Độ dài ngữ cảnh là 1M
- Đầu ra tối đa là 384K

Giá cho mỗi 1 triệu token

Hạng mục	DeepSeek-V4-Flash	DeepSeek-V4-Pro
Token đầu vào, cache hit	$0.0028	$0.003625
Token đầu vào, cache miss	$0.14	$0.435
Token đầu ra	$0.28	$0.87
Giới hạn đồng thời	2500	500

Điều chỉnh giảm giá DeepSeek-V4-Pro
- Giá DeepSeek-V4-Pro được hiển thị theo mức giảm 75%
- Giá token đầu vào cache hit giảm từ $0.0145 xuống $0.003625
- Giá token đầu vào cache miss giảm từ $1.74 xuống $0.435
- Giá token đầu ra giảm từ $3.48 xuống $0.87
- Ngay cả sau khi chương trình giảm giá 75% kết thúc vào 15:59 UTC ngày 31/5/2026, giá API DeepSeek-V4-Pro vẫn được chính thức điều chỉnh xuống còn 1/4 mức giá cũ
Giảm giá cache hit
- Giá cache hit cho đầu vào của tất cả mô hình đã được giảm xuống còn 1/10 giá khi ra mắt
- Điều chỉnh giá này có hiệu lực từ 12:15 UTC ngày 26/4/2026
Giới hạn đồng thời
- Giới hạn đồng thời của DeepSeek-V4-Flash là 2500
- Giới hạn đồng thời của DeepSeek-V4-Pro là 500
- Có thể xem chi tiết về giới hạn đồng thời tại Rate Limit & Isolation

3 bình luận

j2sus91 27 ngày trước

Nếu xem điều khoản thì có nói là không có điều khoản nào nêu rõ một cách minh thị rằng việc sử dụng API sẽ không được dùng cho huấn luyện
Mọi người nên tham khảo điểm này khi sử dụng nhé~

myoun 28 ngày trước

Ồ, tốt đấy

GN⁺ 2026-05-23

Ý kiến Hacker News

Nếu họ tung ra coding agent riêng, có lẽ tôi sẽ bắt đầu dùng mô hình DeepSeek làm chủ lực
Có vẻ họ đang tiếp tục làm những việc “đi đúng hướng”, như mở nguồn mô hình, công bố nghiên cứu và giữ giá thấp
- Có thể dùng V4 Pro trong Claude Code 1
  Tôi đã thử trực tiếp và thấy rất ấn tượng
- Nó cũng hợp với OpenCode rất tốt
  Nhóm chúng tôi thường xuyên đụng phải giới hạn 5 giờ của các dịch vụ thuê bao khác, nên có DeepSeek làm phương án dự phòng thì khá ổn
  Tôi chỉ nạp 50 USD mà có cảm giác sẽ chẳng bao giờ dùng hết
  
  Dù vẫn chưa đến mức thay thế hoàn toàn các mô hình tối tân, nhưng làm phương án dự phòng thì chắc chắn rất xuất sắc
- Tôi không nghĩ DeepSeek nhất thiết phải cung cấp cả coding agent
  Chỉ cần gắn mô hình vào bất kỳ coding agent có sẵn nào là được
  Cá nhân tôi thích Pi, nhưng ai hợp cái nào thì dùng cái đó
- Từ đầu tuần này tôi đã bắt đầu thử các mô hình Trung Quốc trên codebase của mình
  Tôi chưa xem nhiều phần coding hội thoại, mà chủ yếu là phân loại issue, tự sửa bug, phân tích log..., và đã so DeepSeek, Kimi, GLM, Qwen, MiMO với GPT-5.5 high, tất cả đều chạy trên harness Pi mà không cần cài đặt
  
  Cho tới giờ thì Kimi và MiMO trông có vẻ hứa hẹn nhất
  Tôi chưa thử đủ nghiêm ngặt để kết luận, nhưng ấn tượng ban đầu là trong các tác vụ công việc hằng ngày thông thường, những mô hình này có thể không thua xa như nhiều người nghĩ
  
  Tuy vậy, chúng giống kiểu “chăm chỉ hơn là thông minh”, nên đi đến kết quả tương tự chậm hơn và tốn nhiều token hơn, nhưng giá thì rẻ hơn rất nhiều
- Tôi muốn coding agent có mức độ độc lập nhất định với nhà cung cấp mô hình
  Các nhà cung cấp thay đổi chất lượng, tính năng và giá quá thường xuyên, nên tôi không muốn cứ mỗi lần như vậy lại phải đổi cả agent
  
  Hy vọng tình hình rồi sẽ chậm lại và ổn định hơn
  Không phải là phải như vậy ngay bây giờ, nhưng sẽ tốt nếu đến lúc đó
Nếu bạn vẫn chưa thử DeepSeek V4 thì đang bỏ lỡ khá nhiều
Nó tốt đến mức khó tin so với mức giá

Chuỗi suy luận của DeepSeek đọc thực sự rất thú vị
OpenCode không hiển thị, nhưng nếu tự đọc thì bạn có thể sẽ ngạc nhiên vì mô hình này bị đánh giá thấp đến mức nào

Tôi dùng mô hình rất ít, nhưng vẫn đều đặn trả tiền trực tiếp cho DeepSeek như một cách cảm ơn việc họ mở nguồn mô hình và thể hiện sự ủng hộ với điều mà tôi xem là lợi ích xã hội nói chung
- Nó tốt và rẻ, nhưng nếu nhắc tới chính trị thì có thể sẽ kích hoạt kiểu quy tắc kiểm duyệt nào đó
  Tôi từng xem quá trình suy luận của nó thì thấy nó đột ngột xóa sạch mọi thứ rồi đề nghị chuyển sang chủ đề khác mà không giải thích gì
  Có lần nó còn xuất ra một thông điệp chung chung kiểu báo chí phải phục vụ nhân dân
  
  Cả hai trường hợp đều không phải yêu cầu nhạy cảm, bất hợp pháp hay lật đổ gì cả
  Nhưng chỉ cần hơi mang tính chính trị là đủ
  Kiểu kiểm duyệt ở phương Tây thường tinh vi hơn, nên cảm giác này vừa rợn người vừa lạ lùng theo cách nào đó
- Đúng vậy, mô hình này thực sự rất tốt
  Ở công ty tôi dùng Claude, còn cá nhân thì dùng DeepSeek, vì đây là mô hình duy nhất không tích cực đẩy tôi đến phá sản
- Tôi thích V4 Pro cho một số tác vụ nhất định, nhưng trong lập trình thì V4 Flash lại khá ấn tượng
  Nó ngắn gọn, đi thẳng vào trọng tâm, ít mắc lỗi và khá nhanh
- Trong opencode CLI có hiển thị dấu vết suy luận
  Có thể là vấn đề cấu hình
- Bạn có thể bật hoặc tắt hiển thị suy luận trong opencode
Mức giá này rẻ đến mức đáng ngờ
Nếu cùng mô hình đó được host bởi nhà cung cấp khác thì đắt hơn rất nhiều 0
Nên либо là DeepSeek có thể host rẻ hơn hẳn nơi khác, либо là mô hình kinh doanh của họ khác, và tôi nghĩ khả năng sau đúng hơn
Đặc biệt là vì trong chính sách quyền riêng tư 1, họ nói có thể dùng dữ liệu cá nhân, bao gồm cả “User Input”, cho “cải tiến và phát triển dịch vụ, huấn luyện và cải thiện công nghệ”
- Có thể là câu hỏi ngớ ngẩn, nhưng nhìn OpenRouter thì tôi tự hỏi có thật là nơi cung cấp DeepSeek chỉ có ở Mỹ, Singapore và Trung Quốc thôi sao
  Đây có vẻ là sản phẩm quá rõ ràng để các nhà cung cấp ở châu Âu hay phương Tây khác không cung cấp
  Tôi tin rằng đây sẽ là bước nhảy lớn hơn nhiều so với Mistral
  
  Tôi muốn thử các mô hình này, nhưng muốn tránh những nhà cung cấp dùng dữ liệu của tôi để huấn luyện hoặc lưu trữ vượt quá các yêu cầu pháp lý tiêu chuẩn
- Có nhiều yếu tố cùng tác động
  Về mặt hiệu quả stack suy luận, nhiều nhà cung cấp chỉ lấy sglang / vllm / trtllm sẵn có rồi hy vọng điều tốt nhất, còn đội DeepSeek thì nổi tiếng là luôn đẩy giới hạn tối ưu hóa
  
  sglang và vllm là phần mềm tuyệt vời, nhưng nếu nhìn vào sparse attention (DSA) của DeepSeek thì nó đã được giới thiệu từ 1,5 năm trước (https://arxiv.org/abs/2512.02556), và đã được dùng trong DeepSeek 3.2, GLM 5, DeepSeek V4
  Chỉ bây giờ các engine suy luận lớn mới bắt đầu dần thêm tối ưu hóa cho nó: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 v.v.)
  Dĩ nhiên DS V4 còn thêm tối ưu hóa kiến trúc mô hình trên nền DSA, và các engine suy luận mã nguồn mở sẽ còn cần thời gian để tận dụng hết
  
  Về quyền riêng tư, có một canh bạc rằng mọi người sẽ trả thêm tiền cho suy luận được host ngoài Trung Quốc
  Điều này đặc biệt đúng vì DeepSeek minh bạch nói rằng họ dùng dữ liệu API để cải thiện mô hình
  
  Ngoài ra còn có các yếu tố như quy mô hoạt động (rất quan trọng với MoE), độ tin cậy và kiểu khóa chặt khách hàng doanh nghiệp một cách mềm mại
  
  Cũng rất có thể có sự thông đồng ngầm
  Nhìn giá GLM 5 và GLM 5.1 thì chi phí vận hành của hai bản là như nhau, nhưng 5.1 là mô hình tốt hơn nhiều, và vì Z.AI cũng tăng giá nên các nhà cung cấp đã niêm yết 5.1 ở mức cao hơn
- Rõ ràng là họ đang bán lỗ
  Nhưng tại sao lại không chứ
  Chấp nhận lỗ để giành thị phần đâu phải đặc quyền riêng của nước Mỹ
- Có thể bạn chưa biết đủ về nhà sáng lập DeepSeek là Liang Wenfeng
  Ông ấy cũng là nhà sáng lập của High-Flyer Quant
Tôi tò mò hơn về phần caching
Họ viết rằng “giá cache hit cho đầu vào của tất cả mô hình đã được giảm xuống 1/10 giá ra mắt, và điều chỉnh giá này có hiệu lực từ 12:15 UTC ngày 2026/4/26”

Không có ngày kết thúc
Hiện tại DeepSeek V4 Flash có giá bằng 2% giá đầu vào, còn với mức giá V4 Pro lần này là 0,8%, cực thấp so với đối thủ và đủ ảnh hưởng tới economics theo đơn vị nên tôi tưởng nó chỉ là tạm thời

Với V4 Pro, chi phí thực tế nếu tính cả caching là khoảng $0.04 cho mỗi 1 triệu token đầu vào (theo chỉ số OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
Còn rẻ hơn rất nhiều so với các mô hình nhỏ của đối thủ
- KV cache của DeepSeek V4 rất hiệu quả nhờ kiến trúc sparse attention được nén mạnh
  DeepSeek V3.2 chỉ dùng DSA là mô hình nhỏ hơn, nhưng với cửa sổ ngữ cảnh 1 triệu token lại dùng bộ nhớ gấp 10 lần DS V4 Pro
  
  Ngoài ra API DeepSeek có cache hit rate rất tốt
  Với cùng khối lượng công việc, các nhà cung cấp suy luận phương Tây lớn cung cấp mô hình open-weight chỉ đạt khoảng 50% KV cache hit rate, còn API DS thì khoảng 80%
- Điểm lớn của DeepSeek V4 là kích thước KV cache đã giảm đi rất nhiều
- Flash tự thân không phải mô hình cực kỳ cạnh tranh, và giá của nó cũng nằm trong cùng mặt bằng với các mô hình khác trên thị trường
  Đối thủ trực tiếp nhất của Flash có lẽ là những cái như sau
  
  GPT 5.4 mini
  
  Cache Read
  $0.075
  /M tokens
  
  Gemini 3 flash:
  
  Cache Read
  $0.05
  /M tokens
  
  Nên không hẳn là thứ gì mang tính ma thuật hay đột phá đặc biệt
- Sonnet:
  Cache Read
  $0.30
  
  Gemini 3.5 flash:
  Cache Read
  $0.15
Hiệu năng trên giá thành quá khủng
Tôi đã dùng GLM 5.1 với GLM Coding Plan Max một thời gian, và cũng thử DeepSeek V4 Pro khoảng 3 tuần, thì với các tác vụ lập trình phức tạp tôi thấy nó tốt hơn GLM 5.1
Tôi đã dùng 65 triệu token và hóa đơn chỉ là 1,5 USD, thực sự quá rẻ
- Có vẻ DeepSeek ngốn token nhiều hơn hẳn các mô hình khác
Quá ghê
Với mức giảm giá này, DeepSeek V4 Pro trở nên cực rẻ so với các mô hình khác ngay cả trong cùng phân khúc
Nếu nhìn giá trên mỗi 1 triệu token đầu ra thì như sau

DeepSeek V4 Pro: $0.87

Qwen 3.7 Max: $7.50

Grok 4.3: $2.50

GLM 1.5: $3.08

Opus 4.7: $25.00

GPT-5.5: $30.00
- Nếu tính cả chi phí đọc cache thì thực tế còn rẻ hơn nữa
  Trong workflow agent, khoản này có thể là phần chi phối chính, và chi phí đọc cache của DeepSeek thấp đến mức không cùng một đẳng cấp so sánh
  Chỉ $0.003626 cho mỗi 1 triệu token, trong khi cái rẻ tiếp theo trong danh sách cũng hơn $0.2 cho mỗi 1 triệu token
  Chênh lệch gần như ở quy mô 100 lần
- Lần tới nếu ai đó nói “đừng than phiền vì giới hạn sử dụng, công ty đang lỗ vì gói thuê bao của mày”, tôi sẽ dẫn link bình luận này
  Nghĩa là hoàn toàn có thể suy luận hiệu quả nếu không phải cho phép người dùng đốt tiền vô hạn mà không ràng buộc
- Và họ cũng không làm mô hình tệ đi sau khi bạn đã đăng ký
  Nếu hai tháng sau khi đăng ký mà họ biến Opus thành còn tệ hơn GPT-3 để cắt chi phí, thì Opus có tốt đến đâu cũng chẳng còn ý nghĩa gì
- Là GLM 5.1
Ngay cả khi tính mức giảm giá của V4 Pro thì V4 Flash vẫn cho hiệu năng trên mỗi USD tốt nhất, và với các tác vụ kiểu agent, dùng công cụ nhiều thì tổng thể còn làm tốt hơn
V4 Pro thông minh hơn ở suy luận một phát, nhưng chênh lệch tốc độ rất lớn
Nếu gộp hiệu năng, chi phí và tốc độ lại, thì hiện tại theo tiêu chí của chúng tôi V4 Flash là mô hình flash tốt nhất một cách khá áp đảo

Dữ liệu nằm ở https://gertlabs.com/rankings
- Với use case của tôi, chủ yếu là tóm tắt rất lớn và trích xuất ý tưởng, thì nó tệ hơn Pro khá nhiều
Kiến trúc MLA của họ giúp giảm KV cache khoảng 5 đến 13 lần so với attention tiêu chuẩn
Nên đây không chỉ là chiến tranh giá để giành thị phần, mà chi phí chạy suy luận thực sự thấp hơn
- Đây còn là bước ngoặt cho cả suy luận cục bộ
  Nó cho phép ngữ cảnh dài, batch inference và lưu KV cache xuống đĩa trên các nền tảng tiêu dùng phổ thông
- Đúng vậy
  Đợt giảm giá này có lẽ là một thử nghiệm thị trường sau phát hành để kiểm tra việc caching hoạt động hiệu quả đến đâu trên thế hệ mô hình mới
Tôi lo về rò rỉ dữ liệu ngoài ý muốn ở mô hình host tại Trung Quốc hơn là mô hình host tại Mỹ
Ví dụ như trường hợp agent đọc file env
Có sai không nếu nghi ngờ rằng chính phủ Trung Quốc sẽ có khả năng cao hơn chính phủ hoặc công ty Mỹ trong việc quét toàn bộ hội thoại và lưu lại thông tin hữu ích?

Tôi còn ngần ngại khi viết bình luận này vì nghe có thể thiên kiến và bài ngoại
Tôi mong có ai đó thuyết phục tôi rằng mình sai
Có ai biết công ty đứng sau dịch vụ host DeepSeek là ai không, và họ có lịch sử tôn trọng quyền riêng tư dữ liệu hay không?
- Đây không phải lo ngại vô lý
  Đó là lý do phần lớn công ty Mỹ thích AWS Bedrock hoặc các AI lab, và thường yêu cầu hợp đồng không lưu trữ dữ liệu
  Nhưng dù host ở đâu thì rủi ro rò rỉ vẫn tồn tại, chỉ khác ở cấu trúc động cơ
  
  Ví dụ các lab cũng quét toàn bộ hội thoại và huấn luyện trên dữ liệu không được bảo vệ bằng hợp đồng ZDR cho doanh nghiệp
  Cơ quan thực thi pháp luật có thể yêu cầu truy cập toàn bộ dữ liệu người dùng trong trường hợp có trát hợp lệ hoặc tình huống khẩn cấp 1
  
  Nếu bạn muốn dùng DeepSeek V4 một cách riêng tư, có thể thử Tinfoil(tinfoil.sh)
  Họ host tất cả mô hình trong enclave phần cứng bảo mật có thể kiểm chứng, để suy luận riêng tư đầu cuối
  Xin nói rõ là tôi là một trong các đồng sáng lập
  
  1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
- Dùng qua Azure là được
  Họ host toàn bộ mô hình và cung cấp tại Mỹ
  Có lẽ sẽ còn những nhà cung cấp khác như vậy
  
  Chúng tôi đang dùng theo cách đó và thấy rất ổn
- Dù họ có làm vậy tôi cũng sẽ không ngạc nhiên
  Nếu các mô hình đặt trụ sở ở Mỹ làm điều tương tự cho chính phủ khác thì tôi cũng không bất ngờ lắm
  Tôi không kỳ vọng nhiều về tính bảo mật dữ liệu
  Microsoft thì đánh dấu đủ mọi checkbox doanh nghiệp, nhưng Azure đôi khi vẫn bị xâm phạm
- Tôi cho rằng khả năng đó không phải bằng 0
  Bắc Kinh có thể bất cứ lúc nào kết luận rằng DeepSeek đã trở nên quá mạnh hoặc là một mặt hàng xuất khẩu chủ lực và can thiệp
  Cũng chẳng có gì đảm bảo là họ chưa làm vậy rồi
  
  Có rất nhiều báo cáo nói rằng các tác nhân nước ngoài, không chỉ riêng Trung Quốc, đã xâm nhập quy mô lớn vào những mạng lưới trọng yếu trải rộng qua nhiều ngành công nghiệp ở Mỹ và đang chờ khai thác vào thời điểm thích hợp
  Các mô hình tối tân cũng là một vector tấn công nữa, và nghĩ kỹ thì còn dễ bị lạm dụng hơn nhiều
  
  Thực ra nếu là mô hình host trên cloud thì ở đâu cũng có khả năng này
  Dù là do công ty làm mô hình cố ý hay do tác nhân độc hại khai thác lỗ hổng cũng vậy
- Tôi không đủ quan trọng để ai đó ở Trung Quốc phải nhắm vào mình
  Và DeepSeek cần duy trì đủ niềm tin để người dùng tiếp tục dùng nền tảng
  Nếu họ hành xử như keylogger đi đánh cắp ví crypto của mọi người thì niềm tin sẽ sụp đổ
  
  Nếu tôi làm việc gì đó mà chính phủ Trung Quốc xem là quan trọng về chiến lược thì dĩ nhiên tôi sẽ lo, nhưng tôi không làm việc đó
  
  Thực ra tôi còn lo hơn về việc các tỷ phú công nghệ ở đất nước này dùng LLM để lập hồ sơ diện rộng về tôi, rồi tạo ra ở đây một thứ còn phản địa đàng hơn cả điểm tín nhiệm xã hội có thật hay tưởng tượng của Trung Quốc
  Những người cố thuyết phục bạn, một cá nhân ở Mỹ, rằng bạn nên lo về chính phủ Trung Quốc có khi lại chính là những người đáng lo nhất
Nếu ai đó định gắn vào copilot, trước đây tôi có viết một script proxy để xử lý kết nối và có thể sẽ hữu ích: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...

DeepSeek áp dụng vĩnh viễn việc giảm giá cho V4 Pro

Tiêu chí tính phí

Mô hình và giá

Mô hình được hỗ trợ

Endpoint và tính năng

Ngữ cảnh và giới hạn đầu ra

Giá cho mỗi 1 triệu token

Điều chỉnh giảm giá DeepSeek-V4-Pro

Giảm giá cache hit

Giới hạn đồng thời

Bài viết liên quan

3 bình luận

Ý kiến Hacker News