1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Giá API DeepSeek-V4-Pro chính thức được giữ ở mức 1/4 giá cũ ngay cả sau khi chương trình giảm giá 75% kết thúc
  • Việc tính phí dựa trên mức giá cho mỗi 1 triệu token, và sẽ bị trừ trực tiếp khỏi số dư theo lượng sử dụng token đầu vào và token đầu ra
  • Các mô hình được hỗ trợ là DeepSeek-V4-Flash và DeepSeek-V4-Pro; cả hai đều hỗ trợ chế độ không suy luận và chế độ suy luận, với mặc định là chế độ suy luận
  • Cả hai mô hình đều có độ dài ngữ cảnh là 1M, đầu ra tối đa là 384K, và giới hạn đồng thời khác nhau: Flash 2500, Pro 500
  • Giá cache hit cho đầu vào của tất cả mô hình đã được hạ xuống còn 1/10 giá khi ra mắt, và điều chỉnh này có hiệu lực từ 12:15 UTC ngày 26/4/2026

Tiêu chí tính phí

  • Đơn vị giá là mức phí cho mỗi 1 triệu token; token là đơn vị văn bản nhỏ nhất mà mô hình nhận diện, có thể là từ, số hoặc dấu câu
  • Cơ sở tính phí là tổng lượng token đầu vào và token đầu ra của mô hình
  • Chi phí được tính bằng số token × đơn giá, và sẽ bị trừ trực tiếp từ số dư nạp hoặc số dư cấp phát
  • Nếu có cả số dư nạp và số dư cấp phát, số dư cấp phát sẽ được sử dụng trước
  • Giá sản phẩm có thể thay đổi, và DeepSeek bảo lưu quyền điều chỉnh giá
  • Nên nạp tiền theo mức sử dụng thực tế và thường xuyên kiểm tra giá mới nhất trên trang này

Mô hình và giá

  • Mô hình được hỗ trợ

    • Cung cấp DeepSeek-V4-FlashDeepSeek-V4-Pro
    • Cả hai mô hình đều hỗ trợ chế độ không suy luận và chế độ suy luận, với mặc định là chế độ suy luận
    • Tên mô hình deepseek-chatdeepseek-reasoner sẽ bị ngừng hỗ trợ trong tương lai
    • Để đảm bảo tương thích, deepseek-chat tương ứng với chế độ không suy luận của deepseek-v4-flash, còn deepseek-reasoner tương ứng với chế độ suy luận của deepseek-v4-flash
  • Endpoint và tính năng

  • Ngữ cảnh và giới hạn đầu ra

    • Độ dài ngữ cảnh là 1M
    • Đầu ra tối đa là 384K

Giá cho mỗi 1 triệu token

Hạng mục DeepSeek-V4-Flash DeepSeek-V4-Pro
Token đầu vào, cache hit $0.0028 $0.003625
Token đầu vào, cache miss $0.14 $0.435
Token đầu ra $0.28 $0.87
Giới hạn đồng thời 2500 500
  • Điều chỉnh giảm giá DeepSeek-V4-Pro

    • Giá DeepSeek-V4-Pro được hiển thị theo mức giảm 75%
    • Giá token đầu vào cache hit giảm từ $0.0145 xuống $0.003625
    • Giá token đầu vào cache miss giảm từ $1.74 xuống $0.435
    • Giá token đầu ra giảm từ $3.48 xuống $0.87
    • Ngay cả sau khi chương trình giảm giá 75% kết thúc vào 15:59 UTC ngày 31/5/2026, giá API DeepSeek-V4-Pro vẫn được chính thức điều chỉnh xuống còn 1/4 mức giá cũ
  • Giảm giá cache hit

    • Giá cache hit cho đầu vào của tất cả mô hình đã được giảm xuống còn 1/10 giá khi ra mắt
    • Điều chỉnh giá này có hiệu lực từ 12:15 UTC ngày 26/4/2026
  • Giới hạn đồng thời

    • Giới hạn đồng thời của DeepSeek-V4-Flash là 2500
    • Giới hạn đồng thời của DeepSeek-V4-Pro là 500
    • Có thể xem chi tiết về giới hạn đồng thời tại Rate Limit & Isolation

1 bình luận

 
Ý kiến Hacker News
  • Nếu họ tung ra coding agent riêng, có lẽ tôi sẽ bắt đầu dùng mô hình DeepSeek làm chủ lực
    Có vẻ họ đang tiếp tục làm những việc “đi đúng hướng”, như mở nguồn mô hình, công bố nghiên cứu và giữ giá thấp

    • Có thể dùng V4 Pro trong Claude Code 1
      Tôi đã thử trực tiếp và thấy rất ấn tượng

    • Nó cũng hợp với OpenCode rất tốt
      Nhóm chúng tôi thường xuyên đụng phải giới hạn 5 giờ của các dịch vụ thuê bao khác, nên có DeepSeek làm phương án dự phòng thì khá ổn
      Tôi chỉ nạp 50 USD mà có cảm giác sẽ chẳng bao giờ dùng hết

      Dù vẫn chưa đến mức thay thế hoàn toàn các mô hình tối tân, nhưng làm phương án dự phòng thì chắc chắn rất xuất sắc

    • Tôi không nghĩ DeepSeek nhất thiết phải cung cấp cả coding agent
      Chỉ cần gắn mô hình vào bất kỳ coding agent có sẵn nào là được
      Cá nhân tôi thích Pi, nhưng ai hợp cái nào thì dùng cái đó

    • Từ đầu tuần này tôi đã bắt đầu thử các mô hình Trung Quốc trên codebase của mình
      Tôi chưa xem nhiều phần coding hội thoại, mà chủ yếu là phân loại issue, tự sửa bug, phân tích log..., và đã so DeepSeek, Kimi, GLM, Qwen, MiMO với GPT-5.5 high, tất cả đều chạy trên harness Pi mà không cần cài đặt

      Cho tới giờ thì Kimi và MiMO trông có vẻ hứa hẹn nhất
      Tôi chưa thử đủ nghiêm ngặt để kết luận, nhưng ấn tượng ban đầu là trong các tác vụ công việc hằng ngày thông thường, những mô hình này có thể không thua xa như nhiều người nghĩ

      Tuy vậy, chúng giống kiểu “chăm chỉ hơn là thông minh”, nên đi đến kết quả tương tự chậm hơn và tốn nhiều token hơn, nhưng giá thì rẻ hơn rất nhiều

    • Tôi muốn coding agent có mức độ độc lập nhất định với nhà cung cấp mô hình
      Các nhà cung cấp thay đổi chất lượng, tính năng và giá quá thường xuyên, nên tôi không muốn cứ mỗi lần như vậy lại phải đổi cả agent

      Hy vọng tình hình rồi sẽ chậm lại và ổn định hơn
      Không phải là phải như vậy ngay bây giờ, nhưng sẽ tốt nếu đến lúc đó

  • Nếu bạn vẫn chưa thử DeepSeek V4 thì đang bỏ lỡ khá nhiều
    Nó tốt đến mức khó tin so với mức giá

    Chuỗi suy luận của DeepSeek đọc thực sự rất thú vị
    OpenCode không hiển thị, nhưng nếu tự đọc thì bạn có thể sẽ ngạc nhiên vì mô hình này bị đánh giá thấp đến mức nào

    Tôi dùng mô hình rất ít, nhưng vẫn đều đặn trả tiền trực tiếp cho DeepSeek như một cách cảm ơn việc họ mở nguồn mô hình và thể hiện sự ủng hộ với điều mà tôi xem là lợi ích xã hội nói chung

    • Nó tốt và rẻ, nhưng nếu nhắc tới chính trị thì có thể sẽ kích hoạt kiểu quy tắc kiểm duyệt nào đó
      Tôi từng xem quá trình suy luận của nó thì thấy nó đột ngột xóa sạch mọi thứ rồi đề nghị chuyển sang chủ đề khác mà không giải thích gì
      Có lần nó còn xuất ra một thông điệp chung chung kiểu báo chí phải phục vụ nhân dân

      Cả hai trường hợp đều không phải yêu cầu nhạy cảm, bất hợp pháp hay lật đổ gì cả
      Nhưng chỉ cần hơi mang tính chính trị là đủ
      Kiểu kiểm duyệt ở phương Tây thường tinh vi hơn, nên cảm giác này vừa rợn người vừa lạ lùng theo cách nào đó

    • Đúng vậy, mô hình này thực sự rất tốt
      Ở công ty tôi dùng Claude, còn cá nhân thì dùng DeepSeek, vì đây là mô hình duy nhất không tích cực đẩy tôi đến phá sản

    • Tôi thích V4 Pro cho một số tác vụ nhất định, nhưng trong lập trình thì V4 Flash lại khá ấn tượng
      Nó ngắn gọn, đi thẳng vào trọng tâm, ít mắc lỗi và khá nhanh

    • Trong opencode CLI có hiển thị dấu vết suy luận
      Có thể là vấn đề cấu hình

    • Bạn có thể bật hoặc tắt hiển thị suy luận trong opencode

  • Mức giá này rẻ đến mức đáng ngờ
    Nếu cùng mô hình đó được host bởi nhà cung cấp khác thì đắt hơn rất nhiều 0
    Nên либо là DeepSeek có thể host rẻ hơn hẳn nơi khác, либо là mô hình kinh doanh của họ khác, và tôi nghĩ khả năng sau đúng hơn
    Đặc biệt là vì trong chính sách quyền riêng tư 1, họ nói có thể dùng dữ liệu cá nhân, bao gồm cả “User Input”, cho “cải tiến và phát triển dịch vụ, huấn luyện và cải thiện công nghệ”

    • Có thể là câu hỏi ngớ ngẩn, nhưng nhìn OpenRouter thì tôi tự hỏi có thật là nơi cung cấp DeepSeek chỉ có ở Mỹ, Singapore và Trung Quốc thôi sao
      Đây có vẻ là sản phẩm quá rõ ràng để các nhà cung cấp ở châu Âu hay phương Tây khác không cung cấp
      Tôi tin rằng đây sẽ là bước nhảy lớn hơn nhiều so với Mistral

      Tôi muốn thử các mô hình này, nhưng muốn tránh những nhà cung cấp dùng dữ liệu của tôi để huấn luyện hoặc lưu trữ vượt quá các yêu cầu pháp lý tiêu chuẩn

    • Có nhiều yếu tố cùng tác động
      Về mặt hiệu quả stack suy luận, nhiều nhà cung cấp chỉ lấy sglang / vllm / trtllm sẵn có rồi hy vọng điều tốt nhất, còn đội DeepSeek thì nổi tiếng là luôn đẩy giới hạn tối ưu hóa

      sglang và vllm là phần mềm tuyệt vời, nhưng nếu nhìn vào sparse attention (DSA) của DeepSeek thì nó đã được giới thiệu từ 1,5 năm trước (https://arxiv.org/abs/2512.02556), và đã được dùng trong DeepSeek 3.2, GLM 5, DeepSeek V4
      Chỉ bây giờ các engine suy luận lớn mới bắt đầu dần thêm tối ưu hóa cho nó: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 v.v.)
      Dĩ nhiên DS V4 còn thêm tối ưu hóa kiến trúc mô hình trên nền DSA, và các engine suy luận mã nguồn mở sẽ còn cần thời gian để tận dụng hết

      Về quyền riêng tư, có một canh bạc rằng mọi người sẽ trả thêm tiền cho suy luận được host ngoài Trung Quốc
      Điều này đặc biệt đúng vì DeepSeek minh bạch nói rằng họ dùng dữ liệu API để cải thiện mô hình

      Ngoài ra còn có các yếu tố như quy mô hoạt động (rất quan trọng với MoE), độ tin cậy và kiểu khóa chặt khách hàng doanh nghiệp một cách mềm mại

      Cũng rất có thể có sự thông đồng ngầm
      Nhìn giá GLM 5 và GLM 5.1 thì chi phí vận hành của hai bản là như nhau, nhưng 5.1 là mô hình tốt hơn nhiều, và vì Z.AI cũng tăng giá nên các nhà cung cấp đã niêm yết 5.1 ở mức cao hơn

    • Rõ ràng là họ đang bán lỗ
      Nhưng tại sao lại không chứ
      Chấp nhận lỗ để giành thị phần đâu phải đặc quyền riêng của nước Mỹ

    • Có thể bạn chưa biết đủ về nhà sáng lập DeepSeek là Liang Wenfeng
      Ông ấy cũng là nhà sáng lập của High-Flyer Quant

  • Tôi tò mò hơn về phần caching
    Họ viết rằng “giá cache hit cho đầu vào của tất cả mô hình đã được giảm xuống 1/10 giá ra mắt, và điều chỉnh giá này có hiệu lực từ 12:15 UTC ngày 2026/4/26”

    Không có ngày kết thúc
    Hiện tại DeepSeek V4 Flash có giá bằng 2% giá đầu vào, còn với mức giá V4 Pro lần này là 0,8%, cực thấp so với đối thủ và đủ ảnh hưởng tới economics theo đơn vị nên tôi tưởng nó chỉ là tạm thời

    Với V4 Pro, chi phí thực tế nếu tính cả caching là khoảng $0.04 cho mỗi 1 triệu token đầu vào (theo chỉ số OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
    Còn rẻ hơn rất nhiều so với các mô hình nhỏ của đối thủ

    • KV cache của DeepSeek V4 rất hiệu quả nhờ kiến trúc sparse attention được nén mạnh
      DeepSeek V3.2 chỉ dùng DSA là mô hình nhỏ hơn, nhưng với cửa sổ ngữ cảnh 1 triệu token lại dùng bộ nhớ gấp 10 lần DS V4 Pro

      Ngoài ra API DeepSeek có cache hit rate rất tốt
      Với cùng khối lượng công việc, các nhà cung cấp suy luận phương Tây lớn cung cấp mô hình open-weight chỉ đạt khoảng 50% KV cache hit rate, còn API DS thì khoảng 80%

    • Điểm lớn của DeepSeek V4 là kích thước KV cache đã giảm đi rất nhiều

    • Flash tự thân không phải mô hình cực kỳ cạnh tranh, và giá của nó cũng nằm trong cùng mặt bằng với các mô hình khác trên thị trường
      Đối thủ trực tiếp nhất của Flash có lẽ là những cái như sau

      GPT 5.4 mini

      Cache Read
      $0.075
      /M tokens

      Gemini 3 flash:

      Cache Read
      $0.05
      /M tokens

      Nên không hẳn là thứ gì mang tính ma thuật hay đột phá đặc biệt

    • Sonnet:
      Cache Read
      $0.30

      Gemini 3.5 flash:
      Cache Read
      $0.15

  • Hiệu năng trên giá thành quá khủng
    Tôi đã dùng GLM 5.1 với GLM Coding Plan Max một thời gian, và cũng thử DeepSeek V4 Pro khoảng 3 tuần, thì với các tác vụ lập trình phức tạp tôi thấy nó tốt hơn GLM 5.1
    Tôi đã dùng 65 triệu token và hóa đơn chỉ là 1,5 USD, thực sự quá rẻ

    • Có vẻ DeepSeek ngốn token nhiều hơn hẳn các mô hình khác
  • Quá ghê
    Với mức giảm giá này, DeepSeek V4 Pro trở nên cực rẻ so với các mô hình khác ngay cả trong cùng phân khúc
    Nếu nhìn giá trên mỗi 1 triệu token đầu ra thì như sau

    DeepSeek V4 Pro: $0.87

    Qwen 3.7 Max: $7.50

    Grok 4.3: $2.50

    GLM 1.5: $3.08

    Opus 4.7: $25.00

    GPT-5.5: $30.00

    • Nếu tính cả chi phí đọc cache thì thực tế còn rẻ hơn nữa
      Trong workflow agent, khoản này có thể là phần chi phối chính, và chi phí đọc cache của DeepSeek thấp đến mức không cùng một đẳng cấp so sánh
      Chỉ $0.003626 cho mỗi 1 triệu token, trong khi cái rẻ tiếp theo trong danh sách cũng hơn $0.2 cho mỗi 1 triệu token
      Chênh lệch gần như ở quy mô 100 lần
    • Lần tới nếu ai đó nói “đừng than phiền vì giới hạn sử dụng, công ty đang lỗ vì gói thuê bao của mày”, tôi sẽ dẫn link bình luận này
      Nghĩa là hoàn toàn có thể suy luận hiệu quả nếu không phải cho phép người dùng đốt tiền vô hạn mà không ràng buộc
    • Và họ cũng không làm mô hình tệ đi sau khi bạn đã đăng ký
      Nếu hai tháng sau khi đăng ký mà họ biến Opus thành còn tệ hơn GPT-3 để cắt chi phí, thì Opus có tốt đến đâu cũng chẳng còn ý nghĩa gì
    • Là GLM 5.1
  • Ngay cả khi tính mức giảm giá của V4 Pro thì V4 Flash vẫn cho hiệu năng trên mỗi USD tốt nhất, và với các tác vụ kiểu agent, dùng công cụ nhiều thì tổng thể còn làm tốt hơn
    V4 Pro thông minh hơn ở suy luận một phát, nhưng chênh lệch tốc độ rất lớn
    Nếu gộp hiệu năng, chi phí và tốc độ lại, thì hiện tại theo tiêu chí của chúng tôi V4 Flash là mô hình flash tốt nhất một cách khá áp đảo

    Dữ liệu nằm ở https://gertlabs.com/rankings

    • Với use case của tôi, chủ yếu là tóm tắt rất lớn và trích xuất ý tưởng, thì nó tệ hơn Pro khá nhiều
  • Kiến trúc MLA của họ giúp giảm KV cache khoảng 5 đến 13 lần so với attention tiêu chuẩn
    Nên đây không chỉ là chiến tranh giá để giành thị phần, mà chi phí chạy suy luận thực sự thấp hơn

    • Đây còn là bước ngoặt cho cả suy luận cục bộ
      Nó cho phép ngữ cảnh dài, batch inference và lưu KV cache xuống đĩa trên các nền tảng tiêu dùng phổ thông
    • Đúng vậy
      Đợt giảm giá này có lẽ là một thử nghiệm thị trường sau phát hành để kiểm tra việc caching hoạt động hiệu quả đến đâu trên thế hệ mô hình mới
  • Tôi lo về rò rỉ dữ liệu ngoài ý muốn ở mô hình host tại Trung Quốc hơn là mô hình host tại Mỹ
    Ví dụ như trường hợp agent đọc file env
    Có sai không nếu nghi ngờ rằng chính phủ Trung Quốc sẽ có khả năng cao hơn chính phủ hoặc công ty Mỹ trong việc quét toàn bộ hội thoại và lưu lại thông tin hữu ích?

    Tôi còn ngần ngại khi viết bình luận này vì nghe có thể thiên kiến và bài ngoại
    Tôi mong có ai đó thuyết phục tôi rằng mình sai
    Có ai biết công ty đứng sau dịch vụ host DeepSeek là ai không, và họ có lịch sử tôn trọng quyền riêng tư dữ liệu hay không?

    • Đây không phải lo ngại vô lý
      Đó là lý do phần lớn công ty Mỹ thích AWS Bedrock hoặc các AI lab, và thường yêu cầu hợp đồng không lưu trữ dữ liệu
      Nhưng dù host ở đâu thì rủi ro rò rỉ vẫn tồn tại, chỉ khác ở cấu trúc động cơ

      Ví dụ các lab cũng quét toàn bộ hội thoại và huấn luyện trên dữ liệu không được bảo vệ bằng hợp đồng ZDR cho doanh nghiệp
      Cơ quan thực thi pháp luật có thể yêu cầu truy cập toàn bộ dữ liệu người dùng trong trường hợp có trát hợp lệ hoặc tình huống khẩn cấp 1

      Nếu bạn muốn dùng DeepSeek V4 một cách riêng tư, có thể thử Tinfoil(tinfoil.sh)
      Họ host tất cả mô hình trong enclave phần cứng bảo mật có thể kiểm chứng, để suy luận riêng tư đầu cuối
      Xin nói rõ là tôi là một trong các đồng sáng lập

      1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...

    • Dùng qua Azure là được
      Họ host toàn bộ mô hình và cung cấp tại Mỹ
      Có lẽ sẽ còn những nhà cung cấp khác như vậy

      Chúng tôi đang dùng theo cách đó và thấy rất ổn

    • Dù họ có làm vậy tôi cũng sẽ không ngạc nhiên
      Nếu các mô hình đặt trụ sở ở Mỹ làm điều tương tự cho chính phủ khác thì tôi cũng không bất ngờ lắm
      Tôi không kỳ vọng nhiều về tính bảo mật dữ liệu
      Microsoft thì đánh dấu đủ mọi checkbox doanh nghiệp, nhưng Azure đôi khi vẫn bị xâm phạm

    • Tôi cho rằng khả năng đó không phải bằng 0
      Bắc Kinh có thể bất cứ lúc nào kết luận rằng DeepSeek đã trở nên quá mạnh hoặc là một mặt hàng xuất khẩu chủ lực và can thiệp
      Cũng chẳng có gì đảm bảo là họ chưa làm vậy rồi

      Có rất nhiều báo cáo nói rằng các tác nhân nước ngoài, không chỉ riêng Trung Quốc, đã xâm nhập quy mô lớn vào những mạng lưới trọng yếu trải rộng qua nhiều ngành công nghiệp ở Mỹ và đang chờ khai thác vào thời điểm thích hợp
      Các mô hình tối tân cũng là một vector tấn công nữa, và nghĩ kỹ thì còn dễ bị lạm dụng hơn nhiều

      Thực ra nếu là mô hình host trên cloud thì ở đâu cũng có khả năng này
      Dù là do công ty làm mô hình cố ý hay do tác nhân độc hại khai thác lỗ hổng cũng vậy

    • Tôi không đủ quan trọng để ai đó ở Trung Quốc phải nhắm vào mình
      Và DeepSeek cần duy trì đủ niềm tin để người dùng tiếp tục dùng nền tảng
      Nếu họ hành xử như keylogger đi đánh cắp ví crypto của mọi người thì niềm tin sẽ sụp đổ

      Nếu tôi làm việc gì đó mà chính phủ Trung Quốc xem là quan trọng về chiến lược thì dĩ nhiên tôi sẽ lo, nhưng tôi không làm việc đó

      Thực ra tôi còn lo hơn về việc các tỷ phú công nghệ ở đất nước này dùng LLM để lập hồ sơ diện rộng về tôi, rồi tạo ra ở đây một thứ còn phản địa đàng hơn cả điểm tín nhiệm xã hội có thật hay tưởng tượng của Trung Quốc
      Những người cố thuyết phục bạn, một cá nhân ở Mỹ, rằng bạn nên lo về chính phủ Trung Quốc có khi lại chính là những người đáng lo nhất

  • Nếu ai đó định gắn vào copilot, trước đây tôi có viết một script proxy để xử lý kết nối và có thể sẽ hữu ích: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...