7 điểm bởi GN⁺ 2026-05-03 | 2 bình luận | Chia sẻ qua WhatsApp
  • DeepSeek đã công bố hai mô hình xem trước đầu tiên của dòng V4 là DeepSeek-V4-ProDeepSeek-V4-Flash; cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và được phát hành theo giấy phép MIT
  • DeepSeek-V4-Pro là mô hình có tổng cộng 1.6T tham số và 49B tham số hoạt hóa, là mô hình open-weight lớn nhất từ trước tới nay, vượt Kimi K2.6, GLM-5.1 và DeepSeek V3.2
  • Điểm khác biệt cốt lõi của DeepSeek V4 là giá, với Flash ở mức $0.14 cho 1 triệu token đầu vào và $0.28 cho đầu ra, còn Pro là $1.74 đầu vào và $3.48 đầu ra, thấp hơn các mô hình nhỏ và lớn dùng để so sánh
  • Mức giá thấp này gắn liền với tối ưu hiệu quả ngữ cảnh dài: ở ngữ cảnh 1 triệu token, Pro giảm xuống còn 27% FLOPs mỗi token đơn và 10% KV cache so với DeepSeek-V3.2, còn Flash giảm xuống 10% FLOPs và 7% KV cache
  • Trong benchmark nội bộ, DeepSeek-V4-Pro có thể cạnh tranh với các mô hình frontier nhưng vẫn thấp hơn đôi chút so với GPT-5.4 và Gemini-3.1-Pro, cho thấy quỹ đạo phát triển chậm hơn khoảng 3–6 tháng so với các mô hình frontier tối tân nhất

Công bố mô hình và thông số cơ bản

  • Sau V3.2 và V3.2 Speciale vào tháng 12/2025, DeepSeek đã công bố DeepSeek-V4-ProDeepSeek-V4-Flash là hai mô hình xem trước đầu tiên của dòng V4
  • Cả hai đều là mô hình Mixture of Experts hỗ trợ ngữ cảnh 1 triệu token và dùng giấy phép MIT tiêu chuẩn
  • DeepSeek-V4-Pro là mô hình có tổng cộng 1.6T tham số và 49B tham số hoạt hóa, còn DeepSeek-V4-Flash có tổng cộng 284B tham số và 13B tham số hoạt hóa
  • DeepSeek-V4-Pro lớn hơn 1.1T của Kimi K2.6, 754B của GLM-5.1 và 685B của DeepSeek V3.2, nên có vẻ là mô hình open-weight lớn nhất mới
  • Theo Hugging Face, kích thước mô hình là 865GB với Pro và 160GB với Flash; bản Flash được lượng tử hóa nhẹ được kỳ vọng có thể chạy trên MacBook Pro M5 128GB
  • Mô hình Pro cũng có thể chạy trên cùng cỗ máy đó nếu chỉ cần stream các expert đang hoạt hóa từ đĩa
  • Thử nghiệm nhanh qua OpenRouter

Giá, hiệu quả và vị thế hiệu năng

  • Yếu tố nổi bật nhất của DeepSeek V4 là giá; theo trang giá của DeepSeek, Flash có giá $0.14 cho mỗi 1 triệu token đầu vào và $0.28 cho mỗi 1 triệu token đầu ra
  • Pro được định giá $1.74 cho mỗi 1 triệu token đầu vào và $3.48 cho mỗi 1 triệu token đầu ra
  • Trong bảng so sánh, DeepSeek V4 Flash rẻ hơn GPT-5.4 Nano với đầu vào $0.20 và đầu ra $1.25, cũng như Gemini 3.1 Flash-Lite với đầu vào $0.25 và đầu ra $1.50, khiến nó trở thành mô hình nhỏ rẻ nhất
  • DeepSeek V4 Pro cũng rẻ hơn Gemini 3.1 Pro với đầu vào $2 và đầu ra $12, GPT-5.4 với đầu vào $2.50 và đầu ra $15, Claude Sonnet 4.6 với đầu vào $3 và đầu ra $15, Claude Opus 4.7 với đầu vào $5 và đầu ra $25, cùng GPT-5.5 với đầu vào $5 và đầu ra $30, khiến nó trở thành mô hình frontier cỡ lớn rẻ nhất
  • Tối ưu hiệu quả là nền tảng cho mức giá thấp

    • Bài báo của DeepSeek cho biết đợt phát hành này tập trung mạnh vào hiệu quả của prompt ngữ cảnh dài
    • Ở ngữ cảnh 1 triệu token, DeepSeek-V4-Pro chỉ còn 27% FLOPs mỗi token đơn và kích thước KV cache chỉ còn 10% so với DeepSeek-V3.2
    • Trong cùng điều kiện, DeepSeek-V4-Flash giảm xuống còn 10% FLOPs mỗi token đơn và kích thước KV cache chỉ còn 7% so với DeepSeek-V3.2
  • Trong benchmark thì đã tiệm cận frontier nhưng vẫn chưa vào nhóm dẫn đầu

    • Benchmark tự công bố của DeepSeek cho thấy mô hình Pro có khả năng cạnh tranh với các mô hình frontier khác
    • Theo bài báo, DeepSeek-V4-Pro-Max khi áp dụng mở rộng token suy luận đạt hiệu năng cao hơn GPT-5.2 và Gemini-3.0-Pro trong các benchmark suy luận tiêu chuẩn
    • Tuy vậy, nó vẫn thấp hơn đôi chút so với GPT-5.4 và Gemini-3.1-Pro, đồng thời cho thấy quỹ đạo phát triển chậm hơn khoảng 3–6 tháng so với các mô hình frontier tối tân nhất
    • Cộng đồng cũng kỳ vọng huggingface.co/unsloth/models sẽ sớm có các bản lượng tử hóa từ Unsloth, và việc mô hình Flash chạy tốt đến đâu trên máy cục bộ vẫn là điểm đáng quan tâm

2 bình luận

 
emptybynature 2026-05-09

Trước hết, việc nó thực sự rất rẻ là điểm tốt, nhưng vấn đề là quá chậm.... việc mà codex mất 5 phút thì nó ngồi nghĩ 20 phút. Vì vậy thay vì dùng để triển khai, mình đang dùng nó cho mục đích review code, mà khoản review code thì nó làm khá tốt nên cũng thấy hài lòng.

 
GN⁺ 2026-05-03
Ý kiến trên Hacker News
  • Với tôi, điểm khác biệt lớn nhất là DeepSeek chỉ đơn giản làm đúng việc được giao. Gần đây tôi thử cả GPT lẫn Claude cho mục đích reverse engineering, nhưng cả hai đều từ chối, thậm chí tài khoản OpenAI của tôi còn bị cảnh báo

    • Đáng tiếc là mức độ ảo giác lại cao một cách phi lý, phơi bày mặt tệ nhất của mô hình ngôn ngữ lớn
      Deepseek v4 pro 94%
      Deepseek v4 flash - 96%
      https://artificialanalysis.ai/evaluations/omniscience?models...
    • Theo trải nghiệm của tôi thì IDA Pro và GLM 5.1 kết hợp với nhau rất tốt, DeepSeek v4 pro đứng thứ hai sát nút, còn Kimi thì cứ từ chối thẳng. Với Claude, muốn reverse engineering thì phải đẩy nó vào kiểu chế độ anh hùng/cứu thế rồi dần lái sang hướng red team, nhưng nó rất dễ sập bẫy
    • Công ty tôi có tài khoản enterprise của Cursor nên có thể thử hết các model phổ biến. Khi dùng Composer 2 để điều tra vấn đề trong code của chính công ty, nơi chúng tôi có source đầy đủ, tôi bảo nó bật cờ debug để vượt qua kiểm tra giấy phép mà nó cũng không chịu
      Tôi thật sự bực mình, đúng kiểu meme Patrick trong SpongeBob ngày xưa. Tôi không hiểu vì sao người ta cứ muốn biến model thành lực lượng thực thi pháp luật. Việc bất hợp pháp vẫn là bất hợp pháp, và đã có chuyên gia xử lý tội phạm rồi. Google không cần phải làm trọng tài cho chân lý và công lý. Cơ quan thực thi pháp luật vốn đã rất khó bị buộc trách nhiệm, nhưng ít ra họ còn làm việc cho chúng ta
    • Cái đoạn “tài khoản OpenAI của tôi còn bị cảnh báo” thật sự quá kỳ quặc và phản địa đàng kiểu dystopia, vì phần mềm đang lôi kết quả ra để đe dọa người dùng
      Đồng nghiệp dev ơi, rốt cuộc chúng ta đang xây dựng một thế giới kiểu gì vậy? Chuyện này điên rồ thật. Hãy tưởng tượng một cái búa nói rằng “đừng dùng tôi cho ốc vít, chỉ được đóng đinh thôi. Làm nữa tôi sẽ tự hủy.” Tôi thật sự mong người ta ngừng làm loại phần mềm này
    • Cái việc “tài khoản OpenAI của tôi còn bị cảnh báo” khá thường xuyên khiến tôi thấy đáng sợ. Với một người bình thường không có người theo dõi thì gần như không có quy trình khắc phục thực tế nào cả, và họ có thể bị loại khỏi những công cụ nền tảng
      Hãy tưởng tượng sau khi OpenAI thâu tóm 20 công ty, bạn bỗng không dùng được Figma hay Next chỉ vì trước đây từng lỡ bước qua một ranh giới mơ hồ. Không chỉ riêng OpenAI mà cả hệ sinh thái này đang trở nên quá khó đoán
      Tôi hỏi Gemini về một câu trích trong Catch-22, hoàn toàn không có bạo lực hay tình dục, thế mà nó cứ dừng giữa lúc stream và bảo không thể nói. Trong sách đúng là có những nội dung như vậy, nhưng điều đó lại khiến tôi nghĩ chỉ vì thế mà cả tài khoản workspace có thể bị trừ điểm
      Lý tưởng nhất thì tương lai nên là local, nhưng xét chi phí thực tế và điện năng trong vài năm tới, tôi không biết điều đó thực tế tới đâu với đa số mọi người. Nếu ở trong hệ đó thì chip M* có lẽ là ngoại lệ
  • DeepSeek v4 Pro cho tôi cảm giác về tính cách khá giống Claude Opus 4.6, còn về chi phí thì rất ấn tượng
    Tôi đã yêu cầu nó chỉ tập trung vào một endpoint duy nhất trong một codebase TypeScript khá lớn, rà sâu qua từng lớp API, DTO, service và model cơ sở dữ liệu, hiểu đầy đủ các type liên quan và tránh tạo ra type tạm
    Nó tóm tắt cực ngắn nhưng trúng ý về các type được đưa vào, type nào được trả về, v.v., rồi sau đó tôi yêu cầu đơn giản hóa toàn bộ
    Cả hai prompt chắc hẳn phải quét qua rất nhiều file, nhưng tổng chi phí của bản Pro chỉ là $0.09. Nếu là Claude Opus thì ngay cả theo mức giá trước khi tăng, chỉ riêng hai prompt này cũng rất dễ ngốn khoảng $9~$13, mà lợi ích thêm vào có lẽ không nhiều
    Nhân tiện, tôi dùng trực tiếp DeepSeek API chứ không qua OpenRouter. Vì bản thân OpenRouter đang bị phía DeepSeek giới hạn tốc độ

    • Tôi cũng có trải nghiệm tương tự. Những việc kiểu “hãy quét toàn bộ module này và chỉnh thật cẩn thận cho đúng style guide tôi thích” trước đây khiến tôi tiếc khi phải tốn vài đô cho các model tuyến đầu. Tôi thích việc có thể ném DeepSeek Flash vào các tác vụ ngớ ngẩn, không cần thiết hoặc cực kỳ suy đoán mà không phải lo tiền
    • Phần lớn sự kém hiệu quả đến từ việc model cứ ngẫu nhiên chọc chỗ này chỗ kia và grep liên tục, mà theo tôi đây là vấn đề của harness
      Vì vậy tôi đã dùng tree-sitter để parse code thành graph, rồi tạo một MCP dựa trên Prolog để model có thể hỏi những câu như “mọi hàm kết nối với hàm này là gì?” Muốn xem một endpoint cụ thể làm gì thì có thể lần theo toàn bộ call subgraph một cách tầm thường và có thể dự đoán được
      https://github.com/yogthos/chiasmus
    • Tôi tò mò câu “có lẽ ngốn khoảng $9~$13 mà chẳng thêm được bao nhiêu” nghĩa là lợi ích không lớn khi so với DeepSeek v4 Pro giá 9 xu, hay là ý nói cả hai bên đều chẳng mang lại nhiều lợi ích?
    • Ngay cả khi tính cả việc hiện đang được giảm giá 75% thì nó vẫn rẻ hơn rất nhiều
    • Tôi tò mò bạn đã dùng thế nào. Bạn dùng OpenRouter hay gọi trực tiếp API của nhà cung cấp?
  • Liên quan chuyện này, có một bản demo trực tiếp chạy DeepSeek v4 Flash trên MacBook 128GB. Video bằng tiếng Ý nhưng có phụ đề tiếng Anh
    https://www.youtube.com/watch?v=todMmp6AGCE

  • Tôi đã gắn nó vào vscode copilot và thử cả flash lẫn pro. Với các proof of concept nhỏ thì flash là đủ, khá nhanh và cực rẻ
    Nó có khựng vài lần, có thể do độ trễ, nhưng kết quả vẫn tốt. Tôi dùng pro cho các việc nặng và lập kế hoạch, và nó làm rất ổn
    Tôi trả khoảng 10 xu cho một proof of concept nhỏ, và nó hoạt động đúng chính xác như tôi prompt. Với tôi đây là phương án thay thế thật sự sau khi hủy GitHub Copilot vào cuối tháng này

  • Dù chi phí thấp hơn các model tuyến đầu, có hai yếu tố khiến DS4 Pro và K2.6 không rẻ như vẻ bề ngoài
    DS4 Pro có giảm giá trên API chính thức, nhưng điều này thường bị bỏ qua hoặc lẫn lộn trong các cuộc thảo luận. Simon đã dùng giá niêm yết trong so sánh nên ở đây không vấn đề gì
    Vấn đề còn lại là DS4 Pro và K2.6 thường dùng nhiều reasoning token hơn hẳn các model tuyến đầu. Trong thử nghiệm của tôi, có vài trường hợp bệnh lý nơi token bị đốt quá nhiều đến mức chi phí request có thể ngang với model tuyến đầu. Công bằng mà nói thì tôi đang dùng DS và Kimi qua nhà cung cấp bên thứ ba, nên cũng có thể là do cấu hình phía đó
    Tuy nhiên nếu xem trang model trên Artificial Analysis, trong benchmark trí tuệ thì DSv4 Pro dùng 190M token, K2.6 dùng 170M token, còn GPT 5.5 high chỉ dùng 45M
    Tôi khuyên nên xem “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, trên UI là mục “Intelligence vs Cost”. Model mã nguồn mở vẫn rẻ hơn, nhưng không đến mức như người ta kỳ vọng nếu chỉ nhìn giá token
    [0] https://artificialanalysis.ai/models/deepseek-v4-pro
    [1] https://artificialanalysis.ai/models/kimi-k2-6
    [2] https://artificialanalysis.ai/models/gpt-5-5-high

    • Điều này sai nghiêm trọng, DS4 thực sự rất rẻ. Tôi khuyên trước hết nên đọc bài báo phát hành
      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
      Họ đã giới thiệu HCA và mCH, một cách khá mới để cải thiện hiệu quả ngữ cảnh dài và attention. So với v3.2, nó chỉ cần 27% FLOP cho suy luận và 10% cho KV cache. Nghĩa là cùng một lượng tài nguyên tính toán thì có thể phục vụ hơn gấp 3 lần, và chỉ cần 30% KV cache trước đây
      Hơn nữa, bản phát hành này mới chỉ là PREVIEW. DeepSeek là một phòng nghiên cứu công bố thật sự, và ở mỗi bản phát hành họ không chỉ làm ra khá nhiều thứ mà còn công khai và chia sẻ chúng. Tôi đang chạy nó local
      Nói về mức độ “rẻ” nhé: với v3.2, ở ngữ cảnh 256k thì GPU hết bộ nhớ và bị tràn sang RAM hệ thống, mà tôi vẫn thấy ổn với khoảng 7 nghìn token mỗi giây. Lần này thì toàn bộ ngữ cảnh 1 triệu token nằm 100% trong bộ nhớ GPU, chạy nhanh hơn gấp đôi và kết quả còn tốt hơn
      Cái này thực sự rất rẻ. Moonshot đã nói rất rõ là họ thiếu GPU nên mới như vậy. Nếu họ có dung lượng GPU như Mỹ và được hỗ trợ model như ở đây, có lẽ họ đã phát miễn phí rồi
    • Điều đó có thể xảy ra, nhưng không phải trải nghiệm của tôi. Tôi đã làm cả ngày với một đợt refactor khá lớn, rất nhiều vòng trao đổi qua lại, thay đổi hàng nghìn dòng code, review, điều tra, và cả công việc song song của nhiều sub-agent mà tổng chi phí chỉ là $0.95
      Trước đây khi thử làm vậy với Opus 4.6, nó đã đốt sạch ngân sách $10 tôi đặt ra trước khi prompt đầu tiên kịp quay về
      Ngay cả nếu tính theo giá đã giảm mạnh, thì lời giải hoàn chỉnh cũng chỉ tốn mức một chữ số đô la, còn Opus thì tốn mức hai chữ số đô la mà chính xác là không thu được gì
    • Theo Artificial Analysis thì Grok 4.3 nhanh hơn DS4, thông minh hơn, rẻ hơn và còn dùng ít token hơn. Vậy tại sao không ai nói về Grok?
      1. https://artificialanalysis.ai/models/grok-4-3
  • V4 rõ ràng đã nhảy lên một bậc so với V3.2 trong benchmark đa ngôn ngữ của chúng tôi
    Tuy vậy có hai điểm cần lưu ý. Khi suy luận qua OpenRouter thì tốc độ (TPS) rất chậm và thường có nhiều vấn đề thiếu ổn định. Ngay lúc này tôi kiểm tra thì mọi nhà cung cấp khả dụng đều chỉ ở mức 10~30 TPS, không cao đối với một model suy nghĩ nhiều như DeepSeek
    API chính thức của DeepSeek cũng không đảm bảo quyền riêng tư dữ liệu ngay cả cho người dùng trả phí
    Nếu dùng qua Azure AI Foundry thì có thể cả hai điểm này đều không còn là vấn đề. Điểm sau theo như tôi biết là vậy, còn tôi vẫn chưa tự kiểm chứng
    Dù sao thì vẫn đáng mừng khi có thêm các model open-weight cạnh tranh được phần nào với các model hàng đầu mới nhất

  • API chính thức của DeepSeek, nếu dùng liên tục trong các phiên dài trên cùng một codebase, có tỷ lệ cache hit trên 99%, nên rẻ hơn model tuyến đầu rất nhiều. Có ví dụ về một phiên 200M token trong claude code

    • Có thể là câu hỏi ngớ ngẩn, nhưng để đảm bảo đúng tiền tố khớp cache trong một phiên mới thì có cần đọc file theo cùng một thứ tự không?
  • Tôi ngạc nhiên là mọi người gần như không hề bận tâm chuyện các model kiểu này công khai huấn luyện trên chính dữ liệu của họ, nhất là khi dùng trực tiếp API của nhà phát triển model
    Những chuyện như “GitHub giờ tự động opt-in code của mọi người vào huấn luyện model” thì có hàng trăm bình luận tức giận rất chính đáng, nhưng khi nói đến việc dùng model Trung Quốc qua OpenRouter thì chi tiết này gần như chẳng còn được nhắc tới. Có thể giải thích bằng “đó là những nhóm người khác nhau”, nhưng độ chênh quá rõ nên khó tin chỉ có vậy

    • Điểm hay của model open-weight là bạn có thể tự do dùng nhà cung cấp thay thế không gửi dữ liệu cho tác giả model gốc. Ví dụ trên OpenRouter tôi thấy có 6 nhà cung cấp thay thế cho DeepSeek V4 Pro
    • Cá nhân tôi thì miễn là họ công khai model chứ không đóng kín, tôi thấy giúp họ cũng không sao. Và tôi cũng không tin các thiết lập mà nhà cung cấp nói là sẽ không dùng để huấn luyện
    • Phần lớn model open-weight cho phép dùng nhà cung cấp với không lưu giữ dữ liệu và không huấn luyện. Có thể xem OpenRouter và OpenCode Go/Zen làm ví dụ
      Đây là một trong những lợi thế lớn của open-weight. Cả Trung Quốc lẫn Mỹ đều không lấy dữ liệu của tôi
    • Vì họ phát miễn phí và API cũng có giá rất ổn. Chuyện này không khó hiểu. Nó gợi cảm giác như Robin Hood lấy trộm thuế dữ liệu của chúng ta rồi trả lại vậy
    • Việc họ huấn luyện trên mã nguồn mở của tôi thì tôi thấy ổn. Code của tôi cũng khá tệ, nhưng đó không phải trọng tâm, với lại họ đang cung cấp dịch vụ miễn phí mà. Nhưng nếu tôi đã trả tiền mức enterprise mà họ vẫn đem đi huấn luyện thì tôi sẽ rất tức. Tôi đoán đa số lập trình viên cũng nghĩ như vậy
  • Việc này khiến tôi có hy vọng rằng ngay cả khi gánh xiếc trợ giá kết thúc và mọi thứ đều chuyển sang thuần trả theo mức sử dụng, thì nó cũng sẽ không hoàn toàn loại trừ những người bình thường không có ngân sách $200 mỗi tháng

    • Có hai lý do khiến tôi lạc quan rằng sẽ không có cú tát bất ngờ quy mô lớn nào về tỷ lệ hiệu năng trên giá tiền so với hôm nay
      Một là chúng ta liên tục tìm ra cách nhồi thêm trí tuệ vào các model nhỏ hơn, nên cùng một cấu hình phần cứng theo thời gian sẽ cung cấp nhiều năng lực model hơn
      Hai là phần cứng tiếp tục cải thiện và nguồn cung dần bắt kịp nhu cầu, nên cùng 1 đô la theo thời gian sẽ mua được cấu hình phần cứng tốt hơn
      Tôi hy vọng rồi sẽ có ngày chúng ta nhìn lại mô hình “truy cập AI qua API của nhà cung cấp” giống như cách ngày nay nhìn lại thời ai cũng phải kết nối vào mainframe của công ty
    • Tôi sẽ không ngạc nhiên nếu đến lúc mọi thứ lắng xuống, việc dùng tương tác cá nhân dưới $200 là bất khả thi. Mỗi lần tôi thử mô hình hóa chi phí phục vụ của mấy thứ này thì kết quả đều không khớp với các báo cáo công khai. Kể cả trong các kịch bản bi quan hơn cũng vậy
  • Tôi đã dùng v4 pro vài ngày qua, và về chất lượng thì nhìn chung nó có vẻ ngang OpenAI 5.4 hoặc Opus 4.6. Tôi chưa thử 4.7
    Nói rõ là tôi không làm việc gì quá tiên phong. Chủ yếu tôi dùng cho phát triển frontend, mà tôi không giỏi mảng đó nên chỉ cần các prototype trông hợp lý
    Với mục đích của tôi thì đây là model hoàn toàn ổn và giá cả hợp lý. Chỉ là tôi thật sự đang chờ một model mở nhỏ đủ để chạy local. Tôi không thích phải phụ thuộc vào máy của người khác và để dữ liệu của mình rò ra trong quá trình đó

    • Dùng suy luận của Tinfoil thì có thể dùng model trên cloud mà vẫn có mức riêng tư gần giống chạy local: https://tinfoil.sh/inference
      Nhân tiện, tôi là đồng sáng lập. Cách này chạy model bên trong secure enclave, và xác minh rằng mã nguồn mở chạy trong enclave khớp với chứng thực runtime. Nó dùng NVIDIA confidential computing
      Tài liệu có mô tả quy trình xác minh: https://docs.tinfoil.sh/verification/verification-in-tinfoil
    • Cảm ơn bạn đã chia sẻ trải nghiệm dùng thử, tôi cũng đang định thử. Bạn đang dùng nhà cung cấp nào cho suy luận vậy? Opencode hay DeepSeek API?