DeepSeek V4 Pro vượt GPT-5.5 Pro về độ chính xác

(runtimewire.com)

7 điểm bởi GN⁺ 2026-06-09 | 3 bình luận | Chia sẻ qua WhatsApp

Trong so sánh 1:1 với 4 bài toán văn bản được tạo ngẫu nhiên tại chỗ để không thể chuẩn bị trước, DeepSeek V4 Pro đạt 38.0 điểm, còn GPT-5.5 Pro đạt 33.0 điểm
Cả hai mô hình đều mạnh, nhưng DeepSeek nghiêm ngặt hơn, bám sát nghĩa đen hơn và có độ tin cậy cao hơn dưới các ràng buộc, trong khi GPT-5.5 Pro bị trừ điểm vì các thay đổi ứng biến không cần thiết
Ưu thế kỹ thuật rõ ràng nhất nằm ở bài toán python-log-redactor, nơi mô hình xử lý đúng thứ tự ưu tiên của các mẫu lồng nhau bằng một biểu thức chính quy duy nhất và hàm thay thế, tạo ra kết quả không bỏ sót
Ở bài toán tuân thủ chỉ thị, DeepSeek chỉ thực hiện chính xác những gì prompt yêu cầu, trong khi GPT-5.5 Pro thêm các mục không được yêu cầu như bàn giao theo ca và escalation
Được đánh giá là mô hình tiết chế hơn, chính xác hơn và đáng tin cậy hơn trong các tác vụ đòi hỏi độ chính xác cao, nơi sai lệch nhỏ có thể dẫn tới thất bại thực tế

Kết quả đánh giá tổng hợp

Về điểm số, DeepSeek V4 Pro thắng 38.0 so với 33.0, với đủ căn cứ cho khoảng cách này
Trên toàn bộ các bài toán được chấm, Model A (DeepSeek) nghiêm ngặt hơn, bám sát nghĩa đen hơn và ổn định hơn dưới các ràng buộc
- Model B (GPT-5.5 Pro) vẫn xuất sắc nhưng có xu hướng hơi quá đà ở các thay đổi ứng biến
Kết luận cuối cùng là đây là mô hình tiết chế hơn, chính xác hơn và đáng tin cậy hơn trong những công việc mà sai lệch nhỏ có thể dẫn thẳng đến thất bại thực tế

python-log-redactor (bài toán viết mã)

Đây là bài toán triển khai hàm redact_log(line: str) -> str bằng Python 3, trong đó email được che thành [EMAIL], IPv4 thành [IP], và ID vé dạng INC- + 6 chữ số thành [TICKET]
- Phần văn bản còn lại phải được giữ nguyên, IP sai như 999.1.2.3 không được che, và giả định không có đầu vào nhiều dòng
Người thắng: DeepSeek V4 Pro — xử lý các mẫu lồng nhau bằng một biểu thức chính quy duy nhất và hàm thay thế, bảo đảm đúng thứ tự ưu tiên thay thế và không bỏ sót
- GPT-5.5 Pro tách riêng các biểu thức chính quy nên phát sinh rủi ro lỗi thứ tự, đồng thời có lỗi như thiếu ranh giới từ trong regex email và overmatching

vendor-delay-update (bài toán viết thông điệp công việc)

Đây là bài toán viết cập nhật trạng thái để VP phụ trách vận hành gửi cho quản lý kho khu vực, truyền đạt việc giao 420 thiết bị thay thế bị lùi từ ngày 12/5 sang 19/5 do nhà cung cấp máy quét mã vạch North Quay Devices trượt chứng nhận pin
- Máy quét dự phòng chỉ đủ cho Memphis và Reno, còn Tulsa và Allentown sẽ cần dùng chung thiết bị trong 1 tuần
- Yêu cầu dừng kiểm đếm lại hàng tồn không thiết yếu, ưu tiên picking hàng xuất, và báo cáo số lượng thiếu hụt hằng ngày trước 4 giờ chiều theo giờ địa phương, với giọng điệu điềm tĩnh, có trách nhiệm, thực tế, độ dài 140–180 từ
Người thắng: DeepSeek V4 Pro — nêu trực tiếp đúng yêu cầu trong prompt là “báo cáo số lượng thiếu hụt hằng ngày trước 4 giờ chiều theo giờ địa phương” tới VP, đồng thời giữ giọng điệu điềm tĩnh, có trách nhiệm và thực tế
- GPT-5.5 Pro thêm các chi tiết không được yêu cầu như bàn giao theo ca và escalation, đồng thời đổi người nhận thành “Operations Planning”, nên hơi lệch khỏi chỉ thị, dù cả hai bên đều có chất lượng cao và nằm trong giới hạn từ

meeting-notes-summary (bài toán tóm tắt và tạo JSON)

Đây là bài toán đọc biên bản họp rồi tạo phần tóm tắt 2 câu cùng một đối tượng JSON có các khóa launch_date, owner, blocked_by, open_questions (mảng), decisions (mảng)
- Biên bản họp liên quan đến dự án cải tổ cổng thông tin tenant Cedar Lane, bao gồm phê duyệt pháp lý, trạng thái hoàn tất frontend, mục tiêu phát hành 2026-03-18, vấn đề sandbox tài chính chặn ID biên lai ACH retry trùng lặp, và quyết định bỏ dark mode
Người thắng: DeepSeek V4 Pro — tuân thủ chính xác schema được yêu cầu và cung cấp phần tóm tắt 2 câu cùng các trường JSON đúng kiểu dữ liệu
- GPT-5.5 Pro có phần tóm tắt ổn nhưng đưa văn bản điều kiện vào launch_date và xử lý blocked_by, vốn cần một giá trị đơn, thành mảng, làm sai cấu trúc

messy-orders-to-json (bài toán chuẩn hóa dữ liệu)

Đây là bài toán chuyển các dòng đơn hàng lộn xộn thành JSON hợp lệ dạng mảng đối tượng theo schema chỉ định, đồng thời bắt buộc giữ nguyên thứ tự đầu vào
- priority phải được chuẩn hóa thành true/false, các ngày giao thiếu như none, tbd, - phải chuyển thành null, khoảng trắng đầu cuối giá trị phải được loại bỏ, và các mặt hàng được phân tách bằng ; với mỗi mục có dạng SKU xQTY
Kết quả: hòa — cả hai bên đều tạo ra JSON hợp lệ, giữ nguyên thứ tự đầu vào, khớp chính xác schema, và chuẩn hóa đúng priority cùng giá trị ship_by
- Không có khác biệt đáng kể về chất lượng và độ chính xác, nhưng kết quả hòa ở bài toán dọn dẹp dễ không thể bù lại các sai sót trong các tác vụ đòi hỏi độ chính xác cao

Phương thức thử nghiệm

Sử dụng 4 bài toán văn bản được tạo ngẫu nhiên tại chỗ cho màn đối đầu để không mô hình nào có thể chuẩn bị trước
Việc chấm điểm từng bài toán do grok-4-1-fast-non-reasoning thực hiện
Điểm cuối cùng là DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0

Thông số mô hình

OpenAI: GPT-5.5 Pro
- Là mô hình hiệu năng cao được tối ưu cho suy luận sâu và độ chính xác, hướng tới các workload phức tạp và rủi ro cao
- Hỗ trợ ngữ cảnh 1M+ token (đầu vào 922K, đầu ra 128K), đầu vào văn bản và hình ảnh, được thiết kế cho giải quyết bài toán dài hơi, agent coding và thực thi chính xác các workflow nhiều bước
- Giá đầu vào $30.00 / đầu ra $180.00 (mỗi triệu token), ngữ cảnh 1.1M, cutoff 2025-12-01
DeepSeek: DeepSeek V4 Pro
- Là mô hình Mixture-of-Experts quy mô lớn với tổng 1.6T tham số, 49B tham số kích hoạt, hỗ trợ ngữ cảnh 1M token
- Hướng tới suy luận nâng cao, coding và các workflow agent dài hơi, với hiệu năng mạnh trên các benchmark về tri thức, toán học và kỹ thuật phần mềm
- Dựa trên cùng kiến trúc với DeepSeek V4 Flash, đồng thời giới thiệu hệ thống attention lai để xử lý văn bản dài hiệu quả
- Hỗ trợ cường độ suy luận high và xhigh, trong đó xhigh ánh xạ tới mức suy luận tối đa, phù hợp với workload phức tạp như phân tích toàn bộ codebase, tự động hóa nhiều bước và tổng hợp thông tin quy mô lớn
- Giá đầu vào $0.435 / đầu ra $0.870 (mỗi triệu token), ngữ cảnh 1M

3 bình luận

emptybynature 29 ngày trước

Tôi đã dùng deepseek v4 pro trong thời gian dài cho nhiều mục đích khác nhau, và cuối cùng thấy rằng hiệu quả nhất là dùng deepseek làm tác nhân triển khai, còn gpt 5.5 đảm nhiệm vai trò lập kế hoạch và điều phối. Vì token của deepseek rẻ hơn áp đảo, nên ngay cả khi dùng làm mô hình flash cho việc tổng hợp tài liệu hay audit thì nó vẫn cho hiệu quả và hiệu năng rất tốt.

shakespeares 2026-06-09

Thật khó mà tin nổi..

GN⁺ 2026-06-09

Ý kiến trên Hacker News

Chỉ với 4 thí nghiệm dựng lên tùy ý thì hầu như không thể nói lên năng lực của bất kỳ mô hình nào
Bài viết cũng giống như dạng clickbait do AI tạo ra hời hợt, nhắm tới việc quảng bá mô hình hoặc khơi mào tranh cãi
Những cách diễn đạt như “where it matters”, “cleanly”, “is still strong” trong đoạn mở đầu đều mơ hồ, và thiếu các giải thích cụ thể kiểu như DeepSeek thực tế đã cho kết quả gọn hơn trong 3 trên 4 bài kiểm tra. Chỉ đáng 1 sao
- Có vẻ như đã hiểu sai mục đích của lede
  Theo Merriam-Webster, lede là “phần mở đầu của một bài báo nhằm lôi cuốn người đọc đọc hết toàn bộ bài viết”
  Có thể bạn thích văn phong khô hơn, nhưng chỉ trích đoạn mở đầu vì nó đang cố hoàn thành đúng mục đích của mình thì không hợp lý
  https://www.merriam-webster.com/dictionary/lede
- Tôi thật sự không muốn thấy trên HN những bài viết do AI tạo về AI, trừ khi chúng được viết cực kỳ tốt
- 3 trên 4 thí nghiệm thì đúng là mang tính giai thoại, nhưng bản thân kết quả cũng phần nào khớp với các benchmark tuân thủ chỉ thị đã được xây dựng bài bản hơn. Tuy vậy, DeepSeek V4 Pro không đứng đầu benchmark đó
  https://artificialanalysis.ai/evaluations/ifbench
  Bài viết khá rõ ràng và có vẻ khá cân bằng. Đoạn mở đầu hơi giống lời tiếp thị, nhưng thường lede vẫn thế, và việc gạt đi ngay chỉ vì “có cảm giác như do LLM viết” là phản ứng khá hời hợt
- Trong thị trường ô tô cũng vậy, lựa chọn tốt nhất lý tưởng chỉ là một hai mẫu, nhưng vẫn có nhiều công ty và mẫu xe kém hơn tiếp tục bán được vì nhiều lý do
  Bài viết này cho thấy DeepSeek có thể cạnh tranh với GPT 5.5 và đôi khi còn tốt hơn. Đây cũng là tín hiệu rằng không có hào lũy cạnh tranh (moat) nào đủ vững để phòng thủ, nên khá đáng chú ý
- Với những chỉ số kiểu “bồ nông đi xe đạp”, chẳng ai lại gọi đó là thí nghiệm tùy ý cẩu thả cả
Những bài test kiểu này ngày càng giống như phí thời gian
Giờ thì trí thông minh rõ ràng là có rồi. Cố đo nó có vẻ vô nghĩa. Khi mua một cái búa ở cửa hàng kim khí, bạn không thể sắp xếp chúng theo tiêu chí “chất lượng sản phẩm hoàn thiện được làm ra bằng cái búa này”, nhưng đánh giá mô hình hiện giờ đại khái đang đòi hỏi như vậy
Phép màu tiếp theo sẽ đến từ harness và môi trường chuyên biệt theo miền. Cố ý dùng một mô hình yếu hơn đôi chút để làm lộ ra điểm yếu trong cách miền đó được phơi bày cho mô hình. Nếu vẫn còn dư địa hiệu năng, độ tin cậy của dự án sẽ tăng lên đáng kể. Nếu khách hàng phàn nàn về một edge case cụ thể, ta có thể chỉ nâng riêng kịch bản đó lên gpt5.5; nhưng nếu đã dùng 5.5 ngay từ đầu thì không còn chỗ nào để đi tiếp
- Tôi không thấy thuyết phục với câu “trí thông minh rõ ràng là có”
  Tôi tự hỏi có phải mình đang dùng cùng loại mô hình như những người khác không. Theo trải nghiệm của tôi, LLM cho câu trả lời tốt 80% thời gian, nhưng 20% còn lại thất bại thảm hại đến mức rõ ràng là không có trí thông minh
- Đồng ý. sonnet 4.6 có vẻ đã đủ cho gần như mọi việc. Vượt qua mức đó, orchestration có vẻ quan trọng hơn bản thân mô hình
  Dù vậy, các mô hình vẫn mỗi ngày khiến tôi bất ngờ vì đủ loại hallucination, thiếu nền tảng nhận thức luận, thiếu thường thức, và không làm đúng chỉ thị
  Hôm nay tôi cố bắt opus 4.8 tuân theo một pattern kiến trúc đơn giản cho controller của ứng dụng Rails, mà cảm giác như đi nhổ răng cá mập
- Dù nói là “rõ ràng là có”, nhưng việc giờ đây ta đã phải hỏi “nó nằm ở đâu”, cùng thực tế là tôi đã thấy những bot rõ ràng không hề thông minh, cho thấy cần phải định nghĩa và khảo sát vị trí và nguyên nhân của trí thông minh
  Có như vậy mới có được bảo đảm rằng trí thông minh không xuất hiện một cách ngẫu nhiên hay chỉ là bề ngoài, mà là nhất quán và có cấu trúc. Việc nhẹ dùng công cụ nhẹ, việc tối quan trọng thì cần công cụ đã được chứng nhận
- Tôi không hiểu vì sao lại là phí thời gian
  Chúng ta mới chỉ bắt đầu đi vào chi tiết của benchmarking LLM, và tôi nghĩ vẫn còn rất xa mới xong. Dù vậy, việc LLM chạy cục bộ có thể cho ra kết quả gần với các mô hình đỉnh cao mới nhất là cực kỳ thú vị
- Phép màu không xảy ra ở harness và môi trường chuyên biệt theo miền. Cốt lõi nằm ở training và reinforcement learning. Harness không thể ghi đè lên hành vi mà mô hình đã được huấn luyện
  Nếu mô hình đã được huấn luyện để xuất ra website CRUD, và bạn đang muốn làm website CRUD, thì harness có thể hữu ích. Nhưng điều đó gần như là phí thời gian để trộn lại những gì đã có cho tốt hơn
Tôi từng dùng Claude, rồi sau khi Opencode bị chặn thì ở công ty chuyển sang dùng GPT. Còn cá nhân thì tôi dùng Deepseek trong Opencode Go với gói $10/tháng, và thành thật mà nói tôi hầu như không cảm nhận được khác biệt
Năng lực tương tự nhau, và nó cũng mắc cùng kiểu lỗi ngớ ngẩn mà hai con còn lại cứ lặp đi lặp lại từ sau tháng 3. Xét theo giá thì tôi hoàn toàn hài lòng
- 95% thời gian, ta không cần đến thêm 5% độ chặt chẽ mà các mô hình frontier mang lại so với những mô hình Trung Quốc rẻ hơn 10 đến 100 lần
  5% thời gian còn lại, chúng lại giúp rất nhiều với các bài toán suy luận khó và tránh được không ít đau khổ. Giá mà giờ ta có thể dự đoán chính xác khi nào cần đến 5% bổ sung đó thì tốt biết mấy
- Tôi đang dùng cả hai gói thuê bao, và chắc chắn cảm thấy gpt tốt hơn và ổn định hơn. Dù vậy, khi đụng giới hạn thì tôi cũng không nhớ nhung nó đến mức lớn
- Tôi không biết mình đang làm sai điều gì. Trong 7 tháng qua tôi dùng Claude và đôi lúc thử các mô hình như deepseek, kimi, nhưng chẳng cái nào đến gần được. Claude gần như luôn giải quyết xong ngay từ lần đầu
Tôi đã thử thêm GPT 5.5 Pro vào benchmark quét lỗ hổng tự xây dựng của mình(https://swelljoe.com/post/will-it-mythos/), nhưng nó đã tiêu sạch giới hạn ngân sách 100 USD giữa chừng. DeepSeek V4 Pro tốn khoảng 1 USD cho toàn bộ benchmark, còn GPT Pro tốn trung bình 22 USD mỗi case
GPT 5.5 Pro tìm được 2 trong số 4 case đã xử lý trước khi cạn ngân sách. Nếu ngân sách không giới hạn thì có thể nó là tốt nhất, nhưng Opus 4.8, DeepSeek V4 Pro và MiMo 2.5 Pro đều tìm được 4 trên 9 lỗi. Opus rẻ hơn GPT 5.5 Pro một bậc độ lớn và cũng rẻ hơn GPT 5.5 khoảng 30%, còn DeepSeek và MiMo rẻ hơn hai bậc độ lớn, khoảng 10 xu mỗi case
GPT Pro tương đối “nghiền ngẫm” lâu và nhiều
Tôi không thể nghĩ ra trường hợp sử dụng hợp lý nào để dùng GPT 5.5 Pro với chi phí cao gấp khoảng 31 lần Opus, và tôi cũng không định benchmark bằng nó nữa
Trong bối cảnh chi phí token ngày càng trở thành vấn đề quan trọng, việc tồn tại các mô hình rẻ hơn đáng kể so với các nhà cung cấp lớn của Mỹ sẽ là một vấn đề đối với Anthropic và OpenAI. Trả thêm mức premium hợp lý cho mô hình tốt nhất trong lập trình tương tác thì không sao, nhưng với sử dụng qua API, việc lặp mô hình, so sánh giữa các mô hình và chấm định mô hình có thể được xử lý bằng harness và framework kiểm chứng đáp án mà không cần con người phải theo sát lâu, nên rất khó tìm ra lý do để trả nhiều hơn DeepSeek từ 10 đến 200 lần
- Nội dung này cũng có thể thú vị
  “3,88 USD, 690.003.591 token, 5 giờ: dùng cả Deepseek Pro và Flash để đảo ngược hệ thống cấp phép của Teamspeak 3.13.8”
  https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
- Tôi cũng tò mò liệu có thể đưa GPT 5.5 non-pro vào phần so sánh không. GPT Pro là kiểu tùy chọn “thỉnh thoảng có thể đốt tiền để lấy kết quả nhỉnh hơn một chút”, chứ không phải lựa chọn được kỳ vọng để mọi người dùng hằng ngày. Có lẽ đó cũng là một trong những lý do nó không được đưa vào Codex
- Bài viết hay. Nhưng tôi hơi khó hiểu vì sao Sonnet lại kém hơn Haiku. Hình như tác giả nói là tuy không tìm ra lỗi đang nhắm tới, nhưng lại tìm được khá nhiều lỗi khác
  9 lỗi có vẻ là cỡ mẫu hơi nhỏ để xếp hạng
  Dù vậy, thứ hạng nhìn chung vẫn khá giống với dự đoán
  Tôi cũng tò mò Deepseek ở đây có đúng là bản Pro không, hay không phải Flash. Tôi đang dùng Flash khá nhiều cho các tác vụ nhỏ và thấy nó khá ổn. Nó tốt cho kiểu dùng “tương tác”, rất nhanh, và các tác vụ nhỏ gần như xong ngay lập tức
  Nó cũng dùng được để khảo sát các codebase lớn. Tôi cũng tò mò liệu nó có làm tốt các tác vụ bảo mật không
- Làm tốt lắm. Có vẻ trực giác là đúng. Phần lớn Mythos moment có lẽ có thể tái hiện được với một harness phù hợp và một mô hình đủ vững mà không bị quá nhiều guardrail ngớ ngẩn
  Cũng rất vui khi thấy các mô hình giá rẻ làm tốt
- DeepSeek được chạy ở đâu?
Tôi đang thắc mắc liệu chuyển Claude Code sang mức giá API của DeepSeek có đáng tiền hơn gói Max $100 hiện đang dùng hay không.
Giới hạn 5 giờ chỉ thỉnh thoảng vài ngày mới chạm một lần, còn giới hạn theo tuần thì phải dùng rất gắt mới đụng tới trước ngày reset một hai hôm. Ngoài việc không bị chặn bởi giới hạn, tôi không nghĩ mức sử dụng sẽ tăng lên quá nhiều.
Tôi cũng vẫn hơi ngại chuyện gửi sản phẩm công việc của mình tới một viện nghiên cứu nằm dưới một chính quyền thù địch với Mỹ, nên không chỉ nhìn mỗi chi phí, nhưng câu hỏi hiện tại là dưới góc độ chi phí.
- Còn tùy bạn định nghĩa ‘đáng tiền’ là gì. Mô hình trọng số mở không tốt hơn openai/claude. Nhưng nó rẻ hơn rất nhiều và giới hạn cũng cao hơn rất nhiều, nên có thể bắt nó làm được nhiều việc hơn với ít tiền hơn.
  Mọi nhà cung cấp gói thuê bao đều có giá trị giới hạn trên chi phí tốt hơn Anthropic. GitHub là ngoại lệ duy nhất, bên đó đắt và hạn chế đến mức gần như đáng xấu hổ.
  (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
  Nếu ý bạn là không muốn dùng mô hình do viện nghiên cứu ngoài Mỹ tạo ra thì bạn sẽ bị bó vào các mô hình Mỹ, nhưng ở Mỹ cũng có nhiều viện nghiên cứu lớn. Nếu bạn lo việc suy luận được thực hiện ở đâu, thì có thể dùng các nhà cung cấp từ 12 quốc gia, bao gồm cả Mỹ, thông qua OpenRouter, và nhiều nhà cung cấp thuê bao cũng host ở nhiều quốc gia. Có rất nhiều lựa chọn.
- Tôi khuyên cứ thử trước. Nạp $5 vào deepseek.com, cho cấu hình này vào một shell script, rồi chạy . ./deepseek-claude.sh và dùng claude như bình thường.
  export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
  export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
  export ANTHROPIC_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_EFFORT_LEVEL=max
  Ban đầu tôi dùng nó cho các tác vụ đọc lớn khi gần chạm giới hạn. Nói thật là nó không tốt bằng Claude, nhưng rẻ hơn nhiều và cho phép tôi tiếp tục làm việc. Đôi khi cũng hay khi hỏi cả claude lẫn deepseek cách xem và tinh chỉnh code, rồi so sánh câu trả lời của hai bên.
- Tôi đang dùng Claude theo gói thuê bao $100/tháng. Tôi đang thử một cấu hình dùng Opus làm kiến trúc sư, Sonnet làm người triển khai/kỹ sư, và deepseek-pro làm người review sâu và tester, và đúng như kỳ vọng, nó khá ổn.
  Nếu kiểu sử dụng này được giữ nguyên, tôi định hạ gói thuê bao xuống $20/tháng và nạp thêm tiền cho Deepseek.
  Kho tham khảo: https://github.com/aravindhsampath/agentic-template
- Hiệu quả trên mỗi đô tốt hơn rất nhiều, còn hiệu quả trên mỗi giờ thì kém hơn một chút.
  Như mọi khi, mỗi mô hình lại mắc ở những chỗ khác nhau. Tôi dùng DeepSeek v4 API cho phần lớn các thử nghiệm trong Cursor, khám phá và proof of concept, nhưng ít tin tưởng nó hơn OpenAI/Claude khi viết code production. Có lúc DeepSeek rất tốt cho debug hay lập kế hoạch, nhưng cũng có lúc bị bí hoặc cho ra chất lượng thấp. Mô hình của OpenAI và Anthropic cũng vậy.
  Tổng thể thì DeepSeek dùng được, nhưng có vẻ vẫn thấp hơn Opus 4.8 và GPT 5.5 một bậc. Tất cả đều chạy ở thiết lập suy nghĩ tối đa.
- Nếu bạn lo việc gửi dữ liệu ra ngoài để suy luận, Fireworks là một trong những công ty cung cấp mô hình mở với hiệu năng tốt, đồng thời xử lý khá tốt về compliance và không lưu dữ liệu. OpenCode cũng hỗ trợ Fireworks và nhiều nhà cung cấp khác, còn Cursor cũng dùng Fireworks.
  Nó không có ưu đãi đọc cache siêu rẻ như endpoint riêng của DeepSeek, nhưng vẫn thấp hơn rất nhiều so với mức giá API của Anthropic. Tuy vậy, điều quan trọng là hiện tại bạn không phải đang trả tiền API.
  Ưu đãi đọc cache của DeepSeek và Xiaomi có liên quan đến việc các mô hình thế hệ mới nhất dùng ít không gian lưu KV hơn, nên caching rẻ hơn. Chưa có nhà cung cấp suy luận mô hình mở nào quyết định khớp mức giá đó, điều này có lẽ nói lên điều gì đó về cấu trúc giá suy luận, nhưng chính xác là gì thì tôi không rõ.
  Tôi đồng ý rằng các mô hình mở tốt nhất vẫn chưa đạt đến mức frontier. Trong các tình huống cần lập kế hoạch bức tranh lớn, hoặc chỉ đưa khung lớn rồi kỳ vọng nhiều suy đoán, sự khác biệt sẽ lộ ra. Nhưng để code theo một kế hoạch cụ thể thì có vẻ hoàn toàn đủ tốt. Tôi chỉ dùng nó ngoài công ty nên chưa có trải nghiệm với codebase khổng lồ, nhưng khả năng tự đi thu thập thông tin cần thiết trước khi lao vào của nó khá ổn, nên nếu cần chắc nó sẽ tự đi grep.
  Có một chi tiết gây khó chịu là nếu dùng nhiều gói thuê bao cá nhân thì nó rẻ hơn API rất nhiều. https://she-llac.com/claude-limits khiến câu chuyện bàn về chi phí trở nên phức tạp. Dù vậy, tôi vẫn nghĩ đáng để nghịch với các mô hình mở. Đây là một trong những yếu tố giúp bạn có thể xử lý nó như một công nghệ thống nhất, thay vì một bó sản phẩm của vài công ty.
Đây là kiểu tin lớn mà tôi thấy cần dè chừng. Người ta lấy một bộ test nhỏ rồi tuyên bố mô hình này tốt hơn mô hình kia, nhưng tôi nghi ngờ liệu kết quả đó có thể được tái hiện một cách thực sự nhất quán hay không.
Công bố cũng gần như không có, nên trên thực tế người khác không có đủ tài liệu để tự xác minh bài test hay đánh giá.
Giá trị lớn nhất của DeepSeek V4 Pro là giá rẻ. Tôi không kỳ vọng hiệu năng vượt GPT-5.5 quá xa; ngay cả nếu chỉ đạt cỡ gpt-5.4 thì nó vẫn là một mô hình tốt.
- Kỳ vọng không phải lúc nào cũng là thực tế. Tốt nhất là tự dùng thử mô hình. Thành thật mà nói tôi còn chưa dùng Pro, mới chỉ dùng Flash, và tôi làm web PHP
Hầu như không có việc nào cần một mô hình tốt hơn DSv4 Flash. Còn Pro thì lại càng không cần
Nếu có thể mô tả vấn đề và cách giải đủ rõ, Flash cứ thế mà làm được
Khi không thể mô tả vấn đề đủ rõ hoặc lười nên chỉ có thể nói kết quả mong muốn, thì tôi thấy các mô hình như GPT 5.5 rõ ràng giỏi hơn ở chỗ tự tìm ra một lời giải vững chắc
Sự khác biệt về năng lực giữa các mô hình là có thật, nhưng cũng rõ ràng rằng các mô hình open-weight nhỏ hơn đã đủ tốt để hỗ trợ rất nhiều trong đa số công việc
Tôi dùng deepseek v4 vì hiệu năng trên chi phí. Nhìn chung tôi thấy nó kém hơn một vài mô hình khác, nhưng rốt cuộc nếu đưa ra đúng tiêu chí chấp nhận thì có thể khiến bất kỳ mô hình nào cũng hoạt động
Chỉ cần cung cấp đặc tả chi tiết, test, và cho phép lặp lại cho đến khi chạy đúng. One-shot là một chỉ số tệ để đo hiệu năng
- Tôi không cho rằng mọi mô hình đều sẽ hội tụ về tiêu chí chấp nhận. Tôi đã thử khá nhiều với mô hình hóa dựa trên agent và mô hình hóa khoa học trong lĩnh vực đó; ngay cả khi có tiêu chí để kiểm chứng và có ý tưởng về cách đạt đến điểm hội tụ, điều đó không có nghĩa là nó thực sự sẽ hội tụ
  Nó có thể cứ lặp mãi trong không gian thông tin rồi bị mắc kẹt mà không tìm ra lời giải mong muốn
  Nó vẫn hữu ích, nhưng trong các ca thất bại thì thường phải có con người can thiệp để dẫn hướng hoặc buộc sửa một số nhánh cụ thể thì mới đi tới được lời giải
DeepSeek V4 Pro dùng cùng reasonix rẻ đến mức đáng kinh ngạc và đủ tốt cho phần lớn công việc lập trình. Nó cũng khá khác với GPT 5.5 và Opus 4.8, nên đôi khi tìm ra những vấn đề mà hai mô hình kia không phát hiện được
Tôi nghĩ nó đáng để có trong bộ công cụ
DeepSeek V4 Pro rất xuất sắc và rẻ một cách phi lý, nhưng mọi người đang đánh giá thấp MiMo V2.5 Pro. Giá như nhau, giá cache còn thấp hơn, lại là multimodal, và đứng cao hơn trên phần lớn benchmark
So sánh giữa MiMo V2.5 và DeepSeek V4 Flash cũng vậy
- Theo https://news.ycombinator.com/item?id=48343690 tại thời điểm bài viết được viết, giá cache hit của MiMo V2.5 Pro thấp hơn. Nội dung gốc là như sau
  Các mô hình OSS khác biệt rất lớn tùy theo nhà cung cấp bạn dùng, và lý do chính là tỷ lệ cache hit
  Model Cheapest effectiveInputPrice (Provider)
  MiMo-V2.5-Pro 0.3720 (Xiaomi)
  DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)