DeepSeek V4 Pro vượt GPT-5.5 Pro về độ chính xác
(runtimewire.com)- Trong so sánh 1:1 với 4 bài toán văn bản được tạo ngẫu nhiên tại chỗ để không thể chuẩn bị trước, DeepSeek V4 Pro đạt 38.0 điểm, còn GPT-5.5 Pro đạt 33.0 điểm
- Cả hai mô hình đều mạnh, nhưng DeepSeek nghiêm ngặt hơn, bám sát nghĩa đen hơn và có độ tin cậy cao hơn dưới các ràng buộc, trong khi GPT-5.5 Pro bị trừ điểm vì các thay đổi ứng biến không cần thiết
- Ưu thế kỹ thuật rõ ràng nhất nằm ở bài toán python-log-redactor, nơi mô hình xử lý đúng thứ tự ưu tiên của các mẫu lồng nhau bằng một biểu thức chính quy duy nhất và hàm thay thế, tạo ra kết quả không bỏ sót
- Ở bài toán tuân thủ chỉ thị, DeepSeek chỉ thực hiện chính xác những gì prompt yêu cầu, trong khi GPT-5.5 Pro thêm các mục không được yêu cầu như bàn giao theo ca và escalation
- Được đánh giá là mô hình tiết chế hơn, chính xác hơn và đáng tin cậy hơn trong các tác vụ đòi hỏi độ chính xác cao, nơi sai lệch nhỏ có thể dẫn tới thất bại thực tế
Kết quả đánh giá tổng hợp
- Về điểm số, DeepSeek V4 Pro thắng 38.0 so với 33.0, với đủ căn cứ cho khoảng cách này
- Trên toàn bộ các bài toán được chấm, Model A (DeepSeek) nghiêm ngặt hơn, bám sát nghĩa đen hơn và ổn định hơn dưới các ràng buộc
- Model B (GPT-5.5 Pro) vẫn xuất sắc nhưng có xu hướng hơi quá đà ở các thay đổi ứng biến
- Kết luận cuối cùng là đây là mô hình tiết chế hơn, chính xác hơn và đáng tin cậy hơn trong những công việc mà sai lệch nhỏ có thể dẫn thẳng đến thất bại thực tế
python-log-redactor (bài toán viết mã)
- Đây là bài toán triển khai hàm
redact_log(line: str) -> strbằng Python 3, trong đó email được che thành[EMAIL], IPv4 thành[IP], và ID vé dạngINC-+ 6 chữ số thành[TICKET]- Phần văn bản còn lại phải được giữ nguyên, IP sai như
999.1.2.3không được che, và giả định không có đầu vào nhiều dòng
- Phần văn bản còn lại phải được giữ nguyên, IP sai như
- Người thắng: DeepSeek V4 Pro — xử lý các mẫu lồng nhau bằng một biểu thức chính quy duy nhất và hàm thay thế, bảo đảm đúng thứ tự ưu tiên thay thế và không bỏ sót
- GPT-5.5 Pro tách riêng các biểu thức chính quy nên phát sinh rủi ro lỗi thứ tự, đồng thời có lỗi như thiếu ranh giới từ trong regex email và overmatching
vendor-delay-update (bài toán viết thông điệp công việc)
- Đây là bài toán viết cập nhật trạng thái để VP phụ trách vận hành gửi cho quản lý kho khu vực, truyền đạt việc giao 420 thiết bị thay thế bị lùi từ ngày 12/5 sang 19/5 do nhà cung cấp máy quét mã vạch North Quay Devices trượt chứng nhận pin
- Máy quét dự phòng chỉ đủ cho Memphis và Reno, còn Tulsa và Allentown sẽ cần dùng chung thiết bị trong 1 tuần
- Yêu cầu dừng kiểm đếm lại hàng tồn không thiết yếu, ưu tiên picking hàng xuất, và báo cáo số lượng thiếu hụt hằng ngày trước 4 giờ chiều theo giờ địa phương, với giọng điệu điềm tĩnh, có trách nhiệm, thực tế, độ dài 140–180 từ
- Người thắng: DeepSeek V4 Pro — nêu trực tiếp đúng yêu cầu trong prompt là “báo cáo số lượng thiếu hụt hằng ngày trước 4 giờ chiều theo giờ địa phương” tới VP, đồng thời giữ giọng điệu điềm tĩnh, có trách nhiệm và thực tế
- GPT-5.5 Pro thêm các chi tiết không được yêu cầu như bàn giao theo ca và escalation, đồng thời đổi người nhận thành “Operations Planning”, nên hơi lệch khỏi chỉ thị, dù cả hai bên đều có chất lượng cao và nằm trong giới hạn từ
meeting-notes-summary (bài toán tóm tắt và tạo JSON)
- Đây là bài toán đọc biên bản họp rồi tạo phần tóm tắt 2 câu cùng một đối tượng JSON có các khóa
launch_date,owner,blocked_by,open_questions(mảng),decisions(mảng)- Biên bản họp liên quan đến dự án cải tổ cổng thông tin tenant Cedar Lane, bao gồm phê duyệt pháp lý, trạng thái hoàn tất frontend, mục tiêu phát hành 2026-03-18, vấn đề sandbox tài chính chặn ID biên lai ACH retry trùng lặp, và quyết định bỏ dark mode
- Người thắng: DeepSeek V4 Pro — tuân thủ chính xác schema được yêu cầu và cung cấp phần tóm tắt 2 câu cùng các trường JSON đúng kiểu dữ liệu
- GPT-5.5 Pro có phần tóm tắt ổn nhưng đưa văn bản điều kiện vào
launch_datevà xử lýblocked_by, vốn cần một giá trị đơn, thành mảng, làm sai cấu trúc
- GPT-5.5 Pro có phần tóm tắt ổn nhưng đưa văn bản điều kiện vào
messy-orders-to-json (bài toán chuẩn hóa dữ liệu)
- Đây là bài toán chuyển các dòng đơn hàng lộn xộn thành JSON hợp lệ dạng mảng đối tượng theo schema chỉ định, đồng thời bắt buộc giữ nguyên thứ tự đầu vào
priorityphải được chuẩn hóa thành true/false, các ngày giao thiếu nhưnone,tbd,-phải chuyển thành null, khoảng trắng đầu cuối giá trị phải được loại bỏ, và các mặt hàng được phân tách bằng;với mỗi mục có dạngSKU xQTY
- Kết quả: hòa — cả hai bên đều tạo ra JSON hợp lệ, giữ nguyên thứ tự đầu vào, khớp chính xác schema, và chuẩn hóa đúng
prioritycùng giá trịship_by- Không có khác biệt đáng kể về chất lượng và độ chính xác, nhưng kết quả hòa ở bài toán dọn dẹp dễ không thể bù lại các sai sót trong các tác vụ đòi hỏi độ chính xác cao
Phương thức thử nghiệm
- Sử dụng 4 bài toán văn bản được tạo ngẫu nhiên tại chỗ cho màn đối đầu để không mô hình nào có thể chuẩn bị trước
- Việc chấm điểm từng bài toán do grok-4-1-fast-non-reasoning thực hiện
- Điểm cuối cùng là DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0
Thông số mô hình
-
OpenAI: GPT-5.5 Pro
- Là mô hình hiệu năng cao được tối ưu cho suy luận sâu và độ chính xác, hướng tới các workload phức tạp và rủi ro cao
- Hỗ trợ ngữ cảnh 1M+ token (đầu vào 922K, đầu ra 128K), đầu vào văn bản và hình ảnh, được thiết kế cho giải quyết bài toán dài hơi, agent coding và thực thi chính xác các workflow nhiều bước
- Giá đầu vào $30.00 / đầu ra $180.00 (mỗi triệu token), ngữ cảnh 1.1M, cutoff 2025-12-01
-
DeepSeek: DeepSeek V4 Pro
- Là mô hình Mixture-of-Experts quy mô lớn với tổng 1.6T tham số, 49B tham số kích hoạt, hỗ trợ ngữ cảnh 1M token
- Hướng tới suy luận nâng cao, coding và các workflow agent dài hơi, với hiệu năng mạnh trên các benchmark về tri thức, toán học và kỹ thuật phần mềm
- Dựa trên cùng kiến trúc với DeepSeek V4 Flash, đồng thời giới thiệu hệ thống attention lai để xử lý văn bản dài hiệu quả
- Hỗ trợ cường độ suy luận
highvàxhigh, trong đóxhighánh xạ tới mức suy luận tối đa, phù hợp với workload phức tạp như phân tích toàn bộ codebase, tự động hóa nhiều bước và tổng hợp thông tin quy mô lớn - Giá đầu vào $0.435 / đầu ra $0.870 (mỗi triệu token), ngữ cảnh 1M
2 bình luận
Thật khó mà tin nổi..
Ý kiến trên Hacker News
Chỉ với 4 thí nghiệm dựng lên tùy ý thì hầu như không thể nói lên năng lực của bất kỳ mô hình nào
Bài viết cũng giống như dạng clickbait do AI tạo ra hời hợt, nhắm tới việc quảng bá mô hình hoặc khơi mào tranh cãi
Những cách diễn đạt như “where it matters”, “cleanly”, “is still strong” trong đoạn mở đầu đều mơ hồ, và thiếu các giải thích cụ thể kiểu như DeepSeek thực tế đã cho kết quả gọn hơn trong 3 trên 4 bài kiểm tra. Chỉ đáng 1 sao
Theo Merriam-Webster, lede là “phần mở đầu của một bài báo nhằm lôi cuốn người đọc đọc hết toàn bộ bài viết”
Có thể bạn thích văn phong khô hơn, nhưng chỉ trích đoạn mở đầu vì nó đang cố hoàn thành đúng mục đích của mình thì không hợp lý
https://www.merriam-webster.com/dictionary/lede
https://artificialanalysis.ai/evaluations/ifbench
Bài viết khá rõ ràng và có vẻ khá cân bằng. Đoạn mở đầu hơi giống lời tiếp thị, nhưng thường lede vẫn thế, và việc gạt đi ngay chỉ vì “có cảm giác như do LLM viết” là phản ứng khá hời hợt
Bài viết này cho thấy DeepSeek có thể cạnh tranh với GPT 5.5 và đôi khi còn tốt hơn. Đây cũng là tín hiệu rằng không có hào lũy cạnh tranh (moat) nào đủ vững để phòng thủ, nên khá đáng chú ý
Những bài test kiểu này ngày càng giống như phí thời gian
Giờ thì trí thông minh rõ ràng là có rồi. Cố đo nó có vẻ vô nghĩa. Khi mua một cái búa ở cửa hàng kim khí, bạn không thể sắp xếp chúng theo tiêu chí “chất lượng sản phẩm hoàn thiện được làm ra bằng cái búa này”, nhưng đánh giá mô hình hiện giờ đại khái đang đòi hỏi như vậy
Phép màu tiếp theo sẽ đến từ harness và môi trường chuyên biệt theo miền. Cố ý dùng một mô hình yếu hơn đôi chút để làm lộ ra điểm yếu trong cách miền đó được phơi bày cho mô hình. Nếu vẫn còn dư địa hiệu năng, độ tin cậy của dự án sẽ tăng lên đáng kể. Nếu khách hàng phàn nàn về một edge case cụ thể, ta có thể chỉ nâng riêng kịch bản đó lên gpt5.5; nhưng nếu đã dùng 5.5 ngay từ đầu thì không còn chỗ nào để đi tiếp
Tôi tự hỏi có phải mình đang dùng cùng loại mô hình như những người khác không. Theo trải nghiệm của tôi, LLM cho câu trả lời tốt 80% thời gian, nhưng 20% còn lại thất bại thảm hại đến mức rõ ràng là không có trí thông minh
Dù vậy, các mô hình vẫn mỗi ngày khiến tôi bất ngờ vì đủ loại hallucination, thiếu nền tảng nhận thức luận, thiếu thường thức, và không làm đúng chỉ thị
Hôm nay tôi cố bắt opus 4.8 tuân theo một pattern kiến trúc đơn giản cho controller của ứng dụng Rails, mà cảm giác như đi nhổ răng cá mập
Có như vậy mới có được bảo đảm rằng trí thông minh không xuất hiện một cách ngẫu nhiên hay chỉ là bề ngoài, mà là nhất quán và có cấu trúc. Việc nhẹ dùng công cụ nhẹ, việc tối quan trọng thì cần công cụ đã được chứng nhận
Chúng ta mới chỉ bắt đầu đi vào chi tiết của benchmarking LLM, và tôi nghĩ vẫn còn rất xa mới xong. Dù vậy, việc LLM chạy cục bộ có thể cho ra kết quả gần với các mô hình đỉnh cao mới nhất là cực kỳ thú vị
Nếu mô hình đã được huấn luyện để xuất ra website CRUD, và bạn đang muốn làm website CRUD, thì harness có thể hữu ích. Nhưng điều đó gần như là phí thời gian để trộn lại những gì đã có cho tốt hơn
Tôi từng dùng Claude, rồi sau khi Opencode bị chặn thì ở công ty chuyển sang dùng GPT. Còn cá nhân thì tôi dùng Deepseek trong Opencode Go với gói $10/tháng, và thành thật mà nói tôi hầu như không cảm nhận được khác biệt
Năng lực tương tự nhau, và nó cũng mắc cùng kiểu lỗi ngớ ngẩn mà hai con còn lại cứ lặp đi lặp lại từ sau tháng 3. Xét theo giá thì tôi hoàn toàn hài lòng
5% thời gian còn lại, chúng lại giúp rất nhiều với các bài toán suy luận khó và tránh được không ít đau khổ. Giá mà giờ ta có thể dự đoán chính xác khi nào cần đến 5% bổ sung đó thì tốt biết mấy
Tôi đã thử thêm GPT 5.5 Pro vào benchmark quét lỗ hổng tự xây dựng của mình(https://swelljoe.com/post/will-it-mythos/), nhưng nó đã tiêu sạch giới hạn ngân sách 100 USD giữa chừng. DeepSeek V4 Pro tốn khoảng 1 USD cho toàn bộ benchmark, còn GPT Pro tốn trung bình 22 USD mỗi case
GPT 5.5 Pro tìm được 2 trong số 4 case đã xử lý trước khi cạn ngân sách. Nếu ngân sách không giới hạn thì có thể nó là tốt nhất, nhưng Opus 4.8, DeepSeek V4 Pro và MiMo 2.5 Pro đều tìm được 4 trên 9 lỗi. Opus rẻ hơn GPT 5.5 Pro một bậc độ lớn và cũng rẻ hơn GPT 5.5 khoảng 30%, còn DeepSeek và MiMo rẻ hơn hai bậc độ lớn, khoảng 10 xu mỗi case
GPT Pro tương đối “nghiền ngẫm” lâu và nhiều
Tôi không thể nghĩ ra trường hợp sử dụng hợp lý nào để dùng GPT 5.5 Pro với chi phí cao gấp khoảng 31 lần Opus, và tôi cũng không định benchmark bằng nó nữa
Trong bối cảnh chi phí token ngày càng trở thành vấn đề quan trọng, việc tồn tại các mô hình rẻ hơn đáng kể so với các nhà cung cấp lớn của Mỹ sẽ là một vấn đề đối với Anthropic và OpenAI. Trả thêm mức premium hợp lý cho mô hình tốt nhất trong lập trình tương tác thì không sao, nhưng với sử dụng qua API, việc lặp mô hình, so sánh giữa các mô hình và chấm định mô hình có thể được xử lý bằng harness và framework kiểm chứng đáp án mà không cần con người phải theo sát lâu, nên rất khó tìm ra lý do để trả nhiều hơn DeepSeek từ 10 đến 200 lần
“3,88 USD, 690.003.591 token, 5 giờ: dùng cả Deepseek Pro và Flash để đảo ngược hệ thống cấp phép của Teamspeak 3.13.8”
https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
9 lỗi có vẻ là cỡ mẫu hơi nhỏ để xếp hạng
Dù vậy, thứ hạng nhìn chung vẫn khá giống với dự đoán
Tôi cũng tò mò Deepseek ở đây có đúng là bản Pro không, hay không phải Flash. Tôi đang dùng Flash khá nhiều cho các tác vụ nhỏ và thấy nó khá ổn. Nó tốt cho kiểu dùng “tương tác”, rất nhanh, và các tác vụ nhỏ gần như xong ngay lập tức
Nó cũng dùng được để khảo sát các codebase lớn. Tôi cũng tò mò liệu nó có làm tốt các tác vụ bảo mật không
Cũng rất vui khi thấy các mô hình giá rẻ làm tốt
Tôi đang thắc mắc liệu chuyển Claude Code sang mức giá API của DeepSeek có đáng tiền hơn gói Max $100 hiện đang dùng hay không.
Giới hạn 5 giờ chỉ thỉnh thoảng vài ngày mới chạm một lần, còn giới hạn theo tuần thì phải dùng rất gắt mới đụng tới trước ngày reset một hai hôm. Ngoài việc không bị chặn bởi giới hạn, tôi không nghĩ mức sử dụng sẽ tăng lên quá nhiều.
Tôi cũng vẫn hơi ngại chuyện gửi sản phẩm công việc của mình tới một viện nghiên cứu nằm dưới một chính quyền thù địch với Mỹ, nên không chỉ nhìn mỗi chi phí, nhưng câu hỏi hiện tại là dưới góc độ chi phí.
Mọi nhà cung cấp gói thuê bao đều có giá trị giới hạn trên chi phí tốt hơn Anthropic. GitHub là ngoại lệ duy nhất, bên đó đắt và hạn chế đến mức gần như đáng xấu hổ.
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
Nếu ý bạn là không muốn dùng mô hình do viện nghiên cứu ngoài Mỹ tạo ra thì bạn sẽ bị bó vào các mô hình Mỹ, nhưng ở Mỹ cũng có nhiều viện nghiên cứu lớn. Nếu bạn lo việc suy luận được thực hiện ở đâu, thì có thể dùng các nhà cung cấp từ 12 quốc gia, bao gồm cả Mỹ, thông qua OpenRouter, và nhiều nhà cung cấp thuê bao cũng host ở nhiều quốc gia. Có rất nhiều lựa chọn.
. ./deepseek-claude.shvà dùng claude như bình thường.export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
Ban đầu tôi dùng nó cho các tác vụ đọc lớn khi gần chạm giới hạn. Nói thật là nó không tốt bằng Claude, nhưng rẻ hơn nhiều và cho phép tôi tiếp tục làm việc. Đôi khi cũng hay khi hỏi cả claude lẫn deepseek cách xem và tinh chỉnh code, rồi so sánh câu trả lời của hai bên.
Nếu kiểu sử dụng này được giữ nguyên, tôi định hạ gói thuê bao xuống $20/tháng và nạp thêm tiền cho Deepseek.
Kho tham khảo: https://github.com/aravindhsampath/agentic-template
Như mọi khi, mỗi mô hình lại mắc ở những chỗ khác nhau. Tôi dùng DeepSeek v4 API cho phần lớn các thử nghiệm trong Cursor, khám phá và proof of concept, nhưng ít tin tưởng nó hơn OpenAI/Claude khi viết code production. Có lúc DeepSeek rất tốt cho debug hay lập kế hoạch, nhưng cũng có lúc bị bí hoặc cho ra chất lượng thấp. Mô hình của OpenAI và Anthropic cũng vậy.
Tổng thể thì DeepSeek dùng được, nhưng có vẻ vẫn thấp hơn Opus 4.8 và GPT 5.5 một bậc. Tất cả đều chạy ở thiết lập suy nghĩ tối đa.
Nó không có ưu đãi đọc cache siêu rẻ như endpoint riêng của DeepSeek, nhưng vẫn thấp hơn rất nhiều so với mức giá API của Anthropic. Tuy vậy, điều quan trọng là hiện tại bạn không phải đang trả tiền API.
Ưu đãi đọc cache của DeepSeek và Xiaomi có liên quan đến việc các mô hình thế hệ mới nhất dùng ít không gian lưu KV hơn, nên caching rẻ hơn. Chưa có nhà cung cấp suy luận mô hình mở nào quyết định khớp mức giá đó, điều này có lẽ nói lên điều gì đó về cấu trúc giá suy luận, nhưng chính xác là gì thì tôi không rõ.
Tôi đồng ý rằng các mô hình mở tốt nhất vẫn chưa đạt đến mức frontier. Trong các tình huống cần lập kế hoạch bức tranh lớn, hoặc chỉ đưa khung lớn rồi kỳ vọng nhiều suy đoán, sự khác biệt sẽ lộ ra. Nhưng để code theo một kế hoạch cụ thể thì có vẻ hoàn toàn đủ tốt. Tôi chỉ dùng nó ngoài công ty nên chưa có trải nghiệm với codebase khổng lồ, nhưng khả năng tự đi thu thập thông tin cần thiết trước khi lao vào của nó khá ổn, nên nếu cần chắc nó sẽ tự đi grep.
Có một chi tiết gây khó chịu là nếu dùng nhiều gói thuê bao cá nhân thì nó rẻ hơn API rất nhiều. https://she-llac.com/claude-limits khiến câu chuyện bàn về chi phí trở nên phức tạp. Dù vậy, tôi vẫn nghĩ đáng để nghịch với các mô hình mở. Đây là một trong những yếu tố giúp bạn có thể xử lý nó như một công nghệ thống nhất, thay vì một bó sản phẩm của vài công ty.
Đây là kiểu tin lớn mà tôi thấy cần dè chừng. Người ta lấy một bộ test nhỏ rồi tuyên bố mô hình này tốt hơn mô hình kia, nhưng tôi nghi ngờ liệu kết quả đó có thể được tái hiện một cách thực sự nhất quán hay không.
Công bố cũng gần như không có, nên trên thực tế người khác không có đủ tài liệu để tự xác minh bài test hay đánh giá.
Giá trị lớn nhất của DeepSeek V4 Pro là giá rẻ. Tôi không kỳ vọng hiệu năng vượt GPT-5.5 quá xa; ngay cả nếu chỉ đạt cỡ gpt-5.4 thì nó vẫn là một mô hình tốt.
Hầu như không có việc nào cần một mô hình tốt hơn DSv4 Flash. Còn Pro thì lại càng không cần
Nếu có thể mô tả vấn đề và cách giải đủ rõ, Flash cứ thế mà làm được
Khi không thể mô tả vấn đề đủ rõ hoặc lười nên chỉ có thể nói kết quả mong muốn, thì tôi thấy các mô hình như GPT 5.5 rõ ràng giỏi hơn ở chỗ tự tìm ra một lời giải vững chắc
Sự khác biệt về năng lực giữa các mô hình là có thật, nhưng cũng rõ ràng rằng các mô hình open-weight nhỏ hơn đã đủ tốt để hỗ trợ rất nhiều trong đa số công việc
Tôi dùng deepseek v4 vì hiệu năng trên chi phí. Nhìn chung tôi thấy nó kém hơn một vài mô hình khác, nhưng rốt cuộc nếu đưa ra đúng tiêu chí chấp nhận thì có thể khiến bất kỳ mô hình nào cũng hoạt động
Chỉ cần cung cấp đặc tả chi tiết, test, và cho phép lặp lại cho đến khi chạy đúng. One-shot là một chỉ số tệ để đo hiệu năng
Nó có thể cứ lặp mãi trong không gian thông tin rồi bị mắc kẹt mà không tìm ra lời giải mong muốn
Nó vẫn hữu ích, nhưng trong các ca thất bại thì thường phải có con người can thiệp để dẫn hướng hoặc buộc sửa một số nhánh cụ thể thì mới đi tới được lời giải
DeepSeek V4 Pro dùng cùng reasonix rẻ đến mức đáng kinh ngạc và đủ tốt cho phần lớn công việc lập trình. Nó cũng khá khác với GPT 5.5 và Opus 4.8, nên đôi khi tìm ra những vấn đề mà hai mô hình kia không phát hiện được
Tôi nghĩ nó đáng để có trong bộ công cụ
DeepSeek V4 Pro rất xuất sắc và rẻ một cách phi lý, nhưng mọi người đang đánh giá thấp MiMo V2.5 Pro. Giá như nhau, giá cache còn thấp hơn, lại là multimodal, và đứng cao hơn trên phần lớn benchmark
So sánh giữa MiMo V2.5 và DeepSeek V4 Flash cũng vậy
Các mô hình OSS khác biệt rất lớn tùy theo nhà cung cấp bạn dùng, và lý do chính là tỷ lệ cache hit
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)