Ra mắt Mistral Medium 3.5
(mistral.ai)- Mô hình 128B Dense, hợp nhất thực thi lệnh, suy luận và lập trình trong một bộ trọng số duy nhất, hỗ trợ cửa sổ ngữ cảnh 256k
- Có thể điều chỉnh mức độ nỗ lực suy luận theo từng yêu cầu, cho phép một mô hình xử lý từ trò chuyện đơn giản đến các tác vụ agentic phức tạp
- SWE-Bench Verified 77.6%, τ³-Telecom 91.4 điểm, vượt Devstral 2 và Qwen3.5 397B A17B
- Huấn luyện lại bộ mã hóa thị giác để có thể xử lý kích thước ảnh và tỷ lệ khung hình biến thiên
- Với Vibe remote agent, có thể chạy bất đồng bộ các phiên lập trình trên đám mây, chạy song song nhiều phiên và nhận thông báo khi hoàn tất
- Có thể bắt đầu từ CLI hoặc Le Chat, và khi teleport một phiên cục bộ lên đám mây thì lịch sử, trạng thái và nội dung phê duyệt được chuyển nguyên vẹn
- Mỗi phiên chạy trong sandbox cô lập, và khi hoàn tất sẽ tự động tạo GitHub PR
- Tích hợp với các công cụ phát triển hiện có như GitHub, Linear, Jira, Sentry, Slack, Teams
- Phù hợp với các tác vụ lặp lại và được xác định rõ như refactor mô-đun, tạo test, nâng cấp dependency, điều tra CI, sửa lỗi
- Work mode của Le Chat (preview) có thể đồng thời sử dụng nhiều công cụ như email, lịch, tin nhắn để tự động hoàn thành các tác vụ nhiều bước
- Connector được bật mặc định, hiển thị mọi lệnh gọi công cụ và cơ sở lập luận, các tác vụ nhạy cảm sẽ yêu cầu phê duyệt rõ ràng
- Giá API là $1.5 cho mỗi triệu token đầu vào, $7.5 cho mỗi triệu token đầu ra
- Công bố open weights theo giấy phép MIT đã sửa đổi, có thể tự host với tối thiểu 4 GPU
1 bình luận
Ý kiến trên Hacker News
Tôi không hiểu mọi người trong phần bình luận đang nhìn vào điều gì. Mô hình này không đánh bại được các mô hình khác, nhưng xét theo kích thước thì rất cạnh tranh
GLM 5.1 rất xuất sắc nhưng ngay cả ở Q4 cũng cần khoảng 400GB, còn Kimi K2.5 cũng tốt nhưng theo chuẩn lượng tử hóa Q4 thì cần gần 600GB
Mô hình này có thể chạy ở Q4 với 70GB VRAM, nên đang tiến gần hơn tới phân khúc người dùng phổ thông. Có thể mua Mac Studio 128GB RAM với giá khoảng 3500 USD
Không rõ những người mê Claude có chỉ dùng Opus hay không, nhưng ngay trong gói Pro thì Sonnet cũng đã rất giỏi rồi. Mô hình này chạy cục bộ và vượt Sonnet mới nhất, lại không tính thêm phí hay khóa tài khoản tùy tiện chỉ vì repo có HERMES.md
Mistral chưa bao giờ thật sự cạnh tranh ở nhóm frontier, nhưng có lẽ đó không phải vai trò mà chúng ta nên kỳ vọng ở Mistral. Nếu nó là một mô hình Pareto mang lại 80% năng lực frontier với 20% chi phí/kích thước thì đã đủ tốt rồi
Có thể chạy những mô hình kiểu này trên máy Mac 128GB, nhưng trước tiên còn phải xem Q4 có giữ chất lượng đủ tốt hay không. Mỗi mô hình có độ nhạy với lượng tử hóa khác nhau, và tốc độ thực tế cũng rất quan trọng
Với các tác vụ bất đồng bộ hay chạy nền thì tốc độ xử lý prompt và sinh token ít quan trọng hơn, nhưng nhiều người mua Mac Studio đã phải cay đắng nhận ra rằng độ phản hồi không thể tốt bằng các mô hình được host trên phần cứng đàng hoàng trong đám mây
Với đa số người không có yêu cầu mạnh về xử lý on-premise, cách dùng tốt nhất cho mô hình này có lẽ là dùng qua một nhà cung cấp host trên OpenRouter và trả tiền theo token
Gần như mọi mô hình open-weight ra mắt năm nay đều được nói là ngang hoặc hơn Sonnet, nhưng dù benchmark có cho thấy vượt trội rõ ràng thì ngoài thực tế tôi vẫn chưa bao giờ thấy như vậy
Tôi thích cách diễn đạt Claude Pilled
Benchmark dùng chuẩn F8_E4M3, và chẳng máy Mac nào chạy được cái đó
Sonnet có context 1M token, còn mô hình này là 256k, mà chạy cục bộ thì khả năng cao còn không dùng được tử tế đến mức đó
Sonnet dù qua mạng vẫn nhanh, còn mô hình này sẽ chậm hơn nhiều
Thật đáng tiếc khi các mô hình mã nguồn mở ngoài Trung Quốc có vẻ đang chậm ít nhất một thế hệ
Tôi luôn ủng hộ Mistral. Sự đa dạng về mô hình và quốc gia là điều quan trọng
Mô hình lần này trông như một nền tảng vững chắc để xây tiếp lên trên, và hy vọng 3.6/3.7 sẽ có thêm nhiều cải tiến. Nhìn benchmark computer use thì pipeline vision có vẻ còn chỗ để cải thiện, nhưng đó chỉ là suy đoán
Việc một số kết quả benchmark ra khác đi khiến tôi có cảm giác đây là mô hình thực sự được huấn luyện độc lập chứ không phải kéo log từ frontier về. Điều này cũng rất quan trọng
Việc tồn tại một weight architecture khác bên trong một mô hình cụ thể tự nó đã có vẻ là một lợi thế từ góc nhìn kiến trúc hệ thống toàn cục
Việc Mistral tiếp tục tung ra các mô hình đáng tin cậy là tốt cho thị trường
Muốn người mua có đòn bẩy về giá và triển khai khi đàm phán thì phải vượt qua cấu trúc chỉ chọn một trong hai công ty
So với các LLM host khác mà tôi đã thử, có vẻ chỉ Mistral dùng header CSP khá nghiêm ngặt
Nếu yêu cầu tạo một website có dùng thư viện JavaScript thì trên Le Chat dù có canvas mode cũng không xem trước được
Thỉnh thoảng khi có bản phát hành mới tôi chỉ muốn thử nhanh một chút trên web, nhưng nếu không trả tiền hoặc dùng agent harness thì rất khó
Nó thực sự vẽ SVG rất tệ https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
Tôi nhờ nó giúp cấu hình máy chủ MCP trong Vibe, thì nó tự tin giải thích MCP là MineCraft Protocol rồi bắt đầu tìm binary Minecraft trong máy tính
Mô hình nào cũng làm dở chuyện này, chỉ là có vài mô hình thất bại thú vị hơn thôi
Tôi đang dùng mistral-medium-2508 cho tác vụ biến đổi văn bản, và với nhu cầu của tôi thì nó cho kết quả tốt hơn mistral-large
Tôi cũng muốn thử mô hình mới, nhưng nó đắt hơn nhiều và được giới thiệu là mô hình coding/agentic, nên không rõ có phải để thay thế medium đời trước hay không
mistral-medium-2508 có giá $0.4/$2 cho 1M token, còn mistral-medium-3.5 là $1.5/$7.5
Nó cho kết quả gần ngang Sonnet nhưng rẻ hơn 90%. Tôi sẽ không bao giờ dùng nó cho coding, nhưng cho tác vụ phân tích văn bản này thì rất tốt. Thậm chí còn tốt hơn nhiều so với các mô hình Trung Quốc mới nhất
Vì thế tôi đã chờ bản phát hành lần này, nhưng nó lại đắt gấp 5 lần Mistral Large mới nhất. Giờ tôi lo họ sẽ ngừng bản Large giá rẻ khi chuyển sang bản phát hành mới
Vấn đề của mô hình này là DeepSeek v4 Flash chạy khá ổn ở lượng tử hóa 2-bit https://github.com/antirez/llama.cpp-deepseek-v4-flash
Trên M3 Ultra nó đạt 30 t/s khi sinh và 400 t/s khi prefill, và trên MacBook Pro M3 Max 128GB cũng không chậm hơn quá nhiều
Dùng cùng opencode/pi thì nó hoạt động như một coding agent tốt và tool calling cũng rất ổn định. Tốc độ kiểu này là điều mô hình dense 120B không bao giờ đạt được
Vì vậy nó không chỉ phải cạnh tranh với các mô hình lượng tử hóa 4-bit cùng cỡ, mà còn phải cạnh tranh với DeepSeek v4 Flash dưới dạng file GGUF 86GB, và xét theo góc độ thực chiến của suy luận cục bộ thì không dễ thắng
Tôi còn vài cải tiến tốc độ chưa commit và sẽ sớm push lên. Cây mã hiện tại có thể hơi chậm một chút nhưng vẫn rất dùng được
Tôi là fan Mistral và đang ở châu Âu, nhưng có điều tôi không hiểu. Mistral đã mở ra hướng đi MoE open-weight với Mixtral, vậy tại sao giờ lại ra một mô hình dense khá lớn
Làm kiểu này thì rất khó cạnh tranh ổn định cả ở suy luận cục bộ lẫn suy luận từ xa. Vì mô hình cách khá xa SOTA và chi phí phục vụ cũng không rẻ
Mô hình dense vẫn có chỗ đứng ở vùng vài chục tỷ tham số như Qwen 3.6 27B, nhưng nếu tăng lên gấp 5 lần thì không còn hợp lý, trừ khi nó áp đảo hoàn toàn các mô hình khác đòi cùng mức VRAM về mặt năng lực
Điều này gần như không liên quan đến việc nó hoạt động thế nào trong agentic workflow. Chúng ta vốn đã biết nhiều trường hợp chất lượng giảm mạnh ở lượng tử hóa Q2
Nếu bản Flash lượng tử hóa này vẫn giữ được chất lượng và hiệu năng phù hợp ở context dài hơn, đồng thời bảo toàn được những phần có vẻ là năng lực cốt lõi của dòng V4, thì nó có thể trở thành đối thủ khá hợp lý của những mô hình cùng hạng weight như Qwen 3 Coder-Next 80B
Bản phát hành Mistral lần này lại khiến tôi cảm nhận rõ khoảng cách giữa các frontier lab và phần còn lại
Trước thời agent, sự khác biệt giữa các mô hình không phải lúc nào cũng rõ ràng, và mỗi mô hình đều có nét hấp dẫn riêng
Bây giờ tôi không muốn dùng thứ gì kém hơn mô hình frontier. Chênh lệch năng lực là rất lớn, và chọn mô hình yếu hơn tạo ra chi phí năng suất thực sự
Tôi từng thích những lab nhỏ như Mistral và đặc biệt là Cohere, nhưng cũng đã khá lâu rồi tôi không còn hào hứng với các bản phát hành của hai công ty này
Dù vậy, tôi vẫn dùng mistral voxtral realtime hằng ngày và nó rất tuyệt
Hai năm trước thì lại càng khỏi nói
Nhưng Claude Code tốt hơn Codex khá nhiều, và Codex cũng rõ ràng tốt hơn Gemini-cli
Trong bối cảnh đó, việc Claude Code tốt hơn hẳn các mô hình non-frontier trong coding agentic không có gì đáng ngạc nhiên. Trong các tác vụ agentic chuyên biệt, nó còn tốt hơn đáng kể cả các frontier model khác
Trong hầu hết tác vụ, kể cả coding phức tạp, gần như không thể phân biệt được khác biệt giữa frontier model và các mô hình như GPT-4.1
Muốn thấy khác biệt thì phải thật sự tập trung vào những khía cạnh như context window, tool calling, hay một số mặt cụ thể của reasoning step
Hơn nữa, frontier model thường dùng cách brute force để cho ra kết quả nên chi phí chạy đắt hơn rất nhiều. Không chỉ là chi phí thể hiện trên hóa đơn, mà còn là thời gian phải chờ để có bất kỳ đầu ra nào
Chưa cần nói tới mô hình cục bộ
Có vẻ Mistral đang chơi đường dài ở đây. Mô hình nhỏ hơn, chi phí thấp hơn, và hiệu năng nhìn chung là đủ tốt
Ổn, nhưng không có gì đặc biệt. Dù vậy, tin tức về mô hình không phải của Mỹ cũng không phải của Trung Quốc vẫn luôn là tin tốt
Thật buồn cười khi giờ 128B lại được xem là Medium
Ngày xưa từng có thời GPT-2 với 355M tham số được xem là medium
Có khi nhận định đó lại đúng cũng nên