1 điểm bởi GN⁺ 6 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình dense 128B xử lý instruction-following, reasoning và coding trong một bộ trọng số duy nhất, hiện được cung cấp dưới dạng public preview
  • Hỗ trợ cửa sổ ngữ cảnh 256k và thiết lập mức reasoning effort theo từng yêu cầu, cho phép cùng một mô hình xử lý cả phản hồi chat ngắn lẫn các tác vụ agentic phức tạp
  • Các phiên Vibe coding được chạy bất đồng bộ trên đám mây và có thể chạy song song nhiều phiên; các phiên CLI cục bộ có thể được teleport lên đám mây kèm history, task state và approval
  • Work mode của Le Chat là chế độ agentic dựa trên Mistral Medium 3.5, tận dụng ngữ cảnh từ connected tools, documents, mailboxes và calendars, đồng thời yêu cầu phê duyệt rõ ràng cho các tác vụ nhạy cảm
  • Mô hình sẽ trở thành mô hình mặc định của Le Chat và thay thế Devstral 2 trong Vibe CLI; giá API là $1.5 cho mỗi 1 triệu input token và $7.5 cho mỗi 1 triệu output token

Ra mắt Mistral Medium 3.5

  • Bộ mã hóa thị giác được huấn luyện từ đầu để xử lý nhiều kích thước ảnh và tỷ lệ khung hình khác nhau
  • Đạt 77.6% trên SWE-Bench Verified, vượt qua các mô hình như Devstral 2 và Qwen3.5 397B A17B
  • Trên τ³-Telecom đạt 91.4, với trọng tâm là nhiều lời gọi công cụ và tạo structured output mà mã downstream có thể tiêu thụ

Tác nhân lập trình từ xa Vibe

  • Các phiên lập trình giờ đây được chạy bất đồng bộ trên đám mây, cho phép tiếp tục xử lý các tác vụ dài khi người dùng rời máy
  • Có thể chạy song song nhiều phiên, giúp nhà phát triển không trở thành nút thắt ở từng bước mà tác nhân thực hiện
  • Tác nhân đám mây có thể được khởi chạy từ Mistral Vibe CLI hoặc Le Chat
  • Trong lúc chạy, có thể theo dõi file diff, tool call, progress state và các câu hỏi từ tác nhân
  • Các phiên CLI cục bộ có thể được teleport lên đám mây, mang theo session history, task state và approval

Cấu trúc tích hợp với quy trình phát triển

  • Vibe nằm giữa các hệ thống mà đội phát triển đang dùng sẵn, đồng thời duy trì human-in-the-loop ở những điểm cần thiết
  • Kết nối với GitHub qua code và pull request, và với Linear cùng Jira qua issue
  • Sentry được dùng cho xử lý incident, còn các ứng dụng như Slack và Teams dùng cho reporting
  • Mỗi phiên lập trình chạy trong một isolated sandbox và có thể bao gồm chỉnh sửa trên diện rộng cũng như cài đặt
  • Khi công việc hoàn tất, tác nhân có thể mở GitHub pull request và gửi thông báo, để nhà phát triển xem xét kết quả thay vì từng keystroke

Các tác vụ lập trình phù hợp và thực thi trong Le Chat

  • Tác nhân từ xa Vibe phù hợp với những well-defined work cần phán đoán của nhà phát triển nhưng tốn nhiều thời gian
  • Các tác vụ mục tiêu gồm module refactor, test generation, dependency upgrade, CI investigation và bug fix
  • Có thể orchestrate Workflows trong Mistral Studio để đưa Mistral Vibe vào Le Chat
  • Tính năng này ban đầu được tạo ra cho môi trường lập trình nội bộ, sau đó được dùng cho enterprise customers
  • Giờ đây có thể khởi tạo tác vụ lập trình trên web và chạy song song nhiều tác vụ mà không bị ràng buộc vào terminal cục bộ
  • Các tác vụ được tạo trong Le Chat sẽ chạy trên cùng remote runtime mà CLI và web sử dụng, rồi quay lại sau dưới dạng finished branch hoặc draft PR

Work mode của Le Chat

  • Work mode là chế độ agentic trong Le Chat để xử lý các tác vụ phức tạp, được vận hành bởi harness mới và Mistral Medium 3.5
  • Tác nhân trở thành execution backend của chính assistant, cho phép Le Chat đọc và ghi, sử dụng đồng thời nhiều công cụ và xử lý các dự án nhiều bước
  • Quy trình làm việc liên công cụ

    • Có thể xử lý email, tin nhắn và lịch trong một lần chạy
    • Có thể chuẩn bị cho cuộc họp với ngữ cảnh người tham dự, tin tức mới nhất và các talking point lấy từ nguồn
  • Nghiên cứu và tổng hợp

    • Có thể nghiên cứu một chủ đề trên web, tài liệu nội bộ và các công cụ đã kết nối
    • Có thể tạo brief hoặc report có cấu trúc để chỉnh sửa rồi export hoặc gửi đi
  • Hộp thư đến và công việc nhóm

    • Có thể triage inbox và soạn reply draft
    • Có thể tạo Jira issue từ các cuộc thảo luận với nhóm và khách hàng, rồi gửi summary cho nhóm qua Slack
    • Phiên làm việc tồn tại lâu hơn các phản hồi chat thông thường và có thể tiếp tục qua nhiều lượt trao đổi cùng quá trình thử-sai cho đến khi hoàn tất
    • Trong Work mode, connector được bật mặc định thay vì chọn thủ công, nên có thể truy cập ngữ cảnh từ documents, mailboxes, calendars và các hệ thống khác
    • Mọi hành động của tác nhân đều hiển thị, và có thể xem từng tool call cũng như thinking rationale
    • Với các tác vụ nhạy cảm như gửi tin nhắn, viết tài liệu hay chỉnh sửa dữ liệu, Le Chat sẽ yêu cầu phê duyệt rõ ràng tùy theo quyền hạn

Khả dụng và giá cả

  • Mistral Medium 3.5 có mặt trên Mistral VibeLe Chat
  • Các remote coding agents và Work mode của Le Chat được vận hành bởi Mistral Medium 3.5 trong các gói dịch vụ Pro, Team và Enterprise
  • Giá API là $1.5 cho mỗi 1 triệu input token và $7.5 cho mỗi 1 triệu output token
  • Open weights được cung cấp trên Hugging Face theo modified MIT license
  • Mô hình cũng được host trên endpoint tăng tốc bằng GPU NVIDIA của build.nvidia.com để phục vụ prototyping
  • Đồng thời cũng có sẵn dưới dạng NVIDIA NIM, một scalable containerized inference microservice

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi không hiểu mọi người trong phần bình luận đang nhìn vào điều gì. Mô hình này không đánh bại được các mô hình khác, nhưng xét theo kích thước thì rất cạnh tranh
    GLM 5.1 rất xuất sắc nhưng ngay cả ở Q4 cũng cần khoảng 400GB, còn Kimi K2.5 cũng tốt nhưng theo chuẩn lượng tử hóa Q4 thì cần gần 600GB
    Mô hình này có thể chạy ở Q4 với 70GB VRAM, nên đang tiến gần hơn tới phân khúc người dùng phổ thông. Có thể mua Mac Studio 128GB RAM với giá khoảng 3500 USD
    Không rõ những người mê Claude có chỉ dùng Opus hay không, nhưng ngay trong gói Pro thì Sonnet cũng đã rất giỏi rồi. Mô hình này chạy cục bộ và vượt Sonnet mới nhất, lại không tính thêm phí hay khóa tài khoản tùy tiện chỉ vì repo có HERMES.md
    Mistral chưa bao giờ thật sự cạnh tranh ở nhóm frontier, nhưng có lẽ đó không phải vai trò mà chúng ta nên kỳ vọng ở Mistral. Nếu nó là một mô hình Pareto mang lại 80% năng lực frontier với 20% chi phí/kích thước thì đã đủ tốt rồi

    • Ai quan tâm đến LLM cục bộ đều nên biết rằng “có thể chạy được” và “có thể chạy nhanh” là hai tiêu chuẩn hoàn toàn khác nhau
      Có thể chạy những mô hình kiểu này trên máy Mac 128GB, nhưng trước tiên còn phải xem Q4 có giữ chất lượng đủ tốt hay không. Mỗi mô hình có độ nhạy với lượng tử hóa khác nhau, và tốc độ thực tế cũng rất quan trọng
      Với các tác vụ bất đồng bộ hay chạy nền thì tốc độ xử lý prompt và sinh token ít quan trọng hơn, nhưng nhiều người mua Mac Studio đã phải cay đắng nhận ra rằng độ phản hồi không thể tốt bằng các mô hình được host trên phần cứng đàng hoàng trong đám mây
      Với đa số người không có yêu cầu mạnh về xử lý on-premise, cách dùng tốt nhất cho mô hình này có lẽ là dùng qua một nhà cung cấp host trên OpenRouter và trả tiền theo token
      Gần như mọi mô hình open-weight ra mắt năm nay đều được nói là ngang hoặc hơn Sonnet, nhưng dù benchmark có cho thấy vượt trội rõ ràng thì ngoài thực tế tôi vẫn chưa bao giờ thấy như vậy
    • Tôi chưa biết về HERMES.md, ai tò mò có thể xem thông tin ở đây https://github.com/anthropics/claude-code/issues/53262
    • Trước tháng 2 tôi vẫn có thể dùng Opus High thoải mái trong gói Max, còn bây giờ chỉ dùng Sonnet High và nó cũng khá giỏi
      Tôi thích cách diễn đạt Claude Pilled
    • Câu “chạy cục bộ và vượt Sonnet mới nhất” là không đúng
      Benchmark dùng chuẩn F8_E4M3, và chẳng máy Mac nào chạy được cái đó
      Sonnet có context 1M token, còn mô hình này là 256k, mà chạy cục bộ thì khả năng cao còn không dùng được tử tế đến mức đó
      Sonnet dù qua mạng vẫn nhanh, còn mô hình này sẽ chậm hơn nhiều
    • Cũng không nên quên Qwen 35B A3B MoE. Mô hình đó cho hiệu năng tốt hơn ở mọi chỉ số trong khi chi phí bộ nhớ/tính toán thấp hơn rất nhiều
      Thật đáng tiếc khi các mô hình mã nguồn mở ngoài Trung Quốc có vẻ đang chậm ít nhất một thế hệ
  • Tôi luôn ủng hộ Mistral. Sự đa dạng về mô hình và quốc gia là điều quan trọng
    Mô hình lần này trông như một nền tảng vững chắc để xây tiếp lên trên, và hy vọng 3.6/3.7 sẽ có thêm nhiều cải tiến. Nhìn benchmark computer use thì pipeline vision có vẻ còn chỗ để cải thiện, nhưng đó chỉ là suy đoán
    Việc một số kết quả benchmark ra khác đi khiến tôi có cảm giác đây là mô hình thực sự được huấn luyện độc lập chứ không phải kéo log từ frontier về. Điều này cũng rất quan trọng
    Việc tồn tại một weight architecture khác bên trong một mô hình cụ thể tự nó đã có vẻ là một lợi thế từ góc nhìn kiến trúc hệ thống toàn cục

  • Việc Mistral tiếp tục tung ra các mô hình đáng tin cậy là tốt cho thị trường
    Muốn người mua có đòn bẩy về giá và triển khai khi đàm phán thì phải vượt qua cấu trúc chỉ chọn một trong hai công ty

  • So với các LLM host khác mà tôi đã thử, có vẻ chỉ Mistral dùng header CSP khá nghiêm ngặt
    Nếu yêu cầu tạo một website có dùng thư viện JavaScript thì trên Le Chat dù có canvas mode cũng không xem trước được
    Thỉnh thoảng khi có bản phát hành mới tôi chỉ muốn thử nhanh một chút trên web, nhưng nếu không trả tiền hoặc dùng agent harness thì rất khó
    Nó thực sự vẽ SVG rất tệ https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • SVG có thể không phải benchmark tốt nhất, nhưng nó khớp với trải nghiệm của tôi khi dùng các mô hình Mistral cũ trên Mistral Vibe
      Tôi nhờ nó giúp cấu hình máy chủ MCP trong Vibe, thì nó tự tin giải thích MCP là MineCraft Protocol rồi bắt đầu tìm binary Minecraft trong máy tính
    • Tôi chưa bao giờ muốn, cần, hay kỳ vọng LLM vẽ SVG
      Mô hình nào cũng làm dở chuyện này, chỉ là có vài mô hình thất bại thú vị hơn thôi
  • Tôi đang dùng mistral-medium-2508 cho tác vụ biến đổi văn bản, và với nhu cầu của tôi thì nó cho kết quả tốt hơn mistral-large
    Tôi cũng muốn thử mô hình mới, nhưng nó đắt hơn nhiều và được giới thiệu là mô hình coding/agentic, nên không rõ có phải để thay thế medium đời trước hay không
    mistral-medium-2508 có giá $0.4/$2 cho 1M token, còn mistral-medium-3.5 là $1.5/$7.5

    • Trong production tôi đang dùng Mistral Large để xử lý các khối văn bản lớn
      Nó cho kết quả gần ngang Sonnet nhưng rẻ hơn 90%. Tôi sẽ không bao giờ dùng nó cho coding, nhưng cho tác vụ phân tích văn bản này thì rất tốt. Thậm chí còn tốt hơn nhiều so với các mô hình Trung Quốc mới nhất
      Vì thế tôi đã chờ bản phát hành lần này, nhưng nó lại đắt gấp 5 lần Mistral Large mới nhất. Giờ tôi lo họ sẽ ngừng bản Large giá rẻ khi chuyển sang bản phát hành mới
  • Vấn đề của mô hình này là DeepSeek v4 Flash chạy khá ổn ở lượng tử hóa 2-bit https://github.com/antirez/llama.cpp-deepseek-v4-flash
    Trên M3 Ultra nó đạt 30 t/s khi sinh và 400 t/s khi prefill, và trên MacBook Pro M3 Max 128GB cũng không chậm hơn quá nhiều
    Dùng cùng opencode/pi thì nó hoạt động như một coding agent tốt và tool calling cũng rất ổn định. Tốc độ kiểu này là điều mô hình dense 120B không bao giờ đạt được
    Vì vậy nó không chỉ phải cạnh tranh với các mô hình lượng tử hóa 4-bit cùng cỡ, mà còn phải cạnh tranh với DeepSeek v4 Flash dưới dạng file GGUF 86GB, và xét theo góc độ thực chiến của suy luận cục bộ thì không dễ thắng
    Tôi còn vài cải tiến tốc độ chưa commit và sẽ sớm push lên. Cây mã hiện tại có thể hơi chậm một chút nhưng vẫn rất dùng được
    Tôi là fan Mistral và đang ở châu Âu, nhưng có điều tôi không hiểu. Mistral đã mở ra hướng đi MoE open-weight với Mixtral, vậy tại sao giờ lại ra một mô hình dense khá lớn
    Làm kiểu này thì rất khó cạnh tranh ổn định cả ở suy luận cục bộ lẫn suy luận từ xa. Vì mô hình cách khá xa SOTA và chi phí phục vụ cũng không rẻ
    Mô hình dense vẫn có chỗ đứng ở vùng vài chục tỷ tham số như Qwen 3.6 27B, nhưng nếu tăng lên gấp 5 lần thì không còn hợp lý, trừ khi nó áp đảo hoàn toàn các mô hình khác đòi cùng mức VRAM về mặt năng lực

    • Link GitHub chỉ nói rằng “mô hình được lượng tử hóa theo cách này hoạt động rất tốt trong chat và có cảm giác frontier-model, nhưng chưa được kiểm thử rộng rãi”
      Điều này gần như không liên quan đến việc nó hoạt động thế nào trong agentic workflow. Chúng ta vốn đã biết nhiều trường hợp chất lượng giảm mạnh ở lượng tử hóa Q2
      Nếu bản Flash lượng tử hóa này vẫn giữ được chất lượng và hiệu năng phù hợp ở context dài hơn, đồng thời bảo toàn được những phần có vẻ là năng lực cốt lõi của dòng V4, thì nó có thể trở thành đối thủ khá hợp lý của những mô hình cùng hạng weight như Qwen 3 Coder-Next 80B
  • Bản phát hành Mistral lần này lại khiến tôi cảm nhận rõ khoảng cách giữa các frontier lab và phần còn lại
    Trước thời agent, sự khác biệt giữa các mô hình không phải lúc nào cũng rõ ràng, và mỗi mô hình đều có nét hấp dẫn riêng
    Bây giờ tôi không muốn dùng thứ gì kém hơn mô hình frontier. Chênh lệch năng lực là rất lớn, và chọn mô hình yếu hơn tạo ra chi phí năng suất thực sự
    Tôi từng thích những lab nhỏ như Mistral và đặc biệt là Cohere, nhưng cũng đã khá lâu rồi tôi không còn hào hứng với các bản phát hành của hai công ty này
    Dù vậy, tôi vẫn dùng mistral voxtral realtime hằng ngày và nó rất tuyệt

    • Tôi hoàn toàn không đồng ý. Chỉ mới một năm trước thôi, chênh lệch năng suất giữa frontier và non-frontier còn lớn hơn nhiều
      Hai năm trước thì lại càng khỏi nói
    • Với các tác vụ non-agentic thì không có người thắng rõ ràng trên diện rộng giữa Gemini, ChatGPT và Claude. Nếu chỉ xét giao diện chatbot đơn giản thì là apples to oranges
      Nhưng Claude Code tốt hơn Codex khá nhiều, và Codex cũng rõ ràng tốt hơn Gemini-cli
      Trong bối cảnh đó, việc Claude Code tốt hơn hẳn các mô hình non-frontier trong coding agentic không có gì đáng ngạc nhiên. Trong các tác vụ agentic chuyên biệt, nó còn tốt hơn đáng kể cả các frontier model khác
    • Việc nói không muốn dùng thứ gì kém frontier model là một nhận định khá ngây thơ và sai lầm
      Trong hầu hết tác vụ, kể cả coding phức tạp, gần như không thể phân biệt được khác biệt giữa frontier model và các mô hình như GPT-4.1
      Muốn thấy khác biệt thì phải thật sự tập trung vào những khía cạnh như context window, tool calling, hay một số mặt cụ thể của reasoning step
      Hơn nữa, frontier model thường dùng cách brute force để cho ra kết quả nên chi phí chạy đắt hơn rất nhiều. Không chỉ là chi phí thể hiện trên hóa đơn, mà còn là thời gian phải chờ để có bất kỳ đầu ra nào
      Chưa cần nói tới mô hình cục bộ
  • Có vẻ Mistral đang chơi đường dài ở đây. Mô hình nhỏ hơn, chi phí thấp hơn, và hiệu năng nhìn chung là đủ tốt

  • Ổn, nhưng không có gì đặc biệt. Dù vậy, tin tức về mô hình không phải của Mỹ cũng không phải của Trung Quốc vẫn luôn là tin tốt

    • Có lẽ đây là mức chuẩn của châu Âu
  • Thật buồn cười khi giờ 128B lại được xem là Medium
    Ngày xưa từng có thời GPT-2 với 355M tham số được xem là medium

    • GPT-2 1.5B từng bị cho là quá nguy hiểm để công bố
      Có khi nhận định đó lại đúng cũng nên