9 điểm bởi GN⁺ 2025-12-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • Devstral 2 là mô hình lập trình mã nguồn mở thế hệ mới với 123B tham số, đạt hiệu năng 72,2% trên SWE-bench Verified và mang lại hiệu quả cao so với các mô hình cạnh tranh
  • Devstral Small 2 có 24B tham số, có thể chạy trên phần cứng tiêu dùng và được phát hành theo giấy phép Apache 2.0
  • Mistral Vibe CLItác tử terminal mã nguồn mở dựa trên Devstral, cho phép khám phá, chỉnh sửa và chạy mã bằng ngôn ngữ tự nhiên
  • Devstral 2 có hiệu quả chi phí cao hơn tối đa 7 lần so với Claude Sonnet, nhỏ hơn DeepSeek V3.2 5 lần nhưng vẫn duy trì hiệu năng cao
  • Được đánh giá là công cụ cốt lõi để tăng tốc tự động hóa mã quy mô lớn và trí tuệ phân tán trong hệ sinh thái mã nguồn mở

Tổng quan về Devstral 2

  • Devstral 2 là mô hình transformer dày đặc với 123B tham số, hỗ trợ cửa sổ ngữ cảnh 256K
    • Đạt 72,2% hiệu năng trên SWE-bench Verified, nằm trong nhóm mô hình trọng số mở có hiệu năng hàng đầu
    • Được công bố theo giấy phép MIT sửa đổi, thiết lập một chuẩn mới cho các tác tử lập trình mã nguồn mở
  • Devstral Small 2 đạt 68,0% trên SWE-bench Verified, duy trì mức tương đương với các mô hình lớn hơn tới 5 lần
    • Có thể chạy cục bộ trên phần cứng tiêu dùng, mang lại suy luận nhanh và vòng lặp phản hồi được cá nhân hóa
    • Hỗ trợ đầu vào hình ảnh và có thể vận hành tác tử đa phương thức
  • Devstral 2 (123B) và Small 2 (24B) lần lượt nhỏ hơn DeepSeek V3.2 5 lần và 28 lần, nhỏ hơn Kimi K2 8 lần và 41 lần
    • Kiến trúc mô hình được thu gọn giúp dễ triển khai ngay cả trên phần cứng hạn chế

Hỗ trợ workflow cấp production

  • Devstral 2 hỗ trợ khám phá codebase và quản lý thay đổi trên nhiều tệp, đồng thời duy trì ngữ cảnh ở cấp độ kiến trúc
    • Bao gồm theo dõi phụ thuộc framework, phát hiện lỗi và tự động thử lại
    • Có thể thực hiện các tác vụ sửa lỗi và hiện đại hóa hệ thống legacy
  • Hỗ trợ fine-tuning theo ngôn ngữ cụ thể hoặc codebase doanh nghiệp quy mô lớn
  • Trong đánh giá bởi con người so sánh với DeepSeek V3.2 và Claude Sonnet 4.5, mô hình cho thấy ưu thế trước DeepSeek (tỷ lệ thắng 42,8%)
    • Tuy vậy, vẫn còn khoảng cách hiệu năng so với Claude Sonnet 4.5
  • Cline đánh giá Devstral 2 là “mô hình lập trình mã nguồn mở hàng đầu”, đồng thời nhận xét tỷ lệ gọi công cụ thành công tương đương các mô hình đóng
  • Kilo Code công bố đã ghi nhận 17B token sử dụng trong 24 giờ đầu sau khi ra mắt

Mistral Vibe CLI

  • Trợ lý lập trình CLI mã nguồn mở dựa trên Devstral, cho phép khám phá, chỉnh sửa và chạy mã thông qua lệnh ngôn ngữ tự nhiên
    • Được phát hành theo giấy phép Apache 2.0
    • Có thể dùng trong terminal hoặc IDE (tích hợp Agent Communication Protocol)
  • Tính năng chính
    • Ngữ cảnh nhận biết dự án: tự động quét cấu trúc tệp và trạng thái Git
    • Tham chiếu thông minh: tự động hoàn thành với @, thực thi lệnh bằng !, thay đổi cài đặt qua lệnh slash
    • Điều phối đa tệp: suy luận ở cấp độ kiến trúc thông qua việc hiểu toàn bộ codebase
    • Hỗ trợ lịch sử liên tục, tự động hoàn thành và tùy biến giao diện chủ đề
  • Có thể tùy chỉnh theo workflow với chạy script, bật/tắt tự động phê duyệt, thiết lập mô hình cục bộ, kiểm soát quyền hạn

Triển khai và sử dụng

  • Devstral 2 hiện được cung cấp qua API miễn phí, sau đó dự kiến tính phí $0.40/$2.00 cho đầu vào/đầu ra
    • Devstral Small 2 có mức phí $0.10/$0.30
  • Có thể tích hợp và sử dụng với các công cụ tác tử mở như Kilo Code, Cline
  • Có thể sử dụng trực tiếp Vibe CLI thông qua tiện ích mở rộng Zed IDE
  • Devstral 2 yêu cầu GPU cấp datacenter (tối thiểu 4×H100) và có thể trải nghiệm tại build.nvidia.com
    • Devstral Small 2 có thể chạy trong môi trường GPU đơn hoặc CPU
    • Sắp hỗ trợ NVIDIA NIM
  • Để đạt hiệu năng tối ưu, Mistral khuyến nghị thiết lập temperature 0.2 và áp dụng các best practice của Vibe CLI

Cộng đồng và tuyển dụng

  • Mistral khuyến khích chia sẻ dự án và gửi phản hồi bằng cách sử dụng Devstral 2, Small 2 và Vibe CLI
    • Có thể trao đổi qua các kênh X/Twitter, Discord, GitHub
  • Hiện đang tuyển nhân sự cho nghiên cứu mã nguồn mở và phát triển giao diện, có thể ứng tuyển trên trang tuyển dụng chính thức của Mistral

1 bình luận

 
GN⁺ 2025-12-10
Ý kiến trên Hacker News
  • Đã cài mô hình Mistral bằng lệnh llm install llm-mistral, rồi sau llm mistral refresh đã tạo ảnh SVG bằng llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"
    Có thể xem kết quả tại liên kết này. Với một mô hình 123B thì kết quả khá ổn
    ID mô hình có thể không chính xác nên đã trực tiếp hỏi Mistral

    • Giờ thì có khả năng những prompt như “hãy tạo SVG một con bồ nông đang đi xe đạp” đã nằm trong dữ liệu huấn luyện. Dùng làm benchmark thì ổn, nhưng để tránh benchmaxxing thì tôi nghĩ cũng cần các bài test ngẫu nhiên
    • Tự nhiên thấy tò mò không biết mô hình này có thể tái hiện website Space Jam 1996 không
    • SVG đúng là code, nhưng không phải code có thể thực thi, nên có thể hơi gây hiểu nhầm khi dùng để đánh giá mô hình coding. Dù vậy kết quả vẫn rất ấn tượng
    • Không biết lấy công cụ llm ở đâu vậy
    • Có vẻ nó đã bỏ qua xe đạp và nâng cấp luôn thành một xe máy ngầu hơn
  • Mistral hiện đang chậm hơn SOTA khoảng 1 năm, nhưng đang cải thiện khá tốt về tốc độ và khả năng cạnh tranh về giá. Vẫn chưa đủ với nhu cầu của tôi, nhưng đang bắt kịp rất nhanh. Các mô hình cạnh tranh tôi nghĩ tới là Haiku 4.5, Gemini 3 Pro Fast, và mẫu lightweight mới của OpenAI (GPT 5.1 Codex Max Extra High Fast?)

    • Nghe nói mô hình mới của OpenAI tên là Garlic, chắc họ không định thật sự phát hành với cái tên đó đâu nhỉ?
    • So với Deepseek-v3.2 thì năng lực tổng quát yếu hơn nhiều, mà giá lại đắt gấp 5 lần
  • Đã chạy Devstral 2 trong CLI để review một dự án cá nhân cỡ 500KB
    Nó hiểu chính xác chức năng của chương trình, sửa được 2 lỗi, cải thiện code và thêm 2 tính năng nhỏ.
    Nó có tạo ra một lỗi mới, nhưng vừa được chỉ ra là sửa ngay.
    Các thay đổi trong code được giữ ở mức tối thiểu, không có chuyện viết lại không cần thiết.
    Còn quá sớm để kết luận, nhưng có vẻ đây là một mô hình khá có năng lực

    • Không biết đã chạy nó trên phần cứng nào
  • Tôi định tự dùng thử Devstral. Mẫu trước đó cũng khá ổn cho agent coding chạy cục bộ.
    Nhưng cái tên “Vibe CLI” nghe quá nhẹ dạ.
    ‘Vibe-coding’ thì vui để thử nghiệm giới hạn của mô hình, nhưng không hợp với công việc chuyên nghiệp cần kiểm soát chất lượng.
    Dạo này ai cũng mê vibe-coding, nhưng tôi tự hỏi các công cụ LLM chuyên nghiệp để hỗ trợ trí tuệ con người đang ở đâu

    • CLI agent mới mistral-vibe được viết bằng Python và hỗ trợ giao thức ACP của Zed
    • Nhiều ứng dụng được làm như các dịch vụ tạm bợ phục vụ mục tiêu kinh doanh ngắn hạn, nên agentic coding đủ hữu ích cho những “dịch vụ bìa carton” như vậy. Nhưng nó không phù hợp với hạ tầng dữ liệu công nghiệp
    • Brokk mà chúng tôi đang làm chính là kiểu công cụ chuyên nghiệp đó. Xem phần giới thiệu trong bài blog này
    • Cũng có người phản ứng kiểu: “Vậy ý là Claude Code vẫn chưa đủ tốt à?”
    • Cũng có ý kiến cho rằng giờ đây chất lượng đặc tả và test còn quan trọng hơn cả chất lượng code
  • Đang cân nhắc một cấu hình phần cứng 5.000 USD để chạy Devstral Small 2.
    Muốn biết tốc độ xử lý token trên Mac 32GB, RTX 4090, DGX Spark, RTX 5090, eGPU (Oculink) v.v.

    • 5.000 USD là mức ngân sách khá lửng lơ nên có người khuyên thuê GPU cloud.
      Nếu muốn hiệu năng cao thì RTX 5090, cần tương thích CUDA thì DGX Spark, còn mô hình lớn thì Strix Halo 128GB hoặc M3 Ultra là phù hợp.
      Benchmark thực tế thì nên tìm trên r/LocalLLaMA
    • Cấu hình dual 3090 (24GB×2) hiện là lựa chọn có hiệu năng/giá tốt nhất.
      Nếu muốn hơn nữa thì có cả server 8×V100 (32GB×8, 512GB RAM, NVLink). Chỉ là nó cần điện 240V
    • Tôi dùng tổ hợp 7900XTX + 128GB DDR4. Và tôi ghét NVIDIA
  • Cái tên “Vibe CLI” khiến nó trông như một công cụ quá hời hợt.
    Tôi dùng Claude Code khá thường xuyên, nhưng không gọi đó là vibe-coding

    • Kiểu tên này có thể chỉ là một meme marketing. Có vẻ như họ muốn gây chú ý bằng mấy bài kiểu “công ty Pháp ra công cụ ‘coding bằng vibe’!”
    • Tôi nghĩ việc viết code bằng LLM về bản chất phù hợp hơn với các tác vụ nhẹ
    • Nếu giao code cho Claude thì đó đã là vibe-coding rồi
    • Có lẽ đơn giản chỉ là một cách đặt tên hài hước
  • Mừng vì đây là CLI không dùng React.
    Vibe-cli được xây dựng bằng framework Textual

    • Tuy vậy vì dựa trên Python nên cũng hơi lo tốc độ xuất output sẽ chậm. Trước đây tôi từng gặp vấn đề tương tự với Aider
  • Nếu Mistral rẻ hơn Claude 10 lần tính theo mỗi token thì khá hấp dẫn.
    Miễn là hiệu năng không tệ hơn đến 10 lần thì đó là một điểm cộng lớn

    • GPT 5-mini cũng rẻ hơn Haiku rất nhiều, nhưng dùng thực tế thì đúng kiểu phí thời gian.
      Ở công ty thì chúng tôi dùng Haiku, Sonnet, Opus, còn ngân sách cá nhân thì tôi dùng minimax m2
    • Rẻ hơn 10 lần mà chậm hơn 2 lần thì cuối cùng vẫn có thể còn đắt hơn vì lãng phí token
    • Ngay cả các mô hình SOTA hiện tại cũng chưa hoàn hảo về khả năng coding, nên tôi không thấy lý do gì phải quá tập trung vào tối ưu giá
  • Tôi đã tạo một gói AUR cho Mistral-vibe
    Liên kết gói

  • Nếu là người dùng Nix thì có thể chạy ngay bằng lệnh dưới đây

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    Repository được cập nhật hằng ngày

    • Tôi nghĩ đây là một dự án thật sự rất hay. Cảm ơn vì đã chia sẻ