Devstral - LLM tác tử của Mistral

(mistral.ai)

4 điểm bởi GN⁺ 2025-05-22 | 1 bình luận | Chia sẻ qua WhatsApp

Devstral là LLM tác tử dành cho các tác vụ kỹ thuật phần mềm, được phát triển thông qua sự hợp tác giữa Mistral AI và All Hands AI
Trên benchmark SWE-Bench Verified, mô hình đạt hiệu năng 46,8%, cao hơn hơn 6 điểm phần trăm so với các mô hình mã nguồn mở trước đó
Mô hình cho thấy hiệu năng vượt trội hơn các đối thủ cạnh tranh (Deepseek-V3, Qwen3, v.v.) và một số mô hình nguồn đóng (như GPT-4.1-mini)
Có thể chạy cục bộ ngay cả trên RTX 4090 hoặc máy Mac có 32GB RAM, phù hợp với môi trường doanh nghiệp hoặc copilot
Được phát hành miễn phí theo giấy phép Apache 2.0, có thể dùng ngay và tùy biến trên nhiều nền tảng khác nhau

Giới thiệu về Devstral

Devstral là LLM tác tử (Agentic Large Language Model) dành cho các tác vụ kỹ thuật phần mềm như viết mã, chỉnh sửa, xử lý issue, v.v.
Được phát triển thông qua quan hệ hợp tác giữa Mistral AI và All Hands AI
Devstral được huấn luyện theo cách giải quyết các issue GitHub ngoài thực tế và vận hành dựa trên các bộ khung agent code như OpenHands hoặc SWE-Agent

Hiệu năng của Devstral trên benchmark SWE-Bench Verified

Devstral ghi 46,8% điểm số trên SWE-Bench Verified, vượt hơn 6 điểm phần trăm so với mô hình mã nguồn mở có hiệu năng tốt nhất
Trên cùng bộ khung thử nghiệm (OpenHands), mô hình cũng vượt qua cả các mô hình lớn hơn như Deepseek-V3-0324 (671B) và Qwen3 232B-A22B
Ngay cả trong môi trường kiểm thử tùy chỉnh, Devstral vẫn cho hiệu năng vượt trội hơn nhiều mô hình thay thế nguồn đóng
- Ví dụ, mô hình cho thấy độ chính xác cao hơn hơn 20% so với GPT-4.1-mini mới nhất

Tính linh hoạt và khả năng ứng dụng

Devstral có thể chạy mượt ngay cả trên RTX 4090 hoặc máy Mac có 32GB RAM, thuận lợi cho triển khai cục bộ và sử dụng trên thiết bị
Trên các nền tảng như OpenHands, mô hình có thể kết nối với codebase cục bộ để xử lý issue nhanh chóng
Phù hợp với kho mã cần bảo vệ quyền riêng tư trong môi trường doanh nghiệp
Có thể áp dụng vào nhiều môi trường phát triển khác nhau như copilot, plugin IDE dạng agent, v.v.

Phát hành và sử dụng

Devstral được phát hành theo giấy phép Apache 2.0, cho phép bất kỳ ai sử dụng miễn phí, tùy biến và phân phối lại
Có cung cấp hướng dẫn sử dụng mô hình và tutorial; có thể tải về trên nhiều nền tảng như HuggingFace, Ollama, Kaggle, Unsloth, LM Studio, v.v.
Trên API chính thức của Mistral, mô hình được cung cấp dưới tên devstral-small-2505 và áp dụng chính sách giá sử dụng giống với Mistral Small 3.1
Nếu cần các tùy biến nâng cao như fine-tuning chuyên biệt cho codebase riêng tư trong môi trường doanh nghiệp, có thể liên hệ để được hỗ trợ

Kế hoạch sắp tới

Devstral hiện đang ở giai đoạn research preview
Trong tương lai, hãng cũng dự kiến phát hành mô hình coding tác tử với quy mô lớn hơn
Nếu muốn tìm hiểu về việc sử dụng Devstral hoặc các mô hình và giải pháp khác của Mistral, có thể liên hệ qua kênh chính thức

1 bình luận

GN⁺ 2025-05-22

Ý kiến trên Hacker News

Dạo này tôi thường kiểm tra kích thước tệp trước bằng Ollama, và thấy model này ở mức 14GB, tham khảo https://ollama.com/library/devstral/tags. Trên Mac M2 thường cần thêm khoảng 10% bộ nhớ ngoài kích thước tệp model, nên tôi đang dùng thông tin này để xem còn đủ RAM chạy kèm các app nào. Các model dưới 20GB thường không ảnh hưởng nhiều đến việc dùng những chương trình khác. Khá kỳ vọng vào model này
- Cần gợi ý phần mềm phát triển agentic chạy tốt với model local. Tôi đã thử Cursor nhưng không hài lòng như mong đợi, thậm chí cảm giác còn kém hơn việc luân phiên dùng editor và ChatGPT. Cũng đã thử Localforge và aider, nhưng với model local thì hơi chậm
- Tôi cũng đồng ý. Tôi đã tự chạy model này trên máy local và ấn tượng khá tốt. Nó xử lý tốt cả những đoạn code khó liên quan đến Ruby hay rspec. Tôi định thử thêm với aider trong bối cảnh context lớn
Điểm SWE-Bench rất cao so với kích thước của một model mã nguồn mở. 46.8% còn cao hơn o3-mini (dùng Agentless-lite) hay Claude 3.6 (đi cùng AutoCodeRover), và chỉ thấp hơn một chút so với Claude 3.6 gắn scaffold độc quyền của Anthropic. Tính cả chuyện gần như có thể chạy miễn phí thì đây là model rất đáng kinh ngạc
- Hoặc là “đáng kinh ngạc”, hoặc là benchmark đang không làm đúng vai trò của nó
- Cần xác nhận xem có phải ý bạn là Claude 3.7 không
Ghi lại chút thông tin cho ai không có card đồ họa 24GB RAM. Tôi đang dùng model này với Ollama cho các tác vụ đơn giản trong môi trường RAM 8GB. Với context window lớn và các tác vụ nhạy cảm về thời gian thì nên dùng API trả phí.
- Chia sẻ một số số liệu chi tiết như tổng thời gian chạy, thời gian tải và tốc độ đánh giá token:
  - Ví dụ 1: mất 35 giây, xử lý 6.27 token mỗi giây
  - Ví dụ 2: mất 4 phút 44 giây, xử lý 5.79 token mỗi giây
- Cảm giác chậm hơn khoảng 20% so với gọi API. Có lẽ là do không có GPU được khuyến nghị.
- Hiệu năng benchmark có vẻ được căn chỉnh tốt một cách bất thường so với kích thước, và tôi nghĩ có khả năng trong quá trình phát triển họ đã lặp đi lặp lại việc tối ưu theo benchmark. Theo tôi thì phần lớn các LLM được marketing trong ngành IT cũng đi theo chiến lược đó. Xét cho cùng, việc “xác minh rằng nó đủ dùng mà không tốn thời gian tự test” cũng không phải là một sự đánh đổi tệ
Tôi không tin các benchmark được đưa ra. Dù chưa dùng trực tiếp, benchmark của các model dòng Mistral trong trải nghiệm của tôi thường xếp thấp, tương tự Llama. Tôi không kỳ vọng hiệu năng thực tế sẽ cao đến vậy
- Gần đây tôi đã dùng model All Hands, và có vẻ chúng cũng dựa trên Mistral. Ấn tượng của tôi là tuy không thể so với Claude 3.7 Sonnet, nhưng khá ổn định. Dùng làm "trợ lý AI pair-coding" thì hoàn toàn ổn, và cả các công việc cấu trúc lớn cũng làm được nếu chia nhỏ thành nhiều bước
- Tôi cũng khá hoài nghi. Những thứ này phải tự test mới biết. Ví dụ, với tôi Qwen3 còn là bước lùi, còn GLM4 mới là chuẩn hiện tại. Model 70b cogito cũng thật sự rất tốt nhưng ít được nhắc đến. Tôi nghĩ độ chênh rất lớn tùy dự án, ngôn ngữ hay mục đích sử dụng. Nhưng model này thì tôi vẫn nhất định sẽ thử
Cảm giác rất tích cực vì nó dùng giấy phép Apache 2.0. Điều khoản sử dụng rõ ràng chứ không phải kiểu giấy phép "open weight" phức tạp. Đây là một ưu điểm
- Tôi cho rằng đây là thế mạnh chiến lược của Mistral. Với những công việc chấp nhận được về mặt đạo đức thì tôi khuyên dùng Gemma 3. Còn với các nhu cầu khác thì giờ đã có thêm lựa chọn là LLM giấy phép Apache
Có ý tưởng rằng EU nên chi trả chi phí tạo ra agent/model này. Nếu nó thật sự tốt như kỳ vọng, Mistral có thể tiếp tục tập trung vào việc của họ, còn về phía châu Âu thì đó sẽ là cách dùng ngân sách khôn ngoan
- Nếu tiền thuế của tôi được dùng để phát triển các model giấy phép apache/mit thì tôi ủng hộ. Ít nhất nó phục vụ mục tiêu tích cực là duy trì lựa chọn thay thế và kiềm chế thế độc quyền của các tập đoàn lớn. Cuối cùng điều đó rất quan trọng để ngăn vài công ty lớn thống trị hoàn toàn
- Trên thực tế EU đã chi tiền xây dựng siêu máy tính cho các startup AI sử dụng, và Mistral cũng đang tham gia chương trình này với tư cách đối tác
Tôi tình cờ thấy model này khi đang thử hỗ trợ công cụ của LLamaIndex. Tôi đang gắn nhiều model khác nhau vào giải pháp coding agentic tự xây của mình để thử nghiệm, đúng lúc định áp dụng cách ReAct thì model này xuất hiện nên khá bất ngờ.
- Nhưng trên model này, hệ thống agent của tôi chỉ trả về "không có công cụ". Tôi đã thử cả chỉ thị rõ ràng kiểu "dùng tool foo để làm việc bar" trong nhiều prompt agent nhưng vẫn chưa giải quyết được. ToolSpec là đối tượng Pydantic chuẩn có annotation các kiểu, và với các model khác thì chúng thường tự tìm được cách dùng tool
- Có thể ép schema tool bằng cách giới hạn đầu ra. Chỉ cần hỗ trợ một chút là có thể áp dụng cho gần như bất kỳ model nào
Rất vui khi Mistral lại tung ra một model mã nguồn mở thực sự. Tôi ngày càng cảm thấy cần có một công ty AI cạnh tranh được ở châu Âu.
- Các model mới gần đây của Mistral rất ấn tượng. Tôi đang trả phí Le Chat Pro để dùng. Ngoài ra Mistral Small cũng thật sự dùng tốt. Tôi cũng đang phát triển startup với tích hợp Mistral
Mong được gợi ý về các model mới có thể chạy local trên máy cấu hình thấp như MacBook Air, hoặc nguồn thông tin liên quan. Tôi muốn biết trước model nào là 'thực sự dùng được' trên từng cấu hình máy mà không phải tự test hết. Cũng cần cân nhắc có nên giữ sẵn 2~3 model cho từng tác vụ trong Ollama hay không. Apple Intelligence hiện vẫn chưa phải câu trả lời
- Với model đa dụng tối ưu cho chạy local thì nên xem Gemma 3 hoặc Mistral Small mới nhất. Trên Windows, VRAM là nút thắt tốc độ, nhưng với Mac dòng M thì bộ nhớ on-chip giúp dùng nhanh hơn. Dung lượng model có thể chạy được sẽ được quyết định bởi lượng RAM thực tế còn lại sau khi trừ phần MacOS chiếm dụng và không gian cho các ứng dụng khác.
  - Khi ước tính bộ nhớ theo model, có thể tham khảo kích thước các model lượng tử hóa trên HuggingFace và nơi khác. Lấy Q4_K_M làm mặc định thì khá hợp lý.
  - Với Devstral là 14.3GB, và cần thêm 1~8GB để lưu context.
  - Ví dụ:
    - MacBook Air 32GB → Devstral(14.3GB)+4GB, còn khoảng 14GB cho hệ thống/các app khác
    - MacBook Air 16GB → Gemma 3 12B(7.3GB)+2GB, còn khoảng 7GB
    - MacBook 8GB → Gemma 3 4B(2.5GB)+1GB, thực tế không khuyến nghị dùng nghiêm túc
- Cứ tự thử là hiệu quả nhất. Miễn là đủ chỗ cho dung lượng model thì có thể cài và build llama.cpp(https://github.com/ggml-org/llama.cpp) khá dễ, mà hỗ trợ MacBook Air dòng M cũng rất tốt. Cá nhân tôi chủ yếu dùng LMStudio(https://lmstudio.ai/). Giao diện dễ dùng kiểu ChatGPT hay Claude, và có thể tìm/tải model ngay trong chương trình. Chỉ riêng LMStudio cũng đã đủ cho người mới bắt đầu, tôi hay dùng nó trên M2 MacBook Air
Tôi tò mò model này thực tế so với các hosted LLM như Claude 3.7 ra sao
- Thật ra mục đích sử dụng hoàn toàn khác nhau nên so trực tiếp cũng không có nhiều ý nghĩa

Devstral - LLM tác tử của Mistral

Giới thiệu về Devstral

Hiệu năng của Devstral trên benchmark SWE-Bench Verified

Tính linh hoạt và khả năng ứng dụng

Phát hành và sử dụng

Kế hoạch sắp tới

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News