- Devstral là LLM tác tử dành cho các tác vụ kỹ thuật phần mềm, được phát triển thông qua sự hợp tác giữa Mistral AI và All Hands AI
- Trên benchmark SWE-Bench Verified, mô hình đạt hiệu năng 46,8%, cao hơn hơn 6 điểm phần trăm so với các mô hình mã nguồn mở trước đó
- Mô hình cho thấy hiệu năng vượt trội hơn các đối thủ cạnh tranh (Deepseek-V3, Qwen3, v.v.) và một số mô hình nguồn đóng (như GPT-4.1-mini)
- Có thể chạy cục bộ ngay cả trên RTX 4090 hoặc máy Mac có 32GB RAM, phù hợp với môi trường doanh nghiệp hoặc copilot
- Được phát hành miễn phí theo giấy phép Apache 2.0, có thể dùng ngay và tùy biến trên nhiều nền tảng khác nhau
Giới thiệu về Devstral
- Devstral là LLM tác tử (Agentic Large Language Model) dành cho các tác vụ kỹ thuật phần mềm như viết mã, chỉnh sửa, xử lý issue, v.v.
- Được phát triển thông qua quan hệ hợp tác giữa Mistral AI và All Hands AI
- Devstral được huấn luyện theo cách giải quyết các issue GitHub ngoài thực tế và vận hành dựa trên các bộ khung agent code như OpenHands hoặc SWE-Agent
Hiệu năng của Devstral trên benchmark SWE-Bench Verified
- Devstral ghi 46,8% điểm số trên SWE-Bench Verified, vượt hơn 6 điểm phần trăm so với mô hình mã nguồn mở có hiệu năng tốt nhất
- Trên cùng bộ khung thử nghiệm (OpenHands), mô hình cũng vượt qua cả các mô hình lớn hơn như Deepseek-V3-0324 (671B) và Qwen3 232B-A22B
- Ngay cả trong môi trường kiểm thử tùy chỉnh, Devstral vẫn cho hiệu năng vượt trội hơn nhiều mô hình thay thế nguồn đóng
- Ví dụ, mô hình cho thấy độ chính xác cao hơn hơn 20% so với GPT-4.1-mini mới nhất
Tính linh hoạt và khả năng ứng dụng
- Devstral có thể chạy mượt ngay cả trên RTX 4090 hoặc máy Mac có 32GB RAM, thuận lợi cho triển khai cục bộ và sử dụng trên thiết bị
- Trên các nền tảng như OpenHands, mô hình có thể kết nối với codebase cục bộ để xử lý issue nhanh chóng
- Phù hợp với kho mã cần bảo vệ quyền riêng tư trong môi trường doanh nghiệp
- Có thể áp dụng vào nhiều môi trường phát triển khác nhau như copilot, plugin IDE dạng agent, v.v.
Phát hành và sử dụng
- Devstral được phát hành theo giấy phép Apache 2.0, cho phép bất kỳ ai sử dụng miễn phí, tùy biến và phân phối lại
- Có cung cấp hướng dẫn sử dụng mô hình và tutorial; có thể tải về trên nhiều nền tảng như HuggingFace, Ollama, Kaggle, Unsloth, LM Studio, v.v.
- Trên API chính thức của Mistral, mô hình được cung cấp dưới tên
devstral-small-2505 và áp dụng chính sách giá sử dụng giống với Mistral Small 3.1
- Nếu cần các tùy biến nâng cao như fine-tuning chuyên biệt cho codebase riêng tư trong môi trường doanh nghiệp, có thể liên hệ để được hỗ trợ
Kế hoạch sắp tới
- Devstral hiện đang ở giai đoạn research preview
- Trong tương lai, hãng cũng dự kiến phát hành mô hình coding tác tử với quy mô lớn hơn
- Nếu muốn tìm hiểu về việc sử dụng Devstral hoặc các mô hình và giải pháp khác của Mistral, có thể liên hệ qua kênh chính thức
1 bình luận
Ý kiến trên Hacker News
Dạo này tôi thường kiểm tra kích thước tệp trước bằng Ollama, và thấy model này ở mức 14GB, tham khảo https://ollama.com/library/devstral/tags. Trên Mac M2 thường cần thêm khoảng 10% bộ nhớ ngoài kích thước tệp model, nên tôi đang dùng thông tin này để xem còn đủ RAM chạy kèm các app nào. Các model dưới 20GB thường không ảnh hưởng nhiều đến việc dùng những chương trình khác. Khá kỳ vọng vào model này
Cần gợi ý phần mềm phát triển agentic chạy tốt với model local. Tôi đã thử Cursor nhưng không hài lòng như mong đợi, thậm chí cảm giác còn kém hơn việc luân phiên dùng editor và ChatGPT. Cũng đã thử Localforge và aider, nhưng với model local thì hơi chậm
Tôi cũng đồng ý. Tôi đã tự chạy model này trên máy local và ấn tượng khá tốt. Nó xử lý tốt cả những đoạn code khó liên quan đến Ruby hay rspec. Tôi định thử thêm với aider trong bối cảnh context lớn
Điểm SWE-Bench rất cao so với kích thước của một model mã nguồn mở. 46.8% còn cao hơn o3-mini (dùng Agentless-lite) hay Claude 3.6 (đi cùng AutoCodeRover), và chỉ thấp hơn một chút so với Claude 3.6 gắn scaffold độc quyền của Anthropic. Tính cả chuyện gần như có thể chạy miễn phí thì đây là model rất đáng kinh ngạc
Hoặc là “đáng kinh ngạc”, hoặc là benchmark đang không làm đúng vai trò của nó
Cần xác nhận xem có phải ý bạn là Claude 3.7 không
Ghi lại chút thông tin cho ai không có card đồ họa 24GB RAM. Tôi đang dùng model này với Ollama cho các tác vụ đơn giản trong môi trường RAM 8GB. Với context window lớn và các tác vụ nhạy cảm về thời gian thì nên dùng API trả phí.
Tôi không tin các benchmark được đưa ra. Dù chưa dùng trực tiếp, benchmark của các model dòng Mistral trong trải nghiệm của tôi thường xếp thấp, tương tự Llama. Tôi không kỳ vọng hiệu năng thực tế sẽ cao đến vậy
Gần đây tôi đã dùng model All Hands, và có vẻ chúng cũng dựa trên Mistral. Ấn tượng của tôi là tuy không thể so với Claude 3.7 Sonnet, nhưng khá ổn định. Dùng làm "trợ lý AI pair-coding" thì hoàn toàn ổn, và cả các công việc cấu trúc lớn cũng làm được nếu chia nhỏ thành nhiều bước
Tôi cũng khá hoài nghi. Những thứ này phải tự test mới biết. Ví dụ, với tôi Qwen3 còn là bước lùi, còn GLM4 mới là chuẩn hiện tại. Model 70b cogito cũng thật sự rất tốt nhưng ít được nhắc đến. Tôi nghĩ độ chênh rất lớn tùy dự án, ngôn ngữ hay mục đích sử dụng. Nhưng model này thì tôi vẫn nhất định sẽ thử
Cảm giác rất tích cực vì nó dùng giấy phép Apache 2.0. Điều khoản sử dụng rõ ràng chứ không phải kiểu giấy phép "open weight" phức tạp. Đây là một ưu điểm
Có ý tưởng rằng EU nên chi trả chi phí tạo ra agent/model này. Nếu nó thật sự tốt như kỳ vọng, Mistral có thể tiếp tục tập trung vào việc của họ, còn về phía châu Âu thì đó sẽ là cách dùng ngân sách khôn ngoan
Nếu tiền thuế của tôi được dùng để phát triển các model giấy phép apache/mit thì tôi ủng hộ. Ít nhất nó phục vụ mục tiêu tích cực là duy trì lựa chọn thay thế và kiềm chế thế độc quyền của các tập đoàn lớn. Cuối cùng điều đó rất quan trọng để ngăn vài công ty lớn thống trị hoàn toàn
Trên thực tế EU đã chi tiền xây dựng siêu máy tính cho các startup AI sử dụng, và Mistral cũng đang tham gia chương trình này với tư cách đối tác
Tôi tình cờ thấy model này khi đang thử hỗ trợ công cụ của LLamaIndex. Tôi đang gắn nhiều model khác nhau vào giải pháp coding agentic tự xây của mình để thử nghiệm, đúng lúc định áp dụng cách ReAct thì model này xuất hiện nên khá bất ngờ.
Nhưng trên model này, hệ thống agent của tôi chỉ trả về "không có công cụ". Tôi đã thử cả chỉ thị rõ ràng kiểu "dùng tool foo để làm việc bar" trong nhiều prompt agent nhưng vẫn chưa giải quyết được. ToolSpec là đối tượng Pydantic chuẩn có annotation các kiểu, và với các model khác thì chúng thường tự tìm được cách dùng tool
Có thể ép schema tool bằng cách giới hạn đầu ra. Chỉ cần hỗ trợ một chút là có thể áp dụng cho gần như bất kỳ model nào
Rất vui khi Mistral lại tung ra một model mã nguồn mở thực sự. Tôi ngày càng cảm thấy cần có một công ty AI cạnh tranh được ở châu Âu.
Mong được gợi ý về các model mới có thể chạy local trên máy cấu hình thấp như MacBook Air, hoặc nguồn thông tin liên quan. Tôi muốn biết trước model nào là 'thực sự dùng được' trên từng cấu hình máy mà không phải tự test hết. Cũng cần cân nhắc có nên giữ sẵn 2~3 model cho từng tác vụ trong Ollama hay không. Apple Intelligence hiện vẫn chưa phải câu trả lời
Với model đa dụng tối ưu cho chạy local thì nên xem Gemma 3 hoặc Mistral Small mới nhất. Trên Windows, VRAM là nút thắt tốc độ, nhưng với Mac dòng M thì bộ nhớ on-chip giúp dùng nhanh hơn. Dung lượng model có thể chạy được sẽ được quyết định bởi lượng RAM thực tế còn lại sau khi trừ phần MacOS chiếm dụng và không gian cho các ứng dụng khác.
Cứ tự thử là hiệu quả nhất. Miễn là đủ chỗ cho dung lượng model thì có thể cài và build llama.cpp(https://github.com/ggml-org/llama.cpp) khá dễ, mà hỗ trợ MacBook Air dòng M cũng rất tốt. Cá nhân tôi chủ yếu dùng LMStudio(https://lmstudio.ai/). Giao diện dễ dùng kiểu ChatGPT hay Claude, và có thể tìm/tải model ngay trong chương trình. Chỉ riêng LMStudio cũng đã đủ cho người mới bắt đầu, tôi hay dùng nó trên M2 MacBook Air
Tôi tò mò model này thực tế so với các hosted LLM như Claude 3.7 ra sao