Magistral — Mistral AI công bố mô hình suy luận đầu tiên

(mistral.ai)

3 điểm bởi GN⁺ 2025-06-11 | 1 bình luận | Chia sẻ qua WhatsApp

Magistral là mô hình suy luận (reasoning) đầu tiên do Mistral AI công bố, tập trung vào chuyên biệt theo miền, tính minh bạch và suy luận đa ngôn ngữ
Ra mắt với hai phiên bản: Magistral Small (24B tham số) mã nguồn mở và Magistral Medium phiên bản doanh nghiệp
Cung cấp suy luận đa ngôn ngữ dựa trên Chain of Thought, trình bày minh bạch quá trình logic từng bước bằng ngôn ngữ của người dùng
Trên AIME2024, Magistral Medium đạt 73.6% (cao nhất 90%), Small đạt 70.7% (cao nhất 83.3%)
Hỗ trợ triển khai logic chính xác theo từng bước cùng tốc độ phản hồi nhanh gấp 10 lần cho nhiều ngôn ngữ và ngành nghề như pháp lý, tài chính, y tế là các lĩnh vực có quản lý chặt chẽ, kỹ thuật dữ liệu, phát triển phần mềm, nội dung sáng tạo

Magistral — Mistral AI công bố mô hình suy luận đầu tiên

Magistral là mô hình reasoning tập trung vào khả năng giải quyết vấn đề thực tế và cải thiện dựa trên phản hồi
Magistral Small là phiên bản mã nguồn mở 24B tham số, còn Magistral Medium là phiên bản doanh nghiệp mạnh hơn, được phát hành song song
Chỉ số hiệu năng:
- Magistral Medium: AIME2024 73.6%, đạt 90% theo tiêu chí majority vote
- Magistral Small: lần lượt 70.7% và 83.3%
Áp dụng lập luận Chain of Thought dựa trên ngôn ngữ và hệ chữ viết toàn cầu, cho phép triển khai tư duy ở mức gần như tiếng mẹ đẻ
Phù hợp với nhiều công việc như tính toán có cấu trúc, logic lập trình, cây quyết định, hệ thống dựa trên luật
Với tính năng Think mode và Flash Answers của Le Chat, tốc độ phản hồi được cải thiện gấp 10 lần so với đối thủ
Bài báo chính thức có đánh giá toàn diện về thuật toán, hạ tầng huấn luyện, kỹ thuật học tăng cường và các insight từ quá trình huấn luyện

Chi tiết mô hình và công nghệ

Quy trình suy luận minh bạch:
- Magistral được tối ưu cho logic nhiều bước, cho phép người dùng xem và theo dõi quá trình suy luận bằng chính ngôn ngữ của mình
- Khác với các mô hình thông thường, khả năng diễn giải và kiểm chứng được tăng cường
- Hướng tới mục tiêu cập nhật mô hình liên tục và cải tiến nhanh chóng
Suy luận đa ngôn ngữ: duy trì độ chính xác và tính logic cao trong tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý, tiếng Ả Rập, tiếng Nga, tiếng Trung và nhiều ngôn ngữ khác
Tốc độ phản hồi:
- Magistral Medium hỗ trợ suy luận và phản hồi theo thời gian thực với tốc độ xử lý token cao gấp 10 lần đối thủ thông qua tính năng Flash Answers của Le Chat
- Trình diễn sự vượt trội về tốc độ so với các mô hình cạnh tranh chính như ChatGPT

Mã nguồn mở và sự tham gia của cộng đồng

Magistral Small được phát hành theo giấy phép Apache 2.0
Người dùng có thể tự phân tích, chỉnh sửa và tái cấu trúc kiến trúc cũng như phương thức suy luận
Các mô hình mã nguồn mở trước đây đã được dùng trong những dự án nghiên cứu đổi mới như ether0, DeepHermes 3

Các trường hợp ứng dụng rộng rãi

Magistral được tối ưu cho các lĩnh vực mà suy luận chính xác theo từng bước và tính minh bạch là quan trọng, như pháp lý, tài chính, phát triển phần mềm, kể chuyện
Chiến lược và vận hành doanh nghiệp
- Có thể thực hiện lập kế hoạch chiến lược, đánh giá rủi ro, ra quyết định dựa trên dữ liệu, tính toán nghiệm tối ưu dưới các ràng buộc phức tạp
Các ngành được quản lý và khu vực công
- Chuyên gia trong lĩnh vực pháp lý, tài chính, y tế và chính phủ có thể theo dõi đường đi suy luận logic và đảm bảo khả năng kiểm toán
- Hỗ trợ đáp ứng khả năng kiểm toán của kết quả và tuân thủ quy định
Hệ thống, phần mềm và kỹ thuật dữ liệu
- Cải thiện chất lượng hỗ trợ cho lập trình, thiết kế dự án, kiến trúc backend, kỹ thuật dữ liệu so với LLM không suy luận
- Hiệu quả với các tác vụ nhiều bước như liên kết công cụ bên ngoài, tích hợp API
Tạo nội dung và giao tiếp
- Magistral cũng cho kết quả nổi bật trong viết sáng tạo, kể chuyện
- Không chỉ tạo văn bản nhất quán mà còn có thể tạo ra những ý tưởng độc đáo và táo bạo

Cách sử dụng và kênh triển khai

Phiên bản Small có thể tải xuống và tự triển khai
Phiên bản Medium có thể sử dụng ngay trên Le Chat (web), API, Amazon SageMaker
Sắp tới sẽ được hỗ trợ thêm trên IBM WatsonX, Azure AI, Google Cloud Marketplace
Với nhu cầu tùy biến cho doanh nghiệp, triển khai on-premise, cần liên hệ riêng

1 bình luận

GN⁺ 2025-06-11

Ý kiến Hacker News

Tôi muốn chia sẻ trải nghiệm tự tạo và tải lên bản GGUF của mô hình Magistral Small trên HuggingFace. Có thể chạy trong ollama bằng lệnh ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL, và với llama.cpp thì nên nhớ dùng các tùy chọn như --jinja, --temp 0.7, --top-p 0.95. Cũng khuyến nghị tăng độ dài ngữ cảnh của Ollama lên trên 8192, và có thể xem thêm hướng dẫn trong tài liệu chính thức
- Phần so sánh benchmark liên quan đến DeepSeek khá thú vị. Bài báo Magistral hiện có so sánh với các phiên bản DeepSeek-V3 (tháng 12/2023) và DeepSeek-R1 (tháng 1/2024), nhưng thực ra phiên bản mới nhất DeepSeek-R1-0528 mới là đối tượng so sánh công bằng hơn. Ví dụ, R1 đạt 79.8 điểm trên AIME 2024 còn R1-0528 đạt 91.4, và trên AIME 2025 thì lần lượt là 70 và 87.5, chênh lệch rất lớn. Có thể xem benchmark DeepSeek mới nhất ở đây
- Bài báo Magistral (PDF) thật sự rất ấn tượng. Trong đó, khi bàn về GRPO, họ giới thiệu nhiều cải tiến như 1) loại bỏ KL Divergence 2) chuẩn hóa theo toàn bộ độ dài 3) chuẩn hóa advantage minibatch 4) nới lỏng trust region
- Dù có hơi lo ngại về chuyện xác minh độ tuổi, tôi vẫn phải khen các mô hình của Unsloth là thật sự "đỉnh". Chúng luôn hoạt động tốt nên tôi rất hài lòng, và cũng tò mò không biết nếu không có jinja thì llama.cpp mặc định dùng gì
- Đừng nghĩ quá nhiều, đây là liên kết gist để tham khảo
Chỉ nhìn vào kết quả benchmark thì có thể thấy Magistral Small và Medium đều thua phiên bản DeepSeek-R1 mới nhất trong mọi bài kiểm tra one-shot. Bài viết thậm chí còn không nhắc đến DeepSeek-R1 mới nhất, mà chi phí lại đắt hơn gấp đôi, cho thấy ngay cả công ty AI hàng đầu châu Âu cũng đang chật vật để bắt kịp xu hướng công nghệ hiện tại
- Vì DeepSeek R1 đời đầu từng đạt hiệu năng đáng kinh ngạc với lượng compute rất ít, nên thật lạ là R1 mới lại chưa thể vượt trội o3, 2.5 Pro và các mô hình khác trên mọi benchmark. Magistral Small (24B) đạt 70.7% trên AIME 2024, còn R1 distill (32B) là 72.6%. Với majority voting@64, Magistral Small tăng lên 83.3%, cao hơn cả bản R1 đầy đủ. Việc có thể chạy mô hình 24B trên GPU gaming phổ thông cũng là một lợi thế lớn về khả năng tiếp cận. Đây là liên kết tới mô hình Distill
- Trong bối cảnh cạnh tranh AI khốc liệt hiện nay, kể cả khi ra mắt chậm hơn mô hình mới nhất 6–12 tháng, việc tránh phải đốt chi phí khổng lồ vẫn có ý nghĩa rất lớn về mặt kỹ thuật. Dĩ nhiên tôi hiểu logic của khách hàng chỉ muốn dùng thứ “tốt nhất” xét theo thị phần, nhưng tôi vẫn nghi ngờ việc thị phần quan trọng đến đâu nếu đó là một cuộc kinh doanh chỉ thua lỗ mãi mãi
- Nhìn vào cơ cấu nhà đầu tư của Mistral thì trên thực tế đây không hẳn là một công ty châu Âu, mà chủ yếu thuộc sở hữu của vốn Mỹ. Có thể xem chi tiết tại liên kết thông tin nhà đầu tư
- Dù năng lực cạnh tranh có thể kém hơn đôi chút, việc mỗi khu vực sở hữu mô hình riêng có thể kiểm soát việc huấn luyện vẫn là điều bắt buộc về mặt chiến lược. Nhưng nếu khoảng cách công nghệ quá lớn thì cũng có rủi ro người dùng sẽ coi nó là vô dụng
- Đáng chú ý là Mistral đã xây dựng được một pipeline huấn luyện hoàn toàn “độc lập”. Các đối thủ như DeepSeek có lẽ đã được huấn luyện trên dữ liệu từ GPT-4, o1 và tương tự
Tôi đã ghi lại các ghi chú khi trực tiếp dùng Magistral qua Ollama, API và plugin llm-mistral tại liên kết này
- Hỏi Simon rằng khác biệt thực tế giữa “hai con bồ nông đi xe đạp” là gì. Tôi đoán bản nhỏ được chạy cục bộ, còn bản lớn mạnh hơn thì chạy qua API
Tôi từng có trải nghiệm thực tế phải OCR một file PDF 600 trang vào thời điểm mô hình OCR của Mistral được quảng bá rầm rộ. Toàn bộ tài liệu là văn bản monospace, nhưng 80% kết quả OCR lại bị nhận thành hình ảnh và gần như chỉ xuất ra khoảng trắng, tệ hơn rất nhiều so với tesseract. Một tháng sau, tôi vừa phải trả hóa đơn cho kết quả tệ hại đó vừa xóa tài khoản. Có thể sản phẩm mới này tốt hơn trước, nhưng tôi đã mất kỳ vọng vì cách Mistral marketing quá đà
Tôi thấy khó hiểu vì việc chọn mẫu benchmark quá rời rạc và hạn chế. Magistral Medium chỉ được so với Deepseek V3, R1 và Mistral Medium 3, còn Magistral Small, Alibaba Qwen hay các bản mini của o3/o4 thì tại sao lại bị bỏ qua?
Tôi hỏi Mistral AI câu: "Một công dân Brazil bay từ São Paulo đến Paris quá cảnh qua Lisbon thì làm thủ tục xuất nhập cảnh ở đâu?" để kiểm tra khả năng suy luận logic và kiến thức phổ thông mức Wikipedia. Mistral AI trả lời là "chỉ ở Paris", nhưng khi tôi bảo nó tham khảo bài viết Wikipedia thì nó sửa thành "ở Lisbon". Meta AI (Llama 4) thì thậm chí trả lời là không cần ở cả hai nơi, cho thấy độ chính xác còn kém. Tôi cũng tò mò các LLM khác sẽ trả lời thế nào
- Có ý kiến cho rằng bản thân câu hỏi này gần như là một câu hỏi mẹo. Trên thực tế, ngoài Lisbon là điểm nhập cảnh Schengen, còn São Paulo cũng sẽ cần thủ tục kiểm tra do là điểm xuất cảnh của Brazil/Mercosur
- Câu trả lời của Gemini (2.5 Flash) khá ấn tượng. Ý chính là: công dân Brazil được miễn thị thực Schengen trong 90 ngày. Nhập cảnh sẽ được kiểm tra tại Lisbon, và chuyến bay tới Paris sau đó được xem là chuyến nội khối Schengen nên không có kiểm tra bổ sung tại Paris. ETIAS dự kiến áp dụng từ 2026, nhưng đó là cơ chế cấp phép trước chuyến đi chứ không ảnh hưởng đến nơi kiểm tra xuất nhập cảnh
- Có người chỉ ra rằng ngay cả người đặt câu hỏi cũng đang thấy câu trả lời khá rối, và với kiểu bài test như thế này thì điều thú vị là có thể so sánh LLM nào trả lời thuyết phục hơn
- Cũng có khả năng Llama 4 lại đúng, vì Brazil và Bồ Đào Nha có thể có một thỏa thuận miễn thị thực đặc biệt, nên vẫn còn chút dư địa để xem xét
Tôi ước gì Qwen3 được đưa vào biểu đồ benchmark. Chỉ riêng Qwen3-4B thôi cũng gần ngang Magistral-22B, còn Qwen3-30B-A3B thì vượt trội hẳn
- Mô hình 30-A3B thực sự quá ấn tượng. Khi chạy cục bộ không tốn phí API, nó còn cho cảm giác mạnh hơn cả các mô hình đóng của 1–2 năm trước. Đặc biệt với công việc lập trình, tôi đánh giá nó cao hơn gpt-4o
- Không biết có trang nào tự động hóa benchmark cho nhiều mô hình khác nhau không. Tôi đã tự thử nghiệm và Qwen3-30B-A3B vẫn là mô hình tốt nhất trong nhóm có tham số/bộ nhớ tương đương
- Theo tôi, Qwen3 là mô hình suy luận ấn tượng nhất mà tôi từng đánh giá đến nay
- Mistral lúc nào cũng kém thực dụng vì luôn có mô hình khác tốt hơn. Điểm đáng nói chỉ là nó đến từ châu Âu. Dù hiệu năng thế nào thì cái tên Mistral có lẽ vẫn sẽ tiếp tục được nhắc đến
Một câu chuyện thú vị về từ nguyên: cả "mistral" và "magistral" đều bắt nguồn từ nghĩa "masterly". mistral vốn đến từ tiếng Occitan, và hiện trong tiếng Anh chủ yếu dùng để chỉ một loại gió ở Địa Trung Hải. magistral là dạng tính từ của "magister". Nếu tìm thêm các từ liên quan rồi đăng ký domain trước thì biết đâu còn kiếm được tiền
Tôi tò mò không biết còn bao nhiêu mô hình reasoning open-weight nữa. Tôi hình dung đến khả năng chạy đồng thời nhiều mô hình trên cùng một bài toán. Việc họ phát hành bản Small nhưng giữ Medium là dịch vụ trả phí cũng khá thú vị. Liệu có thể dùng Medium như một chuỗi gồm nhiều lần gọi Small nối tiếp nhau hay không cũng là điều đáng thắc mắc
- Theo tôi, Qwen 3, DeepSeek R1 và Phi-4 Reasoning hiện là các mô hình reasoning open-weight tốt nhất
- Trên thực tế thì gần như chỉ có hệ DeepSeek, và nếu dùng các mô hình distill thì có thể chạy được trên phần cứng tiêu dùng thông thường
Tôi tự hỏi việc dùng en-dash dày đặc trong câu chữ marketing có phải cũng phản ánh phong cách văn bản do mô hình tạo ra hay không. Nếu đúng thì nên cải thiện
- Trong nội dung quảng bá thực tế, họ nhấn mạnh rằng Magistral là người bạn đồng hành tuyệt vời cho công việc sáng tạo, và khi cần còn có thể tạo ra văn bản “kỳ quặc một cách khác thường”
- Có người còn đếm được 49 dấu en-dash và 59 dấu phẩy, cho thấy tỷ lệ này cao một cách dễ nhận ra
- Phân tích cho rằng đó chỉ là phong cách marketing của Mistral, chứ trong văn bản thực tế do mô hình sinh ra không thấy xuất hiện en-dash với tần suất tương tự
- Có người chia sẻ rằng trong LibreOffice, khi gõ "-" rồi nhấn dấu cách thì nó thường tự đổi thành en-dash, nên vì không muốn bị hiểu lầm nên họ luôn sửa lại
- Một câu đùa là trong giới luật thì en-dash thậm chí còn được yêu thích nữa

Magistral — Mistral AI công bố mô hình suy luận đầu tiên

Magistral — Mistral AI công bố mô hình suy luận đầu tiên

Chi tiết mô hình và công nghệ

Mã nguồn mở và sự tham gia của cộng đồng

Các trường hợp ứng dụng rộng rãi

Chiến lược và vận hành doanh nghiệp

Các ngành được quản lý và khu vực công

Hệ thống, phần mềm và kỹ thuật dữ liệu

Tạo nội dung và giao tiếp

Cách sử dụng và kênh triển khai

Bài viết liên quan

1 bình luận

Ý kiến Hacker News