Ra mắt dòng mô hình Mistral 3

(mistral.ai)

4 điểm bởi GN⁺ 2025-12-03 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Dòng Mistral 3 là thế hệ mô hình AI mã nguồn mở mới gồm các mô hình nhỏ 3B, 8B, 14B và Mistral Large 3 với 41B tham số hoạt động và 675B tổng tham số
Tất cả mô hình đều được phát hành theo giấy phép Apache 2.0, cho phép nhà phát triển và doanh nghiệp tự do sử dụng cũng như tùy biến
Mistral Large 3 áp dụng kiến trúc Mixture-of-Experts được huấn luyện bằng 3.000 GPU NVIDIA H200, đạt hiệu năng hàng đầu về hội thoại đa ngôn ngữ và hiểu hình ảnh
Ministral 3 được thiết kế cho môi trường edge, có hiệu năng trên chi phí rất tốt, và biến thể reasoning đạt độ chính xác 85% trên AIME ‘25
Mistral 3 có thể dùng ngay trên Mistral AI Studio, Hugging Face, AWS, Azure và các nền tảng lớn khác, hướng tới mở rộng hệ sinh thái AI mở

Tổng quan về Mistral 3

Mistral 3 là dòng mô hình thế hệ mới của Mistral AI, gồm các mô hình dense cỡ nhỏ (3B, 8B, 14B) và mô hình sparse cỡ lớn Mistral Large 3
- Mistral Large 3 sử dụng kiến trúc Mixture-of-Experts (MoE) với 41B tham số hoạt động và 675B tổng tham số
- Tất cả mô hình đều được phát hành theo giấy phép Apache 2.0, cho phép cộng đồng mã nguồn mở khai thác
Các mô hình được cung cấp ở nhiều định dạng nén khác nhau, giúp tăng khả năng tiếp cận thông qua trí tuệ phân tán
Dòng mô hình Ministral được đánh giá là các mô hình OSS có tỷ lệ hiệu năng trên chi phí tốt nhất

Mistral Large 3 là mô hình open weights được huấn luyện từ đầu bằng 3.000 GPU NVIDIA H200
- Đây là mô hình Mixture-of-Experts đầu tiên kể từ dòng Mixtral, phản ánh sự tiến bộ trong công nghệ tiền huấn luyện của Mistral
Sau huấn luyện, mô hình đạt hiệu năng ngang với các mô hình open weights hàng đầu ở tác vụ prompt tổng quát, đồng thời
cho kết quả xuất sắc ở hiểu hình ảnh và hội thoại đa ngôn ngữ ngoài tiếng Anh
Trên bảng xếp hạng LMArena, mô hình đứng thứ 2 trong nhóm mô hình OSS non-reasoning và thứ 6 trong toàn bộ mô hình OSS
Đã phát hành các phiên bản base và instruct, còn phiên bản reasoning sẽ sớm ra mắt

Mistral Large 3 được đưa đến cộng đồng mã nguồn mở một cách dễ tiếp cận nhờ hợp tác với vLLM và Red Hat
- Cung cấp checkpoint định dạng NVFP4 được tạo bằng llm-compressor
- Có thể chạy hiệu quả qua vLLM trên các hệ thống Blackwell NVL72, 8×A100 và 8×H100
Thông qua hợp tác với NVIDIA, mô hình hỗ trợ suy luận độ chính xác thấp trong TensorRT-LLM, SGLang và các nền tảng khác
- Tích hợp kernel attention và MoE của Blackwell, dịch vụ tách biệt prefill/decode, và speculative decoding
Hỗ trợ triển khai tối ưu cả trong môi trường edge như DGX Spark, PC RTX, thiết bị Jetson

Dòng Ministral 3 dành cho môi trường edge và cục bộ có ba kích cỡ: 3B, 8B, 14B
- Mỗi mô hình được phát hành với ba biến thể: base, instruct, reasoning
- Tất cả biến thể đều hỗ trợ hiểu hình ảnh và xử lý đa ngôn ngữ
Đây là các mô hình OSS có tỷ lệ hiệu năng trên chi phí cao nhất,
trong đó mô hình instruct đạt hiệu năng tương đương hoặc tốt hơn mô hình cạnh tranh nhưng giảm số token xuống còn khoảng 1/10
Biến thể reasoning mạnh ở các môi trường ưu tiên độ chính xác,
với mô hình 14B đạt độ chính xác 85% trên AIME ‘25

Mistral 3 hiện có thể sử dụng ngay trên các nền tảng sau
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- Sắp có trên NVIDIA NIM và AWS SageMaker
Cung cấp dịch vụ huấn luyện mô hình tùy chỉnh cho doanh nghiệp
- Hỗ trợ các tác vụ chuyên biệt theo lĩnh vực, cải thiện hiệu năng trên bộ dữ liệu riêng, và triển khai trong môi trường đặc thù

Hiệu năng frontier và khả năng tiếp cận mở: mang hiệu năng cấp độ mô hình đóng đến với mã nguồn mở
Hỗ trợ đa phương thức và đa ngôn ngữ: có thể hiểu văn bản, hình ảnh và logic trong hơn 40 ngôn ngữ
Hiệu quả có thể mở rộng: dải tham số từ 3B đến 675B, phù hợp từ edge đến doanh nghiệp
Tính ứng dụng thích nghi: có thể áp dụng cho nhiều workflow như lập trình, phân tích tài liệu, sử dụng công cụ

Tài liệu mô hình và tài liệu kỹ thuật được cung cấp trên Mistral Docs và AI Governance Hub
Có thể sử dụng API ngay qua Hugging Face và nền tảng Mistral AI
Có kênh liên hệ cho huấn luyện và fine-tuning tùy chỉnh cho doanh nghiệp
Có thể tham gia cộng đồng qua Twitter/X, Discord, GitHub

Mistral 3 hướng tới mở rộng hệ sinh thái AI mở dựa trên tính minh bạch, khả năng tiếp cận và phát triển cộng đồng
Mô hình mở ra những khả năng mới về reasoning, hiệu quả và ứng dụng thực tế,
trở thành thế hệ mô hình mở tiếp theo giúp “chuyển hóa hiểu biết thành hành động”