- Dòng Mistral 3 là thế hệ mô hình AI mã nguồn mở mới gồm các mô hình nhỏ 3B, 8B, 14B và Mistral Large 3 với 41B tham số hoạt động và 675B tổng tham số
- Tất cả mô hình đều được phát hành theo giấy phép Apache 2.0, cho phép nhà phát triển và doanh nghiệp tự do sử dụng cũng như tùy biến
- Mistral Large 3 áp dụng kiến trúc Mixture-of-Experts được huấn luyện bằng 3.000 GPU NVIDIA H200, đạt hiệu năng hàng đầu về hội thoại đa ngôn ngữ và hiểu hình ảnh
- Ministral 3 được thiết kế cho môi trường edge, có hiệu năng trên chi phí rất tốt, và biến thể reasoning đạt độ chính xác 85% trên AIME ‘25
- Mistral 3 có thể dùng ngay trên Mistral AI Studio, Hugging Face, AWS, Azure và các nền tảng lớn khác, hướng tới mở rộng hệ sinh thái AI mở
Tổng quan về Mistral 3
- Mistral 3 là dòng mô hình thế hệ mới của Mistral AI, gồm các mô hình dense cỡ nhỏ (3B, 8B, 14B) và mô hình sparse cỡ lớn Mistral Large 3
- Mistral Large 3 sử dụng kiến trúc Mixture-of-Experts (MoE) với 41B tham số hoạt động và 675B tổng tham số
- Tất cả mô hình đều được phát hành theo giấy phép Apache 2.0, cho phép cộng đồng mã nguồn mở khai thác
- Các mô hình được cung cấp ở nhiều định dạng nén khác nhau, giúp tăng khả năng tiếp cận thông qua trí tuệ phân tán
- Dòng mô hình Ministral được đánh giá là các mô hình OSS có tỷ lệ hiệu năng trên chi phí tốt nhất
Mistral Large 3: mô hình hàng đầu dựa trên open weights
- Mistral Large 3 là mô hình open weights được huấn luyện từ đầu bằng 3.000 GPU NVIDIA H200
- Đây là mô hình Mixture-of-Experts đầu tiên kể từ dòng Mixtral, phản ánh sự tiến bộ trong công nghệ tiền huấn luyện của Mistral
- Sau huấn luyện, mô hình đạt hiệu năng ngang với các mô hình open weights hàng đầu ở tác vụ prompt tổng quát, đồng thời
cho kết quả xuất sắc ở hiểu hình ảnh và hội thoại đa ngôn ngữ ngoài tiếng Anh
- Trên bảng xếp hạng LMArena, mô hình đứng thứ 2 trong nhóm mô hình OSS non-reasoning và thứ 6 trong toàn bộ mô hình OSS
- Đã phát hành các phiên bản base và instruct, còn phiên bản reasoning sẽ sớm ra mắt
Hợp tác với NVIDIA·vLLM·Red Hat
- Mistral Large 3 được đưa đến cộng đồng mã nguồn mở một cách dễ tiếp cận nhờ hợp tác với vLLM và Red Hat
- Cung cấp checkpoint định dạng NVFP4 được tạo bằng llm-compressor
- Có thể chạy hiệu quả qua vLLM trên các hệ thống Blackwell NVL72, 8×A100 và 8×H100
- Thông qua hợp tác với NVIDIA, mô hình hỗ trợ suy luận độ chính xác thấp trong TensorRT-LLM, SGLang và các nền tảng khác
- Tích hợp kernel attention và MoE của Blackwell, dịch vụ tách biệt prefill/decode, và speculative decoding
- Hỗ trợ triển khai tối ưu cả trong môi trường edge như DGX Spark, PC RTX, thiết bị Jetson
Ministral 3: mô hình thông minh cho edge
- Dòng Ministral 3 dành cho môi trường edge và cục bộ có ba kích cỡ: 3B, 8B, 14B
- Mỗi mô hình được phát hành với ba biến thể: base, instruct, reasoning
- Tất cả biến thể đều hỗ trợ hiểu hình ảnh và xử lý đa ngôn ngữ
- Đây là các mô hình OSS có tỷ lệ hiệu năng trên chi phí cao nhất,
trong đó mô hình instruct đạt hiệu năng tương đương hoặc tốt hơn mô hình cạnh tranh nhưng giảm số token xuống còn khoảng 1/10
- Biến thể reasoning mạnh ở các môi trường ưu tiên độ chính xác,
với mô hình 14B đạt độ chính xác 85% trên AIME ‘25
Triển khai và khả năng tiếp cận
- Mistral 3 hiện có thể sử dụng ngay trên các nền tảng sau
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- Sắp có trên NVIDIA NIM và AWS SageMaker
- Cung cấp dịch vụ huấn luyện mô hình tùy chỉnh cho doanh nghiệp
- Hỗ trợ các tác vụ chuyên biệt theo lĩnh vực, cải thiện hiệu năng trên bộ dữ liệu riêng, và triển khai trong môi trường đặc thù
Giá trị cốt lõi của Mistral 3
- Hiệu năng frontier và khả năng tiếp cận mở: mang hiệu năng cấp độ mô hình đóng đến với mã nguồn mở
- Hỗ trợ đa phương thức và đa ngôn ngữ: có thể hiểu văn bản, hình ảnh và logic trong hơn 40 ngôn ngữ
- Hiệu quả có thể mở rộng: dải tham số từ 3B đến 675B, phù hợp từ edge đến doanh nghiệp
- Tính ứng dụng thích nghi: có thể áp dụng cho nhiều workflow như lập trình, phân tích tài liệu, sử dụng công cụ
Các bước tiếp theo
- Tài liệu mô hình và tài liệu kỹ thuật được cung cấp trên Mistral Docs và AI Governance Hub
- Có thể sử dụng API ngay qua Hugging Face và nền tảng Mistral AI
- Có kênh liên hệ cho huấn luyện và fine-tuning tùy chỉnh cho doanh nghiệp
- Có thể tham gia cộng đồng qua Twitter/X, Discord, GitHub
Kết luận
- Mistral 3 hướng tới mở rộng hệ sinh thái AI mở dựa trên tính minh bạch, khả năng tiếp cận và phát triển cộng đồng
- Mô hình mở ra những khả năng mới về reasoning, hiệu quả và ứng dụng thực tế,
trở thành thế hệ mô hình mở tiếp theo giúp “chuyển hóa hiểu biết thành hành động”
Chưa có bình luận nào.