- Đội ngũ Mistral AI đã phát hành mô hình 24B tham số mang tên Mistral Small 3 theo giấy phép Apache 2.0.
- Mô hình này có thể cạnh tranh với các mô hình lớn hơn như Llama 3.3 70B hay Qwen 32B, đồng thời phù hợp để thay thế các mô hình độc quyền như GPT4o-mini.
- Mistral Small 3 được thiết kế với kích thước phù hợp để triển khai cục bộ, với số lượng layer ít hơn nên thời gian xử lý được rút ngắn.
- Mô hình đạt độ chính xác hơn 81% trên MMLU và có độ trễ 150 tokens/s.
Hiệu năng
Đánh giá bởi con người
- Đã đánh giá hơn 1.000 bộ prompt về lập trình và prompt tổng quát cùng với một đơn vị đánh giá bên ngoài.
- Khảo sát mức độ ưu tiên bằng cách so sánh phản hồi của Mistral Small 3 với các mô hình khác.
- Đã rất cẩn trọng để đảm bảo đánh giá công bằng và tin tưởng vào tính hợp lệ của các benchmark.
Hiệu năng làm theo lệnh
- Mô hình được tinh chỉnh theo lệnh cho thấy hiệu năng cạnh tranh với các mô hình mở có kích thước lớn gấp ba lần và cả mô hình GPT4o-mini.
- Ghi nhận độ chính xác cao trong các benchmark về code, toán học, kiến thức tổng quát và thực thi chỉ thị.
Hiệu năng tiền huấn luyện
- Mistral Small 3 là mô hình 24B mang lại hiệu năng hàng đầu so với kích thước của nó và cạnh tranh với các mô hình lớn gấp ba như Llama 3.3 70B.
Các trường hợp sử dụng của Mistral Small 3
- Hỗ trợ hội thoại phản hồi nhanh: Phát huy hiệu năng vượt trội trong các kịch bản mà phản hồi nhanh và chính xác là yếu tố quan trọng.
- Gọi hàm độ trễ thấp: Có thể xử lý việc thực thi hàm nhanh trong các quy trình làm việc tự động hóa.
- Tạo chuyên gia cho lĩnh vực chuyên biệt: Có thể tinh chỉnh theo từng miền cụ thể để tạo ra các chuyên gia có độ chính xác cao.
- Suy luận cục bộ: Hữu ích cho cá nhân hoặc tổ chức xử lý thông tin nhạy cảm.
Sử dụng Mistral Small 3 trong stack công nghệ ưa thích
- Mistral Small 3 có thể được sử dụng trên la Plateforme với
mistral-small-latest hoặc mistral-small-2501.
- Mistral hợp tác với Hugging Face, Ollama, Kaggle, Together AI và Fireworks AI để cung cấp mô hình trên nhiều nền tảng khác nhau.
Kế hoạch sắp tới
- Mistral Small 3 bổ sung cho các mô hình suy luận mã nguồn mở quy mô lớn như DeepSeek và có thể được dùng làm mô hình nền tảng mạnh mẽ để tăng cường năng lực suy luận.
- Trong tương lai, sẽ có thêm các mô hình nhỏ hơn và mô hình lớn hơn được ra mắt.
Các mô hình mã nguồn mở của Mistral
- Công ty có kế hoạch cung cấp các mô hình đa dụng theo giấy phép Apache 2.0.
- Trọng số mô hình có thể được tải xuống và triển khai cục bộ, đồng thời có thể tự do chỉnh sửa và sử dụng.
- Mô hình sẽ được cung cấp thông qua API serverless, triển khai on-premise và VPC, cùng các nền tảng tùy biến và điều phối.
1 bình luận
Ý kiến trên Hacker News
Mô hình Mistral Small hướng tới việc trở thành mô hình tối ưu có thể chạy trên laptop với hiệu năng khá, và đang được so sánh với Llama 3.3 70B cùng Qwen 2.5 32B
Tom của Epoch AI đang xây dựng hạ tầng để thực hiện đánh giá LLM một cách có hệ thống và ở quy mô lớn
Đang chuyển sang giấy phép Apache 2.0, rời khỏi giấy phép phi thương mại
Kết quả khi thử với prompt sinh mã cho thấy hiệu năng tương tự qwen2.5-coder-32b
Các điểm chính của bản phát hành lần này như sau
Các bản phát hành mô hình MoE gần đây khiến 24GB VRAM bắt đầu cảm thấy không đủ
Mô hình Mistral Small trả lời chính xác câu hỏi về album đầu tay của Mary J Blige
Có ý kiến thắc mắc vì sao lại dùng mô hình nhỏ
Có ý kiến muốn tên mô hình bao gồm cả số lượng tham số