- "High-quality Sparse Mixture of Experts Model (SMoE, mô hình chuyên gia hỗn hợp thưa chất lượng cao)"
- Vượt qua Llama 2 70B trong hầu hết các benchmark, với tốc độ suy luận nhanh hơn 6 lần
- Cho hiệu năng tương đương hoặc tốt hơn GPT 3.5 trên phần lớn các benchmark tiêu chuẩn
- Là mô hình open-weight mạnh nhất có giấy phép cho phép sử dụng rộng rãi, đồng thời có tỷ lệ chi phí/hiệu năng tốt nhất
- Hỗ trợ ngữ cảnh 32k token
- Xử lý tiếng Anh/Pháp/Ý/Đức/Tây Ban Nha
- Thể hiện hiệu năng mạnh trong sinh mã
- Có thể tinh chỉnh thành mô hình làm theo chỉ thị, đạt 8.3 điểm trên MT-Bench
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
Mở rộng giới hạn của mô hình mở bằng kiến trúc thưa
- Mixtral là một mạng chuyên gia thưa, là mô hình chỉ dùng decoder
- Khối feedforward chọn từ 8 nhóm tham số khác nhau; ở mỗi layer và với mỗi token, mạng router sẽ chọn 2 nhóm chuyên gia và kết hợp đầu ra của chúng
- Kỹ thuật này cho phép tăng số lượng tham số của mô hình trong khi vẫn kiểm soát được chi phí và độ trễ; Mixtral có tổng cộng 46.7B tham số nhưng chỉ sử dụng 12.9B tham số cho mỗi token
Hiệu năng
- Mixtral cho hiệu năng tương đương hoặc tốt hơn trên hầu hết benchmark khi so với các mô hình Llama 2 và mô hình nền tảng GPT3.5.
- So với Llama 2 70B, Mixtral đưa ra các câu trả lời trung thực hơn (73.9% so với 50.2% trên benchmark TruthfulQA) và thể hiện ít thiên lệch hơn trên benchmark BBQ.
- Mixtral xử lý thành thạo tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và tiếng Anh.
Mô hình làm theo chỉ thị
- Mixtral 8x7B Instruct trải qua supervised fine-tuning và Direct Preference Optimization (DPO) để tối ưu hiệu năng làm theo chỉ thị.
- Đạt 8.30 điểm trên MT-Bench, trở thành mô hình mã nguồn mở hàng đầu có hiệu năng tương đương GPT3.5.
Triển khai Mixtral bằng stack phát hành mã nguồn mở của Mixtral
- Đã gửi các thay đổi lên dự án vLLM để cộng đồng có thể chạy Mixtral bằng một stack mã nguồn mở hoàn chỉnh.
- Hiện tại Mistral AI đang sử dụng Mixtral 8x7B phía sau endpoint mistral-small, có sẵn ở phiên bản beta
- Có thể đăng ký để được early access cho tất cả các endpoint sinh nội dung và embedding
2 bình luận
Như cũng đã được nhắc tới ở bình luận bên dưới, lúc đầu khi nhìn thấy 8x7B, tôi đã nghĩ tổng số tham số có phải là 56B không nhỉ?
Ý kiến trên Hacker News
Ý kiến của Andrej Karpathy:
Khả năng dùng mô hình trên Huggingface:
Yêu cầu giải thích dành cho kỹ sư phần mềm:
Phản ứng về kích thước của Mixtral 8x7B:
Góc nhìn về tương lai của AI:
Câu hỏi về cách MoE hoạt động cũng như ưu và nhược điểm:
Sự nhầm lẫn về tham số mô hình:
Giải thích về cách tiếp cận của Mistral:
Năng lực ngôn ngữ của Mixtral 8x7B:
Yêu cầu thông tin về mô hình và trọng số:
Câu hỏi về năng lực cạnh tranh trên thị trường: