Mistral AI công bố mô hình Mixtral 8x7B vượt trội hơn Llama 2 70B

(mistral.ai)

12 điểm bởi GN⁺ 2023-12-12 | 2 bình luận | Chia sẻ qua WhatsApp

"High-quality Sparse Mixture of Experts Model (SMoE, mô hình chuyên gia hỗn hợp thưa chất lượng cao)"
Vượt qua Llama 2 70B trong hầu hết các benchmark, với tốc độ suy luận nhanh hơn 6 lần
Cho hiệu năng tương đương hoặc tốt hơn GPT 3.5 trên phần lớn các benchmark tiêu chuẩn
Là mô hình open-weight mạnh nhất có giấy phép cho phép sử dụng rộng rãi, đồng thời có tỷ lệ chi phí/hiệu năng tốt nhất
Hỗ trợ ngữ cảnh 32k token
Xử lý tiếng Anh/Pháp/Ý/Đức/Tây Ban Nha
Thể hiện hiệu năng mạnh trong sinh mã
Có thể tinh chỉnh thành mô hình làm theo chỉ thị, đạt 8.3 điểm trên MT-Bench
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Mở rộng giới hạn của mô hình mở bằng kiến trúc thưa

Mixtral là một mạng chuyên gia thưa, là mô hình chỉ dùng decoder
Khối feedforward chọn từ 8 nhóm tham số khác nhau; ở mỗi layer và với mỗi token, mạng router sẽ chọn 2 nhóm chuyên gia và kết hợp đầu ra của chúng
Kỹ thuật này cho phép tăng số lượng tham số của mô hình trong khi vẫn kiểm soát được chi phí và độ trễ; Mixtral có tổng cộng 46.7B tham số nhưng chỉ sử dụng 12.9B tham số cho mỗi token

Hiệu năng

Mixtral cho hiệu năng tương đương hoặc tốt hơn trên hầu hết benchmark khi so với các mô hình Llama 2 và mô hình nền tảng GPT3.5.
So với Llama 2 70B, Mixtral đưa ra các câu trả lời trung thực hơn (73.9% so với 50.2% trên benchmark TruthfulQA) và thể hiện ít thiên lệch hơn trên benchmark BBQ.
Mixtral xử lý thành thạo tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và tiếng Anh.

Mô hình làm theo chỉ thị

Mixtral 8x7B Instruct trải qua supervised fine-tuning và Direct Preference Optimization (DPO) để tối ưu hiệu năng làm theo chỉ thị.
Đạt 8.30 điểm trên MT-Bench, trở thành mô hình mã nguồn mở hàng đầu có hiệu năng tương đương GPT3.5.

Triển khai Mixtral bằng stack phát hành mã nguồn mở của Mixtral

Đã gửi các thay đổi lên dự án vLLM để cộng đồng có thể chạy Mixtral bằng một stack mã nguồn mở hoàn chỉnh.
Hiện tại Mistral AI đang sử dụng Mixtral 8x7B phía sau endpoint mistral-small, có sẵn ở phiên bản beta
Có thể đăng ký để được early access cho tất cả các endpoint sinh nội dung và embedding

2 bình luận

cosine20 2023-12-12

Như cũng đã được nhắc tới ở bình luận bên dưới, lúc đầu khi nhìn thấy 8x7B, tôi đã nghĩ tổng số tham số có phải là 56B không nhỉ?

GN⁺ 2023-12-12

Ý kiến trên Hacker News

Ý kiến của Andrej Karpathy:
- Công bố bài viết chính thức về Mixtral 8x7B và mã suy luận của vLLM
- Phần giải thích về MoE (Mixture of Experts) của HuggingFace rất hữu ích
- Đạt hiệu năng của mô hình 70B với tốc độ suy luận của mô hình dense 12.9B
- Phản hồi tích cực với việc sử dụng thuật ngữ "open weights"
- Chỉ ra rằng tên gọi "8x7B" có thể gây hiểu nhầm
- Đề cập sự bối rối về cách mỗi token và mỗi lớp chọn 2 chuyên gia מתוך 8
- Giới thiệu về mô hình Mistral-medium
Khả năng dùng mô hình trên Huggingface:
- Có thể sử dụng mô hình Mixtral từ Mistralai và TheBloke
Yêu cầu giải thích dành cho kỹ sư phần mềm:
- Cần hiểu cách Mixture of Experts hoạt động
Phản ứng về kích thước của Mixtral 8x7B:
- Bày tỏ sự thú vị khi 4,5 tỷ tham số được xem là mô hình "small"
Góc nhìn về tương lai của AI:
- Lạc quan rằng MoE sẽ là tương lai của AI
Câu hỏi về cách MoE hoạt động cũng như ưu và nhược điểm:
- Cần giải thích MoE có lợi thế gì so với các mô hình hiện có
Sự nhầm lẫn về tham số mô hình:
- Thể hiện sự bối rối về tên gọi "8x7B", số lượng tham số thực tế và số tham số được dùng khi sinh token
Giải thích về cách tiếp cận của Mistral:
- CEO cho biết Mistral theo đuổi cách tiếp cận tự do, không kiểm duyệt mô hình
Năng lực ngôn ngữ của Mixtral 8x7B:
- Thành thạo tiếng Pháp, Đức, Tây Ban Nha, Ý và Anh
Yêu cầu thông tin về mô hình và trọng số:
- Yêu cầu liên kết tới mô hình và trọng số
Câu hỏi về năng lực cạnh tranh trên thị trường:
- Dù có mô hình vượt GPT 3.5, vẫn đặt câu hỏi về cơ hội cạnh tranh với OpenAI/Google và triển vọng tương lai