- "rẻ hơn, tốt hơn, nhanh hơn và mạnh hơn"
- Đây là mô hình Sparse Mixture-of-Experts(SMoE) chỉ sử dụng 39B tham số hoạt động trên tổng số 141B tham số, mang lại hiệu quả chi phí rất cao so với quy mô mô hình
Các đặc điểm chính của Mixtral 8x22B
- Thành thạo tiếng Anh, tiếng Pháp, tiếng Ý, tiếng Đức và tiếng Tây Ban Nha
- Năng lực toán học và lập trình xuất sắc
- Hỗ trợ gọi hàm theo mặc định, đồng thời cho phép phát triển ứng dụng quy mô lớn và hiện đại hóa tech stack cùng với chế độ đầu ra giới hạn được triển khai trên la Plateforme
- Cửa sổ ngữ cảnh 64K token cho phép truy hồi chính xác thông tin từ khối lượng tài liệu lớn
Một mô hình mở thực sự
- Mistral AI tin vào sức mạnh của tính mở và khả năng phân phối rộng rãi để thúc đẩy đổi mới và hợp tác trong AI
- Mixtral 8x22B được phát hành theo Apache 2.0, giấy phép mã nguồn mở dễ dãi nhất, cho phép bất kỳ ai sử dụng mô hình mà không bị hạn chế
Hiệu quả hàng đầu
- Mistral AI xây dựng các mô hình mang lại hiệu năng tốt nhất trên chi phí cho từng quy mô, từ đó đem đến tỷ lệ hiệu năng/chi phí tốt nhất trong số các mô hình do cộng đồng cung cấp
- Mixtral 8x22B là phần mở rộng tự nhiên của dòng mô hình mở từ Mistral AI. Nhờ mẫu kích hoạt thưa, nó nhanh hơn các mô hình Dense 70B, đồng thời cung cấp nhiều tính năng hơn các mô hình open weight khác được phát hành theo giấy phép dễ dãi hoặc hạn chế. Việc có sẵn mô hình nền tảng cũng khiến nó trở thành cơ sở rất phù hợp cho các trường hợp sử dụng fine-tuning
Hiệu năng mở không đối thủ
Suy luận và tri thức
- Mixtral 8x22B được tối ưu cho suy luận
- Trên các benchmark về hiểu biết thường thức, suy luận và tri thức (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS), mô hình này cho thấy hiệu năng tốt nhất trong số các LLM mở hàng đầu
Khả năng đa ngôn ngữ
- Mixtral 8x22B có khả năng đa ngôn ngữ tích hợp sẵn
- Trên các benchmark HellaSwag, Arc Challenge và MMLU bằng tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Ý, nó vượt xa LLaMA 2 70B
Toán học và lập trình
- Mixtral 8x22B cho thấy hiệu năng tốt nhất ở các tác vụ lập trình và toán học so với các mô hình mở khác
- Trên các benchmark lập trình và toán học (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4), nó đạt hiệu năng cao nhất trong số các mô hình mở hàng đầu
- Phiên bản Instructed của Mixtral 8x22B được công bố hôm nay còn có năng lực toán học tốt hơn nữa, đạt 90.8% trên GSM8K maj@8 và 44.6% trên Math maj@4
Ý kiến của GN⁺
- Mixtral 8x22B là mô hình lớn nhất trong số các mô hình mở của Mistral, nhưng vẫn rất hiệu quả về chi phí nhờ tận dụng Sparsity. Đây là một hướng phát triển đáng chú ý của các mô hình LLM mã nguồn mở
- Hiệu năng đa ngôn ngữ, toán học và lập trình nổi bật so với quy mô mô hình là điểm khác biệt của Mixtral 8x22B. Tuy nhiên, ngoài tiếng Anh thì phạm vi ngôn ngữ được hỗ trợ vẫn còn hẹp, và nếu so với các LLM mới hơn như GPT-4 thì năng lực lập trình hay toán học vẫn còn kém hơn
- Việc áp dụng giấy phép Apache 2.0 để mọi người có thể tự do khai thác là một ưu điểm, nhưng nguy cơ bị lạm dụng cũng có vẻ cao. Có lẽ cộng đồng cần nỗ lực nhiều hơn cho việc phát triển và sử dụng AI mã nguồn mở một cách có trách nhiệm
- Khả năng phát triển ứng dụng và hiện đại hóa tech stack bằng mô hình Mixtral là điểm hấp dẫn, nhưng để áp dụng vào các dịch vụ quy mô lớn thì dường như vẫn còn giới hạn về kỹ thuật và chi phí. Dù vậy, có thể kỳ vọng số lượng các trường hợp đổi mới dựa trên mã nguồn mở sẽ tăng lên
- Tại Hàn Quốc, KakaoBrain, NAVER và LG AI Research cũng đang phát triển các LLM riêng. Ở khía cạnh chuyên biệt cho thị trường Hàn Quốc như năng lực xử lý tiếng Hàn, các mô hình này có thể sẽ có sức cạnh tranh hơn
6 bình luận
Mô hình cơ bản Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Mô hình Mixtral 8x22B Instruct: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Có vẻ là nó đã được đăng ký để có thể dùng ngay trên Azure AI Studio rồi. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)
Polyglot không phải do Kakao Brain mà do TUNiB AI và EleutherAI tạo ra. Có vẻ đang bị ảo giác rồi T_T
À đúng rồi. Tôi đã sửa lại rồi. Cảm ơn bạn.
Khi bảo Claude Opus nêu ý kiến, đôi khi nó lại thêm vào những câu chuyện trong nước như thế này. Khá thú vị ha
Ý kiến trên Hacker News
Tóm tắt:
LMStudiothì không thích giao diện, cònOllamalại bất tiện khi dùng CLIMistralvà hiệu năng