9 điểm bởi GN⁺ 2024-04-18 | 6 bình luận | Chia sẻ qua WhatsApp
  • "rẻ hơn, tốt hơn, nhanh hơn và mạnh hơn"
  • Đây là mô hình Sparse Mixture-of-Experts(SMoE) chỉ sử dụng 39B tham số hoạt động trên tổng số 141B tham số, mang lại hiệu quả chi phí rất cao so với quy mô mô hình

Các đặc điểm chính của Mixtral 8x22B

  • Thành thạo tiếng Anh, tiếng Pháp, tiếng Ý, tiếng Đức và tiếng Tây Ban Nha
  • Năng lực toán học và lập trình xuất sắc
  • Hỗ trợ gọi hàm theo mặc định, đồng thời cho phép phát triển ứng dụng quy mô lớn và hiện đại hóa tech stack cùng với chế độ đầu ra giới hạn được triển khai trên la Plateforme
  • Cửa sổ ngữ cảnh 64K token cho phép truy hồi chính xác thông tin từ khối lượng tài liệu lớn

Một mô hình mở thực sự

  • Mistral AI tin vào sức mạnh của tính mở và khả năng phân phối rộng rãi để thúc đẩy đổi mới và hợp tác trong AI
  • Mixtral 8x22B được phát hành theo Apache 2.0, giấy phép mã nguồn mở dễ dãi nhất, cho phép bất kỳ ai sử dụng mô hình mà không bị hạn chế

Hiệu quả hàng đầu

  • Mistral AI xây dựng các mô hình mang lại hiệu năng tốt nhất trên chi phí cho từng quy mô, từ đó đem đến tỷ lệ hiệu năng/chi phí tốt nhất trong số các mô hình do cộng đồng cung cấp
  • Mixtral 8x22B là phần mở rộng tự nhiên của dòng mô hình mở từ Mistral AI. Nhờ mẫu kích hoạt thưa, nó nhanh hơn các mô hình Dense 70B, đồng thời cung cấp nhiều tính năng hơn các mô hình open weight khác được phát hành theo giấy phép dễ dãi hoặc hạn chế. Việc có sẵn mô hình nền tảng cũng khiến nó trở thành cơ sở rất phù hợp cho các trường hợp sử dụng fine-tuning

Hiệu năng mở không đối thủ

Suy luận và tri thức

  • Mixtral 8x22B được tối ưu cho suy luận
  • Trên các benchmark về hiểu biết thường thức, suy luận và tri thức (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS), mô hình này cho thấy hiệu năng tốt nhất trong số các LLM mở hàng đầu

Khả năng đa ngôn ngữ

  • Mixtral 8x22B có khả năng đa ngôn ngữ tích hợp sẵn
  • Trên các benchmark HellaSwag, Arc Challenge và MMLU bằng tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Ý, nó vượt xa LLaMA 2 70B

Toán học và lập trình

  • Mixtral 8x22B cho thấy hiệu năng tốt nhất ở các tác vụ lập trình và toán học so với các mô hình mở khác
  • Trên các benchmark lập trình và toán học (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4), nó đạt hiệu năng cao nhất trong số các mô hình mở hàng đầu
  • Phiên bản Instructed của Mixtral 8x22B được công bố hôm nay còn có năng lực toán học tốt hơn nữa, đạt 90.8% trên GSM8K maj@8 và 44.6% trên Math maj@4

Ý kiến của GN⁺

  • Mixtral 8x22B là mô hình lớn nhất trong số các mô hình mở của Mistral, nhưng vẫn rất hiệu quả về chi phí nhờ tận dụng Sparsity. Đây là một hướng phát triển đáng chú ý của các mô hình LLM mã nguồn mở
  • Hiệu năng đa ngôn ngữ, toán học và lập trình nổi bật so với quy mô mô hình là điểm khác biệt của Mixtral 8x22B. Tuy nhiên, ngoài tiếng Anh thì phạm vi ngôn ngữ được hỗ trợ vẫn còn hẹp, và nếu so với các LLM mới hơn như GPT-4 thì năng lực lập trình hay toán học vẫn còn kém hơn
  • Việc áp dụng giấy phép Apache 2.0 để mọi người có thể tự do khai thác là một ưu điểm, nhưng nguy cơ bị lạm dụng cũng có vẻ cao. Có lẽ cộng đồng cần nỗ lực nhiều hơn cho việc phát triển và sử dụng AI mã nguồn mở một cách có trách nhiệm
  • Khả năng phát triển ứng dụng và hiện đại hóa tech stack bằng mô hình Mixtral là điểm hấp dẫn, nhưng để áp dụng vào các dịch vụ quy mô lớn thì dường như vẫn còn giới hạn về kỹ thuật và chi phí. Dù vậy, có thể kỳ vọng số lượng các trường hợp đổi mới dựa trên mã nguồn mở sẽ tăng lên
  • Tại Hàn Quốc, KakaoBrain, NAVER và LG AI Research cũng đang phát triển các LLM riêng. Ở khía cạnh chuyên biệt cho thị trường Hàn Quốc như năng lực xử lý tiếng Hàn, các mô hình này có thể sẽ có sức cạnh tranh hơn

6 bình luận

 
ninebow 2024-04-19
 
dormis 2024-04-19

Có vẻ là nó đã được đăng ký để có thể dùng ngay trên Azure AI Studio rồi. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

 
vkehfdl1 2024-04-18

Polyglot không phải do Kakao Brain mà do TUNiB AI và EleutherAI tạo ra. Có vẻ đang bị ảo giác rồi T_T

 
xguru 2024-04-19

À đúng rồi. Tôi đã sửa lại rồi. Cảm ơn bạn.

 
xguru 2024-04-18

Khi bảo Claude Opus nêu ý kiến, đôi khi nó lại thêm vào những câu chuyện trong nước như thế này. Khá thú vị ha

 
GN⁺ 2024-04-18
Ý kiến trên Hacker News

Tóm tắt:

  • Thử đưa câu hỏi liên quan đến thuế vào ChatGPT thì hiện ra quảng cáo dịch vụ viết luận
  • Yêu cầu một lời giải thích dễ hiểu về khái niệm "Mixture-of-Experts"
    • Hiểu khái niệm có các chuyên gia con, nhưng thắc mắc trong quá trình huấn luyện thì cách xác định từng lĩnh vực chuyên môn như thế nào
  • Có chút tiếc về kích thước cửa sổ ngữ cảnh 64K token
    • Việc không bắt kịp mức 128K của GPT-4 Turbo có thể sẽ trở thành chủ đề đùa cợt về sau
    • Dự đoán trong tương lai sẽ tăng lên tới quy mô 1 nghìn tỷ token
  • Hỏi cách tốt nhất để chạy LLM trên MacBook Pro
    • LMStudio thì không thích giao diện, còn Ollama lại bất tiện khi dùng CLI
    • Ưu tiên giải pháp cho phép tinh chỉnh thiết lập chi tiết như OpenAI và dễ chỉnh sửa prompt
  • Giới hạn của mô hình mở
    • Nếu không thể truy cập dữ liệu huấn luyện thì không thể sao chép mô hình
  • Kết quả so sánh dòng Mistral và hiệu năng
  • Ưu điểm khi vận hành startup AI
    • Mỗi khi một mô hình lớn mới được phát hành thì sản phẩm tự động được cải thiện
  • Hỏi liệu phiên bản "non-instructed" của LLM có phải là phiên bản không có hướng dẫn của bản "instructed" hay không
  • Vì LLM mà tầm quan trọng của RAM lại được nhấn mạnh
    • Hối hận vì đã không gắn thêm 32GB RAM cho MacBook Pro
  • Kỳ vọng vào các mô hình đã lượng tử hóa
    • Mong có mô hình 3-bit có thể chạy trên MacBook Pro 64GB