12 điểm bởi GN⁺ 2023-12-12 | 2 bình luận | Chia sẻ qua WhatsApp
  • "High-quality Sparse Mixture of Experts Model (SMoE, mô hình chuyên gia hỗn hợp thưa chất lượng cao)"
  • Vượt qua Llama 2 70B trong hầu hết các benchmark, với tốc độ suy luận nhanh hơn 6 lần
  • Cho hiệu năng tương đương hoặc tốt hơn GPT 3.5 trên phần lớn các benchmark tiêu chuẩn
  • Là mô hình open-weight mạnh nhất có giấy phép cho phép sử dụng rộng rãi, đồng thời có tỷ lệ chi phí/hiệu năng tốt nhất
  • Hỗ trợ ngữ cảnh 32k token
  • Xử lý tiếng Anh/Pháp/Ý/Đức/Tây Ban Nha
  • Thể hiện hiệu năng mạnh trong sinh mã
  • Có thể tinh chỉnh thành mô hình làm theo chỉ thị, đạt 8.3 điểm trên MT-Bench
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Mở rộng giới hạn của mô hình mở bằng kiến trúc thưa

  • Mixtral là một mạng chuyên gia thưa, là mô hình chỉ dùng decoder
  • Khối feedforward chọn từ 8 nhóm tham số khác nhau; ở mỗi layer và với mỗi token, mạng router sẽ chọn 2 nhóm chuyên gia và kết hợp đầu ra của chúng
  • Kỹ thuật này cho phép tăng số lượng tham số của mô hình trong khi vẫn kiểm soát được chi phí và độ trễ; Mixtral có tổng cộng 46.7B tham số nhưng chỉ sử dụng 12.9B tham số cho mỗi token

Hiệu năng

  • Mixtral cho hiệu năng tương đương hoặc tốt hơn trên hầu hết benchmark khi so với các mô hình Llama 2 và mô hình nền tảng GPT3.5.
  • So với Llama 2 70B, Mixtral đưa ra các câu trả lời trung thực hơn (73.9% so với 50.2% trên benchmark TruthfulQA) và thể hiện ít thiên lệch hơn trên benchmark BBQ.
  • Mixtral xử lý thành thạo tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và tiếng Anh.

Mô hình làm theo chỉ thị

  • Mixtral 8x7B Instruct trải qua supervised fine-tuning và Direct Preference Optimization (DPO) để tối ưu hiệu năng làm theo chỉ thị.
  • Đạt 8.30 điểm trên MT-Bench, trở thành mô hình mã nguồn mở hàng đầu có hiệu năng tương đương GPT3.5.

Triển khai Mixtral bằng stack phát hành mã nguồn mở của Mixtral

  • Đã gửi các thay đổi lên dự án vLLM để cộng đồng có thể chạy Mixtral bằng một stack mã nguồn mở hoàn chỉnh.
  • Hiện tại Mistral AI đang sử dụng Mixtral 8x7B phía sau endpoint mistral-small, có sẵn ở phiên bản beta
  • Có thể đăng ký để được early access cho tất cả các endpoint sinh nội dung và embedding

2 bình luận

 
cosine20 2023-12-12

Như cũng đã được nhắc tới ở bình luận bên dưới, lúc đầu khi nhìn thấy 8x7B, tôi đã nghĩ tổng số tham số có phải là 56B không nhỉ?

 
GN⁺ 2023-12-12
Ý kiến trên Hacker News
  • Ý kiến của Andrej Karpathy:

    • Công bố bài viết chính thức về Mixtral 8x7B và mã suy luận của vLLM
    • Phần giải thích về MoE (Mixture of Experts) của HuggingFace rất hữu ích
    • Đạt hiệu năng của mô hình 70B với tốc độ suy luận của mô hình dense 12.9B
    • Phản hồi tích cực với việc sử dụng thuật ngữ "open weights"
    • Chỉ ra rằng tên gọi "8x7B" có thể gây hiểu nhầm
    • Đề cập sự bối rối về cách mỗi token và mỗi lớp chọn 2 chuyên gia מתוך 8
    • Giới thiệu về mô hình Mistral-medium
  • Khả năng dùng mô hình trên Huggingface:

    • Có thể sử dụng mô hình Mixtral từ Mistralai và TheBloke
  • Yêu cầu giải thích dành cho kỹ sư phần mềm:

    • Cần hiểu cách Mixture of Experts hoạt động
  • Phản ứng về kích thước của Mixtral 8x7B:

    • Bày tỏ sự thú vị khi 4,5 tỷ tham số được xem là mô hình "small"
  • Góc nhìn về tương lai của AI:

    • Lạc quan rằng MoE sẽ là tương lai của AI
  • Câu hỏi về cách MoE hoạt động cũng như ưu và nhược điểm:

    • Cần giải thích MoE có lợi thế gì so với các mô hình hiện có
  • Sự nhầm lẫn về tham số mô hình:

    • Thể hiện sự bối rối về tên gọi "8x7B", số lượng tham số thực tế và số tham số được dùng khi sinh token
  • Giải thích về cách tiếp cận của Mistral:

    • CEO cho biết Mistral theo đuổi cách tiếp cận tự do, không kiểm duyệt mô hình
  • Năng lực ngôn ngữ của Mixtral 8x7B:

    • Thành thạo tiếng Pháp, Đức, Tây Ban Nha, Ý và Anh
  • Yêu cầu thông tin về mô hình và trọng số:

    • Yêu cầu liên kết tới mô hình và trọng số
  • Câu hỏi về năng lực cạnh tranh trên thị trường:

    • Dù có mô hình vượt GPT 3.5, vẫn đặt câu hỏi về cơ hội cạnh tranh với OpenAI/Google và triển vọng tương lai