1 điểm bởi GN⁺ 2024-01-10 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu về Mixtral of Experts

  • Mixtral 8x7B là mô hình ngôn ngữ Sparse Mixture of Experts (SMoE).
  • Mixtral có cùng kiến trúc với Mistral 7B, nhưng mỗi lớp được cấu thành bởi 8 khối feedforward (chuyên gia).
  • Với mỗi token, mạng định tuyến sẽ chọn hai chuyên gia để xử lý trạng thái hiện tại và kết hợp đầu ra của họ.

Hiệu năng và benchmark

  • Mỗi token có thể truy cập 47B tham số, nhưng trong suy luận chỉ sử dụng 13B tham số đang hoạt động.
  • Mixtral được huấn luyện với kích thước ngữ cảnh 32k token và vượt trội hoặc ngang bằng Llama 2 70B và GPT-3.5 trên tất cả benchmark đã được đánh giá.
  • Đặc biệt, mô hình vượt xa Llama 2 70B trong các benchmark về toán học, sinh mã và đa ngôn ngữ.

Fine-tuning mô hình và giấy phép

  • Mixtral 8x7B - Instruct, phiên bản đã được fine-tuning để làm theo chỉ dẫn, vượt qua GPT-3.5 Turbo, Claude-2.1, Gemini Pro và mô hình chat Llama 2 70B trong benchmark do con người đánh giá.
  • Cả mô hình nền tảng và mô hình instruct đều được phát hành theo giấy phép Apache 2.0.

Ý kiến của GN⁺

  • Mixtral 8x7B được đánh giá là có hiệu năng nổi bật so với các mô hình ngôn ngữ hiện có. Đây là một chỉ dấu quan trọng cho thấy sự tiến bộ trong lĩnh vực xử lý ngôn ngữ bằng trí tuệ nhân tạo.
  • Đặc biệt, việc cải thiện hiệu năng trên nhiều ngôn ngữ và trong sinh mã có thể tạo tác động tích cực đến nhiều lĩnh vực ứng dụng như dịch máy và lập trình tự động.
  • Việc phát hành theo giấy phép Apache 2.0 mở ra cơ hội để các nhà nghiên cứu và nhà phát triển tự do sử dụng, cải tiến mô hình, từ đó góp phần vào sự phát triển của cộng đồng AI mã nguồn mở.

1 bình luận

 
GN⁺ 2024-01-10
Ý kiến trên Hacker News
  • Thảo luận về mô hình Mixtral 8x7B

    • Mô hình Mixtral 8x7B đã được sử dụng từ khoảng một tháng trước và cho hiệu năng rất tốt ở quy mô 13B.
    • Mô hình này đang xếp hạng cao so với các đối thủ cạnh tranh và rất hữu ích cho các tác vụ như chat, nhập mã trên máy Mac dùng hằng ngày.
    • Có ý kiến cho rằng 8 chuyên gia khởi đầu từ Mistral 7B có thể đã phát triển theo những hướng khác nhau.
    • Với Mistral, có vẻ việc huấn luyện mạng 8x7B không đòi hỏi nỗ lực tương đương với việc huấn luyện 8 mạng 7B riêng biệt.
    • Lĩnh vực LLM vẫn đang đổi mới rất nhanh, với các nghiên cứu mới như Calm và các mô hình mang tính thử nghiệm như Goliath-120b đang xuất hiện.
    • Dự đoán trong nửa đầu năm 2024 sẽ có những mô hình hoạt động tốt trên phần cứng tiêu dùng.
  • Hiệu năng và khả năng sử dụng của mô hình

    • Mô hình này dùng 13b tham số, chạy mượt ở chất lượng cao trên 3090, vượt GPT-3.5 trong humaneval và hỗ trợ ngữ cảnh 32k.
    • 3090 là phần cứng cấp tiêu dùng phổ biến trong giới game thủ.
    • Có kỳ vọng các nhà phát triển game sẽ bắt đầu tận dụng Mixtral trong game.
  • Cách sử dụng mô hình

    • Mô hình Mixtral đã được Mozilla/jart phát hành dưới dạng Llamafile, người dùng có thể tải xuống và chạy trực tiếp.
  • Sử dụng trên Mac Silicon

    • Người dùng Mac Silicon có thể tải Mixtral qua ollama.ai và dùng ollama-webui để dựng giao diện web UI.
  • Tin tức và thảo luận liên quan

    • Cung cấp các liên kết đến tin tức và thảo luận gần đây về mô hình Mixtral.
  • Hiệu năng benchmark của mô hình

    • Mixtral vượt xa mô hình Llama 2 70B trong các benchmark về toán học, sinh mã và đa ngôn ngữ.
    • Có sự quan tâm đến hiệu năng trong lĩnh vực toán học, vốn dường như vẫn chưa được giải quyết hiệu quả.
  • Ý kiến phê bình về bài báo

    • Có phê bình rằng các bài báo về LLM còn thiếu chi tiết cụ thể.
    • Có chỉ ra rằng bài báo không giải thích cách các chuyên gia được huấn luyện và đã sử dụng bộ dữ liệu nào.
  • Nội dung phỏng vấn nhà sáng lập Mistral

    • Nhà sáng lập Mistral trong podcast của A16Z cho biết họ có nhiều mô hình nội bộ nằm giữa cấp độ chatGPT và GPT4.
    • Dựa trên các bản phát hành chất lượng cao cho đến nay, có sự kỳ vọng lớn vào các LLM mã nguồn mở.
  • Mô tả về từng mô hình chuyên gia

    • Bài báo không nêu rõ liệu một trong 8 mô hình có chuyên về dịch đa ngôn ngữ hay một mô hình khác có chuyên về lập trình hay không.
  • Kỳ vọng về việc công bố mô hình đa phương thức

    • Dù sự tiến bộ của các mô hình chỉ xử lý văn bản đã rất ấn tượng, vẫn có thắc mắc liệu hành vi “emergent” của GPT-4 có phải nhờ huấn luyện đa phương thức hay không.
    • Có sự quan tâm liệu các mô hình nhỏ có tích hợp đa phương thức có cho thấy bước nhảy vọt tương tự hay không.