6 điểm bởi GN⁺ 2024-07-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Ra mắt Mistral NeMo, mô hình 12 tỷ tham số được phát triển cùng NVIDIA
  • Cung cấp cửa sổ ngữ cảnh lớn lên tới 128k token
  • Khả năng suy luận, tri thức thế giới và độ chính xác khi lập trình đạt mức hàng đầu trong cùng phân khúc
  • Sử dụng kiến trúc tiêu chuẩn nên có thể dễ dàng áp dụng cho các hệ thống đang dùng Mistral 7B
  • Công bố các checkpoint nền tảng đã tiền huấn luyện và checkpoint tinh chỉnh theo lệnh theo giấy phép Apache 2.0 để thúc đẩy việc áp dụng trong giới nghiên cứu và doanh nghiệp
  • Được huấn luyện có nhận thức lượng tử hóa, cho phép suy luận FP8 mà không bị suy giảm hiệu năng

Mô hình đa ngôn ngữ

  • Được thiết kế cho các ứng dụng đa ngôn ngữ toàn cầu
  • Được huấn luyện cho gọi hàm và có cửa sổ ngữ cảnh lớn
  • Đặc biệt mạnh ở tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập và tiếng Hindi
  • Hướng tới việc cung cấp mô hình AI tiên tiến nhất cho người dùng ở mọi ngôn ngữ

Tekken, tokenizer hiệu quả hơn

  • Sử dụng Tekken, tokenizer mới dựa trên Tiktoken
  • Nén văn bản ngôn ngữ tự nhiên và mã nguồn hiệu quả hơn tokenizer SentencePiece trên hơn 100 ngôn ngữ
  • Hiệu quả hơn khoảng 30% với mã nguồn, tiếng Trung, tiếng Ý, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Nga
  • Hiệu quả gấp 2 lần với tiếng Hàn và gấp 3 lần với tiếng Ả Rập
  • So với tokenizer của Llama 3, cho hiệu năng nén tốt hơn ở khoảng 85% ngôn ngữ

Fine-tuning theo chỉ dẫn

  • Mistral NeMo trải qua các giai đoạn fine-tuning và căn chỉnh nâng cao
  • So với Mistral 7B, vượt trội hơn nhiều trong việc làm theo chỉ dẫn chính xác, suy luận, xử lý hội thoại nhiều lượt và sinh mã

Liên kết

  • Trọng số của mô hình nền tảng và mô hình chỉ dẫn được lưu trữ trên HuggingFace
  • Có thể dùng thử Mistral NeMo với mistral-inference và tinh chỉnh bằng mistral-finetune
  • Được đóng gói thành microservice suy luận NVIDIA NIM và có thể dùng tại ai.nvidia.com

1 bình luận

 
GN⁺ 2024-07-19
Ý kiến trên Hacker News
  • Mistral NeMo là mô hình 12B được phát triển hợp tác với NVIDIA, cung cấp cửa sổ ngữ cảnh lớn lên tới 128k token

    • Sử dụng kiến trúc tiêu chuẩn nên dễ dùng và có thể dễ dàng thay thế trong các hệ thống đang dùng Mistral 7B
    • Cung cấp checkpoint tiền huấn luyện theo giấy phép Apache 2.0, qua đó thúc đẩy việc tiếp nhận từ các nhà nghiên cứu và doanh nghiệp
    • Nhờ nhận biết lượng tử hóa, mô hình cho phép suy luận FP8 mà không bị suy giảm hiệu năng
  • Mistral NeMo sử dụng tokenizer mới Tekken, được huấn luyện trên hơn 100 ngôn ngữ và nén văn bản cũng như mã nguồn hiệu quả hơn SentencePiece

    • Có ý kiến đặt câu hỏi vì sao lại quay về SentencePiece dù byte-pair encoding đã được chứng minh là cách mã hóa hiệu quả hơn
  • Blog của NVIDIA cũng có bài viết về Mistral NeMo

    • Được đóng gói thành vi dịch vụ suy luận NVIDIA NIM, cung cấp suy luận tối ưu hiệu năng thông qua engine NVIDIA TensorRT-LLM
    • Được thiết kế để vừa với bộ nhớ của các GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 và NVIDIA RTX 4500
    • Được huấn luyện bằng Megatron-LM trên 3.072 GPU H100 80GB Tensor Core
  • Các mô hình quy mô lớn đang được phát hành rất nhanh, cho thấy các công ty đã tìm ra cách mở rộng những quy trình có thể mở rộng

    • Có câu hỏi liệu việc đăng mô hình lên HuggingFace có thực sự là một mô hình kinh doanh hay không
    • Tệp mô hình tải về có dung lượng khoảng 25GB và là mô hình lượng tử hóa 8fp
  • Có ý kiến cho rằng trải nghiệm đăng ký NVIDIA Enterprise để thử phiên bản gói "NIM" khá bất tiện

    • Có ý kiến cho rằng sẽ tốt hơn nếu có thể tự do tải xuống các tệp mô hình
    • Có sự phàn nàn về việc NVIDIA dù đã có thế độc quyền phần cứng nhưng vẫn yêu cầu quy trình phức tạp
  • Có ý kiến cho rằng nếu Mistral thực sự nghiêm túc với sự phát triển của mã nguồn mở, họ nên chia sẻ bộ ngữ liệu đã dùng để huấn luyện mô hình

    • Có câu hỏi vì sao không chuẩn bị sẵn phiên bản GGUF ngay trong ngày phát hành
  • Có câu hỏi liệu việc huấn luyện đa ngôn ngữ có mang lại "crossover" hay không

    • Có sự tò mò liệu những gì được huấn luyện bằng tiếng Đức có thể được tận dụng khi mô hình phản hồi các prompt tiếng Anh hay không
  • Có người cho biết họ chưa hiểu mô hình kinh doanh của việc phát hành miễn phí các mô hình AI tạo sinh mã nguồn mở

    • Có câu hỏi vì sao một mô hình được huấn luyện bằng 3072 H100s lại được cung cấp miễn phí