- Ra mắt Mistral NeMo, mô hình 12 tỷ tham số được phát triển cùng NVIDIA
- Cung cấp cửa sổ ngữ cảnh lớn lên tới 128k token
- Khả năng suy luận, tri thức thế giới và độ chính xác khi lập trình đạt mức hàng đầu trong cùng phân khúc
- Sử dụng kiến trúc tiêu chuẩn nên có thể dễ dàng áp dụng cho các hệ thống đang dùng Mistral 7B
- Công bố các checkpoint nền tảng đã tiền huấn luyện và checkpoint tinh chỉnh theo lệnh theo giấy phép Apache 2.0 để thúc đẩy việc áp dụng trong giới nghiên cứu và doanh nghiệp
- Được huấn luyện có nhận thức lượng tử hóa, cho phép suy luận FP8 mà không bị suy giảm hiệu năng
Mô hình đa ngôn ngữ
- Được thiết kế cho các ứng dụng đa ngôn ngữ toàn cầu
- Được huấn luyện cho gọi hàm và có cửa sổ ngữ cảnh lớn
- Đặc biệt mạnh ở tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập và tiếng Hindi
- Hướng tới việc cung cấp mô hình AI tiên tiến nhất cho người dùng ở mọi ngôn ngữ
Tekken, tokenizer hiệu quả hơn
- Sử dụng Tekken, tokenizer mới dựa trên Tiktoken
- Nén văn bản ngôn ngữ tự nhiên và mã nguồn hiệu quả hơn tokenizer SentencePiece trên hơn 100 ngôn ngữ
- Hiệu quả hơn khoảng 30% với mã nguồn, tiếng Trung, tiếng Ý, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Nga
- Hiệu quả gấp 2 lần với tiếng Hàn và gấp 3 lần với tiếng Ả Rập
- So với tokenizer của Llama 3, cho hiệu năng nén tốt hơn ở khoảng 85% ngôn ngữ
Fine-tuning theo chỉ dẫn
- Mistral NeMo trải qua các giai đoạn fine-tuning và căn chỉnh nâng cao
- So với Mistral 7B, vượt trội hơn nhiều trong việc làm theo chỉ dẫn chính xác, suy luận, xử lý hội thoại nhiều lượt và sinh mã
Liên kết
- Trọng số của mô hình nền tảng và mô hình chỉ dẫn được lưu trữ trên HuggingFace
- Có thể dùng thử Mistral NeMo với mistral-inference và tinh chỉnh bằng mistral-finetune
- Được đóng gói thành microservice suy luận NVIDIA NIM và có thể dùng tại ai.nvidia.com
1 bình luận
Ý kiến trên Hacker News
Mistral NeMo là mô hình 12B được phát triển hợp tác với NVIDIA, cung cấp cửa sổ ngữ cảnh lớn lên tới 128k token
Mistral NeMo sử dụng tokenizer mới Tekken, được huấn luyện trên hơn 100 ngôn ngữ và nén văn bản cũng như mã nguồn hiệu quả hơn SentencePiece
Blog của NVIDIA cũng có bài viết về Mistral NeMo
Các mô hình quy mô lớn đang được phát hành rất nhanh, cho thấy các công ty đã tìm ra cách mở rộng những quy trình có thể mở rộng
Có ý kiến cho rằng trải nghiệm đăng ký NVIDIA Enterprise để thử phiên bản gói "NIM" khá bất tiện
Có ý kiến cho rằng nếu Mistral thực sự nghiêm túc với sự phát triển của mã nguồn mở, họ nên chia sẻ bộ ngữ liệu đã dùng để huấn luyện mô hình
Có câu hỏi liệu việc huấn luyện đa ngôn ngữ có mang lại "crossover" hay không
Có người cho biết họ chưa hiểu mô hình kinh doanh của việc phát hành miễn phí các mô hình AI tạo sinh mã nguồn mở