Giới thiệu về LLM (Large Language Model) mã nguồn mở mới của MistralAI
Các thiết lập đáng chú ý trong tệp params.json:
hidden_dim / dim = 14336/4096 => MLP mở rộng 3,5 lần
n_heads / n_kv_heads = 32/8 => multi-query gấp 4 lần
"moe" => Mixture of Experts, gấp 8 với top 2 chuyên gia
Có thể xem mã liên quan trên GitHub
Không có video quảng bá cường điệu về cuộc cách mạng AI
Vì hội nghị deep learning lớn là NeurIPS đang đến gần, nên đang có rất nhiều hoạt động AI diễn ra
Tin tức LLM khác:
Mistral/Yi đang áp đảo các mô hình khác trên bảng xếp hạng Hugging Face bằng các mô hình được fine-tune bằng kỹ thuật mới gọi là 'neural alignment'
Mô hình 7B "đánh bại" phần lớn các mô hình 70B
Mô hình 34B đang được thử nghiệm trông rất hứa hẹn
Nếu kỹ thuật này được áp dụng cho Mistral Moe, nó có thể trở thành một mô hình cực kỳ xuất sắc
Đây có thể là bước ngoặt quan trọng khi OSS chạy được trên máy desktop thách thức GPT-4
Cách tiếp cận của Mistral:
Mistral không quá chú trọng vào phần giải thích, nhưng phong cách này lại tạo cảm giác đáng tin hơn so với các công bố doanh nghiệp được trau chuốt của Google
Cách công bố đơn giản:
Ưa thích kiểu công bố đơn giản theo phong cách thập niên 90
Thông số mô hình của Mistral:
Công khai tệp params.json với kiến trúc Mixture of Experts
So sánh cách công bố của Mistral và Google:
Cách công bố mô hình của Mistral đối lập với màn ra mắt Gemini của Google
Mistral có vẻ được huấn luyện dựa trên Megablocks của Stanford
Chiến lược marketing của Mistral:
Trong khi các công ty khác tập trung vào landing page và video quảng bá, Mistral chỉ đơn giản công bố mô hình
Thông tin được Mistral công khai:
Sử dụng kiến trúc Mixture of Experts
8 chuyên gia, mỗi chuyên gia có 7B tham số
Tổng cộng 96GB trọng số, không thể chạy trên GPU gia đình thông thường
1 bình luận
Ý kiến trên Hacker News
Ý kiến của Andrej Karpathy:
params.json:hidden_dim / dim = 14336/4096=> MLP mở rộng 3,5 lầnn_heads / n_kv_heads = 32/8=> multi-query gấp 4 lần"moe"=> Mixture of Experts, gấp 8 với top 2 chuyên giaTin tức LLM khác:
Cách tiếp cận của Mistral:
Cách công bố đơn giản:
Thông số mô hình của Mistral:
params.jsonvới kiến trúc Mixture of ExpertsSo sánh cách công bố của Mistral và Google:
Chiến lược marketing của Mistral:
Thông tin được Mistral công khai: