Mistral 7B

(mistral.ai)

11 điểm bởi GN⁺ 2023-09-28 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ mạnh nhất cho đến nay
Mô hình 7.3B tham số, vượt qua Llama 2 13B ở mọi benchmark và vượt Llama 1 34B ở nhiều benchmark
Sử dụng Grouped-query attention (GQA) để suy luận nhanh hơn và Sliding Window Attention (SWA) để xử lý các chuỗi dài hơn với chi phí thấp hơn
Phát hành theo giấy phép Apache 2.0, có thể sử dụng không hạn chế
Có thể triển khai trên bất kỳ đám mây nào (AWS/GCP/Azure) bằng vLLM inference server và skypilot, đồng thời cũng có thể dùng trên HuggingFace
Dễ tinh chỉnh, và mô hình đã được tinh chỉnh cho trò chuyện vượt qua Llama 2 13B Chat

1 bình luận

GN⁺ 2023-09-28

Mistral là công ty đầu tiên cấp phép Apache cho một mô hình thuộc lớp này, không giống Meta và DeciLM.
Mô hình này chạy tốt trên MacBook Air M1 và có thể so sánh với GPT3.5.
Có câu hỏi về khả năng sử dụng "API gọi hàm" để xử lý dữ liệu có cấu trúc như JSON.
Đã có những lo ngại về bộ dữ liệu dùng để huấn luyện mô hình và khả năng rò rỉ benchmark làm thổi phồng kết quả.
Việc công bố mô hình được thực hiện thông qua URI torrent tracker trên Twitter.
Trong các bài kiểm tra công cụ hỗ trợ lập trình cho LLMs, Mistral không thể hiện tốt bằng CodeLlama và GPT4.
Mô hình hoạt động trên FreeChat của macOS vì được llama.cpp hỗ trợ.
Có câu hỏi vì sao các dự án dường như chuẩn hóa theo các kích thước tham số cụ thể trong những nhóm lớn như mô hình 7B.
Có yêu cầu cung cấp thêm chi tiết về quá trình huấn luyện mô hình, dữ liệu nền tảng của nó và nơi nó được huấn luyện.
Có đề nghị kiểm tra hiện tượng nhiễm bẩn benchmark trong tập huấn luyện.