11 điểm bởi GN⁺ 2023-09-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình ngôn ngữ mạnh nhất cho đến nay
  • Mô hình 7.3B tham số, vượt qua Llama 2 13B ở mọi benchmark và vượt Llama 1 34B ở nhiều benchmark
  • Sử dụng Grouped-query attention (GQA) để suy luận nhanh hơn và Sliding Window Attention (SWA) để xử lý các chuỗi dài hơn với chi phí thấp hơn
  • Phát hành theo giấy phép Apache 2.0, có thể sử dụng không hạn chế
  • Có thể triển khai trên bất kỳ đám mây nào (AWS/GCP/Azure) bằng vLLM inference server và skypilot, đồng thời cũng có thể dùng trên HuggingFace
  • Dễ tinh chỉnh, và mô hình đã được tinh chỉnh cho trò chuyện vượt qua Llama 2 13B Chat

1 bình luận

 
GN⁺ 2023-09-28
Ý kiến trên Hacker News
  • Mistral là công ty đầu tiên cấp phép Apache cho một mô hình thuộc lớp này, không giống Meta và DeciLM.
  • Mô hình này chạy tốt trên MacBook Air M1 và có thể so sánh với GPT3.5.
  • Có câu hỏi về khả năng sử dụng "API gọi hàm" để xử lý dữ liệu có cấu trúc như JSON.
  • Đã có những lo ngại về bộ dữ liệu dùng để huấn luyện mô hình và khả năng rò rỉ benchmark làm thổi phồng kết quả.
  • Việc công bố mô hình được thực hiện thông qua URI torrent tracker trên Twitter.
  • Trong các bài kiểm tra công cụ hỗ trợ lập trình cho LLMs, Mistral không thể hiện tốt bằng CodeLlama và GPT4.
  • Mô hình hoạt động trên FreeChat của macOS vì được llama.cpp hỗ trợ.
  • Có câu hỏi vì sao các dự án dường như chuẩn hóa theo các kích thước tham số cụ thể trong những nhóm lớn như mô hình 7B.
  • Có yêu cầu cung cấp thêm chi tiết về quá trình huấn luyện mô hình, dữ liệu nền tảng của nó và nơi nó được huấn luyện.
  • Có đề nghị kiểm tra hiện tượng nhiễm bẩn benchmark trong tập huấn luyện.