- Mô hình ngôn ngữ mạnh nhất cho đến nay
- Mô hình 7.3B tham số, vượt qua Llama 2 13B ở mọi benchmark và vượt Llama 1 34B ở nhiều benchmark
- Sử dụng Grouped-query attention (GQA) để suy luận nhanh hơn và Sliding Window Attention (SWA) để xử lý các chuỗi dài hơn với chi phí thấp hơn
- Phát hành theo giấy phép Apache 2.0, có thể sử dụng không hạn chế
- Có thể triển khai trên bất kỳ đám mây nào (AWS/GCP/Azure) bằng vLLM inference server và skypilot, đồng thời cũng có thể dùng trên HuggingFace
- Dễ tinh chỉnh, và mô hình đã được tinh chỉnh cho trò chuyện vượt qua Llama 2 13B Chat
1 bình luận
Ý kiến trên Hacker News