- Mistral Large 2 hỗ trợ cửa sổ ngữ cảnh 128k và nhiều ngôn ngữ, bao gồm tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Trung, tiếng Nhật và tiếng Hàn
- Đồng thời hỗ trợ hơn 80 ngôn ngữ lập trình, bao gồm Python, Java, C, C++, JavaScript và Bash
- Được thiết kế cho suy luận trên một node duy nhất, với 123 tỷ tham số, nên có thể cung cấp thông lượng cao trên một node duy nhất
- Được phát hành theo Mistral Research License, cho phép sử dụng và chỉnh sửa cho mục đích nghiên cứu và phi thương mại. Để sử dụng cho mục đích thương mại, cần có Mistral Commercial License
Hiệu năng tổng quát
- Mistral Large 2 thiết lập tiêu chuẩn mới trong các chỉ số đánh giá hiệu năng/chi phí
- Đặc biệt, trong MMLU, phiên bản tiền huấn luyện đạt độ chính xác 84,0%, thiết lập một điểm mới trên performance/cost Pareto frontier
Mã nguồn và suy luận
- Dựa trên kinh nghiệm từ Codestral 22B và Codestral Mamba, Mistral Large 2 được huấn luyện với lượng lớn mã nguồn
- Mistral Large 2 vượt trội hơn hẳn Mistral Large trước đó và cho thấy hiệu năng ngang tầm với các mô hình hàng đầu như GPT-4o, Claude 3 Opus và Llama 3 405B
- Đã có nhiều nỗ lực nhằm cải thiện năng lực suy luận của mô hình, đồng thời tinh chỉnh mô hình để giảm thiểu xu hướng tạo ra thông tin không đúng sự thật
- Mô hình được huấn luyện để thừa nhận khi không tìm ra lời giải hoặc khi không có đủ thông tin
Tuân thủ chỉ dẫn và căn chỉnh
- Mistral Large 2 được cải thiện đáng kể về khả năng tuân thủ chỉ dẫn và hội thoại
- Vì tính ngắn gọn là yếu tố quan trọng trong nhiều ứng dụng doanh nghiệp, đã có nhiều nỗ lực để mô hình tạo ra phản hồi ngắn gọn và đi thẳng vào trọng tâm nhất có thể
Đa dạng ngôn ngữ
- Mistral Large 2 được huấn luyện trên lượng lớn dữ liệu đa ngôn ngữ, cho hiệu năng xuất sắc ở tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hà Lan, tiếng Nga, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập và tiếng Hindi
Sử dụng công cụ và gọi hàm
- Mistral Large 2 có khả năng gọi hàm và truy xuất được cải thiện, đồng thời được huấn luyện để có thể đóng vai trò như động cơ vận hành cho các ứng dụng doanh nghiệp phức tạp
Truy cập các mô hình Mistral thông qua nhà cung cấp dịch vụ đám mây
- Mở rộng quan hệ đối tác với Google Cloud Platform để cung cấp các mô hình của Mistral AI trên Vertex AI
- Các mô hình của Mistral AI cũng có thể được sử dụng trên Azure AI Studio, Amazon Bedrock và IBM watsonx.ai
Tóm tắt của GN⁺
- Mistral Large 2 hỗ trợ nhiều ngôn ngữ và ngôn ngữ lập trình, đồng thời cung cấp thông lượng cao trên một node duy nhất.
- Khả năng sinh mã và suy luận được cải thiện đáng kể, đồng thời giảm thiểu xu hướng tạo ra thông tin sai sự thật.
- Được huấn luyện trên lượng lớn dữ liệu đa ngôn ngữ nên cho hiệu năng xuất sắc ở nhiều ngôn ngữ.
- Được cung cấp tới người dùng toàn cầu thông qua quan hệ đối tác với Google Cloud Platform, Azure AI Studio, Amazon Bedrock và IBM watsonx.ai.
- Được thiết kế để tạo ra phản hồi ngắn gọn và đi thẳng vào trọng tâm trong các ứng dụng doanh nghiệp.
1 bình luận
Ý kiến trên Hacker News