6 điểm bởi GN⁺ 2024-07-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mistral Large 2 hỗ trợ cửa sổ ngữ cảnh 128k và nhiều ngôn ngữ, bao gồm tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Trung, tiếng Nhật và tiếng Hàn
    • Đồng thời hỗ trợ hơn 80 ngôn ngữ lập trình, bao gồm Python, Java, C, C++, JavaScript và Bash
  • Được thiết kế cho suy luận trên một node duy nhất, với 123 tỷ tham số, nên có thể cung cấp thông lượng cao trên một node duy nhất
  • Được phát hành theo Mistral Research License, cho phép sử dụng và chỉnh sửa cho mục đích nghiên cứu và phi thương mại. Để sử dụng cho mục đích thương mại, cần có Mistral Commercial License

Hiệu năng tổng quát

  • Mistral Large 2 thiết lập tiêu chuẩn mới trong các chỉ số đánh giá hiệu năng/chi phí
  • Đặc biệt, trong MMLU, phiên bản tiền huấn luyện đạt độ chính xác 84,0%, thiết lập một điểm mới trên performance/cost Pareto frontier

Mã nguồn và suy luận

  • Dựa trên kinh nghiệm từ Codestral 22B và Codestral Mamba, Mistral Large 2 được huấn luyện với lượng lớn mã nguồn
  • Mistral Large 2 vượt trội hơn hẳn Mistral Large trước đó và cho thấy hiệu năng ngang tầm với các mô hình hàng đầu như GPT-4o, Claude 3 Opus và Llama 3 405B
  • Đã có nhiều nỗ lực nhằm cải thiện năng lực suy luận của mô hình, đồng thời tinh chỉnh mô hình để giảm thiểu xu hướng tạo ra thông tin không đúng sự thật
  • Mô hình được huấn luyện để thừa nhận khi không tìm ra lời giải hoặc khi không có đủ thông tin

Tuân thủ chỉ dẫn và căn chỉnh

  • Mistral Large 2 được cải thiện đáng kể về khả năng tuân thủ chỉ dẫn và hội thoại
  • Vì tính ngắn gọn là yếu tố quan trọng trong nhiều ứng dụng doanh nghiệp, đã có nhiều nỗ lực để mô hình tạo ra phản hồi ngắn gọn và đi thẳng vào trọng tâm nhất có thể

Đa dạng ngôn ngữ

  • Mistral Large 2 được huấn luyện trên lượng lớn dữ liệu đa ngôn ngữ, cho hiệu năng xuất sắc ở tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hà Lan, tiếng Nga, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập và tiếng Hindi

Sử dụng công cụ và gọi hàm

  • Mistral Large 2 có khả năng gọi hàm và truy xuất được cải thiện, đồng thời được huấn luyện để có thể đóng vai trò như động cơ vận hành cho các ứng dụng doanh nghiệp phức tạp

Truy cập các mô hình Mistral thông qua nhà cung cấp dịch vụ đám mây

  • Mở rộng quan hệ đối tác với Google Cloud Platform để cung cấp các mô hình của Mistral AI trên Vertex AI
  • Các mô hình của Mistral AI cũng có thể được sử dụng trên Azure AI Studio, Amazon Bedrock và IBM watsonx.ai

Tóm tắt của GN⁺

  • Mistral Large 2 hỗ trợ nhiều ngôn ngữ và ngôn ngữ lập trình, đồng thời cung cấp thông lượng cao trên một node duy nhất.
  • Khả năng sinh mã và suy luận được cải thiện đáng kể, đồng thời giảm thiểu xu hướng tạo ra thông tin sai sự thật.
  • Được huấn luyện trên lượng lớn dữ liệu đa ngôn ngữ nên cho hiệu năng xuất sắc ở nhiều ngôn ngữ.
  • Được cung cấp tới người dùng toàn cầu thông qua quan hệ đối tác với Google Cloud Platform, Azure AI Studio, Amazon Bedrock và IBM watsonx.ai.
  • Được thiết kế để tạo ra phản hồi ngắn gọn và đi thẳng vào trọng tâm trong các ứng dụng doanh nghiệp.

1 bình luận

 
GN⁺ 2024-07-25
Ý kiến trên Hacker News
  • Kết quả thử nghiệm Mistral Large 2 và Llama 3.1 405b cho thấy khó xác định rõ mô hình nào vượt trội hơn hẳn
  • Nếu đang dùng Claude thì nên tiếp tục dùng
  • Kỳ vọng về Claude:
    • Thông minh hơn
    • Cửa sổ ngữ cảnh dài hơn (1M+)
    • Hỗ trợ đầu vào âm thanh gốc và hiểu tông giọng
    • Khi từ chối thì bớt phán xét về mặt đạo đức hơn
    • Nhanh hơn
    • Tăng số lượng token đầu ra
  • Cuộc cạnh tranh giữa các mô hình đang ngày càng khốc liệt
  • Claude 3.5 Sonnet áp đảo tất cả các mô hình còn lại
  • Không rõ nên dùng Mistral hay Llama hằng ngày theo cách nào
  • Đang phát triển một AI coding assistant, đã thử nhiều mô hình và thấy Mistral Large 2 là đáng thất vọng nhất
  • Giấy phép phi thương mại gây thất vọng
  • Có thể cạnh tranh với Llama 3.1 405b, nhưng giấy phép bị hạn chế hơn
  • Khác biệt giữa các mô hình đang thu hẹp, nên có lẽ sẽ tốt hơn nếu tinh chỉnh Llama 405B cho các trường hợp sử dụng cụ thể
  • Trừ khi có bước nhảy vọt lớn về chất lượng, còn không thì ở trạng thái hiện tại sẽ không có khác biệt lớn
  • Vui vì cạnh tranh đang trở nên gay gắt
  • Đang tốn rất nhiều chi phí để tạo ra các mô hình SOTA, nhưng vẫn chỉ dừng ở mức GPT-4o và Claude Opus
  • Chỉ bổ sung thêm dữ liệu và GPU đang dần chạm tới giới hạn
  • Trải nghiệm người dùng và "cá tính" sẽ trở nên quan trọng hơn
  • Rất thích Claude Sonnet và cảm thấy nó sắc bén hơn các mô hình khác
  • Không nên quên rằng mỗi bước tiến đều đòi hỏi nhiều năng lượng và tài nguyên hơn
  • Chia sẻ kết quả benchmark mô hình gần đây của PyLLMs
    • Bất ngờ với tốc độ và chất lượng của Nemo
    • Mistral Large tốt nhưng rất chậm
  • Bối rối không biết giữa các mô hình Claude thì Opus hay Sonnet 3.5 có năng lực hơn
  • Mistral Large 2 có khả năng gọi hàm và truy xuất được cải thiện
  • Tự hỏi liệu độ chính xác gọi hàm khoảng 50% có nghĩa là một nửa các tác vụ phức tạp sẽ thất bại hay không
  • Ưu tiên ChatGPT-4o, và khi có vấn đề thì dùng Claude, nhưng không đạt được kết quả tốt hơn