Mistral AI công bố mô hình ngôn ngữ mới Codestral Mamba

xguru · 2024-07-17T09:43:01+09:00

Mô hình ngôn ngữ Mamba2 được tối ưu cho sinh mã Khác với mô hình Transformer, mô hình Mamba cung cấp suy luận thời gian tuyến tính và khả năng mô hình hóa chuỗi có độ dài vô hạn về mặt lý thuyết Người dùng có thể tương tác sâu rộng với mô hình nhờ phản hồi nhanh bất kể độ dài đầu vào Hiệu quả này đặc biệt tác động đến năng suất lập trình, cho phép đạt hiệu năng tương đương các mô hình SOTA dựa trên Transformer Kết quả benchmark cho thấy ở quy mô 7B, Codestral Mamba (7B) vượt trội hoặc gần như tương đương với CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B hiện có Được kỳ vọng sẽ trở thành một trợ lý viết mã cục bộ xuất sắc Có thể triển khai thông qua mistral-inference SDK, TensorRT-LLM và cũng sẽ được hỗ trợ trên llama.cpp cho suy luận cục bộ Có thể tải trọng số thô từ HuggingFace

(mistral.ai)

11 điểm bởi xguru 2024-07-17 | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ Mamba2 được tối ưu cho sinh mã
Khác với mô hình Transformer, mô hình Mamba cung cấp suy luận thời gian tuyến tính và khả năng mô hình hóa chuỗi có độ dài vô hạn về mặt lý thuyết
- Người dùng có thể tương tác sâu rộng với mô hình nhờ phản hồi nhanh bất kể độ dài đầu vào
- Hiệu quả này đặc biệt tác động đến năng suất lập trình, cho phép đạt hiệu năng tương đương các mô hình SOTA dựa trên Transformer
Kết quả benchmark cho thấy ở quy mô 7B, Codestral Mamba (7B) vượt trội hoặc gần như tương đương với CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B hiện có
Được kỳ vọng sẽ trở thành một trợ lý viết mã cục bộ xuất sắc
Có thể triển khai thông qua mistral-inference SDK, TensorRT-LLM và cũng sẽ được hỗ trợ trên llama.cpp cho suy luận cục bộ
Có thể tải trọng số thô từ HuggingFace

2 bình luận

xguru 2024-07-17

Ý kiến trên Hacker News

Cần có các bước để chạy trong VS Code
- Nếu bài đăng kèm liên kết hướng dẫn hoặc liên kết cài đặt một cú nhấp cho VS Code Extension thì sẽ giúp việc được chấp nhận dễ hơn
- Đây là một mô hình mà nhiều người dùng sẽ quan tâm, nhưng vấn đề là không có lời kêu gọi hành động nào có thể kiếm tiền
Yêu cầu gợi ý một mô hình có tính năng FIM
- Đang dùng codellama-13b cùng vim extension, nhưng hiệu năng không nổi bật
- Gemma-27b tạo mã tốt hơn nhưng không có tính năng FIM
- codellama-34b không chạy suy luận đúng cách
Nên nhấn mạnh DeepSeek trong cột MBPP
- DeepSeek có điểm số tốt hơn Codestral
Có thông báo rằng mô hình đã có trên HuggingFace nhưng không cung cấp liên kết
- Liên kết: HuggingFace Mamba-Codestral-7B-v0.1
Thật tốt khi thấy một mô hình nổi bật sử dụng Mamba2
Họ khẳng định Mamba nhanh hơn nhưng không có số liệu về độ trễ
- Tò mò không biết có ai đã dùng thử chưa, và liệu nó có thực sự nhanh hơn không
Đề xuất một bài giới thiệu sản phẩm về ưu và nhược điểm của Mamba và Transformers
Tò mò không biết có phần giải thích nào hay về kiến trúc Mamba không
Đề nghị video hoặc bài viết phù hợp cho người hiểu khái niệm chung về LLM nhưng mới chỉ dùng các công cụ phổ biến công khai như ChatGPT, Claude, v.v.
- Muốn kiểm tra xem mình có phần cứng để chạy cục bộ hay không nhưng không biết bắt đầu từ đâu
Đã thử nhanh trên playground của model.box
- Độ dài phần hoàn thành ngắn hơn rõ rệt so với các mô hình khác (ví dụ: gpt-4o)
- Tốc độ phản hồi đúng như kỳ vọng

xguru 2024-07-17

Codestral - Mô hình AI tạo mã của Mistral

Mistral AI công bố mô hình ngôn ngữ mới Codestral Mamba

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News