- Mô hình ngôn ngữ Mamba2 được tối ưu cho sinh mã
- Khác với mô hình Transformer, mô hình Mamba cung cấp suy luận thời gian tuyến tính và khả năng mô hình hóa chuỗi có độ dài vô hạn về mặt lý thuyết
- Người dùng có thể tương tác sâu rộng với mô hình nhờ phản hồi nhanh bất kể độ dài đầu vào
- Hiệu quả này đặc biệt tác động đến năng suất lập trình, cho phép đạt hiệu năng tương đương các mô hình SOTA dựa trên Transformer
- Kết quả benchmark cho thấy ở quy mô 7B, Codestral Mamba (7B) vượt trội hoặc gần như tương đương với CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B hiện có
- Được kỳ vọng sẽ trở thành một trợ lý viết mã cục bộ xuất sắc
- Có thể triển khai thông qua mistral-inference SDK, TensorRT-LLM và cũng sẽ được hỗ trợ trên llama.cpp cho suy luận cục bộ
- Có thể tải trọng số thô từ HuggingFace
2 bình luận
Ý kiến trên Hacker News
Cần có các bước để chạy trong VS Code
Yêu cầu gợi ý một mô hình có tính năng FIM
Nên nhấn mạnh DeepSeek trong cột MBPP
Có thông báo rằng mô hình đã có trên HuggingFace nhưng không cung cấp liên kết
Thật tốt khi thấy một mô hình nổi bật sử dụng Mamba2
Họ khẳng định Mamba nhanh hơn nhưng không có số liệu về độ trễ
Đề xuất một bài giới thiệu sản phẩm về ưu và nhược điểm của Mamba và Transformers
Tò mò không biết có phần giải thích nào hay về kiến trúc Mamba không
Đề nghị video hoặc bài viết phù hợp cho người hiểu khái niệm chung về LLM nhưng mới chỉ dùng các công cụ phổ biến công khai như ChatGPT, Claude, v.v.
Đã thử nhanh trên playground của model.box
Codestral - Mô hình AI tạo mã của Mistral