11 điểm bởi xguru 2024-07-17 | 2 bình luận | Chia sẻ qua WhatsApp
  • Mô hình ngôn ngữ Mamba2 được tối ưu cho sinh mã
  • Khác với mô hình Transformer, mô hình Mamba cung cấp suy luận thời gian tuyến tính và khả năng mô hình hóa chuỗi có độ dài vô hạn về mặt lý thuyết
    • Người dùng có thể tương tác sâu rộng với mô hình nhờ phản hồi nhanh bất kể độ dài đầu vào
    • Hiệu quả này đặc biệt tác động đến năng suất lập trình, cho phép đạt hiệu năng tương đương các mô hình SOTA dựa trên Transformer
  • Kết quả benchmark cho thấy ở quy mô 7B, Codestral Mamba (7B) vượt trội hoặc gần như tương đương với CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B hiện có
  • Được kỳ vọng sẽ trở thành một trợ lý viết mã cục bộ xuất sắc
  • Có thể triển khai thông qua mistral-inference SDK, TensorRT-LLM và cũng sẽ được hỗ trợ trên llama.cpp cho suy luận cục bộ
  • Có thể tải trọng số thô từ HuggingFace

2 bình luận

 
xguru 2024-07-17

Ý kiến trên Hacker News

  • Cần có các bước để chạy trong VS Code

    • Nếu bài đăng kèm liên kết hướng dẫn hoặc liên kết cài đặt một cú nhấp cho VS Code Extension thì sẽ giúp việc được chấp nhận dễ hơn
    • Đây là một mô hình mà nhiều người dùng sẽ quan tâm, nhưng vấn đề là không có lời kêu gọi hành động nào có thể kiếm tiền
  • Yêu cầu gợi ý một mô hình có tính năng FIM

    • Đang dùng codellama-13b cùng vim extension, nhưng hiệu năng không nổi bật
    • Gemma-27b tạo mã tốt hơn nhưng không có tính năng FIM
    • codellama-34b không chạy suy luận đúng cách
  • Nên nhấn mạnh DeepSeek trong cột MBPP

    • DeepSeek có điểm số tốt hơn Codestral
  • Có thông báo rằng mô hình đã có trên HuggingFace nhưng không cung cấp liên kết

  • Thật tốt khi thấy một mô hình nổi bật sử dụng Mamba2

  • Họ khẳng định Mamba nhanh hơn nhưng không có số liệu về độ trễ

    • Tò mò không biết có ai đã dùng thử chưa, và liệu nó có thực sự nhanh hơn không
  • Đề xuất một bài giới thiệu sản phẩm về ưu và nhược điểm của Mamba và Transformers

  • Tò mò không biết có phần giải thích nào hay về kiến trúc Mamba không

  • Đề nghị video hoặc bài viết phù hợp cho người hiểu khái niệm chung về LLM nhưng mới chỉ dùng các công cụ phổ biến công khai như ChatGPT, Claude, v.v.

    • Muốn kiểm tra xem mình có phần cứng để chạy cục bộ hay không nhưng không biết bắt đầu từ đâu
  • Đã thử nhanh trên playground của model.box

    • Độ dài phần hoàn thành ngắn hơn rõ rệt so với các mô hình khác (ví dụ: gpt-4o)
    • Tốc độ phản hồi đúng như kỳ vọng