Jamba - Mô hình AI cấp độ production dựa trên Mamba

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs đã ra mắt Jamba, mô hình AI cấp độ production đầu tiên trên thế giới dựa trên kiến trúc Mamba Jamba kết hợp thế mạnh của Mamba SSM (mô hình không gian trạng thái có cấu trúc) và kiến trúc transformer truyền thống để mang lại hiệu năng ấn tượng cùng cải thiện về hiệu quả Cửa sổ ngữ cảnh rộng tới 256K token. Có thể xử lý tối đa 140K token trên một GPU 80GB duy nhất Kiến trúc lai và hiệu năng của Jamba Jamba sử dụng các lớp Mixture of Experts (MoE), trong đó chỉ 12B trong tổng số 52B tham số được dùng khi suy luận, thông qua kiến trúc lai SSM-transformer Có thể xử lý ngữ cảnh dài hơn nhiều so với các mô hình cạnh tranh như Llama 2 của Meta, đồng thời vẫn duy trì thông lượng và hiệu quả cao Cung cấp thông lượng cao hơn 3 lần trong ngữ cảnh dài, hiệu quả hơn các mô hình dựa trên transformer có kích thước tương đương Có cách tiếp cận theo block và layer; mỗi block của Jamba chứa một lớp attention hoặc Mamba, sau đó là perceptron đa tầng (MLP) Cấu trúc này sử dụng tỷ lệ một lớp transformer trên mỗi 8 lớp tổng thể Cho thấy kết quả nổi bật trên nhiều benchmark khác nhau, vượt qua hoặc ngang bằng các mô hình mới nhất cùng kích thước trên nhiều tác vụ Giấy phép Jamba được phát hành dưới dạng open weights theo giấy phép Apache 2.0 và có sẵn trên Hugging Face Hiện tại Jamba được phát hành như một mô hình nghiên cứu, chưa có các cơ chế an toàn cần thiết cho sử dụng thương mại, nhưng AI21 Labs dự định sẽ phát hành một phiên bản an toàn hơn trong vài tuần tới

(maginative.com)

11 điểm bởi xguru 2024-03-30 | 1 bình luận | Chia sẻ qua WhatsApp

AI21 Labs đã ra mắt Jamba, mô hình AI cấp độ production đầu tiên trên thế giới dựa trên kiến trúc Mamba
Jamba kết hợp thế mạnh của Mamba SSM (mô hình không gian trạng thái có cấu trúc) và kiến trúc transformer truyền thống để mang lại hiệu năng ấn tượng cùng cải thiện về hiệu quả
Cửa sổ ngữ cảnh rộng tới 256K token. Có thể xử lý tối đa 140K token trên một GPU 80GB duy nhất

Kiến trúc lai và hiệu năng của Jamba

Jamba sử dụng các lớp Mixture of Experts (MoE), trong đó chỉ 12B trong tổng số 52B tham số được dùng khi suy luận, thông qua kiến trúc lai SSM-transformer
Có thể xử lý ngữ cảnh dài hơn nhiều so với các mô hình cạnh tranh như Llama 2 của Meta, đồng thời vẫn duy trì thông lượng và hiệu quả cao
Cung cấp thông lượng cao hơn 3 lần trong ngữ cảnh dài, hiệu quả hơn các mô hình dựa trên transformer có kích thước tương đương
Có cách tiếp cận theo block và layer; mỗi block của Jamba chứa một lớp attention hoặc Mamba, sau đó là perceptron đa tầng (MLP)
Cấu trúc này sử dụng tỷ lệ một lớp transformer trên mỗi 8 lớp tổng thể
Cho thấy kết quả nổi bật trên nhiều benchmark khác nhau, vượt qua hoặc ngang bằng các mô hình mới nhất cùng kích thước trên nhiều tác vụ

Giấy phép

Jamba được phát hành dưới dạng open weights theo giấy phép Apache 2.0 và có sẵn trên Hugging Face
Hiện tại Jamba được phát hành như một mô hình nghiên cứu, chưa có các cơ chế an toàn cần thiết cho sử dụng thương mại, nhưng AI21 Labs dự định sẽ phát hành một phiên bản an toàn hơn trong vài tuần tới

1 bình luận

xguru 2024-03-30

Ý kiến trên Hacker News

Chia sẻ liên kết đến một chủ đề gần đây có giải thích về Mamba
- Cung cấp hai liên kết đến chủ đề giải thích về Mamba và một chủ đề hay hơn.
Đề xuất video của Sasha Rush cho những ai tò mò về sự đánh đổi giữa lớp transformer và lớp state space model
- Video của Sasha Rush giúp hiểu sự khác biệt giữa lớp transformer và lớp state space model.
Chia sẻ vấn đề liên quan đến việc cố gắng chạy trên Linux với 1 hoặc 2 GPU 4090
- Khi dùng GPU 4090 trên Linux, đã phát sinh sự cố trong lúc tải checkpoint; VRAM có vẻ đủ nhưng vẫn thất bại. Thể hiện sự hứng thú với nỗ lực này.
Hoan nghênh sự xuất hiện của một mô hình hoàn chỉnh ở cấp độ production dùng Mamba, đồng thời bày tỏ sự quan tâm đến cả hiệu năng lẫn throughput trong các benchmark cửa sổ ngữ cảnh dài
- Có ấn tượng rằng khi Mamba dùng ngữ cảnh dài, throughput tăng đáng kể nhưng độ chính xác bị giảm nhẹ.
Chỉ ra sự kém hiệu quả của LLM (Large Language Models)
- Đề cập sự kém hiệu quả của LLM cần 80GB bộ nhớ GPU, đồng thời hy vọng vẫn còn nhiều dư địa để cải thiện thuật toán.
Đặt câu hỏi về sự cần thiết của các lớp self-attention
- Hỏi vì sao lại bao gồm lớp self-attention thay vì chỉ xen kẽ các lớp SSM và MLP.
Giải thích về cải thiện hiệu năng của mô hình Jamba-v0.1-hybrid-MoE
- Nêu ý kiến rằng Jamba-v0.1-hybrid-MoE mang lại ngữ cảnh dài hơn, tốc độ nhanh hơn và chi phí rẻ hơn so với các mô hình trước đó, đồng thời sẽ chấm dứt ý tưởng rằng “một mô hình thống trị mọi thứ”.
Chỉ ra vấn đề trùng tên của Mamba
- Nhấn mạnh tầm quan trọng của việc chọn tên, vì Mamba đã được dùng cho một gói Python phổ biến.
Đề cập đến cái tên Sparabo và nói rằng thật thú vị khi những cái tên cũ được gắn cho các thứ mới
- Hỏi liệu có tồn tại cái tên Sparabo hay không, và bày tỏ sự thích thú trước việc tên cũ được dùng cho những thứ mới.
Nhắc rằng các công việc ngữ cảnh dài có liên quan đến MemGPT, đồng thời gợi ý rằng khái niệm tương tự cũng có thể áp dụng cho các mô hình kiến trúc Mamba
- Đề cập đến công việc ngữ cảnh dài liên quan đến MemGPT và nêu ý kiến rằng điều này cũng có thể được áp dụng cho các mô hình kiến trúc Mamba.