Zyphra công bố Zamba2-7B, mô hình ngôn ngữ nhỏ vượt qua Llama3

(zyphra.com)

7 điểm bởi GN⁺ 2024-10-16 | 1 bình luận | Chia sẻ qua WhatsApp

Zamba2-7B đạt SOTA về hiệu năng benchmark đánh giá và hiệu quả suy luận so với các mô hình 7B chủ lực hiện nay như Mistral-7B, Gemma-7B, Llama3-8B
Zamba2-7B có hiệu quả suy luận rất ấn tượng: tạo token đầu tiên nhanh hơn 25%, số token mỗi giây tăng 20%, đồng thời giảm đáng kể mức sử dụng bộ nhớ so với Llama3-8B và các mô hình tương tự

Các cải tiến kiến trúc của Zamba2-7B so với Zamba1-7B

Khối Mamba1 được thay bằng khối Mamba2
Thay vì một khối attention chia sẻ duy nhất, mô hình sử dụng 2 khối attention chia sẻ được xen kẽ theo mẫu ABAB trên toàn bộ mạng
Áp dụng bộ chiếu LoRA cho từng khối MLP chia sẻ để có thể chuyên biệt hóa MLP theo từng lần gọi lớp chia sẻ ở các độ sâu khác nhau
Công bố mã nguồn mở trọng số mô hình theo giấy phép Apache 2.0

Hiệu năng của Zamba2-7B trên bộ đánh giá language modeling

Xét đến độ trễ và tốc độ sinh, Zamba2 cho thấy hiệu năng rất xuất sắc trên các bộ đánh giá language modeling tiêu chuẩn
Đây là mô hình dẫn đầu cả về chất lượng lẫn hiệu năng trong nhóm mô hình ngôn ngữ nhỏ dưới 8B

Vì sao Zamba2-7B vượt qua các mô hình SOTA trước đó

Kiến trúc attention chia sẻ mới cho phép phân bổ nhiều tham số hơn cho backbone Mamba2. Các khối transformer chia sẻ vẫn bảo toàn được sự phụ thuộc chuỗi-phụ thuộc chuỗi phong phú của phép toán attention
Bộ dữ liệu tiền huấn luyện 3 nghìn tỷ token được tạo từ Zyda kết hợp với các bộ dữ liệu công khai đã được lọc và khử trùng lặp tích cực, đạt chất lượng cao nhất so với các bộ dữ liệu tiền huấn luyện mã nguồn mở hàng đầu trước đây
Ở giai đoạn tiền huấn luyện "annealing" riêng biệt, nhóm đã giảm mạnh learning rate trong suốt 100 tỷ token chất lượng cao. Tập annealing được thu thập từ nhiều nguồn chất lượng cao khác nhau và được kiểm soát chất lượng nghiêm ngặt

Nhờ chất lượng rất cao của bộ dữ liệu tiền huấn luyện và annealing, Zamba2-7B có hiệu năng trên mỗi token huấn luyện rất xuất sắc, nằm cao hơn hẳn so với đường cong của các mô hình cạnh tranh

Kiến trúc hybrid SSM-attention của Zamba

Zamba2-7B tận dụng và mở rộng kiến trúc hybrid SSM-attention nguyên bản của Zamba
Kiến trúc cốt lõi của Zamba gồm backbone các lớp Mamba được xen kẽ với một hoặc nhiều lớp attention chia sẻ (Zamba1 dùng 1 lớp, Zamba2 dùng 2 lớp attention chia sẻ)
Các lớp attention này dùng trọng số chia sẻ để giảm thiểu chi phí tham số của mô hình
Việc nối embedding gốc của đầu vào vào các khối attention này dường như giúp cải thiện khả năng giữ thông tin theo chiều sâu, từ đó nâng cao hiệu năng
Kiến trúc Zamba2 bổ sung năng lực biểu diễn bằng cách áp dụng các ma trận chiếu LoRA lên MLP chia sẻ, cho phép mỗi khối có thể hơi chuyên biệt theo vị trí riêng của nó trong khi vẫn giữ chi phí tham số bổ sung ở mức nhỏ

Các yếu tố giúp đạt hiệu quả suy luận SOTA

Khối Mamba2 cực kỳ hiệu quả, với throughput cao gấp khoảng 4 lần so với khối transformer có cùng số tham số
Khối Mamba chỉ cần lưu trạng thái ẩn nhỏ và không cần KV-cache, vì vậy chỉ cần lưu trạng thái KV cho các lần gọi khối attention chia sẻ
Kích thước mô hình được chọn để đặc biệt phù hợp với khả năng song song hóa trên phần cứng hiện đại (ví dụ: nhiều streaming multiprocessor trên GPU, đa lõi trên CPU)

Huấn luyện và công bố Zamba2-7B

Zamba2-7B được huấn luyện trong khoảng 50 ngày trên 128 GPU H100 bằng framework huấn luyện nội bộ phát triển dựa trên Megatron-LM
Zamba2-7B cho thấy ở quy mô 7B, các nhóm nhỏ với ngân sách hợp lý vẫn có thể đạt và vượt trình độ tối tân
Mô hình được phát hành theo giấy phép mã nguồn mở để các nhà nghiên cứu, nhà phát triển và doanh nghiệp có thể tận dụng năng lực của nó
Nhóm kỳ vọng cộng đồng AI sẽ khám phá kiến trúc độc đáo của Zamba và tiếp tục mở rộng ranh giới của các foundation model hiệu quả

Các mô hình Zamba2-7B đã được công bố:

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Tầm nhìn của Zyphra

Đội ngũ Zyphra cam kết phổ cập các hệ thống AI tiên tiến, khám phá những kiến trúc mới ở tuyến đầu hiệu năng, và thúc đẩy nghiên cứu khoa học cùng hiểu biết về các mô hình mạnh mẽ
Nhóm mong muốn hợp tác với những bên khác cùng chia sẻ tầm nhìn này

Ý kiến của GN⁺

Việc Zyphra phát hành Zamba2 theo hướng mã nguồn mở có ý nghĩa rất lớn. Điều này sẽ góp phần dân chủ hóa công nghệ AI khi cho phép bất kỳ ai cũng có thể sử dụng và nghiên cứu miễn phí một mô hình ngôn ngữ tối tân
Kiến trúc mới của Zamba2 đưa ra một hướng đi để vượt qua giới hạn của các mô hình dựa trên transformer hiện nay và xây dựng các mô hình ngôn ngữ hiệu quả hơn. Những ý tưởng độc đáo của riêng Zamba như attention chia sẻ và bộ chiếu LoRA có thể sẽ truyền cảm hứng cho nghiên cứu mô hình ngôn ngữ trong tương lai
Việc các nhóm quy mô nhỏ và vừa cũng có thể tận dụng phần cứng hiện đại để tạo ra mô hình ngôn ngữ lớn có hiệu năng SOTA cũng là một tín hiệu đáng khích lệ. Có thể kỳ vọng việc phát triển foundation model sẽ trở nên sôi động hơn với sự tham gia của nhiều tổ chức khác nhau trong tương lai
Cần tiếp tục theo dõi xem hiệu năng của Zamba2 sẽ thể hiện ra sao trong các ứng dụng thực tế. Điểm benchmark xuất sắc không đồng nghĩa ngay với kết quả tốt trong các tác vụ ngoài đời thực. Điều quan trọng là các chuyên gia thực hành ở nhiều lĩnh vực sẽ thử nghiệm Zamba2 và chia sẻ các ưu, nhược điểm của nó

1 bình luận

GN⁺ 2024-10-16

Ý kiến trên Hacker News

Chia sẻ liên kết cho những ai đang tìm trọng số mà bài viết không gắn kèm
- Mô hình cơ sở: Zyphra/Zamba2-7B
- Tinh chỉnh Instruct: Zyphra/Zamba2-7B-Instruct
Tò mò không biết cải thiện hiệu năng là nhờ bộ dữ liệu tốt hơn hay nhờ kiến trúc. Đây có lẽ sẽ là một thí nghiệm tốn kém
Cảm thấy mệt mỏi với việc các bản phát hành LLM chỉ chọn lọc một số benchmark để dùng. Muốn xem so sánh với SOTA qwen2.5/phi3.5
- Hỏi có ai biết bảng xếp hạng độc lập mới nhất không. Lmsys và livebench gần đây bỏ qua hầu hết các mô hình lớn
Thật tốt khi có thêm nhiều mô hình giấy phép Apache hơn, đặc biệt là đi kèm nhiều kiến trúc đa dạng
So với lượng nghiên cứu lý thuyết dành cho khối Mamba2, mức cải thiện hiệu năng là khá nhỏ
- attention vẫn rất quan trọng
Khi dùng hai attention head, tò mò liệu mỗi head có tập trung vào những khía cạnh khác nhau của dữ liệu hay không
- Trong nghiên cứu về trí nhớ có khái niệm biểu diễn kép của một sự kiện. Một là biểu diễn chính xác hơn, còn một là biểu diễn được gắn trọng số theo ngữ cảnh nhiều hơn
- Có thể hình dung trong LLM một hệ thống nơi một attention head tập trung vào biểu diễn chính xác, còn head kia tập trung vào thông tin thô hơn. Tuy nhiên không quá rành về LLM nên không chắc đây chỉ là một phép ví von đơn giản hay không
Tò mò điều gì khiến 7B trở nên đặc biệt. Hỏi vì sao không phải 8B, 9B hay 11.234B. Cũng thắc mắc liệu 7B có được diễn giải như một lũy thừa của 2 hay không
Lại thêm một ngày nữa, lại thêm một kỷ lục thế giới mới trong AI
- Gợi nhớ đến Sergey Bubka. Ông đã phá kỷ lục thế giới môn nhảy sào nam 35 lần
Hỏi có ai biết mô hình này hỗ trợ những ngôn ngữ nào không