7 điểm bởi GN⁺ 2024-10-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Zamba2-7B đạt SOTA về hiệu năng benchmark đánh giá và hiệu quả suy luận so với các mô hình 7B chủ lực hiện nay như Mistral-7B, Gemma-7B, Llama3-8B
  • Zamba2-7B có hiệu quả suy luận rất ấn tượng: tạo token đầu tiên nhanh hơn 25%, số token mỗi giây tăng 20%, đồng thời giảm đáng kể mức sử dụng bộ nhớ so với Llama3-8B và các mô hình tương tự

Các cải tiến kiến trúc của Zamba2-7B so với Zamba1-7B

  • Khối Mamba1 được thay bằng khối Mamba2
  • Thay vì một khối attention chia sẻ duy nhất, mô hình sử dụng 2 khối attention chia sẻ được xen kẽ theo mẫu ABAB trên toàn bộ mạng
  • Áp dụng bộ chiếu LoRA cho từng khối MLP chia sẻ để có thể chuyên biệt hóa MLP theo từng lần gọi lớp chia sẻ ở các độ sâu khác nhau
  • Công bố mã nguồn mở trọng số mô hình theo giấy phép Apache 2.0

Hiệu năng của Zamba2-7B trên bộ đánh giá language modeling

  • Xét đến độ trễ và tốc độ sinh, Zamba2 cho thấy hiệu năng rất xuất sắc trên các bộ đánh giá language modeling tiêu chuẩn
  • Đây là mô hình dẫn đầu cả về chất lượng lẫn hiệu năng trong nhóm mô hình ngôn ngữ nhỏ dưới 8B

Vì sao Zamba2-7B vượt qua các mô hình SOTA trước đó

  1. Kiến trúc attention chia sẻ mới cho phép phân bổ nhiều tham số hơn cho backbone Mamba2. Các khối transformer chia sẻ vẫn bảo toàn được sự phụ thuộc chuỗi-phụ thuộc chuỗi phong phú của phép toán attention
  2. Bộ dữ liệu tiền huấn luyện 3 nghìn tỷ token được tạo từ Zyda kết hợp với các bộ dữ liệu công khai đã được lọc và khử trùng lặp tích cực, đạt chất lượng cao nhất so với các bộ dữ liệu tiền huấn luyện mã nguồn mở hàng đầu trước đây
  3. Ở giai đoạn tiền huấn luyện "annealing" riêng biệt, nhóm đã giảm mạnh learning rate trong suốt 100 tỷ token chất lượng cao. Tập annealing được thu thập từ nhiều nguồn chất lượng cao khác nhau và được kiểm soát chất lượng nghiêm ngặt

Nhờ chất lượng rất cao của bộ dữ liệu tiền huấn luyện và annealing, Zamba2-7B có hiệu năng trên mỗi token huấn luyện rất xuất sắc, nằm cao hơn hẳn so với đường cong của các mô hình cạnh tranh

Kiến trúc hybrid SSM-attention của Zamba

  • Zamba2-7B tận dụng và mở rộng kiến trúc hybrid SSM-attention nguyên bản của Zamba
  • Kiến trúc cốt lõi của Zamba gồm backbone các lớp Mamba được xen kẽ với một hoặc nhiều lớp attention chia sẻ (Zamba1 dùng 1 lớp, Zamba2 dùng 2 lớp attention chia sẻ)
  • Các lớp attention này dùng trọng số chia sẻ để giảm thiểu chi phí tham số của mô hình
  • Việc nối embedding gốc của đầu vào vào các khối attention này dường như giúp cải thiện khả năng giữ thông tin theo chiều sâu, từ đó nâng cao hiệu năng
  • Kiến trúc Zamba2 bổ sung năng lực biểu diễn bằng cách áp dụng các ma trận chiếu LoRA lên MLP chia sẻ, cho phép mỗi khối có thể hơi chuyên biệt theo vị trí riêng của nó trong khi vẫn giữ chi phí tham số bổ sung ở mức nhỏ

Các yếu tố giúp đạt hiệu quả suy luận SOTA

  1. Khối Mamba2 cực kỳ hiệu quả, với throughput cao gấp khoảng 4 lần so với khối transformer có cùng số tham số
  2. Khối Mamba chỉ cần lưu trạng thái ẩn nhỏ và không cần KV-cache, vì vậy chỉ cần lưu trạng thái KV cho các lần gọi khối attention chia sẻ
  3. Kích thước mô hình được chọn để đặc biệt phù hợp với khả năng song song hóa trên phần cứng hiện đại (ví dụ: nhiều streaming multiprocessor trên GPU, đa lõi trên CPU)

Huấn luyện và công bố Zamba2-7B

  • Zamba2-7B được huấn luyện trong khoảng 50 ngày trên 128 GPU H100 bằng framework huấn luyện nội bộ phát triển dựa trên Megatron-LM
  • Zamba2-7B cho thấy ở quy mô 7B, các nhóm nhỏ với ngân sách hợp lý vẫn có thể đạt và vượt trình độ tối tân
  • Mô hình được phát hành theo giấy phép mã nguồn mở để các nhà nghiên cứu, nhà phát triển và doanh nghiệp có thể tận dụng năng lực của nó
  • Nhóm kỳ vọng cộng đồng AI sẽ khám phá kiến trúc độc đáo của Zamba và tiếp tục mở rộng ranh giới của các foundation model hiệu quả

Các mô hình Zamba2-7B đã được công bố:

Tầm nhìn của Zyphra

  • Đội ngũ Zyphra cam kết phổ cập các hệ thống AI tiên tiến, khám phá những kiến trúc mới ở tuyến đầu hiệu năng, và thúc đẩy nghiên cứu khoa học cùng hiểu biết về các mô hình mạnh mẽ
  • Nhóm mong muốn hợp tác với những bên khác cùng chia sẻ tầm nhìn này

Ý kiến của GN⁺

  • Việc Zyphra phát hành Zamba2 theo hướng mã nguồn mở có ý nghĩa rất lớn. Điều này sẽ góp phần dân chủ hóa công nghệ AI khi cho phép bất kỳ ai cũng có thể sử dụng và nghiên cứu miễn phí một mô hình ngôn ngữ tối tân
  • Kiến trúc mới của Zamba2 đưa ra một hướng đi để vượt qua giới hạn của các mô hình dựa trên transformer hiện nay và xây dựng các mô hình ngôn ngữ hiệu quả hơn. Những ý tưởng độc đáo của riêng Zamba như attention chia sẻ và bộ chiếu LoRA có thể sẽ truyền cảm hứng cho nghiên cứu mô hình ngôn ngữ trong tương lai
  • Việc các nhóm quy mô nhỏ và vừa cũng có thể tận dụng phần cứng hiện đại để tạo ra mô hình ngôn ngữ lớn có hiệu năng SOTA cũng là một tín hiệu đáng khích lệ. Có thể kỳ vọng việc phát triển foundation model sẽ trở nên sôi động hơn với sự tham gia của nhiều tổ chức khác nhau trong tương lai
  • Cần tiếp tục theo dõi xem hiệu năng của Zamba2 sẽ thể hiện ra sao trong các ứng dụng thực tế. Điểm benchmark xuất sắc không đồng nghĩa ngay với kết quả tốt trong các tác vụ ngoài đời thực. Điều quan trọng là các chuyên gia thực hành ở nhiều lĩnh vực sẽ thử nghiệm Zamba2 và chia sẻ các ưu, nhược điểm của nó

1 bình luận

 
GN⁺ 2024-10-16
Ý kiến trên Hacker News
  • Chia sẻ liên kết cho những ai đang tìm trọng số mà bài viết không gắn kèm

  • Tò mò không biết cải thiện hiệu năng là nhờ bộ dữ liệu tốt hơn hay nhờ kiến trúc. Đây có lẽ sẽ là một thí nghiệm tốn kém

  • Cảm thấy mệt mỏi với việc các bản phát hành LLM chỉ chọn lọc một số benchmark để dùng. Muốn xem so sánh với SOTA qwen2.5/phi3.5

    • Hỏi có ai biết bảng xếp hạng độc lập mới nhất không. Lmsys và livebench gần đây bỏ qua hầu hết các mô hình lớn
  • Thật tốt khi có thêm nhiều mô hình giấy phép Apache hơn, đặc biệt là đi kèm nhiều kiến trúc đa dạng

  • So với lượng nghiên cứu lý thuyết dành cho khối Mamba2, mức cải thiện hiệu năng là khá nhỏ

    • attention vẫn rất quan trọng
  • Khi dùng hai attention head, tò mò liệu mỗi head có tập trung vào những khía cạnh khác nhau của dữ liệu hay không

    • Trong nghiên cứu về trí nhớ có khái niệm biểu diễn kép của một sự kiện. Một là biểu diễn chính xác hơn, còn một là biểu diễn được gắn trọng số theo ngữ cảnh nhiều hơn
    • Có thể hình dung trong LLM một hệ thống nơi một attention head tập trung vào biểu diễn chính xác, còn head kia tập trung vào thông tin thô hơn. Tuy nhiên không quá rành về LLM nên không chắc đây chỉ là một phép ví von đơn giản hay không
  • Tò mò điều gì khiến 7B trở nên đặc biệt. Hỏi vì sao không phải 8B, 9B hay 11.234B. Cũng thắc mắc liệu 7B có được diễn giải như một lũy thừa của 2 hay không

  • Lại thêm một ngày nữa, lại thêm một kỷ lục thế giới mới trong AI

    • Gợi nhớ đến Sergey Bubka. Ông đã phá kỷ lục thế giới môn nhảy sào nam 35 lần
  • Hỏi có ai biết mô hình này hỗ trợ những ngôn ngữ nào không