Eagle 7B - Mô hình vượt qua Transformer

(blog.rwkv.com)

6 điểm bởi GN⁺ 2024-01-30 | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình 7.52B tham số dựa trên kiến trúc RWKV-v5
Mô hình 7B thân thiện với môi trường nhất thế giới, với chi phí trên mỗi token thấp
Được huấn luyện trên 1,1 nghìn tỷ token cho hơn 100 ngôn ngữ
Vượt qua mọi mô hình thuộc lớp 7B trong các benchmark đa ngôn ngữ
Trong đánh giá tiếng Anh, hiệu năng tiệm cận Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?)
Là mô hình nền tảng chỉ được instruction tuning ở mức rất nhỏ, cần fine-tuning thêm cho nhiều trường hợp sử dụng khác nhau
Là một transformer không cần Attention
Phát hành theo giấy phép Apache 2.0, có thể dùng cho mục đích cá nhân hoặc thương mại mà không bị hạn chế

Chi tiết hiệu năng đa ngôn ngữ

Hiệu năng đa ngôn ngữ được đánh giá trên 23 ngôn ngữ thông qua các bài kiểm tra như xLAMBDA, xStoryCloze, xWinograd, xCopa.
Các benchmark này tập trung vào suy luận thường thức của từng ngôn ngữ.
Việc chuyển từ RWKV v4 sang kiến trúc v5 đã cải thiện đáng kể hiệu năng đa ngôn ngữ.
Do còn thiếu benchmark đa ngôn ngữ, rất khó đánh giá trực tiếp năng lực ngôn ngữ của mô hình trên hơn 75 ngôn ngữ còn lại trong số hơn 100 ngôn ngữ đã được huấn luyện.

Chi tiết hiệu năng tiếng Anh

Hiệu năng tiếng Anh được đo bằng 12 benchmark riêng biệt về suy luận thường thức và tri thức thế giới.
Việc chuyển từ RWKV v4 sang kiến trúc v5 đã cải thiện đáng kể hiệu năng tiếng Anh.
Mô hình v5 đạt mức hiệu năng transformer được kỳ vọng tương ứng với lượng token huấn luyện đã cho.
Dự kiến với thêm 1 nghìn tỷ token huấn luyện, mô hình sẽ đạt mức LLaMA2 và tiến gần mức Mistral.

Dataset tốt + kiến trúc có thể mở rộng: có phải ai cũng cần cả hai?

Checkpoint tại mốc 300 tỷ token cho thấy hiệu năng tương tự pythia-6.9b.
Phù hợp với các thí nghiệm trước đó trên kiến trúc RWKV-v4, các linear transformer như RWKV có thể mở rộng đến mức hiệu năng tương tự transformer khi được huấn luyện với cùng số lượng token.
Câu hỏi liệu dữ liệu có quan trọng hơn kiến trúc chính xác trong hiệu năng đánh giá mô hình vẫn liên tục được đặt ra.
Khi so sánh chi phí tính toán CUDA giữa kiến trúc dựa trên RWKV và mô hình transformer, sự khác biệt giữa khả năng mở rộng tuyến tính và bậc hai là rất quan trọng.

Xây dựng AI bao trùm cho mọi người - không chỉ tiếng Anh

Phản hồi phổ biến về cách tiếp cận đa ngôn ngữ của RWKV là nó ảnh hưởng đến điểm đánh giá tiếng Anh và làm chậm sự phát triển của linear transformer.
Tuy nhiên, đội ngũ RWKV không có kế hoạch thay đổi cách tiếp cận này và muốn xây dựng AI cho toàn thế giới, không phải cho một thế giới chỉ dùng tiếng Anh.
Tính đến năm 2023, chỉ 17% dân số thế giới nói tiếng Anh.
Bằng cách hỗ trợ 25 ngôn ngữ hàng đầu và hơn thế nữa, có thể bao phủ khoảng 4 tỷ người, tức 50% dân số thế giới.
Đội ngũ RWKV muốn mở rộng dataset đa ngôn ngữ và tăng số ngôn ngữ hỗ trợ để bao phủ 100% dân số toàn cầu.

Kế hoạch tương lai

Bản phát hành lần này đánh dấu linear transformer mạnh nhất cho đến nay.
Dù chưa vượt qua LLaMA2 và Mistral, nó cho thấy kiến trúc mô hình RWKV-v5 có thể mở rộng đến mức hiệu năng tương đương transformer với số lượng token tương tự.
Vào tháng 2/2024, nhóm dự định công bố bài báo cập nhật về RWKV v5; tháng 3 sẽ phát hành mô hình MoE dựa trên v5 Eagle 2T cùng các world model RWKV-v6 "Finch" 1.5B và 3B.

Lời cảm ơn

Cảm ơn StabilityAI đã cung cấp phần lớn năng lực tính toán để huấn luyện mô hình nền tảng này.
Cảm ơn EleutherAI đã hỗ trợ hết mình trong quá trình viết bài báo.
Cảm ơn nhóm Linux Foundation AI & Data đã hỗ trợ và lưu trữ dự án RWKV.

Ý kiến của GN⁺:

Eagle 7B là mô hình linear transformer hỗ trợ nhiều ngôn ngữ, mang lại hiệu năng cao với chi phí hiệu quả.
Mô hình này có thể góp phần tăng khả năng tiếp cận AI và giảm tác động tới môi trường.
Đội ngũ RWKV có tầm nhìn rõ ràng về việc phát triển công nghệ theo hướng AI hỗ trợ mọi người trên toàn thế giới và bao trùm mọi ngôn ngữ.

2 bình luận

cosine20 2024-01-31

Tối qua tôi thử nhanh bản demo một lúc, thấy khá nhanh và cho kết quả cũng tốt. Nó cũng nhận diện và trả lời tiếng Hàn lẫn tiếng Nhật rất tự nhiên.

GN⁺ 2024-01-30

Ý kiến trên Hacker News

Thật thú vị khi đang có những tiến triển về các kiến trúc LLM (mô hình ngôn ngữ lớn) thay thế, nhưng đáng tiếc là bài viết này chỉ bàn về chất lượng của mô hình
- Bài viết kết thúc quá đột ngột, nên chưa đủ tạo động lực để chấp nhận một kiến trúc mới
- Cần có thảo luận về hiệu năng và kích thước ngữ cảnh
- Thất vọng vì bài viết không hề đề cập đến ngữ cảnh
- Có tái sử dụng biểu đồ của RWKV-4, nhưng không rõ biểu đồ đó đang thể hiện điều gì
Kiến trúc mô hình như Transformer, Mamba, SSM, RWKV... không phải là điều quan trọng nhất; ảnh hưởng của bộ dữ liệu huấn luyện mới quan trọng hơn
- Dữ liệu ngôn ngữ là kho lưu trữ trải nghiệm của con người, và việc AI có thể đạt được nhiều năng lực khác nhau từ đó cho thấy trí tuệ không chỉ giới hạn trong bộ não
RWKV-v5 Eagle 7B được phát hành theo giấy phép Apache 2.0, nên có thể sử dụng cho mục đích cá nhân hoặc thương mại mà không bị hạn chế
- Việc nhóm đặt ra đúng động lực cho quá trình thử nghiệm và áp dụng là một tín hiệu tích cực
Hiện tại, trọng tâm chủ yếu đang đặt vào các mô hình dự đoán token tiếp theo chỉ dùng decoder
- Encoder của BERT và T5 vẫn hữu ích để tạo embedding cho các tác vụ truy xuất hoặc phân loại
- Cần thêm nhiều nghiên cứu hơn về các kiến trúc tiền huấn luyện tốt hơn cho các trường hợp sử dụng embedding
Có yêu cầu giải thích cách mô hình RWKV so sánh với các mô hình Transformer thông thường, và nên diễn giải benchmark như thế nào
- Có vẻ hiệu năng của nó tương tự Mistral 7B/mistral-tiny
Thông tin về lượng RAM cần thiết và tốc độ xử lý token khi chỉ dùng CPU vẫn còn chưa rõ ràng
Có đề xuất tham khảo việc thành viên dự án đang trả lời câu hỏi trên Reddit
- Có kèm liên kết tới người dùng Reddit đó
Nếu muốn thử mô hình RWKV nhưng không muốn chờ đợi, nên dùng rwkv-demo-api.recursal.ai
Bày tỏ kỳ vọng về mô hình MoE v5 Eagle 2T dựa trên mốc tháng 3/2024
- Kỳ vọng vào sự cân bằng giữa hiệu năng và chi phí môi trường/token
- Cũng kỳ vọng các ngôn ngữ Scandinavia sẽ được cải thiện, nhưng vẫn cần chờ kết quả
- Nhận thức về giá trị của dữ liệu huấn luyện, cũng như cấu trúc và sự cân bằng nội dung để huấn luyện tối ưu, sẽ tạo ra cuộc cách mạng thực sự
Trong thí nghiệm với RWKV-4, đã trải nghiệm tốc độ suy luận nhanh nhưng tốc độ token hóa lại rất chậm
- Cần có hướng dẫn cụ thể hơn cho RWKV-5