- Có thể mở rộng để xử lý hiệu quả hơn và song song hơn, vượt qua kiến trúc transformer mà các mô hình như GPT-4 sử dụng
- Transformer phù hợp với các chuỗi ngắn, nhưng khó mở rộng sang các chuỗi dài hơn 1 triệu token như ảnh độ phân giải cao, podcast, mã nguồn và sách
- Megabyte là kiến trúc decoder đa tỉ lệ, có thể mô hình hóa các chuỗi dài hơn 1 triệu token
- Chia chuỗi đầu vào và đầu ra thành các "patch" thay vì từng token riêng lẻ
- Mô hình AI cục bộ tạo kết quả cho từng patch, còn mô hình toàn cục quản lý và điều phối các patch này
- Kết quả thử nghiệm cho thấy mô hình Megabyte với 1,5 tỷ (1.5B) tham số tạo chuỗi nhanh hơn 40% so với mô hình transformer hoạt động với 350 triệu (350M) tham số
- Kết quả thử nghiệm cho thấy có thể xử lý tới 1,2M token, vượt xa 32.000 token của GPT-4 và 100.000 token của Claude
2 bình luận
Bài viết giới thiệu về Megabyte do ENCORD, một startup phát triển hạ tầng và công cụ AI, biên soạn đã được dịch dưới đây với sự cho phép. :)
https://discuss.pytorch.kr/t/…
Bài cũng có nhắc đến, nhưng đây là liên kết tới bài báo: https://arxiv.org/abs/2305.07185