[Bản dịch] Giải thích về Megabyte của Meta AI

(discuss.pytorch.kr)

12 điểm bởi ninebow 2023-05-27 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Giới thiệu các thành phần kiến trúc chính của MegaByte
- Patch Embedder: nhúng đầu vào và chia thành các patch
- Global Module: transformer tự hồi quy thực hiện self-attention
- Local Module: dự đoán patch tiếp theo từ đầu vào nhận được từ mô hình global
Giới thiệu Multiscale Transformer
Giới thiệu Autoregressive Transformer
Các vấn đề của mô hình hiện tại: tokenization, scalability, generation speed
Các cách giải quyết được đề xuất
- Self-attention giảm chi phí tính toán xuống O(N^(4/3))
- Áp dụng lớp feedforward theo đơn vị patch
- Xử lý song song khi giải mã
(Bổ sung) Tình hình gần đây của Meta AI
- SAM: https://vi.news.hada.io/topic?id=8893
- MTIA: https://vi.news.hada.io/topic?id=9246
- DINOv2: https://vi.news.hada.io/topic?id=9269
- ImageBIND: https://vi.news.hada.io/topic?id=9156
- (Không có trong bài nhưng) MMS: https://vi.news.hada.io/topic?id=9245
- (Cũng không có trong bài) LIMA: https://vi.news.hada.io/topic?id=9239

Bài viết liên quan