- Byte Latent Transformer (BLT) là một kiến trúc mới cho mô hình ngôn ngữ lớn (LLM) ở cấp byte, đạt hiệu năng tương đương các mô hình dựa trên tokenization nhưng cải thiện đáng kể hiệu quả suy luận và độ bền vững
- Mã hóa byte thành các patch có kích thước động, trong đó patch hoạt động như đơn vị tính toán chính
- Phân chia patch động: phân bổ nhiều tài nguyên tính toán hơn cho dữ liệu có độ phức tạp cao dựa trên entropy của byte tiếp theo
- Nghiên cứu scaling có kiểm soát FLOP đầu tiên cho mô hình dựa trên byte:
- Mở rộng tới 8B (8 tỷ) tham số, 4 nghìn tỷ (4T) byte huấn luyện
- Xác nhận khả năng huấn luyện mô hình trên byte thô mà không cần từ vựng (vocabulary) cố định
Kết quả chính
- Huấn luyện và suy luận hiệu quả:
- Chọn patch dài khi dữ liệu dễ dự đoán để giảm lượng tính toán
- Mô hình điều chỉnh patch động theo độ phức tạp để tối ưu hóa tài nguyên
- Cải thiện scaling:
- Cho hiệu năng tốt hơn mô hình dựa trên tokenization ở cùng chi phí suy luận cố định
- Đảm bảo hiệu quả scaling bằng cách đồng thời tăng kích thước patch và kích thước mô hình
- Cải thiện hiệu năng định tính:
- Nâng cao khả năng suy luận và khái quát hóa: cải thiện về chất lượng trong suy luận lý do và xử lý dữ liệu thưa (long-tail)
- Vượt qua các giới hạn của cách tiếp cận dựa trên từ vựng cố định
Ý nghĩa
- BLT xử lý byte thô mà không cần tokenization, đồng thời chứng minh hiệu quả của việc huấn luyện trên dữ liệu và mô hình quy mô lớn
- Mang lại hiệu năng vượt trội hơn so với chi phí suy luận, đồng thời gợi mở tiềm năng của thế hệ LLM cấp byte tiếp theo
- Đặc biệt, khi xử lý dữ liệu phức tạp, phương pháp patch động cho thấy khả năng trở thành một tiêu chuẩn mới cho mô hình hóa thích ứng
1 bình luận
Ý kiến Hacker News
Vào mùa hè khi BERT ra mắt, tôi làm ở một startup dùng mô hình CNN dựa trên ký tự cho các tác vụ phân loại. Các thành viên trong nhóm quan tâm đến word vector, nhưng cho rằng số lượng từ ngoài từ điển quá nhiều nên có thể dẫn đến thất bại
Cấu trúc phân cấp khá thú vị, nhưng hơi tiếc vì chỉ có hai tầng. Xây thêm nhiều tầng hơn có thể sẽ là hướng nghiên cứu tiếp theo
Mô hình sử dụng một mô hình nhỏ để tạo patch bằng cách dự đoán khả năng của ký tự tiếp theo trong chuỗi đầu vào
Sampling là một điểm khó của LLM, nhưng cũng mở ra những cách dùng thú vị như luôn ép đầu ra là JSON hợp lệ hoặc điều chỉnh nhiệt độ để thu được các phân phối đa dạng
Có câu hỏi về việc liệu AI có thể được tiền huấn luyện trên các tệp nhị phân hay không
Có câu hỏi về việc liệu có thể làm tokenization theo cách ngầm định để chỉ cung cấp byte (hoặc ký tự) cho mô hình hay không
Trích dẫn liên quan của Karpathy: tokenization nằm ở trung tâm của rất nhiều điều kỳ quặc trong LLM
"<|endoftext|>"là vì tokenization"trailing whitespace"là vì tokenization"SolidGoldMagikarp"là vì tokenizationĐây là mô hình gồm 3 thành phần
Cách nhóm các byte
Có lợi thế so với byte pair tokenization trong các LLM hiện tại
Tôi từng nghĩ rằng chúng ta sắp bước vào thời kỳ trì trệ