-
Cải thiện tốc độ huấn luyện lên 7x so với mô hình T5 (Text-to-Text Transfer Transformer) hiện có
-
Sử dụng thuật toán MoE (Mixture-of-Experts) biến thể có tên Switch Routing, áp dụng các tham số khác nhau tùy theo từng giá trị đầu vào
-
Sử dụng Mesh-Tensorflow để huấn luyện mô hình (Model Parallelism)
Chưa có bình luận nào.