3 điểm bởi xguru 2021-02-19 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Cải thiện tốc độ huấn luyện lên 7x so với mô hình T5 (Text-to-Text Transfer Transformer) hiện có

  • Sử dụng thuật toán MoE (Mixture-of-Experts) biến thể có tên Switch Routing, áp dụng các tham số khác nhau tùy theo từng giá trị đầu vào

  • Sử dụng Mesh-Tensorflow để huấn luyện mô hình (Model Parallelism)

Chưa có bình luận nào.

Chưa có bình luận nào.