DeepSpeed Ulysses: Tối ưu hóa hệ thống để huấn luyện mô hình Transformer với chuỗi dài

xguru · 2023-08-31T11:03:01+09:00

Cung cấp độ dài chuỗi dài hơn gấp 4 lần so với các hệ thống hiện có, có thể huấn luyện với các chuỗi chứa hơn một triệu token Giảm truyền thông hơn 10 lần, nhờ đó thông lượng tăng tối đa 2,5 lần. Thông lượng được duy trì trên 175 TFlops/GPU Attention hoàn toàn tổng quát và không phụ thuộc vào cách triển khai (cũng hoạt động với các triển khai như FlashAttention 2) Hỗ trợ huấn luyện mô hình quy mô lớn: hoạt động cùng ZeRO-3 để hỗ trợ kích thước chuỗi/mô hình lớn Dễ sử dụng và có tính di động cao, giảm thiểu thay đổi đối với các framework hiện có

(github.com/microsoft)

5 điểm bởi xguru 2023-08-31 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Cung cấp độ dài chuỗi dài hơn gấp 4 lần so với các hệ thống hiện có, có thể huấn luyện với các chuỗi chứa hơn một triệu token
Giảm truyền thông hơn 10 lần, nhờ đó thông lượng tăng tối đa 2,5 lần. Thông lượng được duy trì trên 175 TFlops/GPU
Attention hoàn toàn tổng quát và không phụ thuộc vào cách triển khai (cũng hoạt động với các triển khai như FlashAttention 2)
Hỗ trợ huấn luyện mô hình quy mô lớn: hoạt động cùng ZeRO-3 để hỗ trợ kích thước chuỗi/mô hình lớn
Dễ sử dụng và có tính di động cao, giảm thiểu thay đổi đối với các framework hiện có

DeepSpeed Ulysses: Tối ưu hóa hệ thống để huấn luyện mô hình Transformer với chuỗi dài

Bài viết liên quan

Chưa có bình luận nào.