DeepSpeed ZeRO++: Bước nhảy vọt về tốc độ huấn luyện LLM và mô hình chat với lượng giao tiếp giảm 4 lần

xguru · 2023-06-28T10:03:01+09:00

LLM đòi hỏi lượng bộ nhớ và tài nguyên tính toán საკმაოდ lớn Dòng ZeRO của DeepSpeed cung cấp lời giải cho vấn đề này và đã được sử dụng trong TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, v.v. Tuy nhiên, trong các kịch bản quy mô lớn sử dụng rất nhiều GPU, chi phí phụ trội vẫn phát sinh do cần giao tiếp thường xuyên giữa các GPU ZeRO++ dành cho những trường hợp như vậy, giúp giảm 4 lần tổng khối lượng giao tiếp mà không ảnh hưởng đến chất lượng mô hình Tăng tốc tiền huấn luyện và tinh chỉnh các mô hình lớn Kích thước batch nhỏ trên mỗi GPU: thông lượng cao hơn 2,2 lần so với ZeRO Ngay cả trên các cụm băng thông thấp, vẫn đạt hiệu năng tương đương băng thông cao hơn 4 lần Cũng tăng tốc các mô hình như ChatGPT sử dụng RLHF

(microsoft.com)

10 điểm bởi xguru 2023-06-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

LLM đòi hỏi lượng bộ nhớ và tài nguyên tính toán საკმაოდ lớn
Dòng ZeRO của DeepSpeed cung cấp lời giải cho vấn đề này và đã được sử dụng trong TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, v.v.
Tuy nhiên, trong các kịch bản quy mô lớn sử dụng rất nhiều GPU, chi phí phụ trội vẫn phát sinh do cần giao tiếp thường xuyên giữa các GPU
ZeRO++ dành cho những trường hợp như vậy, giúp giảm 4 lần tổng khối lượng giao tiếp mà không ảnh hưởng đến chất lượng mô hình
- Tăng tốc tiền huấn luyện và tinh chỉnh các mô hình lớn
  - Kích thước batch nhỏ trên mỗi GPU: thông lượng cao hơn 2,2 lần so với ZeRO
  - Ngay cả trên các cụm băng thông thấp, vẫn đạt hiệu năng tương đương băng thông cao hơn 4 lần
- Cũng tăng tốc các mô hình như ChatGPT sử dụng RLHF

DeepSpeed ZeRO++: Bước nhảy vọt về tốc độ huấn luyện LLM và mô hình chat với lượng giao tiếp giảm 4 lần

Bài viết liên quan

Chưa có bình luận nào.