- LLM đòi hỏi lượng bộ nhớ và tài nguyên tính toán საკმაოდ lớn
- Dòng ZeRO của DeepSpeed cung cấp lời giải cho vấn đề này và đã được sử dụng trong TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, v.v.
- Tuy nhiên, trong các kịch bản quy mô lớn sử dụng rất nhiều GPU, chi phí phụ trội vẫn phát sinh do cần giao tiếp thường xuyên giữa các GPU
- ZeRO++ dành cho những trường hợp như vậy, giúp giảm 4 lần tổng khối lượng giao tiếp mà không ảnh hưởng đến chất lượng mô hình
- Tăng tốc tiền huấn luyện và tinh chỉnh các mô hình lớn
- Kích thước batch nhỏ trên mỗi GPU: thông lượng cao hơn 2,2 lần so với ZeRO
- Ngay cả trên các cụm băng thông thấp, vẫn đạt hiệu năng tương đương băng thông cao hơn 4 lần
- Cũng tăng tốc các mô hình như ChatGPT sử dụng RLHF
Chưa có bình luận nào.