- Đang phát triển hai bản triển khai có thể mở rộng đến kích thước GPT-3+
→ GPT-Neo: mã nguồn dựa trên Tensorflow-mesh (TPU)
→ GPT-Neox: mã nguồn dựa trên DeepSpeed (GPU)
-
Hiện đã hoàn tất huấn luyện ở quy mô GPT-2 và đang xem xét đánh giá mô hình
-
Đã thử nghiệm tới 200 tỷ tham số với huấn luyện một giai đoạn
Chưa có bình luận nào.