GPT-Neo: Dự án tạo mô hình quy mô GPT-3 theo dạng mã nguồn mở/miễn phí

xguru · 2021-01-19T09:54:11+09:00

Đang phát triển hai bản triển khai có thể mở rộng đến kích thước GPT-3+ → GPT-Neo: mã nguồn dựa trên Tensorflow-mesh (TPU) → GPT-Neox: mã nguồn dựa trên DeepSpeed (GPU) Hiện đã hoàn tất huấn luyện ở quy mô GPT-2 và đang xem xét đánh giá mô hình Đã thử nghiệm tới 200 tỷ tham số với huấn luyện một giai đoạn

(github.com)

7 điểm bởi xguru 2021-01-19 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Đang phát triển hai bản triển khai có thể mở rộng đến kích thước GPT-3+

→ GPT-Neo: mã nguồn dựa trên Tensorflow-mesh (TPU)

→ GPT-Neox: mã nguồn dựa trên DeepSpeed (GPU)

Hiện đã hoàn tất huấn luyện ở quy mô GPT-2 và đang xem xét đánh giá mô hình
Đã thử nghiệm tới 200 tỷ tham số với huấn luyện một giai đoạn

GPT-Neo: Dự án tạo mô hình quy mô GPT-3 theo dạng mã nguồn mở/miễn phí

Bài viết liên quan

Chưa có bình luận nào.