15 điểm bởi xguru 2020-10-26 | 2 bình luận | Chia sẻ qua WhatsApp

Các tài liệu tương tự với dữ liệu mà GPT-3 của OpenAI đã sử dụng

  • books3.tar.gz : 37GB, khoảng 197.000 cuốn sách được trích xuất thành tệp txt

  • github.tar.gz : 106G, tập hợp nhiều repo trên GitHub

  • stackexchange_dataset.tar : 34G, dữ liệu hỏi đáp từ Stack Exchange

Ngoài ra còn có nhiều tài liệu đa dạng khác

2 bình luận

 
ffdd270 2020-10-27

Hơi lạc đề một chút, nhưng khi nhìn vào những kho lưu trữ phục vụ việc huấn luyện như thế, tôi lại một lần nữa nhận ra rằng trong thế giới số, không có tự do để bị lãng quên.

 
xguru 2020-10-26

Xem chuỗi Twitter bên dưới để biết phần mô tả về tài liệu này

https://threadreaderapp.com/thread/1320282149329784833.html