Bộ sưu tập dữ liệu văn bản dùng để huấn luyện AI
(the-eye.eu)Các tài liệu tương tự với dữ liệu mà GPT-3 của OpenAI đã sử dụng
-
books3.tar.gz : 37GB, khoảng 197.000 cuốn sách được trích xuất thành tệp txt
-
github.tar.gz : 106G, tập hợp nhiều repo trên GitHub
-
stackexchange_dataset.tar : 34G, dữ liệu hỏi đáp từ Stack Exchange
Ngoài ra còn có nhiều tài liệu đa dạng khác
2 bình luận
Hơi lạc đề một chút, nhưng khi nhìn vào những kho lưu trữ phục vụ việc huấn luyện như thế, tôi lại một lần nữa nhận ra rằng trong thế giới số, không có tự do để bị lãng quên.
Xem chuỗi Twitter bên dưới để biết phần mô tả về tài liệu này
https://threadreaderapp.com/thread/1320282149329784833.html