- Một dự án nhằm tạo ra mô hình ngôn ngữ hoàn toàn mở và có thể tái lập, thay vì các mô hình bán mở như LLaMA, Alpaca, Vicuna
- Gồm 3 thành phần
- Dữ liệu pre-training chất lượng cao với độ bao phủ rộng
- Mô hình nền tảng được huấn luyện ở quy mô lớn dựa trên dữ liệu này
- Dữ liệu và mô hình instruction tuning để biến mô hình nền tảng thành an toàn và có thể sử dụng
- Thành phần đầu tiên được công bố là bộ dữ liệu RedPajama-Data-1T
- Bộ dữ liệu hoàn toàn mở gồm 1,2 nghìn tỷ token, được tạo theo công thức mô tả trong bài báo LLaMA
- Có thể tải xuống qua HuggingFace. Tổng dung lượng 5TB (phát hành dưới dạng nén còn 3TB)
- Gồm 7 phần dữ liệu: mỗi phần đều được tiền xử lý và lọc để có quy mô tương tự bài báo LLaMA (phương pháp tiền xử lý và bộ lọc cũng được công khai trên GitHub)
- CommonCrawl (878b) - dữ liệu thu thập từ web
- C4 (175b) - phiên bản Common Crawl khổng lồ đã được làm sạch
- GitHub (59b) - dữ liệu từ GitHub đã được lọc theo giấy phép và chất lượng
- arXiv (28b) - các bài báo và bài viết khoa học (đã loại bỏ boilerplate)
- Books (26b) - corpus sách công khai đã loại bỏ trùng lặp dựa trên độ tương đồng nội dung
- Wikipedia (24b) - một phần các trang Wikipedia (đã loại bỏ boilerplate)
- StackExchange (20b) - một phần các trang StackExchange (đã loại bỏ boilerplate)
- Bước tiếp theo là huấn luyện một mô hình nền tảng mạnh mẽ. Dự kiến công bố trong vài tuần tới
- Instruction tuning dự kiến sẽ sử dụng dữ liệu được cung cấp thông qua OpenChatkit
1 bình luận
OpenChatKit ra mắt - dự án mã nguồn mở có thể triển khai ChatGPT