RedPajama - Dự án mã nguồn mở tái dựng bộ dữ liệu LLaMA

xguru · 2023-04-19T10:03:01+09:00

Một dự án nhằm tạo ra mô hình ngôn ngữ hoàn toàn mở và có thể tái lập, thay vì các mô hình bán mở như LLaMA, Alpaca, Vicuna Gồm 3 thành phần Dữ liệu pre-training chất lượng cao với độ bao phủ rộng Mô hình nền tảng được huấn luyện ở quy mô lớn dựa trên dữ liệu này Dữ liệu và mô hình instruction tuning để biến mô hình nền tảng thành an toàn và có thể sử dụng Thành phần đầu tiên được công bố là bộ dữ liệu RedPajama-Data-1T Bộ dữ liệu hoàn toàn mở gồm 1,2 nghìn tỷ token, được tạo theo công thức mô tả trong bài báo LLaMA Có thể tải xuống qua HuggingFace. Tổng dung lượng 5TB (phát hành dưới dạng nén còn 3TB) Gồm 7 phần dữ liệu: mỗi phần đều được tiền xử lý và lọc để có quy mô tương tự bài báo LLaMA (phương pháp tiền xử lý và bộ lọc cũng được công khai trên GitHub) CommonCrawl (878b) - dữ liệu thu thập từ web C4 (175b) - phiên bản Common Crawl khổng lồ đã được làm sạch GitHub (59b) - dữ liệu từ GitHub đã được lọc theo giấy phép và chất lượng arXiv (28b) - các bài báo và bài viết khoa học (đã loại bỏ boilerplate) Books (26b) - corpus sách công khai đã loại bỏ trùng lặp dựa trên độ tương đồng nội dung Wikipedia (24b) - một phần các trang Wikipedia (đã loại bỏ boilerplate) StackExchange (20b) - một phần các trang StackExchange (đã loại bỏ boilerplate) Bước tiếp theo là huấn luyện một mô hình nền tảng mạnh mẽ. Dự kiến công bố trong vài tuần tới Instruction tuning dự kiến sẽ sử dụng dữ liệu được cung cấp thông qua OpenChatkit

(together.xyz)

14 điểm bởi xguru 2023-04-19 | 1 bình luận | Chia sẻ qua WhatsApp

Một dự án nhằm tạo ra mô hình ngôn ngữ hoàn toàn mở và có thể tái lập, thay vì các mô hình bán mở như LLaMA, Alpaca, Vicuna
Gồm 3 thành phần
- Dữ liệu pre-training chất lượng cao với độ bao phủ rộng
- Mô hình nền tảng được huấn luyện ở quy mô lớn dựa trên dữ liệu này
- Dữ liệu và mô hình instruction tuning để biến mô hình nền tảng thành an toàn và có thể sử dụng
Thành phần đầu tiên được công bố là bộ dữ liệu RedPajama-Data-1T
- Bộ dữ liệu hoàn toàn mở gồm 1,2 nghìn tỷ token, được tạo theo công thức mô tả trong bài báo LLaMA
- Có thể tải xuống qua HuggingFace. Tổng dung lượng 5TB (phát hành dưới dạng nén còn 3TB)
- Gồm 7 phần dữ liệu: mỗi phần đều được tiền xử lý và lọc để có quy mô tương tự bài báo LLaMA (phương pháp tiền xử lý và bộ lọc cũng được công khai trên GitHub)
  - CommonCrawl (878b) - dữ liệu thu thập từ web
  - C4 (175b) - phiên bản Common Crawl khổng lồ đã được làm sạch
  - GitHub (59b) - dữ liệu từ GitHub đã được lọc theo giấy phép và chất lượng
  - arXiv (28b) - các bài báo và bài viết khoa học (đã loại bỏ boilerplate)
  - Books (26b) - corpus sách công khai đã loại bỏ trùng lặp dựa trên độ tương đồng nội dung
  - Wikipedia (24b) - một phần các trang Wikipedia (đã loại bỏ boilerplate)
  - StackExchange (20b) - một phần các trang StackExchange (đã loại bỏ boilerplate)
  Quảng cáo
Bước tiếp theo là huấn luyện một mô hình nền tảng mạnh mẽ. Dự kiến công bố trong vài tuần tới
Instruction tuning dự kiến sẽ sử dụng dữ liệu được cung cấp thông qua OpenChatkit

1 bình luận

xguru 2023-04-19

OpenChatKit ra mắt - dự án mã nguồn mở có thể triển khai ChatGPT

RedPajama - Dự án mã nguồn mở tái dựng bộ dữ liệu LLaMA

Bài viết liên quan

1 bình luận