RedPajama v2 - Bộ dữ liệu 30 nghìn tỷ (30T) token để huấn luyện LLM

xguru · 2023-11-09T09:46:02+09:00

Quy mô lớn hơn rất nhiều so với RedPajama-1T vốn có 1 nghìn tỷ token Hơn 100 tỷ tài liệu văn bản từ 84 bản dump CommonCrawl, chứa hơn 100 nghìn tỷ token thô Bao gồm hơn 40 chú thích chất lượng được sử dụng phổ biến nhất, được tính toán trước cho tập con 30 nghìn tỷ token đã khử trùng lặp 5 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý Toàn bộ script xử lý dữ liệu đều là mã nguồn mở và có trên GitHub, đồng thời toàn bộ dữ liệu cũng có sẵn trên HuggingFace

(together.ai)

5 điểm bởi xguru 2023-11-09 | 1 bình luận | Chia sẻ qua WhatsApp

Quy mô lớn hơn rất nhiều so với RedPajama-1T vốn có 1 nghìn tỷ token
Hơn 100 tỷ tài liệu văn bản từ 84 bản dump CommonCrawl, chứa hơn 100 nghìn tỷ token thô
Bao gồm hơn 40 chú thích chất lượng được sử dụng phổ biến nhất, được tính toán trước cho tập con 30 nghìn tỷ token đã khử trùng lặp
5 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý
Toàn bộ script xử lý dữ liệu đều là mã nguồn mở và có trên GitHub, đồng thời toàn bộ dữ liệu cũng có sẵn trên HuggingFace

1 bình luận

xguru 2023-11-09

RedPajama - Dự án mã nguồn mở tái tạo lại bộ dữ liệu LLaMA
RedPajama công bố các mô hình 3B, 7B
RedPajama công bố mô hình 7B có hiệu năng vượt trội hơn các mô hình LLM 7B công khai khác trên benchmark HELM

RedPajama v2 - Bộ dữ liệu 30 nghìn tỷ (30T) token để huấn luyện LLM

Bài viết liên quan

1 bình luận