- Quy mô lớn hơn rất nhiều so với RedPajama-1T vốn có 1 nghìn tỷ token
- Hơn 100 tỷ tài liệu văn bản từ 84 bản dump CommonCrawl, chứa hơn 100 nghìn tỷ token thô
- Bao gồm hơn 40 chú thích chất lượng được sử dụng phổ biến nhất, được tính toán trước cho tập con 30 nghìn tỷ token đã khử trùng lặp
- 5 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý
- Toàn bộ script xử lý dữ liệu đều là mã nguồn mở và có trên GitHub, đồng thời toàn bộ dữ liệu cũng có sẵn trên HuggingFace
1 bình luận
RedPajama - Dự án mã nguồn mở tái tạo lại bộ dữ liệu LLaMA
RedPajama công bố các mô hình 3B, 7B
RedPajama công bố mô hình 7B có hiệu năng vượt trội hơn các mô hình LLM 7B công khai khác trên benchmark HELM