5 điểm bởi xguru 2023-11-09 | 1 bình luận | Chia sẻ qua WhatsApp
  • Quy mô lớn hơn rất nhiều so với RedPajama-1T vốn có 1 nghìn tỷ token
  • Hơn 100 tỷ tài liệu văn bản từ 84 bản dump CommonCrawl, chứa hơn 100 nghìn tỷ token thô
  • Bao gồm hơn 40 chú thích chất lượng được sử dụng phổ biến nhất, được tính toán trước cho tập con 30 nghìn tỷ token đã khử trùng lặp
  • 5 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý
  • Toàn bộ script xử lý dữ liệu đều là mã nguồn mở và có trên GitHub, đồng thời toàn bộ dữ liệu cũng có sẵn trên HuggingFace