AI2 Dolma: Kho ngữ liệu mở 3T token cho mô hình ngôn ngữ
(blog.allenai.org)- Bộ dữ liệu do Allen Institute for AI xây dựng
- Kết hợp nội dung web, ấn phẩm học thuật, mã nguồn, sách và tài liệu bách khoa toàn thư
- Với 3 nghìn tỷ (
Trillion) token, đây là bộ dữ liệu có quy mô lớn nhất từng được công khai đến nay - Có thể tải xuống từ HuggingFace Hub
- Giấy phép AI2 ImpACT (phân loại Low/Medium/High theo mức độ rủi ro của Artifact)
Chưa có bình luận nào.