- Bộ dữ liệu hình ảnh lớn nhất thế giới trong số các bộ được công khai miễn phí
→ Bản dump dữ liệu crawl các trang web từ giai đoạn 2014~2021
- Toàn bộ hình ảnh/văn bản đều đã được lọc bằng CLIP của OpenAI
→ Loại bỏ các cặp có độ tương đồng hình ảnh/văn bản dưới 0.3, sau đó kiểm chứng thủ công
- Cấu trúc bộ dữ liệu
→ Tệp Parquet metadata URL+caption 50GB
→ WebDataset bản đầy đủ 10TB với ảnh 256x256/caption/metadata, có thể dùng ngay để huấn luyện
→ 1TB embedding CLIP văn bản/hình ảnh của 400M mục. Hữu ích cho việc build lại KNN indices
→ 2 KNN indices dung lượng 4GB giúp tìm kiếm bộ dữ liệu dễ dàng hơn
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
Chưa có bình luận nào.