12 điểm bởi xguru 2021-09-15 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Bộ dữ liệu hình ảnh lớn nhất thế giới trong số các bộ được công khai miễn phí

→ Bản dump dữ liệu crawl các trang web từ giai đoạn 2014~2021

  • Toàn bộ hình ảnh/văn bản đều đã được lọc bằng CLIP của OpenAI

→ Loại bỏ các cặp có độ tương đồng hình ảnh/văn bản dưới 0.3, sau đó kiểm chứng thủ công

  • Cấu trúc bộ dữ liệu

→ Tệp Parquet metadata URL+caption 50GB

→ WebDataset bản đầy đủ 10TB với ảnh 256x256/caption/metadata, có thể dùng ngay để huấn luyện

→ 1TB embedding CLIP văn bản/hình ảnh của 400M mục. Hữu ích cho việc build lại KNN indices

→ 2 KNN indices dung lượng 4GB giúp tìm kiếm bộ dữ liệu dễ dàng hơn

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

Chưa có bình luận nào.

Chưa có bình luận nào.