- Bộ dữ liệu huấn luyện quy mô lớn bao gồm khoảng 740 triệu cặp hình ảnh-văn bản cùng nhiều thuộc tính khác
- Thu thập hình ảnh trong tài liệu HTML và thuộc tính alt (chuỗi văn bản xuất hiện khi hình ảnh không thể hiển thị trên màn hình trong HTML)
- Được kỳ vọng sẽ được dùng để huấn luyện các mô hình nền tảng quy mô lớn bằng cách bổ sung cho các bộ dữ liệu tương tự khác
- Trước đó, “COYO” đã được áp dụng trong quá trình phát triển mô hình tạo ảnh AI siêu lớn “RQ-Transformer” và nghệ sĩ AI “Karlo” do đơn vị này công bố
- Có thể xem chi tiết quy trình thu thập dữ liệu trong bài báo sẽ được công bố sau
1 bình luận
COYO-700M: Bộ dữ liệu cặp hình ảnh-văn bản
Kakao Brain công bố ‘COYO’, bộ dữ liệu đẳng cấp hàng đầu thế giới