COYO-700M - Bộ dữ liệu 740 triệu cặp hình ảnh-văn bản do Kakao Brain công bố

xguru · 2022-09-01T09:15:05+09:00

Bộ dữ liệu huấn luyện quy mô lớn bao gồm khoảng 740 triệu cặp hình ảnh-văn bản cùng nhiều thuộc tính khác Thu thập hình ảnh trong tài liệu HTML và thuộc tính alt (chuỗi văn bản xuất hiện khi hình ảnh không thể hiển thị trên màn hình trong HTML) Được kỳ vọng sẽ được dùng để huấn luyện các mô hình nền tảng quy mô lớn bằng cách bổ sung cho các bộ dữ liệu tương tự khác Trước đó, “COYO” đã được áp dụng trong quá trình phát triển mô hình tạo ảnh AI siêu lớn “RQ-Transformer” và nghệ sĩ AI “Karlo” do đơn vị này công bố Có thể xem chi tiết quy trình thu thập dữ liệu trong bài báo sẽ được công bố sau

(github.com/kakaobrain)

8 điểm bởi xguru 2022-09-01 | 1 bình luận | Chia sẻ qua WhatsApp

Bộ dữ liệu huấn luyện quy mô lớn bao gồm khoảng 740 triệu cặp hình ảnh-văn bản cùng nhiều thuộc tính khác
Thu thập hình ảnh trong tài liệu HTML và thuộc tính alt (chuỗi văn bản xuất hiện khi hình ảnh không thể hiển thị trên màn hình trong HTML)
Được kỳ vọng sẽ được dùng để huấn luyện các mô hình nền tảng quy mô lớn bằng cách bổ sung cho các bộ dữ liệu tương tự khác
Trước đó, “COYO” đã được áp dụng trong quá trình phát triển mô hình tạo ảnh AI siêu lớn “RQ-Transformer” và nghệ sĩ AI “Karlo” do đơn vị này công bố
Có thể xem chi tiết quy trình thu thập dữ liệu trong bài báo sẽ được công bố sau

1 bình luận

xguru 2022-09-01

COYO-700M: Bộ dữ liệu cặp hình ảnh-văn bản
Kakao Brain công bố ‘COYO’, bộ dữ liệu đẳng cấp hàng đầu thế giới

COYO-700M - Bộ dữ liệu 740 triệu cặp hình ảnh-văn bản do Kakao Brain công bố

Bài viết liên quan

1 bình luận