OpenFlamingo - framework mã nguồn mở để huấn luyện/đánh giá mô hình đa phương thức quy mô lớn (LMM)

xguru · 2023-03-31T10:15:01+09:00

Hướng tới việc phát triển một hệ thống đa phương thức có thể xử lý đồng thời đầu vào hình ảnh/văn bản như GPT-4 Để làm điều đó, dự án hiện thực hóa dưới dạng mã nguồn mở mô hình Flamingo của DeepMind, một LMM (Large Multimodal Model) có thể xử lý và suy luận trên hình ảnh/video/văn bản Những thành phần có trong bản phát hành đầu tiên Framework Python để huấn luyện LMM theo phong cách Flamingo Bộ dữ liệu đa phương thức quy mô lớn với hình ảnh/văn bản được xen kẽ Bộ benchmark đánh giá học trong ngữ cảnh cho các tác vụ thị giác-ngôn ngữ Mô hình OpenFlamingo-9B dựa trên LLaMA Vì bộ dữ liệu huấn luyện của Flamingo không được công khai, dự án đã huấn luyện bằng bộ dữ liệu Multimodal C4 của LAION-2B và trích xuất 5 triệu mẫu từ tổng số 10 triệu mẫu

(laion.ai)

11 điểm bởi xguru 2023-03-31 | 1 bình luận | Chia sẻ qua WhatsApp

Hướng tới việc phát triển một hệ thống đa phương thức có thể xử lý đồng thời đầu vào hình ảnh/văn bản như GPT-4
Để làm điều đó, dự án hiện thực hóa dưới dạng mã nguồn mở mô hình Flamingo của DeepMind, một LMM (Large Multimodal Model) có thể xử lý và suy luận trên hình ảnh/video/văn bản
Những thành phần có trong bản phát hành đầu tiên
- Framework Python để huấn luyện LMM theo phong cách Flamingo
- Bộ dữ liệu đa phương thức quy mô lớn với hình ảnh/văn bản được xen kẽ
- Bộ benchmark đánh giá học trong ngữ cảnh cho các tác vụ thị giác-ngôn ngữ
- Mô hình OpenFlamingo-9B dựa trên LLaMA
Vì bộ dữ liệu huấn luyện của Flamingo không được công khai, dự án đã huấn luyện bằng bộ dữ liệu Multimodal C4 của LAION-2B và trích xuất 5 triệu mẫu từ tổng số 10 triệu mẫu

1 bình luận

xguru 2023-03-31

Flamingo: Mô hình ngôn ngữ thị giác cho học few-shot

OpenFlamingo - framework mã nguồn mở để huấn luyện/đánh giá mô hình đa phương thức quy mô lớn (LMM)

Bài viết liên quan

1 bình luận