11 điểm bởi xguru 2023-03-31 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hướng tới việc phát triển một hệ thống đa phương thức có thể xử lý đồng thời đầu vào hình ảnh/văn bản như GPT-4
  • Để làm điều đó, dự án hiện thực hóa dưới dạng mã nguồn mở mô hình Flamingo của DeepMind, một LMM (Large Multimodal Model) có thể xử lý và suy luận trên hình ảnh/video/văn bản
  • Những thành phần có trong bản phát hành đầu tiên
    • Framework Python để huấn luyện LMM theo phong cách Flamingo
    • Bộ dữ liệu đa phương thức quy mô lớn với hình ảnh/văn bản được xen kẽ
    • Bộ benchmark đánh giá học trong ngữ cảnh cho các tác vụ thị giác-ngôn ngữ
    • Mô hình OpenFlamingo-9B dựa trên LLaMA
  • Vì bộ dữ liệu huấn luyện của Flamingo không được công khai, dự án đã huấn luyện bằng bộ dữ liệu Multimodal C4 của LAION-2B và trích xuất 5 triệu mẫu từ tổng số 10 triệu mẫu