13 điểm bởi xguru 2023-12-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • MLLM (Multimodal Large Language Model)
    • Hiểu mọi dạng hình và các tham chiếu không gian chi tiết bên trong hình ảnh
  • Đóng góp chính
    • Mô hình Ferret: biểu diễn vùng lai + bộ lấy mẫu thị giác nhận biết không gian
    • Bộ dữ liệu GRIT: bộ dữ liệu tinh chỉnh theo chỉ dẫn quy mô lớn, phân cấp và vững chắc. Bao gồm 1,1 triệu mẫu và 950 nghìn dữ liệu hard negative
    • Ferret Bench: benchmark đánh giá đa phương thức (đòi hỏi kết hợp Referring/Grounding + Semantics + Knowledge + Reasoning)

Chưa có bình luận nào.

Chưa có bình luận nào.