Ferret - Mô hình LLM đa phương thức của Apple
(github.com/apple)- MLLM (Multimodal Large Language Model)
- Hiểu mọi dạng hình và các tham chiếu không gian chi tiết bên trong hình ảnh
- Đóng góp chính
- Mô hình Ferret: biểu diễn vùng lai + bộ lấy mẫu thị giác nhận biết không gian
- Bộ dữ liệu GRIT: bộ dữ liệu tinh chỉnh theo chỉ dẫn quy mô lớn, phân cấp và vững chắc. Bao gồm 1,1 triệu mẫu và 950 nghìn dữ liệu hard negative
- Ferret Bench: benchmark đánh giá đa phương thức (đòi hỏi kết hợp Referring/Grounding + Semantics + Knowledge + Reasoning)
Chưa có bình luận nào.