Ferret - Mô hình LLM đa phương thức của Apple

xguru · 2023-12-28T11:21:02+09:00

MLLM (Multimodal Large Language Model) Hiểu mọi dạng hình và các tham chiếu không gian chi tiết bên trong hình ảnh Đóng góp chính Mô hình Ferret: biểu diễn vùng lai + bộ lấy mẫu thị giác nhận biết không gian Bộ dữ liệu GRIT: bộ dữ liệu tinh chỉnh theo chỉ dẫn quy mô lớn, phân cấp và vững chắc. Bao gồm 1,1 triệu mẫu và 950 nghìn dữ liệu hard negative Ferret Bench: benchmark đánh giá đa phương thức (đòi hỏi kết hợp Referring/Grounding + Semantics + Knowledge + Reasoning)

(github.com/apple)

13 điểm bởi xguru 2023-12-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

MLLM (Multimodal Large Language Model)
- Hiểu mọi dạng hình và các tham chiếu không gian chi tiết bên trong hình ảnh
Đóng góp chính
- Mô hình Ferret: biểu diễn vùng lai + bộ lấy mẫu thị giác nhận biết không gian
- Bộ dữ liệu GRIT: bộ dữ liệu tinh chỉnh theo chỉ dẫn quy mô lớn, phân cấp và vững chắc. Bao gồm 1,1 triệu mẫu và 950 nghìn dữ liệu hard negative
- Ferret Bench: benchmark đánh giá đa phương thức (đòi hỏi kết hợp Referring/Grounding + Semantics + Knowledge + Reasoning)

Ferret - Mô hình LLM đa phương thức của Apple

Bài viết liên quan

Chưa có bình luận nào.