Tổng quan về mô hình Ferret
- Mô hình Ferret cho phép tham chiếu và định vị chính xác với từ vựng chi tiết, mở thông qua biểu diễn vùng lai và bộ lấy mẫu thị giác nhận biết không gian.
- Bộ dữ liệu GRIT (~1.1M) là bộ dữ liệu tinh chỉnh chỉ thị quy mô lớn, có cấu trúc phân cấp và tính vững chắc cao.
- Ferret-Bench là bộ benchmark đánh giá đa phương thức đồng thời yêu cầu tham chiếu/định vị, ngữ nghĩa, tri thức và suy luận.
Phát hành mô hình Ferret
- [12/14] Phát hành checkpoint 7B, 13B.
- [10/30] Phát hành mô hình FERRET và mã nguồn Ferret-Bench.
- Dữ liệu và mã nguồn chỉ được sử dụng cho mục đích nghiên cứu và tuân theo thỏa thuận cấp phép của LLaMA, Vicuna, GPT-4.
- Bộ dữ liệu áp dụng CC BY NC 4.0 (chỉ cho phép sử dụng phi thương mại), và các mô hình được huấn luyện bằng bộ dữ liệu này không được sử dụng ngoài mục đích nghiên cứu.
Cài đặt và cách sử dụng
- Sao chép kho lưu trữ FERRET, di chuyển vào thư mục tương ứng rồi cài đặt các gói cần thiết.
- Việc cài thêm gói bổ sung là cần thiết cho một số trường hợp huấn luyện cụ thể.
Huấn luyện
- FERRET được huấn luyện trên 8 GPU A100 (mỗi GPU có 80GB bộ nhớ).
- Khi huấn luyện với số lượng GPU ít hơn, cần giảm
per_device_train_batch_size và tăng gradient_accumulation_steps.
- Cần chuẩn bị checkpoint Vicuna và projector của LLaVA.
- Có cung cấp script huấn luyện.
Đánh giá
- Xem tài liệu để biết chi tiết.
Checkpoint
- Trích xuất
delta giữa mô hình tiền huấn luyện và Vicuna.
- Sau khi tải trọng số của Vicuna, tải và áp dụng offset trọng số đã được chuẩn bị sẵn.
Demo
- Sau khi huấn luyện FERRET, chạy demo cục bộ bằng checkpoint.
- Sử dụng Gradio web UI.
- Chạy lần lượt controller, máy chủ web Gradio và model worker.
Trích dẫn
- Nếu bạn thấy Ferret hữu ích, hãy trích dẫn bằng BibTeX sau.
Lời cảm ơn
- LLaVA: codebase nền tảng.
- Vicuna: codebase LLM.
Ý kiến của GN⁺
- Công nghệ đột phá: Mô hình Ferret đưa ra công nghệ đột phá cho phép tham chiếu và định vị chi tiết bằng cách sử dụng từ vựng đa dạng.
- Tầm quan trọng của nghiên cứu: Mô hình và bộ dữ liệu này là nguồn tài nguyên quan trọng có thể thúc đẩy nghiên cứu về các tác vụ tham chiếu và định vị trong lĩnh vực trí tuệ nhân tạo.
- Khả năng ứng dụng đa dạng: Công nghệ này có thể được ứng dụng trong nhiều chương trình kết hợp hình ảnh và văn bản, từ đó nâng tầm khả năng hiểu thị giác và tương tác của trí tuệ nhân tạo.
Chưa có bình luận nào.