- Repo chính thức của "FastVLM: Efficient Vision Encoding for Vision Language Models" mà Apple công bố tại CVPR 2025
- FastViTHD cho thấy hiệu năng giảm số lượng token và rút ngắn thời gian mã hóa ảnh độ phân giải cao
- Mô hình nhỏ nhất đạt kết quả nhanh hơn 85 lần so với LLaVA-OneVision-0.5B và có kích thước bộ mã hóa nhỏ hơn 3,4 lần
- Mô hình lớn cho thấy hiệu năng vượt trội và tốc độ nhanh hơn 7,9 lần so với Cambrian-1-8B
- Có cung cấp ứng dụng demo chạy trên thiết bị di động như iPhone
Ý nghĩa và ưu điểm của dự án FastVLM
- FastVLM là bản triển khai mã nguồn mở chính thức cho mô hình ngôn ngữ-thị giác (Vision Language Model, VLM)
- So với các bộ mã hóa thị giác hiện có, nó mang lại lợi thế nổi bật về tốc độ và hiệu quả
- Có tính ứng dụng cao trên nhiều loại phần cứng, đặc biệt là Apple Silicon và môi trường di động
- Có thể trực tiếp chọn và sử dụng các mô hình pretrain với nhiều kích thước và mức hiệu năng khác nhau
- Với kích thước mô hình nhỏ hơn so với các dự án khác, nó đảm bảo phản hồi thời gian thực được tối ưu và yêu cầu ít tài nguyên phần cứng hơn
Tính năng chính
- FastViTHD là một bộ mã hóa thị giác đột phá với kiến trúc lai, giúp giảm số lượng token đầu ra và rút ngắn đáng kể thời gian mã hóa ảnh độ phân giải cao
- Mô hình nhỏ nhất FastVLM-0.5B có TTFT (thời gian tạo token đầu tiên) nhanh hơn 85 lần so với LLaVA-OneVision-0.5B và kích thước bộ mã hóa nhỏ hơn 3,4 lần
- Mô hình lớn FastVLM-7B kết hợp với Qwen2-7B LLM cho TTFT nhanh hơn 7,9 lần và hiệu năng vượt trội với một bộ mã hóa ảnh đơn khi so sánh với các SOTA gần đây như Cambrian-1-8B
- Thậm chí còn đi kèm ứng dụng demo chạy trong môi trường di động thực tế (iOS), cho phép kiểm chứng ngay khả năng ứng dụng của công nghệ
Thông tin mô hình (Model Zoo)
- Các mô hình FastVLM với nhiều kích thước khác nhau (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) được cung cấp ở phiên bản giai đoạn 2 và giai đoạn 3
- Mỗi mô hình đều được cung cấp chính thức dưới dạng tệp checkpoint PyTorch
- Người dùng có thể dùng các lệnh được cung cấp chính thức để tải hàng loạt nhiều mô hình vào thư mục
checkpoints
Ví dụ sử dụng (Usage Example)
- Có thể dễ dàng và nhanh chóng thử suy luận với checkpoint PyTorch đã được huấn luyện sẵn bằng script predict.py
- Thông qua lệnh ví dụ, khi nhập ảnh và đưa ra prompt (câu hỏi), có thể nhận được phần mô tả về ảnh hoặc câu trả lời cho câu hỏi đó
Hỗ trợ Apple Silicon và thiết bị di động
- Có hướng dẫn giải thích quy trình xuất mô hình và lượng tử hóa riêng để suy luận trên Apple Silicon
- Các tệp checkpoint phiên bản được tối ưu trực tiếp cho Apple Silicon cũng được phát hành chính thức
- Hướng dẫn phát triển ứng dụng và mã nguồn có thể dùng ngay trên iPhone, iPad, Mac... được giới thiệu trong thư mục
/app
Thông tin thêm và hướng dẫn mã nguồn mở
- Có cung cấp liên kết arXiv chính thức của bài báo FastVLM và định dạng trích dẫn cho bài báo hội nghị CVPR 2025
- Codebase được xây dựng dựa trên nhiều dự án mã nguồn mở, đồng thời có hướng dẫn riêng về phần đóng góp và thông tin giấy phép
- Trước khi sử dụng mô hình và mã nguồn, cần обязательно kiểm tra giấy phép (tệp giấy phép và giấy phép mô hình)
1 bình luận
Ý kiến trên Hacker News