Đánh giá mô hình suy luận trực quan mới QvQ của Qwen
(simonwillison.net)- Đội ngũ Alibaba Qwen đã công bố mô hình suy luận trực quan mới QvQ-72B-Preview
- Nhận đầu vào ảnh và lời nhắc để thực hiện suy luận chi tiết
- Ban đầu được ghi là Apache 2.0, nhưng hiện tại đã chuyển sang giấy phép Qwen
- Sự khác biệt với mô hình trước đó là QwQ
- QwQ tập trung vào suy luận dựa trên văn bản và được thiết kế với cơ chế "phản ánh ranh giới của suy nghĩ"
- QvQ bổ sung đầu vào trực quan vào đó để thực hiện phân tích sâu sắc dựa trên hình ảnh
Trường hợp sử dụng và thử nghiệm QvQ
- QvQ có thể sử dụng trên Hugging Face Spaces
- Khi nhập ảnh và một lời nhắc duy nhất, nó tạo ra phản hồi rất dài và không thể thêm lời nhắc bổ sung
- Mô hình phân tích ảnh đầu vào và giải thích quá trình suy luận theo trình tự
- Kết quả thử nghiệm
- Đếm chim cánh cụt: Sử dụng lời nhắc "Count the pelicans" để đếm số chim cánh cụt trong ảnh
- Đã đếm chính xác tổng cộng 4 con chim cánh cụt và loại trừ các chú chim chỉ lộ một phần
- Suy luận được giải thích bằng giọng điệu thân thiện, gần gũi, mang tính đối thoại
- Câu đố ARC-AGI: Thử thách giải các bài toán phức tạp, nhưng không đưa ra được kết quả chính xác
- Đề xuất các cách tiếp cận độc đáo như cellular automata
- Ước lượng chiều cao khủng long (rồng): Thử ước tính chiều cao của rồng mà không có vật tham chiếu tương ứng
- Đưa ra đề xuất khoảng 8~9 foot, cho thấy khả năng quan sát tinh vi
- Đếm chim cánh cụt: Sử dụng lời nhắc "Count the pelicans" để đếm số chim cánh cụt trong ảnh
Cách chạy mô hình QvQ
-
Môi trường triển khai
- Có thể kiểm tra trên Hugging Face Spaces với trọng số mô hình GPU
- Chạy bằng cách sử dụng package Python qwen-vl-utils
-
Chạy cục bộ
- Prince Canuma đã chuyển đổi mô hình cho framework Apple MLX và có thể chạy qua gói mlx-vlm
- Đã chạy thành công trên macOS M2 với 64GB RAM bằng phiên bản lượng tử hóa 4-bit
- Lệnh chạy:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- Lệnh chạy:
Thay đổi giấy phép của QvQ
- Giấy phép của QvQ đã chuyển từ Apache 2.0 sang giấy phép Qwen
- Có vẻ như đây là lần sửa lỗi ban đầu
- Mô hình QwQ vẫn duy trì giấy phép Apache 2.0
- Xác nhận chính sách giấy phép khác biệt giữa hai mô hình
Kết luận
- QvQ là một mô hình suy luận trực quan mạnh mẽ kết hợp hình ảnh và văn bản, tạo ra kết quả đáng chú ý trong nhiều thí nghiệm khác nhau
- Mong đợi các bản cập nhật tiếp theo và tiềm năng ứng dụng mở rộng trong tương lai
1 bình luận
Bình luận trên Hacker News
Chia sẻ cách phân tích ảnh khi chạy mô hình QVQ-72B-Preview-4bit trên máy tính xách tay M2 64GB
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgMô hình này khá thú vị
Đã thử mô hình với bài đố tìm từ, nhưng QvQ không vượt qua được
Khi nhập ảnh nổi tiếng "Tank Man", mô hình trả về phản hồi trống
Dữ liệu để hỏi theo kiểu "nói ra suy nghĩ khi nhìn ảnh" theo bình luận là PixMo
Hỏi xem mô hình Q* có phải mã nguồn mở không
Phản hồi khi đếm số lượng trong ảnh chim hải âu là rất thú vị
Có thảo luận về vấn đề giấy phép của mô hình QvQ-72B-Preview
Mô hình QvQ thể hiện khả năng tốt trong việc phân tích ảnh người nổi tiếng, chó và truyện biếm họa The New Yorker
Nó cũng có thể xử lý hình ảnh chứa phương trình toán