Đánh giá mô hình suy luận trực quan mới QvQ của Qwen

(simonwillison.net)

5 điểm bởi GN⁺ 2024-12-26 | 1 bình luận | Chia sẻ qua WhatsApp

Đội ngũ Alibaba Qwen đã công bố mô hình suy luận trực quan mới QvQ-72B-Preview
- Nhận đầu vào ảnh và lời nhắc để thực hiện suy luận chi tiết
- Ban đầu được ghi là Apache 2.0, nhưng hiện tại đã chuyển sang giấy phép Qwen
Sự khác biệt với mô hình trước đó là QwQ
- QwQ tập trung vào suy luận dựa trên văn bản và được thiết kế với cơ chế "phản ánh ranh giới của suy nghĩ"
- QvQ bổ sung đầu vào trực quan vào đó để thực hiện phân tích sâu sắc dựa trên hình ảnh

Trường hợp sử dụng và thử nghiệm QvQ

QvQ có thể sử dụng trên Hugging Face Spaces
- Khi nhập ảnh và một lời nhắc duy nhất, nó tạo ra phản hồi rất dài và không thể thêm lời nhắc bổ sung
- Mô hình phân tích ảnh đầu vào và giải thích quá trình suy luận theo trình tự
Kết quả thử nghiệm
- Đếm chim cánh cụt: Sử dụng lời nhắc "Count the pelicans" để đếm số chim cánh cụt trong ảnh
  - Đã đếm chính xác tổng cộng 4 con chim cánh cụt và loại trừ các chú chim chỉ lộ một phần
  - Suy luận được giải thích bằng giọng điệu thân thiện, gần gũi, mang tính đối thoại
- Câu đố ARC-AGI: Thử thách giải các bài toán phức tạp, nhưng không đưa ra được kết quả chính xác
  - Đề xuất các cách tiếp cận độc đáo như cellular automata
- Ước lượng chiều cao khủng long (rồng): Thử ước tính chiều cao của rồng mà không có vật tham chiếu tương ứng
  - Đưa ra đề xuất khoảng 8~9 foot, cho thấy khả năng quan sát tinh vi

Cách chạy mô hình QvQ

Môi trường triển khai
- Có thể kiểm tra trên Hugging Face Spaces với trọng số mô hình GPU
- Chạy bằng cách sử dụng package Python qwen-vl-utils
Chạy cục bộ
- Prince Canuma đã chuyển đổi mô hình cho framework Apple MLX và có thể chạy qua gói mlx-vlm
- Đã chạy thành công trên macOS M2 với 64GB RAM bằng phiên bản lượng tử hóa 4-bit
  - Lệnh chạy:
```
uv run --with 'numpy<2.0' --with mlx-vlm python \
  -m mlx_vlm.generate \
  --model mlx-community/QVQ-72B-Preview-4bit \
  --max-tokens 10000 \
  --temp 0.0 \
  --prompt "describe this" \
  --image pelicans-on-bicycles-veo2.jpg
```

Thay đổi giấy phép của QvQ

Giấy phép của QvQ đã chuyển từ Apache 2.0 sang giấy phép Qwen
- Có vẻ như đây là lần sửa lỗi ban đầu
Mô hình QwQ vẫn duy trì giấy phép Apache 2.0
- Xác nhận chính sách giấy phép khác biệt giữa hai mô hình

Kết luận

QvQ là một mô hình suy luận trực quan mạnh mẽ kết hợp hình ảnh và văn bản, tạo ra kết quả đáng chú ý trong nhiều thí nghiệm khác nhau
Mong đợi các bản cập nhật tiếp theo và tiềm năng ứng dụng mở rộng trong tương lai

1 bình luận

GN⁺ 2024-12-26

Bình luận trên Hacker News

Chia sẻ cách phân tích ảnh khi chạy mô hình QVQ-72B-Preview-4bit trên máy tính xách tay M2 64GB
- Đã dùng lệnh uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
- Kết quả có thể xem tại đây
Mô hình này khá thú vị
- Nếu tải ảnh lên và đặt câu hỏi như "nói ra suy nghĩ của bạn khi nhìn bức ảnh này" thì có thể nhận được những kết quả thú vị
- Chẳng hạn, khi nhìn một bức ảnh sandwich, nó đưa ra mô tả chi tiết và tưởng tượng về hương vị
Đã thử mô hình với bài đố tìm từ, nhưng QvQ không vượt qua được
- Bản phát hành Gemini của AI Studio ban đầu cũng thất bại, nhưng sau vài lần thử thì tìm thấy từ thành công
- Việc tạo chương trình để giải bài toán cho kết quả tốt hơn so với yêu cầu đưa ra lời giải trực tiếp
Khi nhập ảnh nổi tiếng "Tank Man", mô hình trả về phản hồi trống
Dữ liệu để hỏi theo kiểu "nói ra suy nghĩ khi nhìn ảnh" theo bình luận là PixMo
- Có thể QvQ cũng được huấn luyện theo cách tương tự
Hỏi xem mô hình Q* có phải mã nguồn mở không
- Khi được hỏi về lời khuyên hành vi trước bậc quyền lực, nó khuyên nên tuân thủ rất chặt
Phản hồi khi đếm số lượng trong ảnh chim hải âu là rất thú vị
- Mang cảm giác thoải mái hơn, khác với GPT-4
Có thảo luận về vấn đề giấy phép của mô hình QvQ-72B-Preview
- Có sự nhầm lẫn giữa giấy phép Apache 2.0 và giấy phép của Qwen
Mô hình QvQ thể hiện khả năng tốt trong việc phân tích ảnh người nổi tiếng, chó và truyện biếm họa The New Yorker
Nó cũng có thể xử lý hình ảnh chứa phương trình toán

Đánh giá mô hình suy luận trực quan mới QvQ của Qwen

Trường hợp sử dụng và thử nghiệm QvQ

Cách chạy mô hình QvQ

Thay đổi giấy phép của QvQ

Kết luận

Bài viết liên quan

1 bình luận

Bình luận trên Hacker News