5 điểm bởi GN⁺ 2024-12-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • Đội ngũ Alibaba Qwen đã công bố mô hình suy luận trực quan mới QvQ-72B-Preview
    • Nhận đầu vào ảnh và lời nhắc để thực hiện suy luận chi tiết
    • Ban đầu được ghi là Apache 2.0, nhưng hiện tại đã chuyển sang giấy phép Qwen
  • Sự khác biệt với mô hình trước đó là QwQ
    • QwQ tập trung vào suy luận dựa trên văn bản và được thiết kế với cơ chế "phản ánh ranh giới của suy nghĩ"
    • QvQ bổ sung đầu vào trực quan vào đó để thực hiện phân tích sâu sắc dựa trên hình ảnh

Trường hợp sử dụng và thử nghiệm QvQ

  • QvQ có thể sử dụng trên Hugging Face Spaces
    • Khi nhập ảnh và một lời nhắc duy nhất, nó tạo ra phản hồi rất dài và không thể thêm lời nhắc bổ sung
    • Mô hình phân tích ảnh đầu vào và giải thích quá trình suy luận theo trình tự
  • Kết quả thử nghiệm
    • Đếm chim cánh cụt: Sử dụng lời nhắc "Count the pelicans" để đếm số chim cánh cụt trong ảnh
      • Đã đếm chính xác tổng cộng 4 con chim cánh cụt và loại trừ các chú chim chỉ lộ một phần
      • Suy luận được giải thích bằng giọng điệu thân thiện, gần gũi, mang tính đối thoại
    • Câu đố ARC-AGI: Thử thách giải các bài toán phức tạp, nhưng không đưa ra được kết quả chính xác
      • Đề xuất các cách tiếp cận độc đáo như cellular automata
    • Ước lượng chiều cao khủng long (rồng): Thử ước tính chiều cao của rồng mà không có vật tham chiếu tương ứng
      • Đưa ra đề xuất khoảng 8~9 foot, cho thấy khả năng quan sát tinh vi

Cách chạy mô hình QvQ

  • Môi trường triển khai

  • Chạy cục bộ

    • Prince Canuma đã chuyển đổi mô hình cho framework Apple MLX và có thể chạy qua gói mlx-vlm
    • Đã chạy thành công trên macOS M2 với 64GB RAM bằng phiên bản lượng tử hóa 4-bit
      • Lệnh chạy:
        uv run --with 'numpy<2.0' --with mlx-vlm python \
          -m mlx_vlm.generate \
          --model mlx-community/QVQ-72B-Preview-4bit \
          --max-tokens 10000 \
          --temp 0.0 \
          --prompt "describe this" \
          --image pelicans-on-bicycles-veo2.jpg
        

Thay đổi giấy phép của QvQ

  • Giấy phép của QvQ đã chuyển từ Apache 2.0 sang giấy phép Qwen
    • Có vẻ như đây là lần sửa lỗi ban đầu
  • Mô hình QwQ vẫn duy trì giấy phép Apache 2.0
    • Xác nhận chính sách giấy phép khác biệt giữa hai mô hình

Kết luận

  • QvQ là một mô hình suy luận trực quan mạnh mẽ kết hợp hình ảnh và văn bản, tạo ra kết quả đáng chú ý trong nhiều thí nghiệm khác nhau
  • Mong đợi các bản cập nhật tiếp theo và tiềm năng ứng dụng mở rộng trong tương lai

1 bình luận

 
GN⁺ 2024-12-26
Bình luận trên Hacker News
  • Chia sẻ cách phân tích ảnh khi chạy mô hình QVQ-72B-Preview-4bit trên máy tính xách tay M2 64GB

    • Đã dùng lệnh uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
    • Kết quả có thể xem tại đây
  • Mô hình này khá thú vị

    • Nếu tải ảnh lên và đặt câu hỏi như "nói ra suy nghĩ của bạn khi nhìn bức ảnh này" thì có thể nhận được những kết quả thú vị
    • Chẳng hạn, khi nhìn một bức ảnh sandwich, nó đưa ra mô tả chi tiết và tưởng tượng về hương vị
  • Đã thử mô hình với bài đố tìm từ, nhưng QvQ không vượt qua được

    • Bản phát hành Gemini của AI Studio ban đầu cũng thất bại, nhưng sau vài lần thử thì tìm thấy từ thành công
    • Việc tạo chương trình để giải bài toán cho kết quả tốt hơn so với yêu cầu đưa ra lời giải trực tiếp
  • Khi nhập ảnh nổi tiếng "Tank Man", mô hình trả về phản hồi trống

  • Dữ liệu để hỏi theo kiểu "nói ra suy nghĩ khi nhìn ảnh" theo bình luận là PixMo

    • Có thể QvQ cũng được huấn luyện theo cách tương tự
  • Hỏi xem mô hình Q* có phải mã nguồn mở không

    • Khi được hỏi về lời khuyên hành vi trước bậc quyền lực, nó khuyên nên tuân thủ rất chặt
  • Phản hồi khi đếm số lượng trong ảnh chim hải âu là rất thú vị

    • Mang cảm giác thoải mái hơn, khác với GPT-4
  • Có thảo luận về vấn đề giấy phép của mô hình QvQ-72B-Preview

    • Có sự nhầm lẫn giữa giấy phép Apache 2.0 và giấy phép của Qwen
  • Mô hình QvQ thể hiện khả năng tốt trong việc phân tích ảnh người nổi tiếng, chó và truyện biếm họa The New Yorker

  • Nó cũng có thể xử lý hình ảnh chứa phương trình toán