2 điểm bởi GN⁺ 2024-07-11 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ thị giác không xử lý tốt các tác vụ thị giác

Tóm tắt

  • Mô hình ngôn ngữ thị giác (VLM) cho thấy hiệu năng cao trong các ứng dụng xử lý hình ảnh-văn bản, nhưng lại thất bại ở 7 tác vụ thị giác rất dễ đối với con người.
  • Nghiên cứu này cho thấy năng lực nhận thức thị giác của VLM bị hạn chế.

Task 1: Tính số giao điểm của đường thẳng

  • Hình ảnh: Tạo 150 biểu đồ đường 2D gồm hai đoạn thẳng cắt nhau
  • Câu hỏi: "Đường màu xanh và đỏ cắt nhau bao nhiêu lần?"
  • Kết quả: Các mô hình không thể tính chính xác số giao điểm

Task 2: Hai hình tròn

  • Hình ảnh: Tạo 672 hình ảnh chứa hai hình tròn với kích thước, khoảng cách và hướng khác nhau
  • Câu hỏi: "Hai hình tròn có chạm nhau không?" hoặc "Hai hình tròn có chồng lấp nhau không?"
  • Kết quả: Các mô hình thất bại một cách nhất quán ở khoảng cách nhỏ

Task 3: Ký tự được khoanh tròn

  • Hình ảnh: Tạo hình ảnh trong đó mỗi ký tự của từ được khoanh bằng vòng tròn màu đỏ
  • Câu hỏi: "Ký tự nào được khoanh tròn?"
  • Kết quả: Các mô hình có xu hướng dự đoán các ký tự liền kề

Task 4: Đếm các hình chồng lấp

  • Hình ảnh: Tạo hình ảnh chứa các hình tròn và ngũ giác chồng lên nhau như logo Olympic
  • Câu hỏi: "Trong hình có bao nhiêu hình?"
  • Kết quả: Các mô hình không thể đếm chính xác số lượng hình

Task 5: Đếm các hình chữ nhật lồng nhau

  • Hình ảnh: Tạo hình ảnh chứa các hình chữ nhật lồng nhau
  • Câu hỏi: "Tổng cộng có bao nhiêu hình chữ nhật trong hình?"
  • Kết quả: Các mô hình không thể đếm chính xác số hình chữ nhật lồng nhau

Task 6: Đếm số hàng và cột của lưới

  • Hình ảnh: Tạo hình ảnh chứa lưới có văn bản và lưới trống
  • Câu hỏi: "Lưới có bao nhiêu hàng và cột?"
  • Kết quả: Hiệu năng được cải thiện ở lưới có văn bản, nhưng thất bại với lưới trống

Task 7: Lần theo đường đi cùng một màu

  • Hình ảnh: Tạo hình ảnh chứa sơ đồ tuyến tàu điện ngầm
  • Câu hỏi: "Có bao nhiêu đường đi cùng một màu từ A đến C?"
  • Kết quả: Các mô hình không thể tính chính xác số đường đi

Tóm tắt của GN⁺

  • Nghiên cứu này cho thấy năng lực nhận thức thị giác của mô hình ngôn ngữ thị giác (VLM) còn hạn chế.
  • VLM liên tục thất bại ở các tác vụ thị giác dễ đối với con người.
  • Điều này cho thấy cần có thêm nghiên cứu để cải thiện năng lực nhận thức thị giác của VLM.
  • Những dự án khác có chức năng tương tự bao gồm GPT-4 của OpenAI và Gemini-1.5 Pro của Google.

1 bình luận

 
GN⁺ 2024-07-11
Ý kiến Hacker News
  • Tôi nghĩ kết luận là sai

    • Phép ví von "tầm nhìn của người bị cận" là cách nói cường điệu
    • Có những ví dụ cho thấy GPT-4v thực hiện tốt các tác vụ thị giác chi tiết
    • Các mô hình GenAI lớn cho hiệu năng tốt khi được huấn luyện trên nhiều dữ liệu
    • Bằng chứng mà các tác giả đưa ra là chưa đủ
  • Chia sẻ trải nghiệm về Captcha

    • GPT-4o đã giúp giải bài toán về cửa gara
    • Nó đã xác định được lỗi lắp đặt trong ảnh, nhưng bỏ sót một con đai ốc bị thiếu
  • Vấn đề của VLM trong việc đếm số lượng đối tượng và nhận biết quan hệ không gian

    • Set of Marks của Microsoft có thể hữu ích
    • Việc cung cấp các nhãn "có thể gọi tên" góp phần cải thiện hiệu năng
  • Phê bình hiệu năng của các mô hình SOTA hiện tại

    • Thất bại ở những tác vụ vốn dễ với con người
    • Ví dụ: đếm số lần các đường cắt nhau, phát hiện các hình tròn chồng lấp, v.v.
  • Ý kiến về cách VLM xử lý hình ảnh

    • Con người có thể tập trung vào vùng cần chú ý, nhưng VLM xử lý toàn bộ ảnh ở cùng một độ phân giải
    • Thắc mắc về cách huấn luyện mô hình bằng dữ liệu tương tác
  • Tôi cho rằng tiêu đề "Vision language models are blind" là cường điệu

    • Cách VLM xử lý đầu vào hình ảnh là khác biệt
    • Chúng có thể bỏ lỡ chi tiết ở độ phân giải thấp
    • Ví dụ, câu trả lời của Sonnet 3.5 nhìn chung là chính xác, nhưng vẫn có một số lỗi
  • Hiểu về cách mô hình diễn giải dữ liệu đầu vào

    • LLM và mô hình đa phương thức thiếu khả năng suy luận cụ thể
    • Ví dụ: ChatGPT tóm tắt văn bản tốt, nhưng đếm số từ thì không giỏi
    • Vấn đề cốt lõi của phát triển AGI là kết hợp trí tuệ cấp cao và cấp thấp
  • Ý kiến về trình độ của GPT-4

    • Trích dẫn phát biểu của Mira Murati rằng GPT-4 ở mức trung học phổ thông
  • AI gặp khó khi đọc hình ảnh lịch học ở trường

    • Khi được hỏi về một ngày cụ thể, có cái trả lời đúng nhưng có cái bỏ sót hoặc tự bịa ra ngày mới
    • Nếu loại bỏ nhiễu thì hiệu năng có cải thiện đôi chút, nhưng vẫn không đáng tin cậy