Mô hình ngôn ngữ thị giác không xử lý tốt các tác vụ thị giác
Tóm tắt
- Mô hình ngôn ngữ thị giác (VLM) cho thấy hiệu năng cao trong các ứng dụng xử lý hình ảnh-văn bản, nhưng lại thất bại ở 7 tác vụ thị giác rất dễ đối với con người.
- Nghiên cứu này cho thấy năng lực nhận thức thị giác của VLM bị hạn chế.
Task 1: Tính số giao điểm của đường thẳng
- Hình ảnh: Tạo 150 biểu đồ đường 2D gồm hai đoạn thẳng cắt nhau
- Câu hỏi: "Đường màu xanh và đỏ cắt nhau bao nhiêu lần?"
- Kết quả: Các mô hình không thể tính chính xác số giao điểm
Task 2: Hai hình tròn
- Hình ảnh: Tạo 672 hình ảnh chứa hai hình tròn với kích thước, khoảng cách và hướng khác nhau
- Câu hỏi: "Hai hình tròn có chạm nhau không?" hoặc "Hai hình tròn có chồng lấp nhau không?"
- Kết quả: Các mô hình thất bại một cách nhất quán ở khoảng cách nhỏ
Task 3: Ký tự được khoanh tròn
- Hình ảnh: Tạo hình ảnh trong đó mỗi ký tự của từ được khoanh bằng vòng tròn màu đỏ
- Câu hỏi: "Ký tự nào được khoanh tròn?"
- Kết quả: Các mô hình có xu hướng dự đoán các ký tự liền kề
Task 4: Đếm các hình chồng lấp
- Hình ảnh: Tạo hình ảnh chứa các hình tròn và ngũ giác chồng lên nhau như logo Olympic
- Câu hỏi: "Trong hình có bao nhiêu hình?"
- Kết quả: Các mô hình không thể đếm chính xác số lượng hình
Task 5: Đếm các hình chữ nhật lồng nhau
- Hình ảnh: Tạo hình ảnh chứa các hình chữ nhật lồng nhau
- Câu hỏi: "Tổng cộng có bao nhiêu hình chữ nhật trong hình?"
- Kết quả: Các mô hình không thể đếm chính xác số hình chữ nhật lồng nhau
Task 6: Đếm số hàng và cột của lưới
- Hình ảnh: Tạo hình ảnh chứa lưới có văn bản và lưới trống
- Câu hỏi: "Lưới có bao nhiêu hàng và cột?"
- Kết quả: Hiệu năng được cải thiện ở lưới có văn bản, nhưng thất bại với lưới trống
Task 7: Lần theo đường đi cùng một màu
- Hình ảnh: Tạo hình ảnh chứa sơ đồ tuyến tàu điện ngầm
- Câu hỏi: "Có bao nhiêu đường đi cùng một màu từ A đến C?"
- Kết quả: Các mô hình không thể tính chính xác số đường đi
Tóm tắt của GN⁺
- Nghiên cứu này cho thấy năng lực nhận thức thị giác của mô hình ngôn ngữ thị giác (VLM) còn hạn chế.
- VLM liên tục thất bại ở các tác vụ thị giác dễ đối với con người.
- Điều này cho thấy cần có thêm nghiên cứu để cải thiện năng lực nhận thức thị giác của VLM.
- Những dự án khác có chức năng tương tự bao gồm GPT-4 của OpenAI và Gemini-1.5 Pro của Google.
1 bình luận
Ý kiến Hacker News
Tôi nghĩ kết luận là sai
Chia sẻ trải nghiệm về Captcha
Vấn đề của VLM trong việc đếm số lượng đối tượng và nhận biết quan hệ không gian
Phê bình hiệu năng của các mô hình SOTA hiện tại
Ý kiến về cách VLM xử lý hình ảnh
Tôi cho rằng tiêu đề "Vision language models are blind" là cường điệu
Hiểu về cách mô hình diễn giải dữ liệu đầu vào
Ý kiến về trình độ của GPT-4
AI gặp khó khi đọc hình ảnh lịch học ở trường