[Bản dịch] VLMs are blind: Nghiên cứu về những tác vụ thị giác mà mô hình thị giác-ngôn ngữ thất bại (dù rất dễ với con người) (feat. BlindTest)

(discuss.pytorch.kr)

8 điểm bởi ninebow 2024-07-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Giới thiệu bài báo VLMs (Vision-Language Models) are Blind

Trong 8 tháng gần đây, cùng với sự xuất hiện của các mô hình thị giác-ngôn ngữ (VLM) như GPT-4V(ision), các ứng dụng xử lý hình ảnh-văn bản đã bùng nổ mạnh mẽ. VLM (Vision-Language Model, mô hình thị giác-ngôn ngữ) có thể nhận diện chính xác các đối tượng trong cảnh và thực hiện các tác vụ phức tạp dựa trên đó. Ví dụ, tính chi phí của các cốc bia trên bàn dựa vào hình ảnh khung cảnh và hình ảnh menu. Tuy nhiên, VLM cũng bộc lộ những giới hạn đáng kinh ngạc ở một số tác vụ nhất định, từ đó đặt ra câu hỏi liệu chúng có thực sự nhận thức hình ảnh theo cách con người làm hay không. Để đánh giá những giới hạn này, bài báo đề xuất BlindTest, một bộ gồm 7 tác vụ thị giác. BlindTest bao gồm những tác vụ rất dễ với con người, nhưng lại là thử thách lớn đối với các VLM hiện đại.

Vấn đề chính mà bài báo đề cập là khoảng cách giữa năng lực được nhìn nhận của VLM và hiệu năng thực tế của chúng trong các bài toán thị giác cơ bản. Dù VLM đạt kết quả xuất sắc trên các benchmark thị giác cấp cao, chúng vẫn gặp khó khăn với các tác vụ đơn giản đòi hỏi hiểu biết không gian chính xác và đếm số lượng. Giải quyết vấn đề này là điều thiết yếu để thúc đẩy việc ứng dụng VLM một cách thực tế trong các tình huống đời sống.

Một số VLM được triển khai gần đây tích hợp thị giác và ngôn ngữ từ sớm trong kiến trúc mô hình, cho phép tương tác mượt mà hơn giữa dữ liệu thị giác và dữ liệu văn bản. Một cách tiếp cận khác là kết hợp các thành phần thị giác và ngôn ngữ ở giai đoạn muộn hơn, nhờ đó mạnh về hiểu ngôn ngữ nhưng cho thấy hiệu năng yếu hơn trong nhận thức thị giác. Các benchmark hiện nay đánh giá VLM trên những tác vụ suy luận thị giác phức tạp như MMMU và AI2D, nhưng thường bỏ qua các bài toán thị giác mức thấp.

Bài báo này giới thiệu một benchmark mới mang tên BlindTest để xem xét những giới hạn của các mô hình thị giác-ngôn ngữ (VLM) hiện tại. BlindTest gồm các tác vụ thị giác trực quan và dễ đối với con người, chẳng hạn như kiểm tra xem hai hình tròn có chồng lên nhau hay không, hoặc đếm số lượng hình trong một ảnh.

Mô hình thị giác-ngôn ngữ (VLM, Vision-Language Model)

Các tác giả đã kiểm thử bốn VLM mới nhất: GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet và Claude-3.5 Sonnet. Những mô hình này hiện xếp hạng cao trên các benchmark thị giác đa phương thức gần đây và cho thấy hiệu năng nổi bật trên nhiều chủ đề khác nhau. Chẳng hạn, chúng đạt thành tích tốt trên các benchmark như MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA và EgoSchema. Tuy nhiên, các benchmark hiện có chỉ đo hiệu năng tổng quát của VLM, chứ chưa thể hiện rõ những giới hạn cụ thể của chúng. Vì vậy, nhóm tác giả đã thiết kế một benchmark mới để đánh giá cách VLM phản ứng trước các tác vụ thị giác đơn giản. Benchmark này sử dụng các hình học 2D cơ bản và chỉ yêu cầu lượng kiến thức nền tối thiểu.

Benchmark BlindTest

BlindTest gồm 7 tác vụ thị giác đơn giản, mỗi tác vụ dùng để đánh giá cách VLM thực hiện các nhận thức thị giác cơ bản.

Task 1. Đếm số giao điểm 📈📉

Trong tác vụ này, nhóm nghiên cứu kiểm tra các trường hợp hai hàm tuyến tính 2 đoạn có 0, 1 hoặc 2 giao điểm. Để làm vậy, họ tạo ra 150 ảnh biểu đồ đường 2D. Mỗi biểu đồ đường được xác định bằng ba tọa độ x cố định và các tọa độ y được chọn ngẫu nhiên, rồi được vẽ trên nền trắng. Trong quá trình này, các đường được thiết lập sao cho có chính xác 0, 1 hoặc 2 giao điểm.

Mỗi câu hỏi được đưa ra bằng hai cách diễn đạt khác nhau. Cách thứ nhất là “Biểu đồ đường màu xanh và màu đỏ cắt nhau bao nhiêu lần?(How many times do the blue and red line plots cross each other?)”, và cách thứ hai là “Đường màu xanh và màu đỏ giao nhau bao nhiêu lần?(How many times do the blue and red lines intersect?)”. Mục đích là để đánh giá liệu VLM có nhận ra được những khác biệt tinh tế trong cách diễn đạt và rút ra cùng một ý nghĩa hay không. Sự đa dạng trong cách đặt câu hỏi hữu ích để kiểm tra năng lực hiểu của mô hình từ nhiều góc độ.

Hiệu năng của bốn mô hình trong tác vụ đếm số lần các đường giao nhau như sau: GPT-4o đạt 48.67%, Gemini-1.5 Pro đạt 69.67%, Sonnet-3 đạt 64.00%, và Sonnet-3.5 đạt độ chính xác 77.33%. Điều này cho thấy VLM gặp khó khăn trong việc xác định liệu các đường có giao nhau hay không. Đặc biệt, chênh lệch hiệu năng lớn giữa các mô hình cho thấy khả năng xử lý thị giác của từng mô hình là khác nhau. Kết quả này nhấn mạnh sự cần thiết của các nghiên cứu bổ sung nhằm cải thiện năng lực hiểu thị giác của VLM.

Task 2. Kiểm tra trạng thái của hai hình tròn 🔴🔵

Trong tác vụ này, nhóm nghiên cứu đánh giá xem hai hình tròn tô kín có cùng kích thước có chạm nhau hoặc chồng lên nhau hay không. Để làm vậy, họ tạo ra 672 hình ảnh. Kích thước, khoảng cách và hướng của các hình tròn được thiết lập đa dạng, còn kích thước khung vẽ được đặt ở 384, 769 và 1155 pixel. Đường kính của hình tròn được đặt bằng 1/4, 1/5, 1/6 hoặc 1/7 kích thước khung vẽ, còn khoảng cách và hướng giữa các hình tròn được chọn ngẫu nhiên.

Mỗi câu hỏi được đưa ra bằng hai cách diễn đạt khác nhau. Cách thứ nhất là “Hai hình tròn có chạm nhau không? Hãy trả lời Có/Không.(Are the two circles touching each other? Answer with Yes/No)”, và cách thứ hai là “Hai hình tròn có chồng lên nhau không? Hãy trả lời Có/Không.(Are the two circles overlapping? Answer with Yes/No.)”. Mục đích là để đánh giá liệu mô hình có nhận ra được những khác biệt tinh tế trong cách diễn đạt và rút ra cùng một ý nghĩa hay không. Sự đa dạng trong cách đặt câu hỏi hữu ích để kiểm tra năng lực hiểu của mô hình từ nhiều góc độ.

Hiệu năng của bốn mô hình trong việc xác định hai hình tròn có chạm nhau hay không như sau: GPT-4o đạt trung bình 72.69%, Gemini-1.5 Pro đạt trung bình 92.78%, Sonnet-3 đạt trung bình 84.52%, và Sonnet-3.5 đạt trung bình 91.66%. Điều này cho thấy VLM đã thể hiện một mức hiệu năng nhất định trong việc xác định sự chồng lấp của hai hình tròn, nhưng vẫn cần được cải thiện thêm. Đặc biệt, chênh lệch hiệu năng lớn giữa các mô hình cho thấy khả năng xử lý thị giác của từng mô hình là khác nhau.

Task 3. Xác định ký tự được khoanh tròn 🔤⭕

Trong tác vụ này, nhóm nghiên cứu tạo ra các ảnh trong đó từng ký tự của nhiều chuỗi khác nhau được khoanh tròn theo thứ tự, để đánh giá xem VLM có thể nhận ra ký tự nào đang được đánh dấu bằng hình tròn hay không. Các chuỗi được chọn là Acknowledgement, Subdermatoglyphic và tHyUiKaRbNqWeOpXcZvM, và từng ký tự trong mỗi chuỗi được lần lượt khoanh tròn theo thứ tự. Qua đó, nhóm nghiên cứu đánh giá liệu VLM có thể nhận ra các khoảng cách nhỏ giữa các ký tự hay không.

Tác vụ được hỏi bằng hai prompt khác nhau. Cách thứ nhất là “Ký tự nào đang được khoanh tròn?(Which letter is being circled?)”, và cách thứ hai là “Ký tự nào đang được làm nổi bật bằng một hình oval màu đỏ?(Which character is being highlighted with a red oval?)”. Mục đích là để đánh giá liệu mô hình có nhận ra được những khác biệt tinh tế trong cách diễn đạt và rút ra cùng một ý nghĩa hay không. Sự đa dạng trong cách đặt câu hỏi hữu ích để kiểm tra năng lực hiểu của mô hình từ nhiều góc độ.

Hiệu năng của bốn mô hình trong việc nhận diện ký tự được khoanh tròn như sau: GPT-4o đạt trung bình 70.18%, Gemini-1.5 Pro đạt trung bình 92.81%, Sonnet-3 đạt trung bình 73.34%, và Sonnet-3.5 đạt trung bình 89.22%. Điều này cho thấy VLM gặp khó khăn trong việc nhận diện các ký tự được khoanh tròn.

Nói cách khác, tất cả các VLM đều gặp khó khăn trong việc xác định chính xác ký tự. Đặc biệt, lỗi xảy ra nhiều khi vòng tròn hơi chồng lên ký tự. Điều này cho thấy VLM chưa thể xử lý chính xác thông tin thị giác chi tiết. Đặc biệt, chênh lệch hiệu năng lớn giữa các mô hình cho thấy khả năng xử lý thị giác của từng mô hình là khác nhau.

Task 4. Đếm các hình chồng lấp ∞

Trong tác vụ này, nhóm nghiên cứu thực hiện bài toán đếm số lượng hình tròn chồng lấp như trong logo Olympic. Để làm vậy, họ tạo ra 120 hình ảnh và tiến hành thí nghiệm với cả hình tròn lẫn hình ngũ giác. Mỗi hình ảnh chứa 5, 6, 7, 8 hoặc 9 hình chồng lấp được sắp thành hai hàng, với kích thước và màu sắc của các hình được thiết lập đa dạng.

Trong bài kiểm tra này, người ta hỏi bằng hai prompt. Prompt thứ nhất là "Có bao nhiêu {hình} trong ảnh? Chỉ nhập con số.(How many {shapes} are in the image? Answer with only the number in numerical format)", còn prompt thứ hai là "Hãy đếm số {hình} trong ảnh. Trả lời bằng một con số trong dấu ngoặc nhọn, ví dụ {3}.(Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)". {hình} ở đây có nghĩa là hình tròn hoặc ngũ giác. Mục đích là để đánh giá liệu mô hình có nhận ra những khác biệt tinh vi trong cách diễn đạt và rút ra cùng một ý nghĩa hay không.

Hiệu năng đếm hình chồng lấp của bốn mô hình như sau. GPT-4o đạt độ chính xác 42.50% với hình tròn và 19.16% với ngũ giác, còn Gemini-1.5 Pro đạt 20.83% với hình tròn và 9.16% với ngũ giác. Sonnet-3 đạt 31.66% với hình tròn và 11.66% với ngũ giác, còn Sonnet-3.5 đạt 44.16% với hình tròn và 75.83% với ngũ giác.

Phần lớn mô hình cho kết quả thấp ở tác vụ này. Đặc biệt, khi có 5 hình tròn thì độ chính xác còn cao, nhưng từ mức đó trở lên hiệu năng giảm mạnh. Điều này cho thấy VLM không thể nhận diện chính xác các hình chồng lấp.

Task 5. Đếm các hình vuông lồng nhau 🔳🔲

Trong bài kiểm tra này, ảnh được tạo ra bằng cách chồng nhiều lớp hình vuông. Mỗi ảnh chứa các hình vuông với kích thước khác nhau, và kích thước cùng vị trí của chúng được đặt ngẫu nhiên. Mỗi ảnh chứa một số lượng hình vuông lồng nhau nhất định, và số lượng hình vuông là một trong các giá trị 2, 3, 4, 5. Mục tiêu là đánh giá liệu VLM có thể đếm chính xác số lượng hình chồng lấp hay không.

Trong bài kiểm tra này, câu hỏi được dùng là "Hãy đếm tổng số hình vuông trong ảnh.(Count the total number of squares in the image)". Mục đích là để đánh giá liệu VLM có thể đếm chính xác số lượng hình chồng lấp hay không. Đồng thời, đây cũng là để kiểm tra liệu mô hình có nhận ra những khác biệt tinh vi trong cách diễn đạt và rút ra cùng một ý nghĩa hay không.

Hiệu năng đếm hình vuông lồng nhau của bốn mô hình như sau. GPT-4o đạt 48.33%, Gemini-1.5 Pro đạt 80.00%, Sonnet-3 đạt 55.00%, và Sonnet-3.5 đạt 87.50% độ chính xác. Điều này cho thấy VLM gặp khó khăn khi đếm số lượng hình vuông lồng nhau.

Như có thể thấy từ kết quả, tất cả mô hình đều cho độ chính xác thấp một cách nhất quán ở tác vụ này. Đặc biệt, số lượng lỗi tăng lên khi số hình vuông nhiều hơn. Điều này cho thấy VLM gặp khó khăn trong việc nhận diện chính xác các hình chồng lấp. Ngoài ra, chênh lệch hiệu năng lớn giữa các mô hình cũng gợi ý rằng năng lực xử lý thị giác của từng mô hình là khác nhau.

Task 6. Đếm ma trận lưới ▦

Trong bài kiểm tra này, người ta tạo ra các ảnh lưới với nhiều kích thước khác nhau để thực hiện tác vụ đếm số hàng và số cột. Mỗi ảnh được cấu thành từ một lưới có số hàng và số cột nhất định, và một số ảnh còn chứa văn bản trong từng ô. Ngoài ra, kích thước và hình dạng của lưới cũng được thiết lập đa dạng. Mục tiêu là đánh giá liệu VLM có thể đếm chính xác số hàng và số cột của lưới hay không.

Mỗi câu hỏi gồm hai cách diễn đạt khác nhau. Cách thứ nhất là "Hãy đếm số hàng và số cột rồi trả lời bằng các con số trong dấu ngoặc nhọn. Ví dụ: hàng={5} cột={6}(Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})", còn cách thứ hai là "Hãy đếm số hàng và số cột của bảng. Trả lời bằng một cặp số. Ví dụ: (5,6)(How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6))". Mục đích là để đánh giá liệu mô hình có nhận ra những khác biệt tinh vi trong cách diễn đạt và rút ra cùng một ý nghĩa hay không.

Hiệu năng đếm hàng và cột của bốn mô hình như sau. GPT-4o đạt trung bình 39.58%, Gemini-1.5 Pro đạt trung bình 35.79%, Sonnet-3 đạt trung bình 36.17%, còn Sonnet-3.5 đạt trung bình 74.26% độ chính xác.

Kết quả thí nghiệm cho thấy hiệu năng được cải thiện ở các lưới có chứa văn bản, nhưng nhìn chung vẫn chưa đạt độ chính xác cao. Điều này cho thấy VLM không thể nhận diện chính xác cấu trúc chi tiết của lưới, nên gặp khó khăn khi đếm số hàng và số cột. Đặc biệt, chênh lệch hiệu năng lớn giữa các mô hình cho thấy năng lực xử lý thị giác của từng mô hình là khác nhau.

Task 7. Lần theo đường đi đơn sắc 🔂

Trong bài kiểm tra này, tác vụ là lần theo một đường đi đơn sắc và đọc sơ đồ tuyến tàu điện ngầm. Mỗi ảnh gồm 4 ga cố định (A, B, C, D) và các đường nối giữa chúng. Mục tiêu là đánh giá liệu VLM có thể lần theo đường đi đơn sắc hay không.

Mỗi câu hỏi được tạo thành từ hai prompt khác nhau. Prompt thứ nhất là "Có bao nhiêu đường đi đơn sắc từ A đến C? Trả lời bằng một con số trong dấu ngoặc nhọn. Ví dụ: {3}(How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})", còn prompt thứ hai là "Hãy đếm các tuyến một màu đi từ A đến C. Trả lời bằng một con số trong dấu ngoặc nhọn. Ví dụ: {3}(Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)". Mục đích là để đánh giá liệu mô hình có nhận ra những khác biệt tinh vi trong cách diễn đạt và rút ra cùng một ý nghĩa hay không.

Hiệu năng lần theo đường đi đơn sắc của bốn mô hình như sau. GPT-4o đạt trung bình 45.89%, Gemini-1.5 Pro đạt trung bình 40.01%, Sonnet-3 đạt trung bình 23.78%, còn Sonnet-3.5 đạt trung bình 50.18% độ chính xác. Nói cách khác, tất cả mô hình đều cho kết quả thấp ở tác vụ này.

Đặc biệt, khi số lượng đường đi tăng lên thì hiệu năng giảm mạnh. Điều này cho thấy VLM gặp khó khăn khi lần theo đường đi đơn sắc. Chênh lệch hiệu năng lớn giữa các mô hình cũng gợi ý rằng năng lực xử lý thị giác của từng mô hình là khác nhau.

Kết quả thí nghiệm

Tất cả VLM đều cho độ chính xác thấp ngay cả với những tác vụ thị giác đơn giản. Đặc biệt, chúng cho kết quả rất kém ở các tác vụ như đếm giao điểm của các đoạn thẳng, kiểm tra trạng thái của hai hình tròn, và xác định ký tự được khoanh tròn. Điều này gợi ý rằng VLM không thể nhận diện chính xác các thông tin thị giác chi tiết. Ngoài ra, chúng cũng liên tục cho kết quả thấp ở các tác vụ như đếm hình chồng lấp, đếm hình vuông lồng nhau, đếm ma trận lưới, và lần theo đường đi đơn sắc.

Nhìn chung, thí nghiệm xác nhận rằng năng lực nhận thức thị giác của VLM còn bị hạn chế. Những kết quả này cho thấy VLM vẫn cần được cải thiện thêm nhiều để đạt được năng lực nhận thức thị giác ở mức con người.

Nghiên cứu liên quan và kết luận

Các benchmark VLM hiện có chủ yếu tập trung vào việc đánh giá năng lực hiểu thị giác ở mức cao. Tuy nhiên, BlindTest là benchmark đầu tiên đánh giá năng lực nhận thức thị giác cơ bản, qua đó cho thấy rõ những giới hạn của VLM trong các tác vụ thị giác đơn giản.

Ví dụ, các benchmark như MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA, EgoSchema chỉ đo hiệu năng tổng thể của VLM, chứ chưa làm rõ được các giới hạn cụ thể. Vì vậy, BlindTest là một công cụ quan trọng để đánh giá chính xác hơn năng lực nhận thức thị giác của VLM. Đồng thời, BlindTest cũng sẽ là một tiêu chí quan trọng để đánh giá liệu VLM có nhận diện hình ảnh theo cách giống con người hay không.

Hiệu năng kém trong các bài kiểm tra của BlindTest cho thấy các VLM hiện nay vẫn chưa thành thạo những tác vụ nhận thức thị giác cơ bản đòi hỏi khả năng hiểu không gian chính xác. Hạn chế này cho thấy các mô hình có xu hướng dựa vào năng lực xử lý ngôn ngữ, điều có thể không phù hợp với nhận thức thị giác. Những kết quả này nhấn mạnh nhu cầu cần tiếp tục nghiên cứu và phát triển để cải thiện năng lực thị giác của VLM.

Trong các nghiên cứu sắp tới, cần có những cách tiếp cận mới để cải thiện năng lực nhận thức thị giác của VLM. Ví dụ, có thể cải thiện mô-đun thị giác bằng cách sử dụng phương pháp early fusion. Ngoài ra, cũng cần đa dạng hóa dữ liệu huấn luyện để VLM có thể đạt hiệu năng tốt hơn trong các tác vụ thị giác đơn giản. Thông qua những nỗ lực này, có thể sẽ nâng cao được năng lực nhận thức thị giác của VLM.

Đọc thêm

Bài viết này được biên soạn dựa trên nội dung đã được tóm tắt bằng mô hình GPT, vì vậy có thể có những phần được trình bày khác với nội dung hoặc ý định của nguyên bản. Nếu bạn quan tâm đến chủ đề này, hãy tham khảo thêm cả nguyên bản! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai sót, mong bạn hãy cho biết qua phần bình luận. 🤗

⚠️Quảng cáo⚠️: Bạn thấy bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp có hữu ích không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết chính qua email💌! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)