Giới hạn thị giác của các mô hình ngôn ngữ-thị giác

(vlmsareblind.github.io)

2 điểm bởi GN⁺ 2024-07-11 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình ngôn ngữ-thị giác (VLM) như GPT-4o, Gemini-1.5 Pro, Sonnet-3, Sonnet-3.5 đạt điểm cao trên các benchmark hiểu thị giác, nhưng ở các tác vụ thị giác cấp thấp mà con người giải dễ dàng, chúng chỉ đạt trung bình 58,57% độ chính xác
BlindTest kiểm tra khả năng nhận thức không gian chính xác bằng 7 tác vụ đơn giản như đếm số giao điểm của đường, xác định hai hình tròn chạm nhau/chồng lấn, tìm chữ cái được đánh dấu, đếm hình chồng lên nhau, hình chữ nhật lồng nhau, hàng/cột của bảng, và tuyến đường tàu điện ngầm
Trung bình tổng thể cao hơn baseline ngẫu nhiên 24%, nhưng ngay cả mô hình tốt nhất là Sonnet-3.5 cũng chỉ dừng ở 74,94%, cách xa mức 100% mà con người kỳ vọng
Dù thay đổi độ phân giải và độ dày nét, các mô hình vẫn không xử lý ổn định được các phần tử hình học cơ bản nằm gần nhau hoặc chồng lên nhau, cũng như các quan hệ vị trí chính xác
Khi bảng có văn bản, hiệu năng đếm hàng/cột được cải thiện, nhưng với đầu vào cần theo dõi không gian như bản đồ tàu điện ngầm có số tuyến tăng lên, hiệu năng giảm mạnh

Thiết lập bài toán và kết quả tổng thể của BlindTest

Paper (ArXiv), Code, Dataset đã được công bố
Đối tượng đánh giá là bốn VLM: GPT-4o, Gemini-1.5 Pro, Sonnet-3, Sonnet-3.5
BlindTest kiểm tra nhận thức không gian chính xác của VLM bằng các tác vụ thị giác cấp thấp mà con người giải dễ dàng
Độ chính xác trung bình tổng thể là 58,57%, cao hơn baseline ngẫu nhiên 24% nhưng chưa đạt mức kỳ vọng 100%
Trong trung bình tổng thể theo từng mô hình, Sonnet-3.5 đạt cao nhất với 74,94%
Các lỗi chính lặp lại ở quan hệ vị trí chính xác, khoảng cách gần, chồng lấn, theo dõi đường đi và nhận diện các phần tử hình học cơ bản

Đếm số giao điểm của đường

Đây là tác vụ đếm xem hai đường gấp khúc màu xanh lam và đỏ, mỗi đường gồm 2 đoạn, giao nhau 0, 1 hay 2 lần
Hình ảnh được tạo thành 1.800 ảnh biểu đồ đường 2D trên nền canvas trắng
- Mỗi đường được định nghĩa bởi ba điểm có tọa độ x cố định và cách đều nhau
- Tọa độ y được lấy mẫu ngẫu nhiên để tạo ra chính xác 0, 1 hoặc 2 giao điểm
Các lựa chọn đáp án là {0, 1, 2}, và baseline ngẫu nhiên là 33%
Độ chính xác trung bình là GPT-4o 41,61%, Gemini-1.5 Pro 66,94%, Sonnet-3 43,41%, Sonnet-3.5 75,36%
Trong các kết quả ví dụ, VLM không đếm được giao điểm một cách ổn định

Phân biệt hai hình tròn chạm nhau và chồng lấn

Đây là tác vụ hỏi Yes/No xem 2 hình tròn tô đặc cùng kích thước có chạm nhau hoặc chồng lấn nhau hay không
Bộ ảnh gồm 672 ảnh, được tạo bằng cách thay đổi kích thước, khoảng cách, hướng của hình tròn và kích thước canvas
- Đường kính hình tròn bằng 1/4, 1/5, 1/6, 1/7 kích thước canvas
- Khoảng cách giữa chu vi hai hình tròn từ -0,15 lần đến 0,5 lần đường kính
- Hướng là 90°, 0°, -45°, 45°
- Kích thước canvas là 384, 769, 1155 pixel
Đáp án được quyết định bởi khoảng cách d giữa chu vi hai hình tròn
- d < 0: chồng lấn và chạm nhau
- d = 0: không chồng lấn nhưng chạm nhau
- d > 0: không chồng lấn và không chạm nhau
Độ chính xác trung bình là GPT-4o 72,69%, Gemini-1.5 Pro 92,78%, Sonnet-3 84,52%, Sonnet-3.5 91,66%
VLM liên tục thất bại ở các khoảng cách nhỏ, và cũng có trường hợp GPT-4o không ổn định ngay cả ở khoảng cách lớn

Tìm chữ cái được đánh dấu bằng hình elip đỏ

VLM có thể tự nhận diện các hình cơ bản như hình tròn đỏ và đọc từ tiếng Anh, nhưng khi đặt một hình elip đỏ chồng lên một chữ cái cụ thể trong từ, chúng khó tìm ra chính xác đó là chữ cái nào
Các chuỗi được dùng là Acknowledgement, Subdermatoglyphic, tHyUiKaRbNqWeOpXcZvM
- Ba chuỗi có độ rộng và chiều cao chữ cái đa dạng
- Cả bốn mô hình đều đọc được toàn bộ chữ cái khi chỉ nhập hình ảnh của chuỗi
- Chuỗi ngẫu nhiên được đưa vào để ước lượng ảnh hưởng của mức độ quen thuộc với từ lên độ chính xác
Với mỗi tổ hợp chuỗi và chữ cái được đánh dấu, ảnh 512×512 được tạo bằng cách kết hợp 3 độ dày nét của hình elip đỏ, 2 cỡ phông chữ và 4 vị trí trong canvas
- Acknowledgement có 360 ảnh
- Subdermatoglyphic có 408 ảnh
- tHyUiKaRbNqWeOpXcZvM có 480 ảnh
Độ chính xác trung bình là GPT-4o 70,18%, Gemini-1.5 Pro 92,81%, Sonnet-3 73,34%, Sonnet-3.5 89,22%
Khi mô hình trả lời sai, chúng có xu hướng dự đoán chữ cái liền kề với chữ được đánh dấu

Đếm hình chồng lên nhau và hình chữ nhật lồng nhau

Tác vụ đếm các hình tròn hoặc ngũ giác chồng lên nhau như logo Olympic kiểm tra xem VLM vốn có thể đếm các hình tròn tách rời có gặp khó khăn với hình có chồng lấn hay không
Tác vụ hình chồng lên nhau bố trí 5~9 hình cùng kích thước thành hai hàng trên canvas 384, 769, 1155 pixel
- Đường kính hình tròn là C/5 hoặc C/10
- Độ dài cạnh ngũ giác là C/5 hoặc C/10
- Tổng cộng 120 ảnh được tạo
- Đáp án là {5, 6, 7, 8, 9}, baseline ngẫu nhiên là 20%
Độ chính xác với hình tròn chồng lên nhau là GPT-4o 42,50%, Gemini-1.5 Pro 20,83%, Sonnet-3 31,66%, Sonnet-3.5 44,16%
Độ chính xác với ngũ giác chồng lên nhau là GPT-4o 19,16%, Gemini-1.5 Pro 9,16%, Sonnet-3 11,66%, Sonnet-3.5 75,83%
Tác vụ hình chữ nhật lồng nhau yêu cầu đếm 2~5 hình chữ nhật được đặt bên trong hình chữ nhật ngoài cùng sao cho không chạm nhau
- Tổng cộng 120 ảnh được tạo
- Độ chính xác là GPT-4o 55,83%, Gemini-1.5 Pro 87,08%, Sonnet-3 65,00%, Sonnet-3.5 92,08%
- Trong ví dụ, chỉ Sonnet-3.5 đếm thành công hình chữ nhật ở nhiều ảnh

Đếm hàng/cột bảng và theo dõi tuyến tàu điện ngầm

Tác vụ đếm hàng/cột của bảng kiểm tra liệu VLM có đếm đúng cấu trúc lưới đơn giản hay không, ngay cả trong bối cảnh chúng thể hiện hiệu năng cao với đầu vào có chứa bảng
Lưới có dạng N×N, N×N', N'×N, trong đó N từ 3~9 và N' là N+1
- Kích thước canvas là 500, 1250, 2000 pixel
- Có 2 loại độ dày nét
- Bao gồm cả lưới trống và lưới có từ ngẫu nhiên trong từng ô, tổng cộng 444 ảnh
Phải trả lời đúng cả số hàng và số cột mới được tính là đúng; độ chính xác trung bình là GPT-4o 39,58%, Gemini-1.5 Pro 39,39%, Sonnet-3 36,17%, Sonnet-3.5 74,26%
- Trung bình với lưới trống là 34,37%
- Trung bình với lưới có văn bản là 60,33%
- Khi ô có chứa văn bản, hiệu năng của mọi VLM đều cải thiện, đặc biệt cải thiện mạnh ở Sonnet-3.5
Tác vụ bản đồ tàu điện ngầm yêu cầu đếm số tuyến đơn sắc nối giữa hai ga cụ thể trong bốn ga A, B, C, D
- Sử dụng canvas 512 hoặc 1024 pixel
- Tạo tuyến bằng tìm kiếm theo chiều sâu trên lưới 18×18 không hiển thị
- Mỗi ga có chính xác N∈{1, 2, 3} tuyến đi ra
- Tổng cộng 180 bản đồ được tạo
Độ chính xác trung bình với tuyến tàu điện ngầm là GPT-4o 47,89%, Gemini-1.5 Pro 41,60%, Sonnet-3 23,24%, Sonnet-3.5 55,53%
- Khi mỗi ga có 1 tuyến, trung bình là 59,16%
- Khi có 2 tuyến, trung bình là 40,69%
- Khi có 3 tuyến, trung bình là 26,35%
Khi số tuyến đi ra từ mỗi ga tăng lên, hiệu năng của VLM có xu hướng kém hơn

1 bình luận

GN⁺ 2024-07-11

Ý kiến trên Hacker News

Thú vị thì có, nhưng kết luận có vẻ khá lệch. Viết trong phần tóm tắt rằng “thị giác của chúng, cùng lắm, giống như cận thị với các chi tiết bị nhìn mờ” là nói quá, và tôi cũng nghi ngờ liệu họ có kiểm chứng giả thuyết đó đúng cách hay không.
Nếu có thể chia sẻ các ví dụ trong công việc nơi GPT-4v thực hiện được những tác vụ thị giác tinh vi khá khó, thì có thể phản bác kết luận này. Cá nhân tôi đánh giá cao bài báo này hơn: https://arxiv.org/abs/2404.04125, với luận điểm rằng các mô hình AI sinh tạo lớn làm khá tốt nếu giả định rằng trong quá trình huấn luyện chúng đã thấy rất nhiều dữ liệu thuộc loại đó. Nếu cố tình tạo ra các bài toán kỳ quặc thì chúng có thể làm rất tệ và ấn tượng ban đầu về AGI sẽ yếu đi, nhưng trong thực tế không phải lúc nào ta cũng chỉ dùng những bài toán được thiết kế để làm mô hình vấp ngã. Ở một số tác vụ cụ thể, hiệu năng có thể tốt; bài báo này không đưa ra đủ bằng chứng thực chất cho cả hai mặt đó.
- Trong phần bình luận có khá nhiều “người biện hộ cho AI”, nhưng khi các mô hình như thế này đang được tiếp thị như một thứ thay thế thị giác con người cho các mục đích như Be My Eyes dành cho người thị lực kém, tôi nghĩ tiêu đề là công bằng: https://www.youtube.com/watch?v=Zq710AKC1gg
  Các mô hình này thực ra không ở mức con người, nhưng lại được ngụ ý như thể gần ngang mức con người. Bài báo cho thấy vẫn còn một khoảng cách lớn, khi mô hình bị bối rối ngoài dự đoán ngay cả với các bài toán đơn giản. Cần phơi bày nhiều hơn các tác vụ như vậy, để mọi người hiểu rằng cần có biện pháp bảo vệ và cảnh báo đầy đủ trước khi tin rằng chúng phù hợp cho mục đích sử dụng chung.
- “Thú vị” là cách diễn đạt đúng. Họ đã tìm ra tốt các trường hợp biên trong xử lý thị giác của mô hình, và thú vị là về mặt khái niệm cũng không quá xa một số ảo giác thị giác mà con người dễ mắc.
  Nhưng gọi mô hình là “mù” hoặc ám chỉ nói chung rằng hiệu năng thấp thì rất dễ phản bác chỉ bằng cách lấy điện thoại ra và đưa một bức ảnh vào ứng dụng ChatGPT. Có người nhắc đến BeMyEyes rồi chỉ trích “người biện hộ cho AI”, nhưng chỉ cần gói thuê bao 20 USD/tháng và một chiếc điện thoại là có thể thử ngay. Với các tác vụ trong thế giới thực, nó hoạt động tốt đến đáng kinh ngạc; dù không hoàn hảo, nó vẫn đủ hữu ích trong thực tế, và trong nhiều trường hợp còn tốt hơn lựa chọn thay thế hoặc thậm chí không có lựa chọn thay thế.
- Cách nói “cận thị với các chi tiết bị nhìn mờ” cũng không quá xa thực tế. Phần lớn mô hình nhìn ảnh ở độ phân giải thấp và với màu sắc hạn chế, nên mô tả đó khá sát.
- “Các mô hình AI sinh tạo lớn làm khá tốt” thật sự là câu chào hàng sao? 15 năm trước đã có máy quét kèm ứng dụng trên Windows để quét tài liệu rồi trích xuất văn bản, và RAM của cái máy đó chắc khoảng 256MB.
  Công nghệ có thể làm cực tốt trong các tác vụ ngách cô lập. Hệ thống OCR 10 năm trước cũng đã rất đáng tin cậy trong một tác vụ đơn lẻ đã được thiết lập. Điều AI hứa hẹn là một mô hình mới không bị nhốt trong các ngách cụ thể do lập trình viên định sẵn; nếu nó liên tục bỏ sót những điều đơn giản mà người bình thường không nhầm, thì toàn bộ đề xuất giá trị sẽ sụp đổ.
- Tiền đề “không thể chia sẻ, nhưng…” khá thú vị. Nghe như thể mô hình quá xuất sắc trong một kiểu xử lý thị giác cụ thể và bí mật nào đó, nên ta không nên xét đến các đánh giá như đếm hình hay độ chính xác chỉ cần hơn tung đồng xu.
Hôm qua tôi đã có một trải nghiệm khá đáng kinh ngạc với GPT-4o. Cửa gara gần đây bắt đầu bị sụp xuống, nên tôi xem xét và thấy chủ nhà đã lắp sai kẹp cáp thép, khiến cáp xoắn bị mất lực căng.
Tôi không biết tên bộ phận đó nên hỏi ChatGPT, và đúng như dự đoán, nó nhận diện được bộ phận. Để thử, tôi hỏi trong ảnh có điểm gì đáng chú ý không; nó đã nhận ra đúng rằng cáp được lắp ngược, bên đáng lẽ chịu lực căng lại nằm lên trên đầu cáp lỏng, thay vì ép chặt đầu lỏng xuống. Để chẩn đoán điều này, phải lần theo cáp trong không gian và suy luận từ hình học xem bên nào chịu lực căng; tất nhiên không thể loại trừ khả năng đó chỉ là một phỏng đoán may mắn. Điều thật sự đáng ngạc nhiên là một trong hai đai ốc rõ ràng bị thiếu, nhưng ngay cả sau khi tôi nói rằng còn có vấn đề lắp đặt thứ hai, nó vẫn không nhận ra. Ảnh chụp màn hình: https://imgur.com/a/QqCNzOM
- Con người sẽ phải lần theo dây cáp. Nhưng LLM có thể đã trả lời dựa trên thực tế rằng việc hỏi về cái kẹp trước tiên thường xảy ra khi có gì đó sai, và đây là một kiểu hỏng hóc rất phổ biến.
  Việc nó đưa ra mẹo nhớ “never saddle a dead horse” cũng là bằng chứng rằng vấn đề này phổ biến. Sau khi sửa xong, thử hỏi lại cùng câu đó thì sẽ hay.
- Với mắt người của tôi, trong bức ảnh đó tôi không thấy đủ để suy luận bên nào phải chịu lực căng. Tôi không phải người được đào tạo, nhưng sau khi nghe mô tả thì tôi biết hình dạng kỳ vọng là gì.
  Như các phản hồi khác, tôi hoài nghi khả năng LLM chỉ may mắn đoán đúng.
- Để lần theo trong không gian cần trí nhớ ngắn hạn và năng lực suy nghĩ. Mô hình không có những thứ đó, nên rốt cuộc chắc là nó đã đoán.
Cho đến nay, VLM vẫn chưa làm tốt các tác vụ như đếm đối tượng hay quan hệ không gian, chẳng hạn cà phê có ở bên phải lò vi sóng hay không
Có những cách để hỗ trợ VLM, tiêu biểu là Set of Marks của Microsoft https://github.com/microsoft/SoM. Cách này xử lý ảnh bằng cách phân đoạn để viền các vùng và gắn nhãn trước khi gửi ảnh cho VLM. Khi các vùng được gắn nhãn “có thể diễn đạt bằng lời”, nó giúp nền tảng hóa năng lực thị giác của VLM, và trong bài báo này đó cũng là lý do hiệu năng ở “Task 6: Counting the rows and columns of a grid” tốt hơn nhiều khi trong lưới có từ ngữ
- Tôi không biết đếm đối tượng lại là vấn đề. Khá trớ trêu, vì theo tôi biết, triển khai mạng nơ-ron đầu tiên là võng mạc nhân tạo numa-rete được Biological Computer Lab tạo ra khoảng năm 1960
  Đó là một máy tính analog song song, trong đó các “nơ-ron” gắn tế bào quang điện được bố trí thành lưới, và được nói là có thể đếm “số lượng đối tượng bất kể kích thước, vị trí, hình dạng hay cường độ chiếu sáng”. Với những người trong lĩnh vực này, bài báo năm 1962 của Heinz Von Foerster, “Perception of Form in Biological and Man Made Systems”, có thể sẽ thú vị: https://distributedmuseum.illinois.edu/exhibit/biological_computer_laboratory/, https://sites.evergreen.edu/arunchandra/wp-content/uploads/sites/395/2018/05/bcl082.pdf
- Mô hình thị giác dùng CLIP hoặc thứ tương tự, nhưng không có khái niệm hiểu các đối tượng cụ thể trong ảnh. Nó chỉ nhìn thấy các embedding có tương quan, tương tự embedding văn bản
  Chẳng hạn mô tả một ảnh là “những con chim đang đậu trên dây điện trước nền trời xanh và mây”, rồi khớp embedding của mô tả đó với embedding của bức ảnh. Nếu hỏi có chim hay không thì nó biết, nhưng không biết có bao nhiêu con. Trừ khi trong dữ liệu huấn luyện việc mô tả số chim đậu trên một vật thể là phổ biến, và con số đó đủ thường xuyên khớp với số lượng thực tế trong mô tả ảnh. Nếu muốn đếm đối tượng thì cần thứ như YOLO
Vision Transformer thực hiện mức nén lớn đến đáng ngạc nhiên trong tokenizer. Chameleon paper nói tokenizer “mã hóa ảnh 512 × 512 thành 1024 token rời rạc lấy từ codebook kích thước 8192”
Như vậy là 256 pixel cho mỗi token; nếu coi mỗi pixel là 24 bit thì tức là nén 256 * 24 = 6144 bit xuống 13 bit, tức log2(8192). An Image is Worth 32 Tokens for Reconstruction and Generation còn đẩy điều này xa hơn. Nếu các mô hình này hoạt động tương tự, việc chúng chật vật với một số tác vụ thị giác cũng không có gì lạ
- Không đơn giản như vậy. Nếu yêu cầu GPT-4o tạo bản sao của loại ảnh này, nhìn chung nó tạo khá trung thực. Ví dụ nó cũng tạo được ảnh có 5 hình chữ nhật
  Vì vậy ở một mức nào đó nó đang “nhìn”. Chỉ là có vẻ thiếu logic để trả lời những câu hỏi kiểu này. Có thể tự thử toàn bộ bộ dữ liệu tại đây: https://huggingface.co/datasets/XAI/vlmsareblind/viewer/default/train
- GPT-4o rất giỏi ở một số tác vụ thị giác như OCR. Vì vậy tình trạng mù có chọn lọc, như đã nói, có thể là kết quả của việc toàn bộ dung lượng bị dồn vào giảm loss cho một vài tác vụ hẹp có nhiều dữ liệu huấn luyện nhất
  Cũng có thể đây là vấn đề dung lượng hơn là thất bại mang tính cấu trúc trong khả năng khái quát hóa, và có khả năng sẽ tự nhiên được giải quyết khi mở rộng quy mô hơn nữa
- Khi nghĩ đến một ví dụ tương tự trong một phương thức cảm giác khác của con người ngoài thị giác, tôi nghĩ đến tình huống cố gắng mô tả vị của trái cây cho người chưa từng ăn nó
Nếu các mô hình hàng đầu hiện nay như GPT-4o, Gemini-1.5 Pro, Sonnet-3, Sonnet-3.5 chỉ đạt mức này thì hiệu năng kém đến mức khá đáng xấu hổ. Những mô hình này được quảng cáo và bán như có khả năng hiểu hình ảnh, chẳng hạn hướng dẫn người mù hoặc dạy hình học cho trẻ em
Những bài toán mà chúng thất bại lại đơn giản đến vô lý đối với con người. Ví dụ như đếm hai đường thẳng giao nhau bao nhiêu lần, phát hiện hai hình tròn có chồng lên nhau không, chọn chữ cái được khoanh tròn trong một từ, hay đếm số vòng tròn trong hình giống logo Olympic. Bài này nên nằm ngay đầu trang nhất
- Tôi không hiểu vì sao đây lại là chuyện “đáng xấu hổ” dù chỉ một chút. Những mô hình này không phải não người, và việc người ta đồng nhất chúng với não người còn là một thất bại đáng xấu hổ hơn cả bản thân mô hình
  Việc mô hình không xử lý được nhiều trường hợp “hiển nhiên với con người” hoàn toàn không đáng ngạc nhiên. Học máy ngay từ đầu đã có đặc tính như vậy, và đây là sai lầm kinh điển mà người ta mắc phải khi làm việc với các hệ thống này. Con người thấy một mô hình học máy có độ chính xác cao hơn người ở tác vụ X, rồi giả định nó cũng có năng lực đó ở mọi tác vụ khác. Với một người có năng lực xuất sắc, họ có thể cũng sẽ xuất sắc ở tác vụ khác, nhưng điều này không áp dụng cho mô hình học máy. Ngược lại, cho rằng vì mô hình làm kém tác vụ Y nên năng lực của nó ở tác vụ X cũng chỉ là ảo tưởng và không đáng tin cũng là sai
- Phản ứng này nghe như “con chó biết nói của tôi cứ làm sai bài giải tích, thật đáng xấu hổ làm sao!”
  Guồng quay kỳ vọng đã tăng tốc đến mức thật sự như vậy sao, rằng giờ đây trong bất kỳ nhóm vấn đề nào, chỉ cần hiệu năng dưới mức con người là đã trở thành chuyện đáng xấu hổ?
Bản thân phát hiện thì thú vị, nhưng tiêu đề “Vision language models are blind” bị phóng đại và gây hiểu sai về kết quả. Đúng là cách VLM phát hiện và xử lý đầu vào hình ảnh rất khác con người, và ở độ phân giải thấp, hình ảnh bị chia thành các khối rồi được ánh xạ thành các token rời rạc.
Vì phép ánh xạ này gây mất mát khá lớn, nên trên thực tế chúng không tiếp cận được các chi tiết tinh vi. Theo nghĩa đó, kết quả hoàn toàn hợp lý và không đáng ngạc nhiên, nhưng cách nói “mù” mang hàm ý mạnh mà nghiên cứu này không chứng minh được. Chỉ nhìn ví dụ đầu tiên gồm bốn đồ thị đường 2 chiều, khi hỏi Sonnet 3.5 5 lần thì 2 lần nó trả lời khá ổn. Nó sai ở chỗ nói đồ thị thứ ba có 1 giao điểm trong khi thực tế là 2, nhưng nhìn chung làm khá tốt, và 3 lần còn lại cũng trả lời đồ thị thứ ba có 1 giao điểm.
Từ góc nhìn của một người chỉ biết sơ sơ VLM hoạt động thế nào, tôi có cảm giác những người nói về tính hiện thân ở đây có thể đúng ở mức nào đó. Con người có thể liên tục tinh chỉnh nhận dạng hình ảnh và tập trung vào vùng quan tâm, còn VLM phải xử lý toàn bộ hình ảnh với cùng mức độ trung thực.
Tôi tự hỏi liệu có cách nào mô phỏng điều đó không. Chẳng hạn ban đầu để các token thị giác ở mức độ trung thực thấp, rồi cho phép VLM xuất ra các token để “tập trung” vào một vùng cụ thể của ảnh ở độ phân giải cao hơn. Tuy nhiên tôi không rõ có thể huấn luyện mô hình hiệu quả bằng loại dữ liệu “tương tác” như vậy hay không.
- Chẳng phải đây chính là cơ chế attention sao? Vì vậy tôi nghĩ đó là lý do người ta dùng Transformer cho các tác vụ như thế này.
  Không nhất thiết phải là độ phân giải cao hơn, mà là tập trung vào một vùng nào đó bằng kết nối thần kinh mạnh hơn.
- Con người thực ra sinh ra với thị lực mờ, vì mắt cần thời gian để phát triển, nên việc học của con người bắt đầu từ hình ảnh độ phân giải thấp. Cũng có giả thuyết cho rằng đây có thể là lợi thế cho sự phát triển của hệ xử lý thị giác, chứ không phải hạn chế.
  Những người ở các nước nghèo được phẫu thuật loại bỏ đục thủy tinh thể muộn hơn một chút lẽ ra phải có thị lực hoàn hảo xét theo phần cứng tại thời điểm đó, nhưng dường như vẫn có những khiếm khuyết kéo dài suốt đời. Chưa hoàn toàn biết được việc học ban đầu ở độ phân giải thấp ảnh hưởng đến con người đến mức nào, và điều này có thể liên quan đến sinh học thần kinh đặc thù của con người hơn là một chân lý chung của các hệ thống liên kết luận. Dù vậy, ý tưởng rằng một số kết quả của mạng nơ-ron nhân tạo có thể phụ thuộc mạnh vào mô hình huấn luyện, và không phải mọi khiếm khuyết đều có thể giải quyết chỉ bằng cập nhật cấu trúc lõi, là điều thú vị.
- Để mô phỏng xử lý chú ý của con người, một điểm cải thiện có thể tương đối dễ thu thập là lượng lớn dữ liệu theo dõi ánh mắt được ghép cặp với thứ mà người đó đang nhìn.
- Các mô hình này đã học cách tập trung vào những phần cụ thể của hình ảnh rồi. Ngay từ đầu, mục đích rõ ràng của Transformer chính là việc đó.
- Khả năng con người liên tục “tinh chỉnh” tri giác không liên quan đến nhận thức hiện thân.
Điều mỉa mai là chúng thất bại ở những bài kiểm tra đơn giản đến mức trẻ con cũng có vẻ giải được. Nhưng khi tôi cho Gemini đọc một tấm bưu thiếp viết tay bằng chữ thảo tiếng Nga có nhiều nhiễu thị giác, nó đã đọc được văn bản và còn dịch sang tiếng Anh.
Tôi thậm chí không cần nói cho nó biết văn bản đó là tiếng Nga. Một mặt, những gì LLM làm được thật đáng kinh ngạc đến khó tin; mặt khác, chúng lại thường vấp ngã nặng ở những vấn đề trông có vẻ đơn giản như thế này. Với xe tự lái cũng thấy hình ảnh tương tự: gây tai nạn trong những tình huống mà hầu hết tài xế con người đều dễ dàng tránh được.
- Với trẻ con thì đơn giản. Đó là vì thị giác đã tiến hóa để nhận ra những mẫu như vậy do chúng quan trọng cho sinh tồn. Đọc tiếng Nga thì không như thế.
  Nhìn từ góc độ thuật toán, các tác vụ thị giác kiểu này thực ra khá khó để lập trình tường minh.
Tôi đã dạy hình học tính toán vài lần, và việc tính hiệu quả giao điểm của N đoạn thẳng không đơn giản như lúc đầu nghĩ. Ở đâu đó vẫn cần có phép tính để nhận ra điều này, và vì LLM không được huấn luyện riêng cho tác vụ đó nên việc chúng chật vật cũng không có gì lạ.
Nhìn chung, hình học cơ bản có vẻ là một lĩnh vực còn ít được khám phá từ góc độ học máy.
- Việc xác định trong ảnh có con chó hay không, hoặc hiểu cảm xúc của một đoạn văn, cũng không hề đơn giản tương tự. Bản thân độ phức tạp dường như không phải điểm cốt lõi.
  Có vẻ có sự khác biệt giữa loại suy luận mà các mô hình này đã học và loại suy luận cần thiết cho suy luận toán học cụ thể.
- Con người cũng không có năng lực “tính giao điểm”. Ngoài một phần nhỏ học được vất vả bằng đại số, chúng ta có cơ chế “nhìn và đếm”.
  Chúng ta không tiếp nhận trực quan các đường trong không gian phẳng rồi tính xem chúng giao nhau ở đâu. Chúng ta biết giao điểm trông như thế nào, nhìn thấy một cái, tăng bộ đếm lên, rồi tìm cái tiếp theo. Nếu ít hơn khoảng 5 cái thì xử lý một lượt, còn nhiều hơn thì thực sự đếm, đôi khi theo cụm nhỏ, đôi khi từng cái một.
Tất cả các mô hình, đặc biệt là Claude 3.5 Sonnet, có vẻ làm tốt hơn ngẫu nhiên rất nhiều, nên rõ ràng chúng không mù. Nhiệm vụ duy nhất mà Claude Sonnet 3.5 không khá hơn ngẫu nhiên là bài phải lần theo nhiều đường đi, tức trường hợp đáp án từ A đến C là 3; bài đó ngay cả tôi cũng mất vài giây để giải.
Có cảm giác như họ đã định sẵn tiêu đề bài báo trước, rồi đánh giá Claude 3.5 Sonnet mới bằng các hình ảnh trừu tượng. Câu “thị giác của chúng cùng lắm giống cận thị nhìn chi tiết mờ nhòe” cũng không hợp lý. Các hình ảnh này đánh giá năng lực trừu tượng của mô hình, chứ không đánh giá thị lực.
- Vậy thì cứ nói theo nghĩa pháp lý là người khiếm thị đi.

Giới hạn thị giác của các mô hình ngôn ngữ-thị giác

Thiết lập bài toán và kết quả tổng thể của BlindTest

Đếm số giao điểm của đường

Phân biệt hai hình tròn chạm nhau và chồng lấn

Tìm chữ cái được đánh dấu bằng hình elip đỏ

Đếm hình chồng lên nhau và hình chữ nhật lồng nhau

Đếm hàng/cột bảng và theo dõi tuyến tàu điện ngầm

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News