So sánh việc tạo alt-text cho hình ảnh bằng LLM chạy cục bộ

(dri.es)

3 điểm bởi GN⁺ 2025-03-13 | 1 bình luận | Chia sẻ qua WhatsApp

Trong 10.000 bức ảnh lưu trên blog, có khoảng 9.000 ảnh chưa có alt-text
Để xử lý việc này, tác giả đã thử nghiệm 12 LLM (mô hình ngôn ngữ lớn), trong đó 10 mô hình chạy cục bộ và 2 mô hình đám mây (GPT-4, Claude 3.5 Sonnet)
Việc viết alt-text là công việc quan trọng để nâng cao khả năng truy cập cho người khiếm thị, nhưng nếu làm thủ công thì khá nặng nề
Mục tiêu là kiểm tra độ chính xác của các mô hình AI khi tạo alt-text, và xem liệu các mô hình cục bộ có thể trở thành một lựa chọn thay thế thực tế hay không

Các mô hình AI được thử nghiệm

Mô hình cục bộ (10 mô hình)
- 9 mô hình được chạy trên MacBook Pro (RAM 32GB)
- 1 mô hình được chạy trên thiết bị cấu hình cao của một người bạn
Mô hình đám mây (2 mô hình)
- GPT-4o(OpenAI)
- Claude 3.5 Sonnet(Anthropic)

So sánh hiệu năng chính

Mô hình đám mây (GPT-4o, Claude 3.5 Sonnet)
- Tạo ra alt-text chính xác nhất
- Mô tả chi tiết rất tốt, đồng thời nắm bắt được cả bầu không khí của hình ảnh
- Xếp hạng đánh giá: A
Các mô hình cục bộ cho hiệu năng tốt
- Llama 3.2 Vision 11B
  - Nhận diện đối tượng chính xác và hiểu ngữ cảnh tốt
  - Xếp hạng đánh giá: B
- Llama 3.2 Vision 90B
  - Cho độ chính xác nhỉnh hơn đôi chút so với mô hình 11B, nhưng cần nhiều RAM hơn để chạy
  - Xếp hạng đánh giá: B
- MiniCPM-V
  - Dù là mô hình tương đối nhẹ, vẫn cho thấy hiệu năng mạnh mẽ
  - Xếp hạng đánh giá: B
Các mô hình có hiệu năng thấp
- Các mô hình đời đầu như VIT-GPT2, GIT, BLIP có xu hướng nhận diện đối tượng không chính xác và tạo ra câu chữ lặp lại
- Xếp hạng đánh giá: D~F

Cách mô hình AI phân tích hình ảnh

Mã hóa thị giác (Vision Encoding)
- Chia hình ảnh thành các mảnh nhỏ, sau đó chuyển chúng thành dữ liệu số (embedding)
- Lọc ra những phần cần chú ý (ví dụ: đối tượng chính), và loại bỏ các yếu tố kém quan trọng hơn (ví dụ: nền đơn giản)
Mã hóa ngôn ngữ (Language Encoding)
- Tạo văn bản ngôn ngữ tự nhiên dựa trên thông tin do bộ mã hóa thị giác cung cấp
- Sinh văn bản theo cách viết mô tả hình ảnh hoặc trả lời câu hỏi

Hình ảnh thử nghiệm và kết quả

Ngã tư Shibuya (Tokyo)
- GPT-4o, Claude: "Ngã tư Shibuya chật kín biển hiệu neon và đám đông" → hạng A
- LLaVA 13B: "Cảnh mọi người băng qua ngã tư Shibuya" → hạng A
- Llama 3.2 Vision 11B: "Khung cảnh đêm nhộn nhịp ở Tokyo, với biển quảng cáo và đám đông" → hạng C
- VIT-GPT2: "Cảnh đêm đô thị với các tòa nhà cao tầng và đèn tín hiệu" → hạng F (không chính xác)
Bảo tàng Isabella Stewart Gardner (Boston)
- Claude: "Căn phòng phong cách Victoria, đèn chùm, khung tranh mạ vàng" → hạng B
- Llama 3.2 Vision 11B: "Khung tranh mạ vàng và phông nền trang trí" → hạng A
- BLIP-2 OPT: "Một căn phòng có tranh và khung treo trên tường" → hạng C
- VIT-GPT2: "Phòng khách với nến và bình hoa đặt trước gương" → hạng F (không chính xác)
Wakeboarding (Vermont, Mỹ)
- GPT-4o: "Hai người trên thuyền đang theo dõi người chơi wakeboard" → hạng A
- Llama 3.2 Vision 90B: "Hai người trên thuyền đang xem wakeboarding" → hạng A
- BLIP-2 FLAN: "Ai đó trên thuyền đang xem lướt sóng" → hạng C
- VIT-GPT2: "Hai người đứng trên thuyền cầm ván lướt" → hạng E (không chính xác)

Kết quả đánh giá

Mô hình đám mây (GPT-4o, Claude 3.5 Sonnet): hạng A
- Cung cấp mô tả chính xác nhất, thậm chí nắm bắt được cả bầu không khí
Nhóm mô hình cục bộ dẫn đầu (Llama 11B, Llama 90B, MiniCPM-V): hạng B
- Độ chính xác còn kém hơn mô hình đám mây đôi chút, nhưng vẫn có thể dùng thực tế
Các mô hình đời đầu (VIT-GPT2, GIT, BLIP, v.v.): hạng D~F
- Xuất hiện cách diễn đạt lặp lại và hiện tượng hallucination

Những điểm cần cân nhắc về sau

Nếu `alt`-text không hoàn hảo, liệu vẫn tốt hơn là không có?

Ngay cả alt-text ở mức hạng B cũng có thể vẫn tốt hơn là không có gì
Tuy nhiên, thông tin không chính xác (ví dụ: thêm đối tượng không tồn tại) có thể gây nhầm lẫn cho người dùng khiếm thị

Các lựa chọn cho bước tiếp theo

Kết hợp đầu ra AI
- Kết hợp nhiều mô hình để tạo ra mô tả chính xác nhất
Chờ nâng cấp
- Dùng mô hình cục bộ tốt nhất hiện tại, rồi cập nhật sang mô hình mới sau 6~12 tháng
Sử dụng mô hình đám mây
- Dùng mô hình đám mây để đạt độ chính xác cao hơn, nhưng chi phí và quyền riêng tư dữ liệu là vấn đề
Cách tiếp cận hybrid
- Để con người rà soát và bổ sung alt-text do AI tạo ra (nhưng thực tế khó áp dụng cho 9.000 ảnh)

Hiện tại, lựa chọn hợp lý nhất có lẽ là dùng mô hình cục bộ, đồng thời cập nhật lên các mô hình tốt hơn trong tương lai

1 bình luận

quilt8703 2025-03-14

Tôi thường gắn alt-text cho những hình ảnh mình đăng trên Twitter và các nơi tương tự, nên đã từng nghĩ rằng nếu chuyển việc này cho AI thì có lẽ mình sẽ đăng bài thuận tiện hơn đôi chút. Tôi cũng không chắc có cần đến LLM hay không, vì có vẻ chỉ với công nghệ như CLIP là đã đủ rồi.

Một trong những lý do tôi chưa làm việc đó là vì đây là chức năng hoàn toàn có thể được tích hợp tốt vào phía trình đọc màn hình, và tôi nghĩ việc con người bổ sung thêm dù chỉ một chút ngữ cảnh mà họ có thể cung cấp sẽ phù hợp hơn. Tất nhiên, lý do lớn nhất vẫn là vì tôi lười thôi.