Công bố 3 benchmark VLM đánh giá năng lực tiếng Hàn (KO-VQA, KO-VDC, KO-OCRAG)

(github.com/Marker-Inc-Korea)

8 điểm bởi kyujin 2026-02-02 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Gần đây, khi sự quan tâm đến VLM tăng cao, một benchmark cho phép kiểm tra năng lực tiếng Hàn của VLM trong nhiều lĩnh vực khác nhau đã được công bố.

Dự án này giới thiệu tổng cộng 3 benchmark.

KO-VQA: đánh giá năng lực hiểu tài liệu tiếng Hàn ở nhiều miền khác nhau và năng lực suy luận câu trả lời dựa trên tài liệu
KO-VDC: đánh giá năng lực hiểu các tài liệu sơ đồ trực quan bằng tiếng Hàn và năng lực tạo/hiểu phần mô tả dựa trên sơ đồ
KO-OCRAG: đánh giá năng lực OCR đối với tài liệu tiếng Hàn có cấu trúc phức tạp và năng lực phân tích visual context xuất hiện trong tài liệu

Việc đánh giá cho tất cả dataset không phụ thuộc vào LLM-as-a-Judge, mà được thực hiện hoàn toàn dưới dạng trắc nghiệm khách quan.
Bài viết cũng so sánh nhiều VLM mã nguồn mở có thể chạy trong một GPU A100 40GB hoặc 80GB với Gemini là mô hình closed-source.

Gemini cho thấy hiệu năng áp đảo trên mọi benchmark.
Trong nhóm mã nguồn mở, Qwen3 thể hiện hiệu năng nổi trội.
Mô hình VARCO-VISION-2.0 của NCSoft cũng cho kết quả không tệ.
Tóm lại, có thể thấy khoảng cách về hiệu năng tiếng Hàn giữa VLM closed-source và VLM mã nguồn mở vẫn còn khá lớn.
Ngoài ra, Gemini đạt điểm gần như hoàn hảo nên cũng khá bất ngờ;;

Để biết mô tả chi tiết về từng dataset, hãy tham khảo các README tương ứng.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐ cùng sự quan tâm và chia sẻ là nguồn động lực rất lớn cho việc phát triển dự án mã nguồn mở!!
Dự án này được thực hiện với sự hỗ trợ của markrAI.

Công bố 3 benchmark VLM đánh giá năng lực tiếng Hàn (KO-VQA, KO-VDC, KO-OCRAG)

Gần đây, khi sự quan tâm đến VLM tăng cao, một benchmark cho phép kiểm tra năng lực tiếng Hàn của VLM trong nhiều lĩnh vực khác nhau đã được công bố.

Bài viết liên quan

Chưa có bình luận nào.