VLM đọc tài liệu của các cơ quan công tại Hàn Quốc tốt đến đâu? Công bố benchmark KOLongDoc

(github.com/Marker-Inc-Korea)

5 điểm bởi kyujin 2026-06-04 | 1 bình luận | Chia sẻ qua WhatsApp

🔥 Chúng tôi đã công bố KOLongDoc, benchmark VLM tài liệu dài bằng tiếng Hàn!

Gần đây, các AI đa phương thức như ChatGPT, Claude và Gemini bắt đầu được ứng dụng cả trong công việc công vụ và hành chính, nhưng lại hầu như không có benchmark nào có thể đánh giá được rằng chúng "hiểu tài liệu tiếng Hàn dài tốt đến mức nào".

Các benchmark VLM tiếng Hàn hiện có chủ yếu tập trung vào OCR, VQA, hiểu biểu đồ, hiểu hình ảnh, v.v., nhưng

❌ tài liệu độ phân giải cao dài hàng chục trang
❌ suy luận multi-hop bằng cách liên kết thông tin qua nhiều trang
❌ hiểu tài liệu long-context

thì vẫn còn hạn chế khi cần đánh giá một cách toàn diện.

Vì vậy, chúng tôi đã xây dựng benchmark KOLongDoc 📄 và công bố mã nguồn mở!

✅ dựa trên tài liệu của các cơ quan công tại Hàn Quốc
✅ Multi-page / Multi-hop QA
✅ đánh giá khả năng hiểu long document độ phân giải cao
✅ cung cấp tổng cộng 200 câu hỏi đánh giá

KOLongDoc là benchmark nhằm đánh giá mức độ chính xác mà các VLM trong và ngoài nước có thể hiểu và suy luận trên các tài liệu công tiếng Hàn thực tế.

Nếu bạn muốn xem chi tiết và cách sử dụng, hãy ghé thăm huggingface và github!

🤗 Bộ dữ liệu:
https://huggingface.co/datasets/Markr-AI/KOLongDoc

📝 Bài giới thiệu trên Github:
https://github.com/Marker-Inc-Korea/KOLongDoc

Rất hoan nghênh phản hồi và các trường hợp ứng dụng benchmark này!

1 bình luận

cosine20 2026-06-05

README có quá nhiều emoji nên khá rối mắt... nhưng có lẽ đó là xu hướng dạo này.

VLM đọc tài liệu của các cơ quan công tại Hàn Quốc tốt đến đâu? Công bố benchmark KOLongDoc

Bài viết liên quan

1 bình luận