VLM đọc tài liệu của các cơ quan công tại Hàn Quốc tốt đến đâu? Công bố benchmark KOLongDoc
(github.com/Marker-Inc-Korea)🔥 Chúng tôi đã công bố KOLongDoc, benchmark VLM tài liệu dài bằng tiếng Hàn!
Gần đây, các AI đa phương thức như ChatGPT, Claude và Gemini bắt đầu được ứng dụng cả trong công việc công vụ và hành chính, nhưng lại hầu như không có benchmark nào có thể đánh giá được rằng chúng "hiểu tài liệu tiếng Hàn dài tốt đến mức nào".
Các benchmark VLM tiếng Hàn hiện có chủ yếu tập trung vào OCR, VQA, hiểu biểu đồ, hiểu hình ảnh, v.v., nhưng
❌ tài liệu độ phân giải cao dài hàng chục trang
❌ suy luận multi-hop bằng cách liên kết thông tin qua nhiều trang
❌ hiểu tài liệu long-context
thì vẫn còn hạn chế khi cần đánh giá một cách toàn diện.
Vì vậy, chúng tôi đã xây dựng benchmark KOLongDoc 📄 và công bố mã nguồn mở!
✅ dựa trên tài liệu của các cơ quan công tại Hàn Quốc
✅ Multi-page / Multi-hop QA
✅ đánh giá khả năng hiểu long document độ phân giải cao
✅ cung cấp tổng cộng 200 câu hỏi đánh giá
KOLongDoc là benchmark nhằm đánh giá mức độ chính xác mà các VLM trong và ngoài nước có thể hiểu và suy luận trên các tài liệu công tiếng Hàn thực tế.
Nếu bạn muốn xem chi tiết và cách sử dụng, hãy ghé thăm huggingface và github!
🤗 Bộ dữ liệu:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 Bài giới thiệu trên Github:
https://github.com/Marker-Inc-Korea/KOLongDoc
Rất hoan nghênh phản hồi và các trường hợp ứng dụng benchmark này!
Chưa có bình luận nào.