- Trong benchmark Omni OCR dùng để phân tích hiệu năng OCR, đã so sánh cả các mô hình mới phát hành gần đây như Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr...
- Mô hình Qwen 2.5 VL 72B/32B ghi nhận độ chính xác cao nhất
- Cả hai đều đạt khoảng 75% độ chính xác, cho thấy hiệu năng ở mức GPT-4o
- Qwen 72B ghi nhận độ chính xác cao hơn 0,4% so với 32B, thực tế là hiệu năng tương đương trong phạm vi sai số
- Hai mô hình Qwen vượt qua hiệu năng của mistral-ocr (72,2%)
- Dù mistral-ocr là mô hình được huấn luyện chuyên biệt cho OCR, nó vẫn kém hơn Qwen
- Mô hình Gemma-3 (27B) có độ chính xác thấp, chỉ 42,9%
- Dù dựa trên kiến trúc Gemini 2.0, đây vẫn là kết quả hơi bất ngờ vì hiệu năng thấp
Omni OCR Benchmark
- Công cụ benchmark dùng để so sánh khả năng OCR và trích xuất dữ liệu, đánh giá độ chính xác trích xuất văn bản và JSON của các mô hình đa phương thức cỡ lớn như GPT-4o
- Mục tiêu của benchmark này là công bố một bộ benchmark toàn diện về độ chính xác OCR trên cả các nhà cung cấp OCR truyền thống lẫn các mô hình ngôn ngữ đa phương thức
- Bộ dữ liệu đánh giá và phương pháp luận đều được cung cấp dưới dạng mã nguồn mở, đồng thời khuyến khích mở rộng benchmark này để bao gồm thêm các nhà cung cấp khác
1 bình luận
Ý kiến trên Hacker News