Qwen-2.5-32B giờ là mô hình OCR mã nguồn mở tốt nhất

(github.com/getomni-ai)

8 điểm bởi GN⁺ 2025-04-04 | 1 bình luận | Chia sẻ qua WhatsApp

Trong benchmark Omni OCR dùng để phân tích hiệu năng OCR, đã so sánh cả các mô hình mới phát hành gần đây như Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr...
Mô hình Qwen 2.5 VL 72B/32B ghi nhận độ chính xác cao nhất
- Cả hai đều đạt khoảng 75% độ chính xác, cho thấy hiệu năng ở mức GPT-4o
- Qwen 72B ghi nhận độ chính xác cao hơn 0,4% so với 32B, thực tế là hiệu năng tương đương trong phạm vi sai số
Hai mô hình Qwen vượt qua hiệu năng của mistral-ocr (72,2%)
- Dù mistral-ocr là mô hình được huấn luyện chuyên biệt cho OCR, nó vẫn kém hơn Qwen
Mô hình Gemma-3 (27B) có độ chính xác thấp, chỉ 42,9%
- Dù dựa trên kiến trúc Gemini 2.0, đây vẫn là kết quả hơi bất ngờ vì hiệu năng thấp

Omni OCR Benchmark

Công cụ benchmark dùng để so sánh khả năng OCR và trích xuất dữ liệu, đánh giá độ chính xác trích xuất văn bản và JSON của các mô hình đa phương thức cỡ lớn như GPT-4o
Mục tiêu của benchmark này là công bố một bộ benchmark toàn diện về độ chính xác OCR trên cả các nhà cung cấp OCR truyền thống lẫn các mô hình ngôn ngữ đa phương thức
Bộ dữ liệu đánh giá và phương pháp luận đều được cung cấp dưới dạng mã nguồn mở, đồng thời khuyến khích mở rộng benchmark này để bao gồm thêm các nhà cung cấp khác

1 bình luận

GN⁺ 2025-04-04

Ý kiến trên Hacker News

32b cho đầu ra thân thiện với con người hơn, suy luận toán học tốt hơn, và tính năng tinh chỉnh nhỏ để hỗ trợ hiểu chi tiết có vẻ hữu ích
Qwen2.5-VL-72b đã được phát hành cách đây hai tháng, và đã có những bình luận đầy hào hứng về khả năng nhận dạng chữ viết tay
- Đây là một bản phát hành thú vị khiến người ta vượt qua cảm giác hoài nghi và khó chịu về AI
- Ghi chú phát hành được sắp xếp tốt, và bài viết blog cũng rất xuất sắc
Đầu ra HTML của Qwen rất thú vị
- Nó cung cấp các hộp giới hạn ở định dạng HTML, giúp nhanh chóng xây dựng phản hồi trực quan hoặc dễ dàng sử dụng dữ liệu có cấu trúc
- OCR truyền thống có lợi thế lớn so với LLM trong việc cung cấp tọa độ hộp giới hạn
Trước khi đạt độ chính xác trên 95%, vẫn cần con người kiểm tra chéo và sửa lại, và nếu không có hộp giới hạn thì điều đó là không thực tế
Đang tải phiên bản MLX của "Qwen2.5-VL-32b-Instruct -8bit" qua LM Studio, dự định sẽ dùng cho một dự án OCR phụ
Tò mò liệu họ có đo cả chi phí và độ trễ bên cạnh độ chính xác hay không, và nếu có thì mong họ chia sẻ kết quả
Vẫn liên tục ngạc nhiên trước khả năng OCR của Gemini, còn Qwen thì đang tiến bộ rất nhanh
Đang so sánh nhiều mô hình để thực hiện công việc, và mô hình mới nhất của Qwen ổn định hơn trước rất nhiều và dễ tinh chỉnh hơn
Hiệu năng OCR của OpenAI trong thời gian dài không được cải thiện, điều này vừa lạ vừa gây khó chịu
Qwen 2.5 VL 72b vượt Gemini ở thị giác tổng quát, và có thể chạy cục bộ
Đang thử nghiệm với OCR API trên macOS và muốn so sánh với các LLM này
Tesseract có thể đạt độ chính xác 99% ở mọi thứ ngoại trừ chữ viết tay
Tò mò liệu việc dùng LLM có mang lại lợi thế nào không
Rất ấn tượng với kết quả thử nghiệm của Qwen và nghĩ rằng mọi người đang đánh giá thấp nó
Tò mò cách họ cấu hình giao diện LLM để xử lý nhiều tệp trong một prompt duy nhất
Đây là thành quả tuyệt vời của Tyler và cả đội

Qwen-2.5-32B giờ là mô hình OCR mã nguồn mở tốt nhất

Omni OCR Benchmark

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News