8 điểm bởi GN⁺ 2025-04-04 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong benchmark Omni OCR dùng để phân tích hiệu năng OCR, đã so sánh cả các mô hình mới phát hành gần đây như Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr...
  • Mô hình Qwen 2.5 VL 72B/32B ghi nhận độ chính xác cao nhất
    • Cả hai đều đạt khoảng 75% độ chính xác, cho thấy hiệu năng ở mức GPT-4o
    • Qwen 72B ghi nhận độ chính xác cao hơn 0,4% so với 32B, thực tế là hiệu năng tương đương trong phạm vi sai số
  • Hai mô hình Qwen vượt qua hiệu năng của mistral-ocr (72,2%)
    • Dù mistral-ocr là mô hình được huấn luyện chuyên biệt cho OCR, nó vẫn kém hơn Qwen
  • Mô hình Gemma-3 (27B) có độ chính xác thấp, chỉ 42,9%
    • Dù dựa trên kiến trúc Gemini 2.0, đây vẫn là kết quả hơi bất ngờ vì hiệu năng thấp

Omni OCR Benchmark

  • Công cụ benchmark dùng để so sánh khả năng OCR và trích xuất dữ liệu, đánh giá độ chính xác trích xuất văn bản và JSON của các mô hình đa phương thức cỡ lớn như GPT-4o
  • Mục tiêu của benchmark này là công bố một bộ benchmark toàn diện về độ chính xác OCR trên cả các nhà cung cấp OCR truyền thống lẫn các mô hình ngôn ngữ đa phương thức
  • Bộ dữ liệu đánh giá và phương pháp luận đều được cung cấp dưới dạng mã nguồn mở, đồng thời khuyến khích mở rộng benchmark này để bao gồm thêm các nhà cung cấp khác

1 bình luận

 
GN⁺ 2025-04-04
Ý kiến trên Hacker News
  • 32b cho đầu ra thân thiện với con người hơn, suy luận toán học tốt hơn, và tính năng tinh chỉnh nhỏ để hỗ trợ hiểu chi tiết có vẻ hữu ích
  • Qwen2.5-VL-72b đã được phát hành cách đây hai tháng, và đã có những bình luận đầy hào hứng về khả năng nhận dạng chữ viết tay
    • Đây là một bản phát hành thú vị khiến người ta vượt qua cảm giác hoài nghi và khó chịu về AI
    • Ghi chú phát hành được sắp xếp tốt, và bài viết blog cũng rất xuất sắc
  • Đầu ra HTML của Qwen rất thú vị
    • Nó cung cấp các hộp giới hạn ở định dạng HTML, giúp nhanh chóng xây dựng phản hồi trực quan hoặc dễ dàng sử dụng dữ liệu có cấu trúc
    • OCR truyền thống có lợi thế lớn so với LLM trong việc cung cấp tọa độ hộp giới hạn
  • Trước khi đạt độ chính xác trên 95%, vẫn cần con người kiểm tra chéo và sửa lại, và nếu không có hộp giới hạn thì điều đó là không thực tế
  • Đang tải phiên bản MLX của "Qwen2.5-VL-32b-Instruct -8bit" qua LM Studio, dự định sẽ dùng cho một dự án OCR phụ
  • Tò mò liệu họ có đo cả chi phí và độ trễ bên cạnh độ chính xác hay không, và nếu có thì mong họ chia sẻ kết quả
  • Vẫn liên tục ngạc nhiên trước khả năng OCR của Gemini, còn Qwen thì đang tiến bộ rất nhanh
  • Đang so sánh nhiều mô hình để thực hiện công việc, và mô hình mới nhất của Qwen ổn định hơn trước rất nhiều và dễ tinh chỉnh hơn
  • Hiệu năng OCR của OpenAI trong thời gian dài không được cải thiện, điều này vừa lạ vừa gây khó chịu
  • Qwen 2.5 VL 72b vượt Gemini ở thị giác tổng quát, và có thể chạy cục bộ
  • Đang thử nghiệm với OCR API trên macOS và muốn so sánh với các LLM này
  • Tesseract có thể đạt độ chính xác 99% ở mọi thứ ngoại trừ chữ viết tay
  • Tò mò liệu việc dùng LLM có mang lại lợi thế nào không
  • Rất ấn tượng với kết quả thử nghiệm của Qwen và nghĩ rằng mọi người đang đánh giá thấp nó
  • Tò mò cách họ cấu hình giao diện LLM để xử lý nhiều tệp trong một prompt duy nhất
  • Đây là thành quả tuyệt vời của Tyler và cả đội