Thay thế OCR bằng Vision Language Model

(github.com/vlm-run)

14 điểm bởi GN⁺ 2025-02-28 | 1 bình luận | Chia sẻ qua WhatsApp

Cuốn cookbook này là một dự án mã nguồn mở khám phá các thuật toán xử lý video và hình ảnh thông qua nhiều nghiên cứu tình huống và bài thực hành khác nhau
Bao quát nhiều lĩnh vực ứng dụng như suy luận video, danh mục hình ảnh và tìm kiếm lai cho hình ảnh thời trang
So với các dự án khác, ưu điểm là có thể học thuật toán thông qua nhiều trường hợp thực tế đa dạng
Các tệp và notebook chính
- 00_quickstart.ipynb: Hướng dẫn bắt đầu nhanh với dự án
- 01_schema_showcase.ipynb: Bao gồm nghiên cứu tình huống giới thiệu nhiều schema dữ liệu khác nhau
- 02_case_study_drivers_license.ipynb: Nhận diện giấy phép lái xe
- 03_case_study_tv_news.ipynb: Tìm hiểu nội dung màn hình tin tức TV
- 04_visual_grounding.ipynb: Khám phá thuật toán visual grounding. Trích xuất JSON trong vùng hộp của hình ảnh
- 05_case_study_image_catalogue.ipynb: Phân tích danh mục sản phẩm thời trang để nhận diện mô tả sản phẩm, danh mục, giới tính mục tiêu và mùa
- 06_fashion_images_hybrid_search.ipynb: Nghiên cứu tình huống về tìm kiếm lai cho hình ảnh thời trang
- advanced_finetuning_video_inference.ipynb: Kỹ thuật fine-tuning nâng cao cho suy luận video

1 bình luận

GN⁺ 2025-02-28

Ý kiến Hacker News

Ý tưởng thú vị, nhưng vẫn chưa đủ đáng tin để dùng trong môi trường production. Các mô hình OCR truyền thống khi không đọc được văn bản thì sẽ trả ra kết quả vô nghĩa với độ tin cậy thấp. Trong khi đó, VLM khi không đọc được lại tự tin đưa ra kết quả bịa đặt, và không có cách nào để báo cáo mức độ tin cậy. Trong các thử nghiệm nhận dạng chữ viết tay, VLM đã tự tạo ra tên và ngày tháng giả nhưng vẫn phù hợp với bối cảnh của tài liệu. Không có cách nào để neo mô hình vào văn bản nguồn
Gần đây đã công bố một benchmark mã nguồn mở để đánh giá VLM và OCR, và nhìn chung VLM cho kết quả tốt hơn các mô hình OCR truyền thống
Ưu điểm của VLM:
- Nhận dạng chữ viết tay. Khả năng hiểu ngữ cảnh giúp ích, tức là diễn giải cả từ/câu thay vì từng ký tự riêng lẻ
- Biểu đồ/infographic. VLM có thể diễn giải biểu đồ hoặc lưu đồ sang dạng văn bản, bao gồm cả các đường mã màu
Ưu điểm của OCR truyền thống:
- Tài liệu chuẩn hóa (ví dụ: biểu mẫu thuế của Mỹ)
- Văn bản dày đặc. Hãy nghĩ đến sách giáo khoa và các bài báo nghiên cứu nhiều cột. Đây là trường hợp dễ nhất với OCR, nhưng VLM gặp khó khăn khi số lượng token đầu ra tăng lên
- Bounding box. Vẫn chưa có mô hình nào cung cấp bounding box thật sự chính xác. Gemini và Qwen đã được huấn luyện cho việc này, nhưng vẫn chưa làm tốt bằng các mô hình truyền thống
Vẫn còn nhiều chỗ để cải thiện, nhưng đặc biệt các mô hình như Gemini có tính cạnh tranh rất cao về độ chính xác/chi phí
Tò mò không hiểu vì sao mọi dịch vụ OCR đều chỉ đưa ra ảnh chụp màn hình hoàn hảo của các tài liệu số. Có thật nhiều người cần OCR dữ liệu số đến vậy không? Sao không просто copy HTML? Nếu không phải tài liệu số, thì những ảnh chụp có nếp gấp, dòng bị lệch, gradient ánh sáng, ngón tay che khung hình, v.v. ở đâu?
Đã thử nghiệm vlm-run và định nghĩa biểu mẫu tùy chỉnh, và nó hoạt động đáng ngạc nhiên với Gemini 2.0 Flash. Theo hiểu biết của tôi thì chi phí cũng thấp. Có thể đạt kết quả tốt nhất với các biểu mẫu đơn giản đến trung bình. Chỉ với chưa đầy 10 phút huấn luyện, trên các biểu mẫu mà con người cũng có thể xử lý được
Công cụ OCR làm đúng những gì ghi trên hộp, như nhận dạng ký tự trên giấy. Lợi thế của việc dùng mô hình thị giác-ngôn ngữ là có thể thêm logic kiểu như: "Đây là một chuỗi, nhưng nó có trông giống timestamp không?"
Điều tôi muốn là: quét/chụp tài liệu (bao gồm cả sách nguyên cuốn), đưa cho mô hình ngôn ngữ, rồi nhận lại tài liệu Latex khớp chính xác với tài liệu gốc. Bỏ qua lỗi máy photocopy/máy ảnh và góc chụp. Có vẻ như có thể làm một mô hình reinforcement learning cho việc này. Nó nên có thể học cách tạo ra Latex tái hiện hình ảnh ở mức pixel
Nên dùng cả hai. Sau khi dùng OCR và LLM, nếu đối chiếu tương quan hai kết quả thì chất lượng tăng lên đáng kể. Không chỉ có hiểu tài liệu và ngữ cảnh, mà còn có được cả bounding box, v.v. Tôi đang làm một ứng dụng kiểu "không bao giờ phải điền giấy tờ nữa" và muốn trao đổi với ai quan tâm
Có thể là do prompt của tôi, nhưng sau khi nhúng ảnh vào thì dường như có quá nhiều diễn giải. Trong ví dụ của tôi, nó bắt đầu tóm tắt một phần văn bản, và đáng tiếc là tóm tắt sai. Trên một hóa đơn có chữ đánh máy, nội dung thực tế là nếu nộp sau 2 giờ chiều thứ Sáu thì sẽ không được đăng cho đến thứ Hai tuần sau, nhưng nó lại tóm tắt thành sẽ không được đăng trong 2-3 ngày làm việc. Hai điều này khác nhau khá nhiều. Tôi tự hỏi có cách nào loại bỏ lớp diễn giải này không. Nhận dạng phát hiện văn bản có cấu trúc theo kiểu one-shot tốt hơn OCR cơ bản rất nhiều
Thật tốt khi thấy có thêm nhiều công việc đang được thực hiện, nhưng tôi không hiểu tại sao thứ này lại bị trói vào API độc quyền của ai đó. Việc thay nhà cung cấp mô hình và thêm logging cơ bản không đến mức đau đầu như onboarding thêm một vendor khác, nhất là khi xử lý những thứ nhạy cảm như prompt LLM
Công cụ OCR CLI nào nhanh và chính xác nhất? Use case của tôi khá đơn giản - tôi muốn chụp một phần màn hình (Flameshot rất hợp cho việc này) rồi OCR nó. Tôi cần nó để ghi chú khi pair programming trên Zoom. Hiện tôi dùng tesseract; nó nhanh và hoạt động ổn nhưng vẫn mắc lỗi. Sẽ rất tuyệt nếu nó có thể nhận ra định dạng bảng và chuyển thành bảng ASCII hoặc Markdown. Tôi đã thử docling nhưng cảm thấy hơi quá mức cần thiết. Có vẻ nó chậm - tôi cần lấy văn bản từ ảnh chụp màn hình thật nhanh. Tôi mới chỉ thử với thiết lập mặc định, có lẽ tinh chỉnh sẽ cải thiện được. Có ai có thể chia sẻ ý kiến về việc này không? Cảm ơn!

Thay thế OCR bằng Vision Language Model

Bài viết liên quan

1 bình luận

Ý kiến Hacker News