39 điểm bởi GN⁺ 2025-02-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hoàn toàn miễn phí và mã nguồn mở. Không có gói đăng ký/tính năng trả phí/mã ẩn
  • Có thể áp dụng linh hoạt từ xử lý chất lượng cao cho các bản thảo khó đến nhận dạng toàn văn số lượng lớn cho tài liệu in
  • Hỗ trợ mạnh mẽ cho chú thích bố cục và văn bản
    • Sử dụng trình biên tập LAREX để thêm chú thích thủ công, chỉnh sửa hoặc so sánh bố cục và các thành phần văn bản
  • Hoàn toàn tương thích với hệ sinh thái OCR-D
  • Thiết kế chú trọng khả năng sử dụng: có thể tạo các quy trình OCR phức tạp bằng UI mà không cần dùng code/CLI
  • Phát triển đa nền tảng dễ dàng: có thể chạy bằng Docker và một lệnh duy nhất bất kể loại OS

1 bình luận

 
GN⁺ 2025-02-15
Ý kiến trên Hacker News
  • Quy trình phân đoạn phức tạp từng cần thiết vài năm trước, nhưng giờ tạo ra nhiều lỗi và làm mô hình mất đi ngữ cảnh quan trọng. Muốn chuyển sang xử lý chữ viết tay thì cần ngữ cảnh

    • Để giải mã chữ viết tay lịch sử, các chuyên gia sẽ nói rằng cần toàn bộ tài liệu
    • Cần theo đuổi đến cùng việc nhận diện văn bản, không chỉ nhận diện ký tự
    • Đánh giá mô hình bằng CER là không tốt
    • Nhận diện văn bản đang lặp lại những sai lầm của dịch máy cách đây 15 năm
  • OCR4all là phần mềm để khôi phục và nhận diện văn bản số từ các ấn phẩm in đầu thời cận đại

    • Các kiểu in phức tạp và bố cục không đồng đều đang thử thách khả năng của phần mềm nhận diện văn bản thông thường
    • Có vẻ được xây dựng dựa trên Calamari-OCR
  • OCR4all đang xử lý rõ ràng và trực quan nhu cầu của người dùng không chuyên kỹ thuật

    • Có hướng dẫn mở terminal trên Linux và nhập lệnh
    • Khó hiểu điều đó giúp người dùng không chuyên kỹ thuật như thế nào
  • Vision Framework của Apple cung cấp thư viện nhận diện văn bản nhanh và chính xác hơn Tesseract

    • Có thể xử lý gần như mọi định dạng ảnh
    • Đã viết một công cụ CLI đơn giản và wrapper Python
  • Kết hợp Tesseract với LLM để sửa lỗi và cải thiện định dạng hiện là điểm tối ưu về tốc độ/hiệu quả/độ chính xác

    • Có thể chỉnh sửa prompt tiếng Anh để ưu tiên các khía cạnh cụ thể của tài liệu đầu vào
  • Đã phát triển một API OCR có hỗ trợ AI

    • Kết hợp Tesseract và Poppler-utils để trích xuất các phân đoạn tài liệu một cách thông minh
    • Có thể dễ dàng mở rộng sang nhiều mô hình Vision LLM
    • Xuất toàn bộ API tác tử AI thành container Dockerized
  • Quy trình làm việc này nhằm số hóa các tài liệu in lịch sử

    • Liên quan đến việc bảo tồn các thông báo cũ được in bằng kiểu chữ blackletter
  • OCR4all cung cấp quy trình nhận diện văn bản tự động bằng cách kết hợp nhiều giải pháp mã nguồn mở khác nhau

    • Có vẻ dựa trên OCR-D, vốn dựa trên Tesseract, Kraken, DUP-ocropy, Calamari-OCR
    • Có vẻ là lựa chọn mã nguồn mở thay thế cho Transkribus
    • eScriptorium cũng là một lựa chọn thay thế khác
  • Thắc mắc liệu đây có phải là một engine OCR SOTA mới hay chỉ là công cụ sử dụng các engine đã được biết đến khác

    • Giá mà trang giới thiệu làm rõ hơn
  • Dù tưởng OCR đã được Tesseract giải quyết phần lớn, vẫn đang tìm thư viện hoặc triển khai cho nén MRC của PDF đầu ra

    • Sản phẩm thương mại thì rất đắt, còn việc tách các lớp ảnh, nén chúng rồi ghép lại là một bài toán khó