3 điểm bởi GN⁺ 2024-11-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • Giới thiệu dự án

    • Đây là công cụ sử dụng llama-ocrTogether AIOCR để chuyển hình ảnh thành Markdown có cấu trúc.
    • Người dùng có thể tải ảnh lên để trích xuất văn bản và chuyển đổi sang định dạng Markdown.
  • Tính năng chính

    • Cung cấp tính năng tải ảnh lên
    • Trích xuất văn bản từ hình ảnh và chuyển đổi sang Markdown
    • Cung cấp ảnh mẫu để người dùng có thể thử nghiệm tính năng
  • Ví dụ mã

    • Cung cấp ví dụ mã sử dụng thư viện llama-ocr để trích xuất văn bản từ hình ảnh
    • Tạo Markdown bằng cách truyền đường dẫn tệp ảnh và API key vào hàm ocr
  • Tầm quan trọng của dự án

    • Dự án này giúp nâng cao hiệu quả xử lý tài liệu bằng cách cung cấp khả năng dễ dàng trích xuất văn bản từ hình ảnh và chuyển đổi sang Markdown.
    • So với các công cụ OCR hiện có, dự án mang lại cách sử dụng đơn giản cùng khả năng chuyển đổi sang Markdown.

1 bình luận

 
GN⁺ 2024-11-17
Ý kiến trên Hacker News
  • Tác giả của llama-ocr đã phát triển một công cụ chuyển hình ảnh thành Markdown có cấu trúc bằng API đơn giản. Trong tương lai dự định sẽ bổ sung tính năng phân tích PDF và xuất JSON

    • Trong ví dụ webtoon, đã phát hiện vấn đề các đoạn hội thoại viết hoa được xuất ra khác nhau ở mỗi khung
    • Đã dùng nó để số hóa các slide cũ, và màu vàng của slide thực ra là do vấn đề cân bằng trắng
    • Đây là một ví dụ cho thấy độ lệch của mô hình: nó nhận nhầm slide là đồ cổ và tạo ra tiêu đề sai
    • Chưa có tài liệu về giới hạn kích thước tệp hoặc độ phân giải của API
  • Đã dùng llama3.2-vision để xử lý các phiếu đấu giá từ thiện, và kết quả khá chính xác ngay cả khi chữ viết tay không đẹp

    • Điểm bất tiện là không xuất ra CSV một cách nhất quán
    • Quy mô vấn đề chỉ khoảng 100 trang nên vẫn có thể dọn dẹp thủ công
  • Các mô hình OCR thông thường không phù hợp để số hóa văn bản trong ảnh gia đình, và Gemini Flash cho kết quả tốt nhất

    • Dù vậy vẫn còn nhiều lỗi nên làm thủ công còn nhanh hơn
  • Có nghi ngờ liệu đây có phù hợp là một bài đăng "Show HN" hay không, và cũng không thấy liên hệ rõ ràng với cái tên Llama

  • Đã vẽ thành các vòng tròn thực tế những câu được tạo bằng thuật toán di truyền, nhưng không được nhận diện là văn bản

  • Đã tải lên PDF nhiều trang nhưng được thông báo là chưa được hỗ trợ

  • Đã tải lên ảnh chụp màn hình HN nhưng mã Markdown không được xuất ra

  • OCR tiếng Nhật hoạt động tốt thông qua ChatGPT API

  • Trên hóa đơn Walmart, số 9 bị nhận nhầm thành 0