Llama-OCR: Công nghệ chuyển tài liệu sang Markdown
(llamaocr.com)-
Giới thiệu dự án
- Đây là công cụ sử dụng
llama-ocrvàTogether AIOCRđể chuyển hình ảnh thành Markdown có cấu trúc. - Người dùng có thể tải ảnh lên để trích xuất văn bản và chuyển đổi sang định dạng Markdown.
- Đây là công cụ sử dụng
-
Tính năng chính
- Cung cấp tính năng tải ảnh lên
- Trích xuất văn bản từ hình ảnh và chuyển đổi sang Markdown
- Cung cấp ảnh mẫu để người dùng có thể thử nghiệm tính năng
-
Ví dụ mã
- Cung cấp ví dụ mã sử dụng thư viện
llama-ocrđể trích xuất văn bản từ hình ảnh - Tạo Markdown bằng cách truyền đường dẫn tệp ảnh và API key vào hàm
ocr
- Cung cấp ví dụ mã sử dụng thư viện
-
Tầm quan trọng của dự án
- Dự án này giúp nâng cao hiệu quả xử lý tài liệu bằng cách cung cấp khả năng dễ dàng trích xuất văn bản từ hình ảnh và chuyển đổi sang Markdown.
- So với các công cụ OCR hiện có, dự án mang lại cách sử dụng đơn giản cùng khả năng chuyển đổi sang Markdown.
1 bình luận
Ý kiến trên Hacker News
Tác giả của llama-ocr đã phát triển một công cụ chuyển hình ảnh thành Markdown có cấu trúc bằng API đơn giản. Trong tương lai dự định sẽ bổ sung tính năng phân tích PDF và xuất JSON
Đã dùng llama3.2-vision để xử lý các phiếu đấu giá từ thiện, và kết quả khá chính xác ngay cả khi chữ viết tay không đẹp
Các mô hình OCR thông thường không phù hợp để số hóa văn bản trong ảnh gia đình, và Gemini Flash cho kết quả tốt nhất
Có nghi ngờ liệu đây có phù hợp là một bài đăng "Show HN" hay không, và cũng không thấy liên hệ rõ ràng với cái tên Llama
Đã vẽ thành các vòng tròn thực tế những câu được tạo bằng thuật toán di truyền, nhưng không được nhận diện là văn bản
Đã tải lên PDF nhiều trang nhưng được thông báo là chưa được hỗ trợ
Đã tải lên ảnh chụp màn hình HN nhưng mã Markdown không được xuất ra
OCR tiếng Nhật hoạt động tốt thông qua ChatGPT API
Trên hóa đơn Walmart, số 9 bị nhận nhầm thành 0