Image-Table-OCR - Chuyển ảnh bảng thành CSV
(github.com)-
Mã nguồn mở giúp trích xuất dữ liệu bảng từ PDF hoặc hình ảnh và tạo thành CSV
-
Mã Python + OpenCV + Tesseract
-
Các hình ảnh trong PDF có thể được trích xuất thành từng tệp ảnh riêng bằng Poppler + ImageMagick để xử lý cùng lúc (script batch)
1 bình luận
Trong trường hợp bảng chỉ có số, có vẻ tiện hơn vì đoạn mã dưới đây có thể chọn cả vùng rồi trích xuất ra.
image2csv - mã nguồn mở chuyển hình ảnh bảng số thành CSV
https://github.com/artperrin/image2csv
Mã Python + OpenCV + Tesseract
Tự động nhận diện lưới (bảng)
Khi nhận diện thủ công, có thể dùng chuột để chọn vùng trên Windows