13 điểm bởi xguru 2021-03-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mã nguồn mở giúp trích xuất dữ liệu bảng từ PDF hoặc hình ảnh và tạo thành CSV

  • Mã Python + OpenCV + Tesseract

  • Các hình ảnh trong PDF có thể được trích xuất thành từng tệp ảnh riêng bằng Poppler + ImageMagick để xử lý cùng lúc (script batch)

1 bình luận

 
xguru 2021-03-12

Trong trường hợp bảng chỉ có số, có vẻ tiện hơn vì đoạn mã dưới đây có thể chọn cả vùng rồi trích xuất ra.

image2csv - mã nguồn mở chuyển hình ảnh bảng số thành CSV

https://github.com/artperrin/image2csv

  • Mã Python + OpenCV + Tesseract

  • Tự động nhận diện lưới (bảng)

  • Khi nhận diện thủ công, có thể dùng chuột để chọn vùng trên Windows