10 điểm bởi calmlake79 2026-02-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Công cụ mã nguồn mở dựa trên Rust để trích xuất bảng từ PDF
  • Các công cụ Python hiện có (Camelot, Tabula, pdfplumber) cần các phụ thuộc runtime nặng như OpenCV, Ghostscript, Java, nên bị hạn chế bộ nhớ lớn trong môi trường serverless
  • TREX chạy dưới dạng một binary duy nhất, không cần phụ thuộc bên ngoài, và có thể chạy trên Cloud Run/Lambda với ~30MB bộ nhớ mà không bị OOM
  • Tích hợp hai chiến lược phân tích là Lattice (dựa trên đường lưới) / Stream (suy luận tọa độ), đồng thời có thể tự động chọn chiến lược tối ưu theo từng trang bằng DL Router
  • DL Router dựa trên deep learning phân tích đặc trưng của trang để tự động chọn chiến lược phân tích tối ưu (Lattice/Stream/Blend). Có thể liên tục cải thiện độ chính xác bằng cách thu thập các sự kiện trích xuất thất bại trong quá trình vận hành và huấn luyện lại mô hình ONNX
  • Có thể dùng ngay trong Node.js bằng npm i @dreamyoungs/trex (CLI wrapper) hoặc npm i @dreamyoungs/trex-node (native binding NAPI-RS)
  • Cũng hỗ trợ Docker REST API và Python binding, với giấy phép kép MIT / Apache-2.0

Chưa có bình luận nào.

Chưa có bình luận nào.