Vì sao việc trích xuất dữ liệu từ PDF vẫn khó khăn

(arstechnica.com)

3 điểm bởi GN⁺ 2025-03-20 | 1 bình luận | Chia sẻ qua WhatsApp

Giới hạn của OCR (nhận dạng ký tự quang học)

Tệp PDF chứa nhiều dữ liệu quan trọng như nghiên cứu khoa học, hồ sơ chính phủ, nhưng do định dạng cố định nên máy rất khó đọc và phân tích
PDF là định dạng được tạo ra để phù hợp với bố cục in ấn, vì vậy không phù hợp cho phân tích số
Nhiều tệp PDF chứa hình ảnh của thông tin, nên cần phần mềm OCR để chuyển đổi chúng thành dữ liệu
Với tài liệu cũ hoặc tài liệu viết tay, hiệu năng của OCR càng giảm mạnh

Vấn đề dữ liệu phi cấu trúc

Khoảng 80~90% dữ liệu của các tổ chức trên toàn thế giới được lưu trữ dưới dạng dữ liệu phi cấu trúc, và thường nằm trong PDF
Việc trích xuất dữ liệu đặc biệt khó với bố cục hai cột, bảng biểu, biểu đồ và các bản scan có chất lượng hình ảnh thấp
Đây là vấn đề lớn, đặc biệt trong nghiên cứu khoa học, bảo tồn tài liệu lịch sử, dịch vụ khách hàng và việc bảo đảm khả năng truy cập tài liệu kỹ thuật trong các hệ thống AI

Tác động theo lĩnh vực

Ảnh hưởng đến hoạt động của các cơ quan công như hồ sơ chính phủ, tòa án, cảnh sát và dịch vụ xã hội
Trong các ngành phụ thuộc nhiều vào thông tin như bảo hiểm và ngân hàng, việc chuyển đổi dữ liệu từ PDF tiêu tốn nhiều thời gian và nguồn lực

Lịch sử của công nghệ OCR

Vào thập niên 1970, Ray Kurzweil đã phát triển hệ thống OCR thương mại dựa trên thuật toán so khớp mẫu
Kurzweil Reading Machine cung cấp chức năng nhận dạng văn bản cho người khiếm thị
Các hệ thống OCR truyền thống hoạt động bằng cách nhận diện các mẫu độ tương phản sáng-tối rồi chuyển chúng thành ký tự
Hiệu năng suy giảm khi gặp phông chữ phức tạp, bố cục nhiều cột, bảng biểu và các trường hợp tương tự
OCR truyền thống có lỗi tương đối dễ dự đoán nên dễ sửa hơn, nhưng vẫn có giới hạn

Sự trỗi dậy của OCR dựa trên AI

Các LLM đa phương thức (multimodal) tích hợp hình ảnh và văn bản để thực hiện trích xuất dữ liệu
Các mô hình của OpenAI, Google, Meta có thể đồng thời nhận biết yếu tố thị giác của tài liệu và ngữ cảnh văn bản
OCR truyền thống dựa trên so khớp mẫu ở mức ký tự, trong khi AI xử lý bằng cách nhận biết bố cục tài liệu và ngữ cảnh
Textract của Amazon vẫn theo cách OCR truyền thống, còn LLM có thể phân tích tài liệu trong ngữ cảnh rộng hơn
Chúng xử lý tốt hơn các bố cục phức tạp, bảng biểu và chú thích

Những thử nghiệm OCR mới dựa trên LLM

Công ty AI của Pháp Mistral đã ra mắt Mistral OCR, một API xử lý tài liệu dựa trên LLM
Mục tiêu là trích xuất văn bản và hình ảnh từ các tài liệu có bố cục phức tạp
Đã xuất hiện vấn đề về hiệu năng: thất bại khi xử lý bảng trong tài liệu cũ và phát sinh lỗi số liệu
Gặp vấn đề trong nhận dạng chữ viết tay → AI tự tạo ra nội dung không có thật (hallucination)
Gemini 2.0 của Google hiện cho hiệu năng tốt nhất → ít lỗi hơn ngay cả với tài liệu phức tạp

Những vấn đề của OCR dựa trên LLM

Vì LLM là mô hình dựa trên xác suất nên khả năng phát sinh lỗi cao
Khi bố cục tài liệu lặp lại, có thể xảy ra hiện tượng bị bỏ sót dòng
LLM có thể không phân biệt được prompt của người dùng với nội dung tài liệu, dẫn đến diễn giải sai
Nếu ghép nhầm giá trị trong bảng, có thể gây lỗi nghiêm trọng → tạo ra vấn đề lớn trong tài chính, pháp lý và y tế
Vấn đề tự sinh văn bản tùy ý → vẫn cần con người kiểm tra lại

Thách thức phía trước

Hiện vẫn chưa tồn tại giải pháp OCR hoàn hảo
Google, OpenAI và các bên khác đang cải thiện hiệu năng thông qua các sản phẩm AI có khả năng hiểu ngữ cảnh
Các công ty AI kỳ vọng có thể thu được dữ liệu huấn luyện AI bằng cách trích xuất dữ liệu từ PDF
Nếu AI có thể xử lý dữ liệu PDF một cách hoàn hảo, có thể sẽ mở ra một kỷ nguyên mới cho phân tích dữ liệu

1 bình luận

sixmen 2025-03-20

"PDF là định dạng được tạo ra để phù hợp với bố cục in ấn nên không thích hợp cho việc phân tích số."

Tôi nghĩ HWP cũng có vấn đề tương tự. Tôi vẫn cho rằng HWP là phần mềm rất tuyệt vời, nhưng về cơ bản nó dành cho xuất bản nên khó phân tích.

Ngược lại, Word thì khá tệ nếu dùng để tạo ấn phẩm đầu ra, nhưng bù lại có thể tập trung vào nội dung hơn, và vì thế có lẽ nó lại phù hợp hơn với thời đại web/AI.