Giới hạn của OCR (nhận dạng ký tự quang học)
- Tệp PDF chứa nhiều dữ liệu quan trọng như nghiên cứu khoa học, hồ sơ chính phủ, nhưng do định dạng cố định nên máy rất khó đọc và phân tích
- PDF là định dạng được tạo ra để phù hợp với bố cục in ấn, vì vậy không phù hợp cho phân tích số
- Nhiều tệp PDF chứa hình ảnh của thông tin, nên cần phần mềm OCR để chuyển đổi chúng thành dữ liệu
- Với tài liệu cũ hoặc tài liệu viết tay, hiệu năng của OCR càng giảm mạnh
Vấn đề dữ liệu phi cấu trúc
- Khoảng 80~90% dữ liệu của các tổ chức trên toàn thế giới được lưu trữ dưới dạng dữ liệu phi cấu trúc, và thường nằm trong PDF
- Việc trích xuất dữ liệu đặc biệt khó với bố cục hai cột, bảng biểu, biểu đồ và các bản scan có chất lượng hình ảnh thấp
- Đây là vấn đề lớn, đặc biệt trong nghiên cứu khoa học, bảo tồn tài liệu lịch sử, dịch vụ khách hàng và việc bảo đảm khả năng truy cập tài liệu kỹ thuật trong các hệ thống AI
Tác động theo lĩnh vực
- Ảnh hưởng đến hoạt động của các cơ quan công như hồ sơ chính phủ, tòa án, cảnh sát và dịch vụ xã hội
- Trong các ngành phụ thuộc nhiều vào thông tin như bảo hiểm và ngân hàng, việc chuyển đổi dữ liệu từ PDF tiêu tốn nhiều thời gian và nguồn lực
Lịch sử của công nghệ OCR
- Vào thập niên 1970, Ray Kurzweil đã phát triển hệ thống OCR thương mại dựa trên thuật toán so khớp mẫu
- Kurzweil Reading Machine cung cấp chức năng nhận dạng văn bản cho người khiếm thị
- Các hệ thống OCR truyền thống hoạt động bằng cách nhận diện các mẫu độ tương phản sáng-tối rồi chuyển chúng thành ký tự
- Hiệu năng suy giảm khi gặp phông chữ phức tạp, bố cục nhiều cột, bảng biểu và các trường hợp tương tự
- OCR truyền thống có lỗi tương đối dễ dự đoán nên dễ sửa hơn, nhưng vẫn có giới hạn
Sự trỗi dậy của OCR dựa trên AI
- Các LLM đa phương thức (multimodal) tích hợp hình ảnh và văn bản để thực hiện trích xuất dữ liệu
- Các mô hình của OpenAI, Google, Meta có thể đồng thời nhận biết yếu tố thị giác của tài liệu và ngữ cảnh văn bản
- OCR truyền thống dựa trên so khớp mẫu ở mức ký tự, trong khi AI xử lý bằng cách nhận biết bố cục tài liệu và ngữ cảnh
- Textract của Amazon vẫn theo cách OCR truyền thống, còn LLM có thể phân tích tài liệu trong ngữ cảnh rộng hơn
- Chúng xử lý tốt hơn các bố cục phức tạp, bảng biểu và chú thích
Những thử nghiệm OCR mới dựa trên LLM
- Công ty AI của Pháp Mistral đã ra mắt Mistral OCR, một API xử lý tài liệu dựa trên LLM
- Mục tiêu là trích xuất văn bản và hình ảnh từ các tài liệu có bố cục phức tạp
- Đã xuất hiện vấn đề về hiệu năng: thất bại khi xử lý bảng trong tài liệu cũ và phát sinh lỗi số liệu
- Gặp vấn đề trong nhận dạng chữ viết tay → AI tự tạo ra nội dung không có thật (hallucination)
- Gemini 2.0 của Google hiện cho hiệu năng tốt nhất → ít lỗi hơn ngay cả với tài liệu phức tạp
Những vấn đề của OCR dựa trên LLM
- Vì LLM là mô hình dựa trên xác suất nên khả năng phát sinh lỗi cao
- Khi bố cục tài liệu lặp lại, có thể xảy ra hiện tượng bị bỏ sót dòng
- LLM có thể không phân biệt được prompt của người dùng với nội dung tài liệu, dẫn đến diễn giải sai
- Nếu ghép nhầm giá trị trong bảng, có thể gây lỗi nghiêm trọng → tạo ra vấn đề lớn trong tài chính, pháp lý và y tế
- Vấn đề tự sinh văn bản tùy ý → vẫn cần con người kiểm tra lại
Thách thức phía trước
- Hiện vẫn chưa tồn tại giải pháp OCR hoàn hảo
- Google, OpenAI và các bên khác đang cải thiện hiệu năng thông qua các sản phẩm AI có khả năng hiểu ngữ cảnh
- Các công ty AI kỳ vọng có thể thu được dữ liệu huấn luyện AI bằng cách trích xuất dữ liệu từ PDF
- Nếu AI có thể xử lý dữ liệu PDF một cách hoàn hảo, có thể sẽ mở ra một kỷ nguyên mới cho phân tích dữ liệu
1 bình luận
"PDF là định dạng được tạo ra để phù hợp với bố cục in ấn nên không thích hợp cho việc phân tích số."
Tôi nghĩ HWP cũng có vấn đề tương tự. Tôi vẫn cho rằng HWP là phần mềm rất tuyệt vời, nhưng về cơ bản nó dành cho xuất bản nên khó phân tích.
Ngược lại, Word thì khá tệ nếu dùng để tạo ấn phẩm đầu ra, nhưng bù lại có thể tập trung vào nội dung hơn, và vì thế có lẽ nó lại phù hợp hơn với thời đại web/AI.