Cách xử lý hàng triệu tệp PDF và vì sao Gemini 2.0 thay đổi mọi thứ

(sergey.fyi)

29 điểm bởi GN⁺ 2025-02-06 | 2 bình luận | Chia sẻ qua WhatsApp

Quá trình chuyển PDF thành các đoạn văn bản (chunking) là một trong những vấn đề đau đầu nhất khi xây dựng hệ thống RAG quy mô lớn
Dù đã có cả giải pháp mã nguồn mở lẫn thương mại, vẫn rất khó đạt được kết quả thỏa đáng về độ chính xác, khả năng mở rộng và hiệu quả chi phí
- Ví dụ: nv-ingest của NVIDIA yêu cầu triển khai nhiều dịch vụ trên một cụm Kubernetes và là một cách làm phức tạp, tiêu tốn nhiều tài nguyên GPU
- Một số dịch vụ thương mại cũng gặp vấn đề là độ chính xác không tương xứng với chi phí, hoặc giá tăng lên mức rất lớn khi áp dụng cho tài liệu quy mô lớn

Sự xuất hiện của Gemini Flash 2.0

Đã từng có nhiều nỗ lực tận dụng mô hình lớn (LLM) cho OCR và chuyển đổi PDF, nhưng hiệu quả tiết kiệm chi phí trong thực tế là không đáng kể và xuất hiện nhiều lỗi khó đoán
- Ví dụ: có trường hợp GPT-4o tự thêm các ô không cần thiết vào bảng
Gemini Flash 2.0 được đánh giá là có độ chính xác và hiệu quả chi phí vượt trội rõ rệt so với phiên bản 1.5 Flash
- Kết quả thử nghiệm nội bộ cho thấy nó đạt độ chính xác OCR gần như hoàn hảo trong khi chi phí rất thấp
Trải nghiệm dành cho nhà phát triển (Developer Experience) của Google được cho là vẫn hơi kém hơn OpenAI, nhưng mức giá hợp lý là một ưu điểm lớn

Khi chuyển PDF sang định dạng Markdown, Gemini Flash 2.0 vượt trội về chi phí xử lý trên mỗi trang
- 2.0 Flash: khoảng 6.000 trang/$1
- 2.0 Flash Lite: khoảng 12.000 trang/$1 (trước khi thử nghiệm)
- 1.5 Flash: khoảng 10.000 trang/$1
- AWS Textract: khoảng 1.000 trang/$1
- OpenAI 4o-mini: khoảng 450 trang/$1, v.v.
Về độ chính xác trích xuất bảng, mô hình riêng của Reducto cao nhất với 0,90, còn Gemini 2.0 Flash và Anthropic Sonnet ở mức 0,84
- Phần lớn các trường hợp Gemini có vẻ sai là do vấn đề định dạng cấu trúc; hiếm khi nhận diện sai số liệu thực tế
Các phần trích xuất văn bản khác thì hoạt động gần như hoàn hảo

Để dùng trong pipeline RAG, cần có bước chia văn bản đã trích xuất thành các đơn vị theo ngữ nghĩa
Có nghiên cứu cho thấy LLM lớn có thể xác định ranh giới văn bản tự nhiên hơn
Tuy vậy, từ trước đến nay chi phí quá cao khiến việc áp dụng lên tập tài liệu lớn trong thực tế rất khó khả thi
Nhờ Gemini Flash 2.0, giờ đây có thể áp dụng phân đoạn dựa trên LLM cho tài liệu quy mô lớn với chi phí thấp
- Ví dụ: có thể xử lý một kho PDF quy mô 100 triệu trang với khoảng $5.000
Ví dụ prompt đơn giản:

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

Cần giữ lại thông tin vị trí văn bản trong PDF (ví dụ: Bounding Box) để có thể cung cấp căn cứ chính xác cho người dùng
Việc mất thông tin vị trí khi chuyển sang Markdown là một nhược điểm lớn
Một số nghiên cứu đã cho thấy ví dụ về việc LLM có thể hiểu không gian trong ảnh và tài liệu, nhưng các mô hình Gemini hiện vẫn chưa thể cung cấp Bounding Box chính xác
Nếu Google tăng cường dữ liệu bố cục tài liệu thông qua huấn luyện bổ sung hoặc fine-tuning, vấn đề này có thể được giải quyết

Một giải pháp trích xuất và phân đoạn PDF vừa rẻ vừa chính xác là yếu tố cốt lõi để đơn giản hóa pipeline lập chỉ mục tài liệu quy mô lớn và nâng cao khả năng mở rộng
Nếu giải quyết được các vấn đề parsing, chunking và bounding box, việc xử lý tài liệu dựa trên LLM sẽ trở nên dễ dàng hơn rất nhiều
Trong tương lai có thể sẽ xuất hiện ngày càng nhiều thư viện mã nguồn mở hoàn thiện hơn, tạo nền tảng để nhiều doanh nghiệp và nhà phát triển có thể dễ dàng tận dụng
Nếu ai biết thông tin về chương trình AI Startup credits của Google, tác giả mong được liên hệ

[1] Đính kèm hình ảnh ví dụ so sánh Reducto vs Gemini vs PDF gốc
[2] Cách tính chi phí Gemini Flash 2.0: dựa trên chi phí ảnh đầu vào $0.00009675 và chi phí đầu ra $0.0000525 cho mỗi 400 token, ước tính khoảng 6.379 trang/$1

jacde 2025-02-07

Về mặt chi phí lẫn hiệu năng, có vẻ agent chunking sẽ phát huy tác dụng phần nào.

ragingwind 2025-02-06

Thị trường chuyển đổi sang định dạng sẵn sàng cho LLM đang cạnh tranh rất khốc liệt.