29 điểm bởi GN⁺ 2025-02-06 | 2 bình luận | Chia sẻ qua WhatsApp
  • Quá trình chuyển PDF thành các đoạn văn bản (chunking) là một trong những vấn đề đau đầu nhất khi xây dựng hệ thống RAG quy mô lớn
  • Dù đã có cả giải pháp mã nguồn mở lẫn thương mại, vẫn rất khó đạt được kết quả thỏa đáng về độ chính xác, khả năng mở rộng và hiệu quả chi phí
    • Ví dụ: nv-ingest của NVIDIA yêu cầu triển khai nhiều dịch vụ trên một cụm Kubernetes và là một cách làm phức tạp, tiêu tốn nhiều tài nguyên GPU
    • Một số dịch vụ thương mại cũng gặp vấn đề là độ chính xác không tương xứng với chi phí, hoặc giá tăng lên mức rất lớn khi áp dụng cho tài liệu quy mô lớn

Sự xuất hiện của Gemini Flash 2.0

  • Đã từng có nhiều nỗ lực tận dụng mô hình lớn (LLM) cho OCR và chuyển đổi PDF, nhưng hiệu quả tiết kiệm chi phí trong thực tế là không đáng kể và xuất hiện nhiều lỗi khó đoán
    • Ví dụ: có trường hợp GPT-4o tự thêm các ô không cần thiết vào bảng
  • Gemini Flash 2.0 được đánh giá là có độ chính xác và hiệu quả chi phí vượt trội rõ rệt so với phiên bản 1.5 Flash
    • Kết quả thử nghiệm nội bộ cho thấy nó đạt độ chính xác OCR gần như hoàn hảo trong khi chi phí rất thấp
  • Trải nghiệm dành cho nhà phát triển (Developer Experience) của Google được cho là vẫn hơi kém hơn OpenAI, nhưng mức giá hợp lý là một ưu điểm lớn

So sánh chi phí và độ chính xác

  • Khi chuyển PDF sang định dạng Markdown, Gemini Flash 2.0 vượt trội về chi phí xử lý trên mỗi trang
    • 2.0 Flash: khoảng 6.000 trang/$1
    • 2.0 Flash Lite: khoảng 12.000 trang/$1 (trước khi thử nghiệm)
    • 1.5 Flash: khoảng 10.000 trang/$1
    • AWS Textract: khoảng 1.000 trang/$1
    • OpenAI 4o-mini: khoảng 450 trang/$1, v.v.
  • Về độ chính xác trích xuất bảng, mô hình riêng của Reducto cao nhất với 0,90, còn Gemini 2.0 Flash và Anthropic Sonnet ở mức 0,84
    • Phần lớn các trường hợp Gemini có vẻ sai là do vấn đề định dạng cấu trúc; hiếm khi nhận diện sai số liệu thực tế
  • Các phần trích xuất văn bản khác thì hoạt động gần như hoàn hảo

Phân đoạn tài liệu (Chunking) và việc sử dụng LLM

  • Để dùng trong pipeline RAG, cần có bước chia văn bản đã trích xuất thành các đơn vị theo ngữ nghĩa
  • Có nghiên cứu cho thấy LLM lớn có thể xác định ranh giới văn bản tự nhiên hơn
  • Tuy vậy, từ trước đến nay chi phí quá cao khiến việc áp dụng lên tập tài liệu lớn trong thực tế rất khó khả thi
  • Nhờ Gemini Flash 2.0, giờ đây có thể áp dụng phân đoạn dựa trên LLM cho tài liệu quy mô lớn với chi phí thấp
    • Ví dụ: có thể xử lý một kho PDF quy mô 100 triệu trang với khoảng $5.000
  • Ví dụ prompt đơn giản:

    OCR the following page into Markdown. Tables should be formatted as HTML.
    Do not sorround your output with triple backticks.

    Chunk the document into sections of roughly 250 - 1000 words. Our goal is
    to identify parts of the page with same semantic theme. These chunks will
    be embedded and used in a RAG pipeline.

    Surround the chunks with <chunk> </chunk> html tags.

Vấn đề Bounding Box

  • Cần giữ lại thông tin vị trí văn bản trong PDF (ví dụ: Bounding Box) để có thể cung cấp căn cứ chính xác cho người dùng
  • Việc mất thông tin vị trí khi chuyển sang Markdown là một nhược điểm lớn
  • Một số nghiên cứu đã cho thấy ví dụ về việc LLM có thể hiểu không gian trong ảnh và tài liệu, nhưng các mô hình Gemini hiện vẫn chưa thể cung cấp Bounding Box chính xác
  • Nếu Google tăng cường dữ liệu bố cục tài liệu thông qua huấn luyện bổ sung hoặc fine-tuning, vấn đề này có thể được giải quyết

Lý do và tầm quan trọng

  • Một giải pháp trích xuất và phân đoạn PDF vừa rẻ vừa chính xác là yếu tố cốt lõi để đơn giản hóa pipeline lập chỉ mục tài liệu quy mô lớn và nâng cao khả năng mở rộng
  • Nếu giải quyết được các vấn đề parsing, chunking và bounding box, việc xử lý tài liệu dựa trên LLM sẽ trở nên dễ dàng hơn rất nhiều
  • Trong tương lai có thể sẽ xuất hiện ngày càng nhiều thư viện mã nguồn mở hoàn thiện hơn, tạo nền tảng để nhiều doanh nghiệp và nhà phát triển có thể dễ dàng tận dụng
  • Nếu ai biết thông tin về chương trình AI Startup credits của Google, tác giả mong được liên hệ

Chú thích

  • [1] Đính kèm hình ảnh ví dụ so sánh Reducto vs Gemini vs PDF gốc
  • [2] Cách tính chi phí Gemini Flash 2.0: dựa trên chi phí ảnh đầu vào $0.00009675 và chi phí đầu ra $0.0000525 cho mỗi 400 token, ước tính khoảng 6.379 trang/$1

2 bình luận

 
jacde 2025-02-07

Về mặt chi phí lẫn hiệu năng, có vẻ agent chunking sẽ phát huy tác dụng phần nào.

 
ragingwind 2025-02-06

Thị trường chuyển đổi sang định dạng sẵn sàng cho LLM đang cạnh tranh rất khốc liệt.