Ra mắt Mistral OCR - API hiểu tài liệu tốt nhất

(mistral.ai)

13 điểm bởi GN⁺ 2025-03-07 | 2 bình luận | Chia sẻ qua WhatsApp

Mistral OCR là API hiểu tài liệu tốt nhất thế giới, cung cấp khả năng hiểu và phân tích tài liệu chính xác hơn các mô hình hiện có
Trích xuất văn bản, media, công thức, bảng từ PDF và hình ảnh rồi chuyển thành đầu ra có cấu trúc
API hiện có giá 1000 trang/1$ (khi xử lý theo lô, chi phí mỗi trang giảm một nửa)

Các đặc điểm chính của Mistral OCR

Khả năng hiểu tài liệu phức tạp: diễn giải chính xác bảng, hình ảnh, công thức, thậm chí cả định dạng LaTeX
Hỗ trợ đa ngôn ngữ và đa phương thức: hỗ trợ nhiều ngôn ngữ, phông chữ và hệ chữ viết khác nhau
Hiệu năng hàng đầu ngành: đạt độ chính xác cao hơn các mô hình OCR khác
Tốc độ cao nhất: có thể xử lý 2000 trang mỗi phút trên một node đơn
Có thể dùng tài liệu làm prompt: hỗ trợ đầu ra có cấu trúc như JSON
Cung cấp tùy chọn on-premise (self-host): phù hợp với doanh nghiệp muốn xử lý tài liệu mật

Hiểu tài liệu phức tạp

Mistral OCR có thể phân tích sâu các tài liệu chứa bài báo khoa học, biểu đồ, công thức, bảng, hình ảnh
Có thể xem qua notebook ví dụ để kiểm tra cách OCR trích xuất văn bản và hình ảnh từ PDF (ví dụ)

So sánh hiệu năng (benchmark)

Mistral OCR ghi điểm cao nhất về hiệu năng tổng thể khi so với các mô hình OCR lớn khác

Hiệu năng tổng thể (Overall): 94.89 (cao hơn các mô hình khác)
Hiệu năng phân tích công thức (Math): 94.29 (cao hơn GPT-4o hơn 7 điểm)
Hiệu năng nhận diện đa ngôn ngữ: 89.55
Hiệu năng xử lý tài liệu quét (Scanned): 98.96
Hiệu năng nhận diện bảng (Table): 96.12 (vượt trội nhất so với các mô hình khác)

Hỗ trợ đa ngôn ngữ

Mistral OCR có thể xử lý nhiều ngôn ngữ và hệ chữ viết trên toàn thế giới. Khi so sánh với các mô hình lớn, Mistral OCR ghi nhận hiệu năng OCR tốt nhất ở mọi ngôn ngữ

Tiếng Nga (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
Tiếng Pháp (fr): 99.20 (Azure 97.50, Google 96.36)
Tiếng Trung (zh): 97.11 (Azure 91.40, Google 90.89)
Tiếng Đức (de): 99.51 (Azure 98.39, Google 97.09)

Tốc độ xử lý nhanh

Mistral OCR nhẹ hơn các mô hình OCR hiện có và có thể xử lý tối đa 2000 trang/phút trên một node đơn
Hỗ trợ học hỏi và cải tiến liên tục trong các môi trường cần xử lý khối lượng tài liệu lớn

Dùng tài liệu làm prompt (Doc-as-prompt)

Có thể trích xuất thông tin cụ thể từ tài liệu và tạo đầu ra có cấu trúc như JSON
Có thể tự động hóa bằng cách nối dữ liệu đã trích xuất với các quy trình AI tiếp theo
Ví dụ: trích xuất điều khoản cụ thể từ tài liệu pháp lý rồi tạo phản hồi cho chatbot AI

Tùy chọn on-premise (self-host)

Có thể tự host nếu cần xử lý tài liệu mật trong doanh nghiệp
Phù hợp với các tổ chức và doanh nghiệp coi trọng quyền riêng tư dữ liệu và bảo mật

Các trường hợp sử dụng chính

Số hóa nghiên cứu khoa học: chuyển đổi bài báo và tạp chí sang định dạng AI có thể xử lý để thúc đẩy cộng tác nghiên cứu
Bảo tồn lịch sử và di sản văn hóa: bảo tàng và tổ chức phi lợi nhuận có thể số hóa tài liệu lịch sử để lưu giữ và chia sẻ
Cải thiện dịch vụ khách hàng: lập chỉ mục manual và tài liệu để tăng tốc độ hỗ trợ khách hàng
Ứng dụng AI cho tài liệu thiết kế, giáo dục, pháp lý: lập chỉ mục bản vẽ kỹ thuật, tài liệu giảng dạy, hồ sơ quy định để tìm kiếm thông tin bằng AI

Trải nghiệm Mistral OCR

Có thể dùng thử miễn phí Mistral OCR trên Le Chat (Le Chat)
Có thể sử dụng API trên la Plateforme (Dùng API)
Cũng cung cấp triển khai on-premise và giải pháp tùy chỉnh cho doanh nghiệp (Liên hệ)

2 bình luận

taeha 2025-03-13

Không có nội dung nào về hiệu năng tiếng Hàn, nhưng khi thử trích xuất thì có vẻ cũng không tệ.

GN⁺ 2025-03-07

Ý kiến trên Hacker News

Có ý kiến cho rằng nó "không tệ". Tuy nhiên, hiện tượng ảo giác vẫn xảy ra
- Trong hình ảnh được cung cấp làm ví dụ, văn bản ở khối trung tâm đã được xuất ra chính xác
- Tuy nhiên, ở khối tiếp theo, một phần văn bản của khối trước bị lặp lại, một phần của khối sau bị chèn nhầm vào, và các từ không tồn tại đã được tạo ra
- Văn bản đúng là "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
Đã chạy một phần benchmark để so sánh hiệu năng giữa Mistral và Marker
- Trên 375 mẫu, theo đánh giá của LLM, Mistral đạt 4.32 điểm còn Marker đạt 4.41 điểm
- Marker có thể suy luận 20~120 trang mỗi giây trên H100
- Có thể xem mẫu và mã benchmark lần lượt trên Hugging Face và GitHub
- Mistral OCR là một mô hình ấn tượng, nhưng bài toán OCR vẫn còn khó
Có kỳ vọng rằng khi công nghệ OCR phát triển, việc đọc các bài báo khoa học và giáo trình sẽ trở nên dễ dàng hơn
- Có thể liên kết tham chiếu hình với hình thực tế nên không làm gián đoạn luồng đọc
- Có thể chuyển đổi gọn gàng sang HTML, từ đó thêm khả năng bấm vào định nghĩa hoặc chèn câu hỏi để kiểm tra mức độ hiểu
- Cũng có khả năng tích hợp tự động Orbit SRS của Andy Matuschak vào PDF
Công nghệ OCR đang tiến rất gần đến trạng thái gần như đã được giải quyết
- Tuy nhiên, trong kinh doanh vẫn còn khoảng cách lớn giữa đầu ra OCR thô và xử lý tài liệu thực tế
- LLM và VLM không phải phép màu, và kỳ vọng tự động hóa 100% là không thực tế
- Cần xây dựng bộ dữ liệu, tinh chỉnh pipeline, phát hiện độ bất định và sửa lỗi thông qua sự can thiệp của con người
Có ý kiến cho rằng khi chuyển giáo trình y khoa từ PDF sang MD, kết quả của MinerU/PDF-Extract-Kit tốt hơn
- Liên kết Colab trong bài viết không hoạt động, nhưng đã tìm được liên kết hoạt động trong tài liệu
Có ý kiến cho rằng ngày có thể chỉnh sửa PDF nhờ công nghệ tiến bộ cuối cùng đã đến
- Tuy nhiên, vấn đề OCR với kho lưu trữ PDF chứa dữ liệu cá nhân vẫn chưa được giải quyết
Có ý kiến cho rằng nó rất nhanh và chính xác hơn Google, Claude và các dịch vụ khác
- Giá là $1 cho mỗi 1000 trang, còn với batch thì được tính giá theo 2000 trang
- Có ý kiến cho rằng nó rất tuyệt để chuyển PDF sang Markdown
Khi dùng VLM tổng quát thay vì mô hình chuyên biệt, nhược điểm là khó tinh chỉnh cho các trường hợp cụ thể
- Ví dụ, dùng Gemini để thêm văn bản thay thế rất cụ thể vào Markdown được trích xuất
- Chi phí cao hơn Gemini Flash 2~3 lần, nhưng cải thiện hiệu năng là điều quan trọng
Muốn tìm một lời giải thích ngắn gọn về lý do VLM OCR gây ra ảo giác