Ra mắt Mistral OCR - API hiểu tài liệu tốt nhất
(mistral.ai)- Mistral OCR là API hiểu tài liệu tốt nhất thế giới, cung cấp khả năng hiểu và phân tích tài liệu chính xác hơn các mô hình hiện có
- Trích xuất văn bản, media, công thức, bảng từ PDF và hình ảnh rồi chuyển thành đầu ra có cấu trúc
- API hiện có giá 1000 trang/1$ (khi xử lý theo lô, chi phí mỗi trang giảm một nửa)
Các đặc điểm chính của Mistral OCR
- Khả năng hiểu tài liệu phức tạp: diễn giải chính xác bảng, hình ảnh, công thức, thậm chí cả định dạng LaTeX
- Hỗ trợ đa ngôn ngữ và đa phương thức: hỗ trợ nhiều ngôn ngữ, phông chữ và hệ chữ viết khác nhau
- Hiệu năng hàng đầu ngành: đạt độ chính xác cao hơn các mô hình OCR khác
- Tốc độ cao nhất: có thể xử lý 2000 trang mỗi phút trên một node đơn
- Có thể dùng tài liệu làm prompt: hỗ trợ đầu ra có cấu trúc như JSON
- Cung cấp tùy chọn on-premise (self-host): phù hợp với doanh nghiệp muốn xử lý tài liệu mật
Hiểu tài liệu phức tạp
- Mistral OCR có thể phân tích sâu các tài liệu chứa bài báo khoa học, biểu đồ, công thức, bảng, hình ảnh
- Có thể xem qua notebook ví dụ để kiểm tra cách OCR trích xuất văn bản và hình ảnh từ PDF (ví dụ)
So sánh hiệu năng (benchmark)
Mistral OCR ghi điểm cao nhất về hiệu năng tổng thể khi so với các mô hình OCR lớn khác
- Hiệu năng tổng thể (Overall): 94.89 (cao hơn các mô hình khác)
- Hiệu năng phân tích công thức (Math): 94.29 (cao hơn GPT-4o hơn 7 điểm)
- Hiệu năng nhận diện đa ngôn ngữ: 89.55
- Hiệu năng xử lý tài liệu quét (Scanned): 98.96
- Hiệu năng nhận diện bảng (Table): 96.12 (vượt trội nhất so với các mô hình khác)
Hỗ trợ đa ngôn ngữ
Mistral OCR có thể xử lý nhiều ngôn ngữ và hệ chữ viết trên toàn thế giới. Khi so sánh với các mô hình lớn, Mistral OCR ghi nhận hiệu năng OCR tốt nhất ở mọi ngôn ngữ
- Tiếng Nga (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- Tiếng Pháp (fr): 99.20 (Azure 97.50, Google 96.36)
- Tiếng Trung (zh): 97.11 (Azure 91.40, Google 90.89)
- Tiếng Đức (de): 99.51 (Azure 98.39, Google 97.09)
Tốc độ xử lý nhanh
- Mistral OCR nhẹ hơn các mô hình OCR hiện có và có thể xử lý tối đa 2000 trang/phút trên một node đơn
- Hỗ trợ học hỏi và cải tiến liên tục trong các môi trường cần xử lý khối lượng tài liệu lớn
Dùng tài liệu làm prompt (Doc-as-prompt)
- Có thể trích xuất thông tin cụ thể từ tài liệu và tạo đầu ra có cấu trúc như JSON
- Có thể tự động hóa bằng cách nối dữ liệu đã trích xuất với các quy trình AI tiếp theo
- Ví dụ: trích xuất điều khoản cụ thể từ tài liệu pháp lý rồi tạo phản hồi cho chatbot AI
Tùy chọn on-premise (self-host)
- Có thể tự host nếu cần xử lý tài liệu mật trong doanh nghiệp
- Phù hợp với các tổ chức và doanh nghiệp coi trọng quyền riêng tư dữ liệu và bảo mật
Các trường hợp sử dụng chính
- Số hóa nghiên cứu khoa học: chuyển đổi bài báo và tạp chí sang định dạng AI có thể xử lý để thúc đẩy cộng tác nghiên cứu
- Bảo tồn lịch sử và di sản văn hóa: bảo tàng và tổ chức phi lợi nhuận có thể số hóa tài liệu lịch sử để lưu giữ và chia sẻ
- Cải thiện dịch vụ khách hàng: lập chỉ mục manual và tài liệu để tăng tốc độ hỗ trợ khách hàng
- Ứng dụng AI cho tài liệu thiết kế, giáo dục, pháp lý: lập chỉ mục bản vẽ kỹ thuật, tài liệu giảng dạy, hồ sơ quy định để tìm kiếm thông tin bằng AI
2 bình luận
Không có nội dung nào về hiệu năng tiếng Hàn, nhưng khi thử trích xuất thì có vẻ cũng không tệ.
Ý kiến trên Hacker News
Có ý kiến cho rằng nó "không tệ". Tuy nhiên, hiện tượng ảo giác vẫn xảy ra
Đã chạy một phần benchmark để so sánh hiệu năng giữa Mistral và Marker
Có kỳ vọng rằng khi công nghệ OCR phát triển, việc đọc các bài báo khoa học và giáo trình sẽ trở nên dễ dàng hơn
Công nghệ OCR đang tiến rất gần đến trạng thái gần như đã được giải quyết
Có ý kiến cho rằng khi chuyển giáo trình y khoa từ PDF sang MD, kết quả của MinerU/PDF-Extract-Kit tốt hơn
Có ý kiến cho rằng ngày có thể chỉnh sửa PDF nhờ công nghệ tiến bộ cuối cùng đã đến
Có ý kiến cho rằng nó rất nhanh và chính xác hơn Google, Claude và các dịch vụ khác
Khi dùng VLM tổng quát thay vì mô hình chuyên biệt, nhược điểm là khó tinh chỉnh cho các trường hợp cụ thể
Muốn tìm một lời giải thích ngắn gọn về lý do VLM OCR gây ra ảo giác