- Là mô hình OCR thế hệ mới đồng thời cải thiện độ chính xác và hiệu quả xử lý tài liệu, mang lại hiệu năng nhận dạng cao trên nhiều loại tài liệu
- Ghi nhận mức cải thiện hiệu năng tổng thể 74% so với phiên bản trước, đạt kết quả vượt trội trên chữ viết tay, biểu mẫu, bảng phức tạp và tài liệu quét
- Hỗ trợ tái tạo bảng dựa trên HTML và xuất ra Markdown, giúp bảo toàn cả thông tin cấu trúc của tài liệu
- 2 USD cho mỗi 1.000 trang, giảm 50% khi xử lý khối lượng lớn, đảm bảo hiệu quả chi phí
- Là công nghệ OCR có thể được ứng dụng rộng rãi từ pipeline tài liệu quy mô lớn trong doanh nghiệp đến workflow tài liệu tương tác, đang nổi lên như hạ tầng cốt lõi cho việc khai thác dữ liệu dựa trên AI tạo sinh
Hiệu năng và tính năng chính
- Mistral OCR 3 thực hiện trích xuất văn bản và hình ảnh nhúng với độ chính xác cao trên nhiều loại tài liệu
- Hỗ trợ xuất ở định dạng Markdown và tính năng tái tạo bảng HTML, giúp nhận diện không chỉ nội dung mà còn cả cấu trúc của tài liệu
- Kích thước mô hình nhỏ, nên được cung cấp với chi phí thấp hơn so với các giải pháp cạnh tranh; giá là 2 USD cho mỗi 1.000 trang, hoặc 1 USD khi dùng Batch API
- Có thể tích hợp model mistral-ocr-2512 qua API, hoặc dùng giao diện Document AI Playground để chuyển PDF và hình ảnh thành văn bản hoặc JSON có cấu trúc
Cải thiện hiệu năng và benchmark
- Trong benchmark nội bộ, ghi nhận tỷ lệ thắng 74% so với Mistral OCR 2
- Bài kiểm thử được thực hiện dựa trên các tình huống kinh doanh thực tế của khách hàng, và độ chính xác được đánh giá bằng fuzzy-match metric
- Đạt độ chính xác vượt qua cả giải pháp xử lý tài liệu doanh nghiệp lẫn OCR dựa trên AI
Các hạng mục nâng cấp chính
- Nhận dạng chữ viết tay: diễn giải chính xác chữ viết tay, chú thích pha trộn và chữ viết tay trên biểu mẫu in sẵn
- Xử lý biểu mẫu: cải thiện nhận diện ô, nhãn, nội dung viết tay và bố cục phức tạp
- Tài liệu quét và tài liệu phức tạp: tăng khả năng chống chịu với lỗi nén, méo hình, độ phân giải thấp và nhiễu nền
- Cấu trúc bảng phức tạp: tái tạo đầy đủ các bảng gồm tiêu đề, ô gộp, phân cấp nhiều hàng/cột bằng thẻ HTML (
colspan/rowspan)
- Cải thiện hiệu năng tổng thể so với Mistral OCR 2 trên mọi ngôn ngữ và mọi dạng tài liệu
Trường hợp sử dụng và lĩnh vực ứng dụng
- Phù hợp cho cả pipeline tài liệu doanh nghiệp quy mô lớn và workflow tài liệu tương tác
- Hỗ trợ chuyển đổi sang Markdown sau khi trích xuất văn bản/hình ảnh, tự động phân tích biểu mẫu và hóa đơn, xây dựng pipeline hiểu tài liệu, số hóa chữ viết tay và tài liệu lịch sử
- Các khách hàng đầu tiên đang dùng sản phẩm này để chuyển hóa đơn thành trường dữ liệu có cấu trúc, số hóa kho lưu trữ doanh nghiệp, trích xuất văn bản từ báo cáo kỹ thuật và khoa học, cũng như cải thiện tìm kiếm trong doanh nghiệp
- Tim Law của IDC cho biết: “OCR là công nghệ nền tảng của AI tạo sinh và AI tác tử, và năng lực trích xuất văn bản độ chính xác cao với chi phí thấp sẽ quyết định năng lực cạnh tranh trong việc khai thác dữ liệu”
Phương thức truy cập và khả năng tương thích
- Có thể sử dụng ngay qua API hoặc giao diện Document AI Playground
- Tương thích hoàn toàn với Mistral OCR 2, có thể nâng cấp dễ dàng từ hệ thống hiện có
- Có thể xem tài liệu chi tiết tại mistral.ai/docs
1 bình luận
Ý kiến trên Hacker News
Sau khi xem video này trên Twitter, tôi tự hỏi vì sao Mistral không so sánh với các mô hình SoTA mới nhất
Có vẻ sẽ tốt hơn nếu so với các mô hình như Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR
Mistral đang so sánh với các dịch vụ thị giác máy tính thông thường chứ không phải mô hình dựa trên VLM
Nhóm đầu hiểu tài liệu tốt hơn, còn nhóm sau cung cấp bounding box chính xác
Kiểu thất bại cũng khác nhau — VLM có thể đọc sai cả câu, còn mô hình thị giác thường chỉ sai kiểu lỗi chính tả trong một từ
Trong khoảng 3 tháng gần đây đã xuất hiện cực nhiều mô hình OCR mã nguồn mở
Đặc biệt là các mô hình dưới 1B tham số cũng chạy rất tốt trên thiết bị edge
Tôi muốn họ so sánh với các mô hình như paddleOCR-VL, olmOCR-2, chandra, dots.ocr
Điều đáng tiếc là gần như không có leaderboard hay arena nào cho OCR hoặc CV
Nó hoạt động theo kiểu đối đầu giữa các mô hình như llmarena, nhưng vẫn chưa cập nhật Mistral
Hiện tại Gemini đang ở nhóm đầu
Các OCR khác tính theo token nên rất khó ước lượng chi phí thực tế
Ví dụ, Gemini 3.0 flash nhìn bề ngoài có giá tương tự, nhưng nếu tính theo token thực tế thì đắt hơn khoảng 3 lần
Tôi giao quyền root cho Claude để nó cài thay, và có vẻ nó thấy vui hơn tôi nhiều
Tôi cũng từng có trải nghiệm tương tự khi cài open web UI, cuối cùng tự viết đúng 100 dòng HTML chỉ để làm phần mình cần
Giá như OCR cũng có thể làm đơn giản như vậy
Mistral OCR 3 được nói là phù hợp cho pipeline doanh nghiệp quy mô lớn, nhưng với độ chính xác 79% thì khó mà tin cậy
Với người làm việc cùng các tạp chí khoa học như tôi, những lỗi nhận dạng kiểu 2.9+0.5 thành 29+0.5 là chí mạng
Cuối cùng vẫn cần con người kiểm tra ở mọi bước
Tôi đang làm một dự án chuyển từ từ điển Shipibo (ngôn ngữ bản địa Peru)-Tây Ban Nha sang từ điển Shipibo-Anh
Chất lượng scan PDF không tốt, thêm bố cục 2 cột cùng header/footer khiến OCR thường xuyên thất bại
Tôi phải tách ví dụ Shipibo khỏi định nghĩa tiếng Tây Ban Nha rồi chỉ dịch phần tiếng Anh nên rất phức tạp
Mỗi khi có tin mới về OCR/LLM tôi lại thử, nhưng lần nào cũng thất vọng
Trong văn hóa Shipibo, không phải người thường mà là các maestra dùng Ayahuasca để chẩn đoán bệnh
Họ thực hiện dieta (chế độ kiêng khem) theo từng loài cây, hạn chế dùng xà phòng, quan hệ tình dục, ăn muối, v.v.
Theo truyền thống việc này có thể kéo dài hơn 1 năm, còn ngày nay thường rút ngắn xuống vài tuần
Tôi thấy ấn tượng với cách họ nghiên cứu y học thực vật sâu đến vậy
Tôi đang muốn chuyển giáo trình toán sang markdown có kèm công thức LaTeX, nhưng vẫn chưa có mô hình OCR nào thật sự làm tôi hài lòng
Tôi định tự thử trên OCR playground của Mistral
Công thức cũng được chuyển sang LaTeX một cách hoàn hảo
Tôi đang tìm dịch trong ảnh tại chỗ (in-place translation)
Mistral OCR3 tập trung vào trích xuất dữ liệu nên không hợp với nhu cầu của tôi
Tôi muốn dịch văn bản trong artbook nước ngoài rồi hiển thị ngay trên hình, nhưng các dịch vụ trả phí hiện có đều thất bại vì cách bố trí văn bản không chuẩn
Hiện tôi đang dùng Google Lens chiếu lên màn hình để dịch, nhưng rất bất tiện
Lens tích hợp trong Chrome cũng cần chọn thủ công nên vẫn chưa hoàn toàn tự động
Có ai biết tin gì về sự phát triển của tính năng này không?
Dạo này tôi có cảm giác Mistral chỉ đang chạy theo những phần rìa của tính năng AI
Có vẻ họ đang hụt hơi so với OAI, Google, Anthropic, và đầu tư ở cấp độ EU cũng trông chưa đủ
Giá trị của nó cao hơn nhiều so với việc tạo meme
Vì mô hình doanh thu vẫn chưa được xác lập, Mistral nên tập trung vào chất lượng mô hình cốt lõi thì đúng hơn
Mục tiêu thực tế là giữ chân nhân tài trong EU và tạo ra những mô hình đủ tốt
Tôi thấy có đánh giá nói Mistral thua nhiều OCR mã nguồn mở như Paddle, MinerU, MonkeyOCR, v.v.
Xem codesota.com/ocr
Tôi đang thử Mistral như một phương án thay thế MathPix
Script Python này là một nguyên mẫu trên Windows: sau khi snip, nó gửi ảnh clipboard lên Mistral rồi tự động paste kết quả Markdown
Vấn đề lớn nhất của Mistral là không phản hồi liên hệ từ khách hàng
Việc núp sau kiểu “hãy liên hệ để hỏi giá” khiến dù có tốt hơn SoTA cũng trở nên vô nghĩa
Thà chọn dịch vụ đắt hơn và kém hơn một chút còn hơn phải trải qua quy trình đó