Ra mắt Mistral OCR 3

(mistral.ai)

2 điểm bởi GN⁺ 2025-12-20 | 1 bình luận | Chia sẻ qua WhatsApp

Là mô hình OCR thế hệ mới đồng thời cải thiện độ chính xác và hiệu quả xử lý tài liệu, mang lại hiệu năng nhận dạng cao trên nhiều loại tài liệu
Ghi nhận mức cải thiện hiệu năng tổng thể 74% so với phiên bản trước, đạt kết quả vượt trội trên chữ viết tay, biểu mẫu, bảng phức tạp và tài liệu quét
Hỗ trợ tái tạo bảng dựa trên HTML và xuất ra Markdown, giúp bảo toàn cả thông tin cấu trúc của tài liệu
2 USD cho mỗi 1.000 trang, giảm 50% khi xử lý khối lượng lớn, đảm bảo hiệu quả chi phí
Là công nghệ OCR có thể được ứng dụng rộng rãi từ pipeline tài liệu quy mô lớn trong doanh nghiệp đến workflow tài liệu tương tác, đang nổi lên như hạ tầng cốt lõi cho việc khai thác dữ liệu dựa trên AI tạo sinh

Hiệu năng và tính năng chính

Mistral OCR 3 thực hiện trích xuất văn bản và hình ảnh nhúng với độ chính xác cao trên nhiều loại tài liệu
- Hỗ trợ xuất ở định dạng Markdown và tính năng tái tạo bảng HTML, giúp nhận diện không chỉ nội dung mà còn cả cấu trúc của tài liệu
- Kích thước mô hình nhỏ, nên được cung cấp với chi phí thấp hơn so với các giải pháp cạnh tranh; giá là 2 USD cho mỗi 1.000 trang, hoặc 1 USD khi dùng Batch API
Có thể tích hợp model mistral-ocr-2512 qua API, hoặc dùng giao diện Document AI Playground để chuyển PDF và hình ảnh thành văn bản hoặc JSON có cấu trúc

Cải thiện hiệu năng và benchmark

Trong benchmark nội bộ, ghi nhận tỷ lệ thắng 74% so với Mistral OCR 2
- Bài kiểm thử được thực hiện dựa trên các tình huống kinh doanh thực tế của khách hàng, và độ chính xác được đánh giá bằng fuzzy-match metric
Đạt độ chính xác vượt qua cả giải pháp xử lý tài liệu doanh nghiệp lẫn OCR dựa trên AI

Các hạng mục nâng cấp chính

Nhận dạng chữ viết tay: diễn giải chính xác chữ viết tay, chú thích pha trộn và chữ viết tay trên biểu mẫu in sẵn
Xử lý biểu mẫu: cải thiện nhận diện ô, nhãn, nội dung viết tay và bố cục phức tạp
Tài liệu quét và tài liệu phức tạp: tăng khả năng chống chịu với lỗi nén, méo hình, độ phân giải thấp và nhiễu nền
Cấu trúc bảng phức tạp: tái tạo đầy đủ các bảng gồm tiêu đề, ô gộp, phân cấp nhiều hàng/cột bằng thẻ HTML (colspan/rowspan)
Cải thiện hiệu năng tổng thể so với Mistral OCR 2 trên mọi ngôn ngữ và mọi dạng tài liệu

Trường hợp sử dụng và lĩnh vực ứng dụng

Phù hợp cho cả pipeline tài liệu doanh nghiệp quy mô lớn và workflow tài liệu tương tác
- Hỗ trợ chuyển đổi sang Markdown sau khi trích xuất văn bản/hình ảnh, tự động phân tích biểu mẫu và hóa đơn, xây dựng pipeline hiểu tài liệu, số hóa chữ viết tay và tài liệu lịch sử
Các khách hàng đầu tiên đang dùng sản phẩm này để chuyển hóa đơn thành trường dữ liệu có cấu trúc, số hóa kho lưu trữ doanh nghiệp, trích xuất văn bản từ báo cáo kỹ thuật và khoa học, cũng như cải thiện tìm kiếm trong doanh nghiệp
Tim Law của IDC cho biết: “OCR là công nghệ nền tảng của AI tạo sinh và AI tác tử, và năng lực trích xuất văn bản độ chính xác cao với chi phí thấp sẽ quyết định năng lực cạnh tranh trong việc khai thác dữ liệu”

Phương thức truy cập và khả năng tương thích

Có thể sử dụng ngay qua API hoặc giao diện Document AI Playground
Tương thích hoàn toàn với Mistral OCR 2, có thể nâng cấp dễ dàng từ hệ thống hiện có
Có thể xem tài liệu chi tiết tại mistral.ai/docs

1 bình luận

GN⁺ 2025-12-20

Ý kiến trên Hacker News

Sau khi xem video này trên Twitter, tôi tự hỏi vì sao Mistral không so sánh với các mô hình SoTA mới nhất
Có vẻ sẽ tốt hơn nếu so với các mô hình như Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR
- Với tư cách là người đã làm khá nhiều công việc trích xuất tài liệu, tôi thấy giọng điệu của tweet hơi khó chịu, nhưng nội dung thì đúng
  Mistral đang so sánh với các dịch vụ thị giác máy tính thông thường chứ không phải mô hình dựa trên VLM
  Nhóm đầu hiểu tài liệu tốt hơn, còn nhóm sau cung cấp bounding box chính xác
  Kiểu thất bại cũng khác nhau — VLM có thể đọc sai cả câu, còn mô hình thị giác thường chỉ sai kiểu lỗi chính tả trong một từ
- Tôi bấm vào liên kết và có cảm giác bầu không khí trên Twitter giờ đã trở nên kỳ quặc hơn nhiều so với trước
- Tôi cũng muốn xem so sánh với Qwen 3 VL 235B-A22B. Theo kinh nghiệm của tôi, nó tốt hơn MinerU rất nhiều
Trong khoảng 3 tháng gần đây đã xuất hiện cực nhiều mô hình OCR mã nguồn mở
Đặc biệt là các mô hình dưới 1B tham số cũng chạy rất tốt trên thiết bị edge
Tôi muốn họ so sánh với các mô hình như paddleOCR-VL, olmOCR-2, chandra, dots.ocr
Điều đáng tiếc là gần như không có leaderboard hay arena nào cho OCR hoặc CV
- Khoảng một tháng trước đã có dự án ocrarena.ai được đăng lên
  Nó hoạt động theo kiểu đối đầu giữa các mô hình như llmarena, nhưng vẫn chưa cập nhật Mistral
  Hiện tại Gemini đang ở nhóm đầu
- Ưu điểm của MistralOCR là chính sách giá đơn giản — $1 cho mỗi 1.000 trang, có API lưu trữ trên máy chủ
  Các OCR khác tính theo token nên rất khó ước lượng chi phí thực tế
  Ví dụ, Gemini 3.0 flash nhìn bề ngoài có giá tương tự, nhưng nếu tính theo token thực tế thì đắt hơn khoảng 3 lần
- Tôi đã thử cài paddleOCR, nhưng bỏ cuộc giữa chừng vì cài 12GB dependency PyTorch rồi lại vướng xung đột phiên bản
  Tôi giao quyền root cho Claude để nó cài thay, và có vẻ nó thấy vui hơn tôi nhiều
  Tôi cũng từng có trải nghiệm tương tự khi cài open web UI, cuối cùng tự viết đúng 100 dòng HTML chỉ để làm phần mình cần
  Giá như OCR cũng có thể làm đơn giản như vậy
- codesota.com/ocr cũng đáng để tham khảo
Mistral OCR 3 được nói là phù hợp cho pipeline doanh nghiệp quy mô lớn, nhưng với độ chính xác 79% thì khó mà tin cậy
Với người làm việc cùng các tạp chí khoa học như tôi, những lỗi nhận dạng kiểu 2.9+0.5 thành 29+0.5 là chí mạng
Cuối cùng vẫn cần con người kiểm tra ở mọi bước
- Trong trường hợp như vậy, datalab.to dùng khá ổn
- 79% có vẻ là tỷ lệ thắng chứ không phải độ chính xác
Tôi đang làm một dự án chuyển từ từ điển Shipibo (ngôn ngữ bản địa Peru)-Tây Ban Nha sang từ điển Shipibo-Anh
Chất lượng scan PDF không tốt, thêm bố cục 2 cột cùng header/footer khiến OCR thường xuyên thất bại
Tôi phải tách ví dụ Shipibo khỏi định nghĩa tiếng Tây Ban Nha rồi chỉ dịch phần tiếng Anh nên rất phức tạp
Mỗi khi có tin mới về OCR/LLM tôi lại thử, nhưng lần nào cũng thất vọng
- Không biết bạn có quan tâm đến nghiên cứu truyền thống Ayahuasca không
  Trong văn hóa Shipibo, không phải người thường mà là các maestra dùng Ayahuasca để chẩn đoán bệnh
  Họ thực hiện dieta (chế độ kiêng khem) theo từng loài cây, hạn chế dùng xà phòng, quan hệ tình dục, ăn muối, v.v.
  Theo truyền thống việc này có thể kéo dài hơn 1 năm, còn ngày nay thường rút ngắn xuống vài tuần
  Tôi thấy ấn tượng với cách họ nghiên cứu y học thực vật sâu đến vậy
Tôi đang muốn chuyển giáo trình toán sang markdown có kèm công thức LaTeX, nhưng vẫn chưa có mô hình OCR nào thật sự làm tôi hài lòng
Tôi định tự thử trên OCR playground của Mistral
- Tôi đã xử lý hàng nghìn tài liệu bằng mô hình Gemini Pro 3 vision, và nó chính xác vượt trội hơn bất kỳ OCR nào tôi từng dùng
  Công thức cũng được chuyển sang LaTeX một cách hoàn hảo
- Nhất định hãy chia sẻ kết quả nhé
Tôi đang tìm dịch trong ảnh tại chỗ (in-place translation)
Mistral OCR3 tập trung vào trích xuất dữ liệu nên không hợp với nhu cầu của tôi
Tôi muốn dịch văn bản trong artbook nước ngoài rồi hiển thị ngay trên hình, nhưng các dịch vụ trả phí hiện có đều thất bại vì cách bố trí văn bản không chuẩn
Hiện tôi đang dùng Google Lens chiếu lên màn hình để dịch, nhưng rất bất tiện
Lens tích hợp trong Chrome cũng cần chọn thủ công nên vẫn chưa hoàn toàn tự động
Có ai biết tin gì về sự phát triển của tính năng này không?
- Nếu chấp nhận trả phí thì DEEPL hoặc tính năng dịch tài liệu của Word dùng cũng khá ổn
Dạo này tôi có cảm giác Mistral chỉ đang chạy theo những phần rìa của tính năng AI
Có vẻ họ đang hụt hơi so với OAI, Google, Anthropic, và đầu tư ở cấp độ EU cũng trông chưa đủ
- Những tính năng thực dụng như xử lý biểu mẫu mới chính là thứ mọi người thực sự cần
  Giá trị của nó cao hơn nhiều so với việc tạo meme
- Sao chép nguyên xi những gì các công ty dẫn đầu đang làm là rất rủi ro
  Vì mô hình doanh thu vẫn chưa được xác lập, Mistral nên tập trung vào chất lượng mô hình cốt lõi thì đúng hơn
  Mục tiêu thực tế là giữ chân nhân tài trong EU và tạo ra những mô hình đủ tốt
- EU đang “đầu tư” vào Mistral rất mạnh — một nửa là đánh thuế, nửa còn lại là thảo luận quy định
- Quy định của EU đang kìm chân họ, nên cuối cùng rất có thể sẽ bị một công ty Mỹ mua lại
- Dù vậy tôi vẫn nghĩ như thế còn tốt hơn là chỉ bắt chước y hệt những gì người khác làm
Tôi thấy có đánh giá nói Mistral thua nhiều OCR mã nguồn mở như Paddle, MinerU, MonkeyOCR, v.v.
Xem codesota.com/ocr
Tôi đang thử Mistral như một phương án thay thế MathPix
Script Python này là một nguyên mẫu trên Windows: sau khi snip, nó gửi ảnh clipboard lên Mistral rồi tự động paste kết quả Markdown
Vấn đề lớn nhất của Mistral là không phản hồi liên hệ từ khách hàng
Việc núp sau kiểu “hãy liên hệ để hỏi giá” khiến dù có tốt hơn SoTA cũng trở nên vô nghĩa
- Tôi cũng cực kỳ ghét phải làm việc trực tiếp với nhân viên sales
  Thà chọn dịch vụ đắt hơn và kém hơn một chút còn hơn phải trải qua quy trình đó

Ra mắt Mistral OCR 3

Hiệu năng và tính năng chính

Cải thiện hiệu năng và benchmark

Các hạng mục nâng cấp chính

Trường hợp sử dụng và lĩnh vực ứng dụng

Phương thức truy cập và khả năng tương thích

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News