Ra mắt Mistral OCR 4
(mistral.ai)- Mistral OCR 4 do Mistral AI ra mắt là một mô hình hiểu tài liệu vượt qua OCR chỉ trích xuất văn bản, trả về cả bounding box, phân loại block và điểm độ tin cậy nội tuyến
- Hỗ trợ 170 ngôn ngữ thuộc 10 nhóm ngôn ngữ và tự host bằng một container duy nhất, phù hợp với pipeline thu thập tài liệu của các tổ chức coi trọng chủ quyền dữ liệu và tuân thủ
- Trong đánh giá mức độ ưa thích của con người, mô hình ghi nhận tỷ lệ thắng 72% trung bình, đồng thời đạt điểm cao trong các đánh giá công khai và nội bộ như OlmOCRBench 85.20, OmniDocBench 93.07
- Tuy vậy, do các giới hạn chấm điểm như lỗi ground truth, cách biểu diễn công thức tương đương, thứ tự đọc nhiều cột và xử lý header/footer, điểm benchmark cần được xem cùng với đánh giá trên tài liệu thực tế
- API có giá $4 cho mỗi 1.000 trang, Batch API là $2, Document AI là $5; nếu chỉ cần trích xuất thô thì OCR 4 là đủ, còn nếu cần JSON có cấu trúc, chú thích hình ảnh hoặc prompt tùy chỉnh thì nên chọn hướng Document AI
Biểu diễn tài liệu có cấu trúc mà OCR 4 trả về
- OCR 4 trích xuất và cấu trúc hóa nội dung từ nhiều loại tài liệu khác nhau, không chỉ dừng ở văn bản sạch và chuyển đổi bảng như thế hệ trước mà còn cung cấp biểu diễn có cấu trúc
- Mỗi block bao gồm bounding box, loại block, và điểm độ tin cậy nội tuyến ở cấp trang và từ
- Các hệ thống downstream có thể sử dụng không chỉ nội dung tài liệu mà còn cả vị trí, vai trò và mức độ tin cậy của từng thành phần
- Các luồng ứng dụng chính gồm:
- Chunking theo đơn vị ngữ nghĩa cho RAG: dùng các block đã được sắp xếp và phân loại làm đơn vị truy xuất
- Primitive cấu trúc cho agent: hỗ trợ điền biểu mẫu, xử lý hóa đơn và kiểm tra tuân thủ
- Nội dung có cấu trúc cho connector: cung cấp đầu ra kiểu dữ liệu nhất quán cho pipeline thu thập và lập chỉ mục
Định dạng, ngôn ngữ và cách triển khai
- Các định dạng đầu vào bao gồm những định dạng tài liệu doanh nghiệp phổ biến như PDF, DOC, PPT và OpenDocument
- Hỗ trợ 170 ngôn ngữ thuộc 10 nhóm ngôn ngữ, bao gồm cả các ngôn ngữ chuyên biệt và ít tài nguyên mà nhiều hệ thống khác hoạt động kém
- Mô hình đủ nhỏ để triển khai trong một container duy nhất, phù hợp với các môi trường nhạy cảm về chi phí và cần thông lượng cao
- Hỗ trợ chạy tự host hoàn toàn, cho phép các tổ chức có yêu cầu về chủ quyền dữ liệu giữ dữ liệu tài liệu trong hạ tầng riêng
- Triển khai tự quản lý được cung cấp cho khách hàng doanh nghiệp
Giá và cách sử dụng
- Nhà phát triển có thể tích hợp mô hình qua API, còn các nhóm có thể dùng cùng engine này dưới dạng ứng dụng no-code thông qua Document AI trong Mistral Studio
- Mức giá như sau
- OCR 4 API: $4 cho mỗi 1.000 trang
- Khi áp dụng giảm giá 50% của Batch API: $2 cho mỗi 1.000 trang
- Document AI: $5 cho mỗi 1.000 trang
- OCR 4 được tích hợp làm thành phần thu thập trong Mistral Search Toolkit, cung cấp đầu vào có thể trích dẫn cho workflow thu thập, truy xuất và đánh giá phục vụ RAG và tìm kiếm doanh nghiệp
Kết quả đánh giá và giới hạn của benchmark
- Đánh giá OCR 4 được thực hiện bằng cách so sánh với các mô hình OCR AI-native, các mô hình frontier đa dụng, các dịch vụ tài liệu doanh nghiệp và Mistral OCR 3
- Đánh giá mức độ ưa thích của con người được thiết kế để phản ánh cách sử dụng thực tế, với hơn 600 tài liệu thuộc hơn 12 ngôn ngữ, nơi các annotator độc lập so sánh mù đầu ra của từng hệ thống cạnh tranh với đầu ra của OCR 4 theo từng tài liệu
- Các annotator ưu tiên OCR 4 hơn ở phần lớn tài liệu đối với mọi hệ thống được thử nghiệm
- Tỷ lệ thắng trung bình là 72%
- Trên OlmOCRBench công khai, mô hình đạt 85.20, là điểm tổng cao nhất trong các mô hình được thử nghiệm
- Trong Crawl Multilingual evaluation nội bộ, mô hình đạt .98, vượt qua các giải pháp AI-native và doanh nghiệp
- Điểm OmniDocBench là 93.07, nhưng cả OlmOCRBench lẫn OmniDocBench đều có những giới hạn đã biết trong một số cách chấm đầu ra
- Phần lớn các sai khác đã được kiểm toán phát sinh không phải từ lỗi mô hình mà từ cách benchmark thực hiện so sánh
- Lỗi ground truth: chú thích tham chiếu có thể chứa văn bản bị thiếu hoặc thừa, bản chép lại của vùng bị che, hoặc lỗi chính tả
- Biểu diễn công thức tương đương: ngay cả khi LaTeX cho cùng kết quả render, nếu chuỗi khác nhau vẫn bị tính là không khớp
- Tách công thức: việc xuất dưới dạng một công thức duy nhất hay chia thành nhiều mảnh inline có thể làm việc khớp đáp án bị dao động
- Thứ tự đọc nhiều cột: từ bị tách ở ranh giới cột và giả định về thứ tự cột có thể khiến phần trích xuất đúng vẫn bị chấm là sai
- Gán loại block: ngay cả sau khi loại bỏ header/footer khỏi đầu ra, bài kiểm tra vẫn có thể gắn cờ nhầm các chuỗi như tiêu đề trang
- Những hiện tượng này tập trung ở tài liệu toán học, khoa học và nhiều cột, và thay vì thưởng cho đầu ra sai thì thường lại phạt đầu ra đúng nhiều hơn
- Vì mọi điểm số của đối thủ cạnh tranh đều là kết quả tái hiện nội bộ, cách an toàn hơn trước khi triển khai thực tế là tự đánh giá trực tiếp trên tài liệu của chính mình
Hiệu năng đa ngôn ngữ
- Trong đánh giá đa ngôn ngữ nội bộ, OCR 4 dẫn đầu ở cả 8 nhóm ngôn ngữ
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Các ngôn ngữ chuyên biệt như Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu
- Khoảng cách lớn nhất xuất hiện ở các ngôn ngữ chuyên biệt và ít tài nguyên, nơi nhiều hệ thống cạnh tranh suy giảm mạnh nhưng OCR 4 vẫn giữ độ chính xác cao
Trường hợp sử dụng được khuyến nghị và phạm vi loại trừ
- OCR 4 hỗ trợ cả pipeline thông lượng cao lẫn workflow tài liệu tương tác
- Các trường hợp sử dụng được khuyến nghị gồm:
- Phân tích và trích xuất tài liệu từ các tài liệu đa ngôn ngữ phức tạp
- Tạo nội dung có cấu trúc, được phân loại và có thể trích dẫn cho RAG
- Đầu vào cho pipeline tìm kiếm khi kết hợp với Search Toolkit
- Workflow agent như điền biểu mẫu, xử lý hóa đơn và kiểm tra tuân thủ
- Pipeline dữ liệu có cấu trúc dựa trên con người kiểm tra, tận dụng điểm độ tin cậy
- Thành phần nguồn dữ liệu cho tìm kiếm doanh nghiệp và cơ sở tri thức
- Những người dùng ban đầu đang áp dụng OCR 4 cho chuyển đổi trường có cấu trúc từ hóa đơn, số hóa kho lưu trữ công ty, trích xuất văn bản sạch từ báo cáo kỹ thuật và khoa học, và tìm kiếm doanh nghiệp
- OCR 4 là mô hình hiểu tài liệu, không phải người ra quyết định
- Không được thiết kế cho chẩn đoán y tế, tư vấn hay phán quyết pháp lý, quyết định tài chính rủi ro cao, hệ thống quan trọng về an toàn, xử lý thời gian thực hoặc nhạy cảm độ trễ, hay đầu vào không phải tài liệu như audio/video thô
Tiêu chí chọn OCR 4 API và Document AI
- OCR 4 được cung cấp qua một API endpoint duy nhất, và mọi yêu cầu đều chạy cùng một mô hình OCR cơ sở
- Phản hồi mặc định luôn bao gồm nội dung trích xuất, bounding box, loại block, điểm độ tin cậy và văn bản Markdown có cấu trúc
- Chế độ trích xuất thuần phù hợp khi:
- Cần nhúng trực tiếp khả năng trích xuất tài liệu nhanh và chính xác vào ứng dụng, agent hoặc pipeline dữ liệu
- Muốn dùng trực tiếp phản hồi thô, bounding box, loại block và điểm độ tin cậy để xây dựng logic hậu xử lý tùy chỉnh
- Thu thập theo lô và thông lượng cao với Batch API để kiểm soát thông lượng và chi phí
- Tự host để đáp ứng các yêu cầu nghiêm ngặt về quyền riêng tư dữ liệu, chủ quyền và tuân thủ
- Tính năng Document AI được kích hoạt bằng cách thêm tham số vào cùng endpoint đó
- Khi gửi tài liệu cùng JSON schema, đầu ra OCR sẽ được đưa vào
mistral-small-2603để tạo JSON có cấu trúc theo đặc tả đã chỉ định - Khi gửi schema chú thích hình ảnh, hệ thống sẽ thực hiện thêm lệnh gọi mô hình vision-language cho mỗi hình ảnh được phát hiện để tạo JSON có cấu trúc
- Có thể dùng prompt tùy chỉnh cùng JSON schema để hướng dẫn diễn giải hoặc tóm tắt nội dung trích xuất của toàn bộ tài liệu
- Người dùng nghiệp vụ, đội giải pháp và các dự án pilot có thể tạo kết quả có cấu trúc mà không cần logic phân tích hậu xử lý riêng
- Khi gửi tài liệu cùng JSON schema, đầu ra OCR sẽ được đưa vào
- Nếu chỉ cần nội dung trích xuất thô thì dùng nguyên OCR 4; nếu cần tái cấu trúc sang định dạng có cấu trúc, chú thích trường theo miền hoặc xử lý chỉ thị tùy chỉnh thì thêm tham số Document AI
Các kênh cung cấp và cách bắt đầu
- Mistral OCRv4 và Document AI dựa trên OCRv4 có thể dùng qua API, Mistral Studio, Amazon SageMaker và Microsoft Foundry
- Hỗ trợ Snowflake Parse Document sẽ sớm được cung cấp
- Với các tổ chức cần giữ thông tin nhạy cảm trong hạ tầng riêng, OCR 4 cũng cung cấp tùy chọn tự host
- Các tài nguyên để bắt đầu gồm:
- Getting Started with OCR 4 Cookbook: giới thiệu lần trích xuất đầu tiên, làm việc với bounding box và phân loại block
- OCR4 in Production webinar: demo và Q&A vào 6 giờ chiều CET ngày 7 tháng 7
- Contact Sales: liên hệ để biết thêm thông tin
1 bình luận
Ý kiến trên Hacker News
US Postal Service lúc nào cũng cho cảm giác như một kỳ quan công nghệ
Họ nhận diện và định tuyến hàng tỷ bức thư bằng công nghệ còn thô sơ hơn nhiều, trong khi địa chỉ ở Mỹ lại cực kỳ phi chuẩn, nên cùng một địa chỉ có thể được viết theo nhiều cách mà vẫn đến đúng nơi
Chắc hẳn cũng có rất nhiều kiến thức công khai trong lĩnh vực này, nhưng với những gì USPS đã làm được suốt nhiều năm ở quy mô đó, mỗi lần thấy công bố OCR mới lại có cảm giác như đây là bài toán đã được giải từ lâu
Đó là thập niên 1970, chưa có Internet hay cơ sở dữ liệu tập trung, vậy mà bưu điện vẫn giao thành công
Một phần vì cha tôi hoạt động xã hội rất tích cực và còn dẫn dắt đội bóng đá thanh thiếu niên, nên trong khu phố khá nhiều người biết tên
Giờ đây nhiều người không tìm nổi người hay địa điểm nếu không có điện thoại hỗ trợ, còn người đưa thư thì cũng chẳng còn dừng lại tán gẫu
Một lá thư như vậy có lẽ giờ sẽ không đi qua nổi cả quy trình xử lý kỹ thuật lẫn có thể là mạng lưới con người
Khi thư đã tới đúng bưu cục thì phần còn lại do các nhân viên phát thư xử lý vào sáng sớm
Việc đoán xem một địa chỉ muốn nói gì khá là vui, đặc biệt là các nhân viên lớn tuổi thường biết câu chuyện vì sao một nơi nào đó lại được ghi địa chỉ theo kiểu đó, hoặc chỉ nhìn tên cư dân là đoán ra địa chỉ
Carmel-by-the-Sea không có số nhà theo đường, còn địa chỉ ở Florida Keys nhiều khi chỉ đơn giản là số cột mốc dặm
Việc giao được là vì người phụ trách tuyến đó đã quá quen thuộc
Tôi đang tò mò không biết có mô hình mở nào tập trung vào nhận diện biển số xe hay không
Tôi có tìm được vài mô hình cũ, nhưng không rõ có mô hình mới nào đang được phát triển theo hướng này như các mô hình OCR kiểu này không
Có lẽ cũng nên tự thử trực tiếp cho mục đích này để kiểm tra hiệu năng
Video trên trang được dẫn làm tôi thấy khác với kỳ vọng
Tôi cứ nghĩ Mistral là một công ty AI châu Âu, nhưng video lại được quay ở San Francisco, và ba người xuất hiện cũng không tạo cảm giác là người châu Âu, nên khá bất ngờ
Là một tổ chức toàn cầu thì tốt thôi, nhưng tôi đã hình dung ra văn phòng Paris và giọng châu Âu
Họ hỏi rất nhiều nhưng lại cực kỳ chặt hầu bao, trong khi người Mỹ thì khác
Có lẽ còn có cả đội kỹ sư hỗ trợ bán hàng nữa
Chênh lệch múi giờ 8–10 tiếng nên thực tế gần như không có cách nào tránh được
Công ty tôi từng làm trước đây thay vào đó có văn phòng ở Vancouver, cùng múi giờ
Dù phần lớn đặt nền tảng ở Úc, nhưng nếu nhìn thứ tự danh sách văn phòng và trang công ty tại https://www.blackmagicdesign.com/company/offices thì trông cứ như một công ty Mỹ
Ở góc độ đó, họ đang rất khéo tận dụng cả hai lợi thế: tiền Mỹ và nhân tài châu Âu
Tôi thấy khá thú vị không biết mô hình này sẽ xếp hạng ra sao so với https://github.com/baidu/Unlimited-OCR
4 USD cho mỗi 1.000 trang thì rẻ, nhưng các phiên bản trước đều kiểu “độ chính xác 98% trên 4 file PDF benchmark nội bộ”, còn thực tế lại kém hơn gần như mọi lựa chọn thay thế trên thị trường, nên tôi ngại benchmark lại
Lần này cũng vậy, họ nói OlmOCRBench và OmniDocBench có “giới hạn đã biết”, rồi lại đưa các con số nổi bật từ benchmark nội bộ
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
Tất cả các phòng thí nghiệm AI thật sự nên ngừng dùng trục y bị cắt trong các biểu đồ cột benchmark
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Tôi đã thử với tiếng Malayalam; chữ viết tay bình thường thì nhận khá chính xác, nhưng chỉ cần khác kiểu một chút là bị nhận thành Kannada
Nếu cần tôi có thể đưa mẫu, còn Sarvam thì xử lý cùng mẫu đó với độ chính xác 99%, chỉ còn sót một lỗi văn bản
Ví dụ như Indian English, tài liệu có lẫn các cách diễn đạt kiểu Ấn Độ viết bằng chữ Latin, và các tài liệu có bố cục phức tạp như hình vẽ hay bảng biểu thì thế nào
Tôi vẫn quan tâm đến các dịch vụ của Ấn Độ, nhưng thấy giá của họ có vẻ hơi cao hơn tôi tưởng nên vẫn còn lưỡng lự
Tất nhiên cũng có thể là tôi nhớ nhầm
So với mô hình OCR v3 trước đó ra mắt vào tháng 12, gần như không có giải thích nào về khác biệt ngoài bounding box, trong khi giá thì gấp đôi: https://mistral.ai/news/mistral-ocr-3/
Khi đó họ cũng dùng benchmark khác
“Lưu ý về việc sử dụng ngoài phạm vi. OCR 4 là mô hình hiểu tài liệu, không phải bên ra quyết định. Nó không dành cho chẩn đoán y khoa, tư vấn hay phán quyết pháp lý, các quyết định tài chính rủi ro cao, hệ thống thiết yếu về an toàn, xử lý thời gian thực/nhạy cảm độ trễ, hay đầu vào không phải tài liệu (âm thanh thô, video, v.v.).”
Đã thấy háo hức chờ vị quản lý “đổi mới” nào đó ở cuộc họp tới sẽ đề xuất: “Được đấy, nhưng nếu dùng nó cho quyết định tài chính rủi ro cao với đầu vào không phải tài liệu như ảnh chụp bằng điện thoại thì sao?”
Dám chắc khoảng tuần sau sẽ có ai đó trên HN đăng đúng “ý tưởng” này trong phần bình luận
Có hàng chục mô hình tốt hơn nhiều cho việc đó, còn cái này thì chỉ cho ra kết quả tệ hơn hẳn
Đây không phải mô hình để trả lời câu hỏi mà là để chuyển đổi văn bản
Cảm giác như chỉ đang cố gượng ép một góc nhìn phản AI
Mistral chỉ thẳng thắn hơn một chút về điều này, có lẽ vì họ không cần hoặc không muốn làm khán giả ngạc nhiên bằng một công cụ người dùng đa năng (chat) trông như chuyên gia mọi thứ
Thực tế thì những công cụ như vậy cũng khá thường xuyên chỉ là dạng nối nhiều mô hình chuyên biệt lại với nhau
Điều cần ở đây chỉ cần vài script Python là làm được
Dùng Voxtral để chuyển lời nhắc bằng giọng nói thành văn bản, chuyển nó cùng prompt hệ thống bổ sung sang Mistral Large 3 để tạo prompt cho OCR và đường dẫn tệp, rồi dùng loop để tìm tệp và ném vào OCR 3, sau đó lại đưa sang Mistral Large 3 để diễn giải và biến thành quyết định là xong
Kiểu cấu hình này rất phổ biến, thậm chí việc để một mô hình xử lý mọi thứ mới là hiếm hơn
Gần đây tôi đã thử dùng Opus 4.8 cho OCR
Nói chính xác thì đây không phải đúng công cụ, nhưng thứ tôi cần chỉ là trích xuất ngày tháng từ hóa đơn
Nó sai khoảng 20% số ngày mà vẫn tự đánh giá tất cả là “độ tin cậy cao”
Có lẽ tôi nên dùng mô hình chuyên cho OCR
Tôi đoán ngay cả mấy công cụ OCR shareware từng đi kèm máy quét đen trắng ngày xưa cũng làm tốt hơn mức lỗi 20%
Có vẻ nó dùng một công cụ OCR kiểu cũ riêng biệt, và kết quả thử nghiệm cũng tệ
Trong khi đó ở Gemini API thì mô hình tự làm OCR nên độ chính xác tốt hơn hẳn
Tốt hơn nhiều so với các mô hình thị giác-ngôn ngữ cỡ nhỏ 1~4B
Nếu Opus thất bại thì phần lớn các mô hình nhỏ như vậy cũng rất có khả năng sẽ thất bại
Tôi vừa quét hàng trăm PDF gần đây với đủ kiểu chữ viết tay tệ nhất bằng Opus 4.8, và ngoài một hồ sơ mà ngay cả tôi cũng không đọc nổi ra thì nó thành công 100%