1 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Mistral OCR 4 do Mistral AI ra mắt là một mô hình hiểu tài liệu vượt qua OCR chỉ trích xuất văn bản, trả về cả bounding box, phân loại block và điểm độ tin cậy nội tuyến
  • Hỗ trợ 170 ngôn ngữ thuộc 10 nhóm ngôn ngữ và tự host bằng một container duy nhất, phù hợp với pipeline thu thập tài liệu của các tổ chức coi trọng chủ quyền dữ liệu và tuân thủ
  • Trong đánh giá mức độ ưa thích của con người, mô hình ghi nhận tỷ lệ thắng 72% trung bình, đồng thời đạt điểm cao trong các đánh giá công khai và nội bộ như OlmOCRBench 85.20, OmniDocBench 93.07
  • Tuy vậy, do các giới hạn chấm điểm như lỗi ground truth, cách biểu diễn công thức tương đương, thứ tự đọc nhiều cột và xử lý header/footer, điểm benchmark cần được xem cùng với đánh giá trên tài liệu thực tế
  • API có giá $4 cho mỗi 1.000 trang, Batch API là $2, Document AI là $5; nếu chỉ cần trích xuất thô thì OCR 4 là đủ, còn nếu cần JSON có cấu trúc, chú thích hình ảnh hoặc prompt tùy chỉnh thì nên chọn hướng Document AI

Biểu diễn tài liệu có cấu trúc mà OCR 4 trả về

  • OCR 4 trích xuất và cấu trúc hóa nội dung từ nhiều loại tài liệu khác nhau, không chỉ dừng ở văn bản sạch và chuyển đổi bảng như thế hệ trước mà còn cung cấp biểu diễn có cấu trúc
  • Mỗi block bao gồm bounding box, loại block, và điểm độ tin cậy nội tuyến ở cấp trang và từ
    • Các hệ thống downstream có thể sử dụng không chỉ nội dung tài liệu mà còn cả vị trí, vai trò và mức độ tin cậy của từng thành phần
  • Các luồng ứng dụng chính gồm:
    • Chunking theo đơn vị ngữ nghĩa cho RAG: dùng các block đã được sắp xếp và phân loại làm đơn vị truy xuất
    • Primitive cấu trúc cho agent: hỗ trợ điền biểu mẫu, xử lý hóa đơn và kiểm tra tuân thủ
    • Nội dung có cấu trúc cho connector: cung cấp đầu ra kiểu dữ liệu nhất quán cho pipeline thu thập và lập chỉ mục

Định dạng, ngôn ngữ và cách triển khai

  • Các định dạng đầu vào bao gồm những định dạng tài liệu doanh nghiệp phổ biến như PDF, DOC, PPT và OpenDocument
  • Hỗ trợ 170 ngôn ngữ thuộc 10 nhóm ngôn ngữ, bao gồm cả các ngôn ngữ chuyên biệt và ít tài nguyên mà nhiều hệ thống khác hoạt động kém
  • Mô hình đủ nhỏ để triển khai trong một container duy nhất, phù hợp với các môi trường nhạy cảm về chi phí và cần thông lượng cao
  • Hỗ trợ chạy tự host hoàn toàn, cho phép các tổ chức có yêu cầu về chủ quyền dữ liệu giữ dữ liệu tài liệu trong hạ tầng riêng
  • Triển khai tự quản lý được cung cấp cho khách hàng doanh nghiệp

Giá và cách sử dụng

  • Nhà phát triển có thể tích hợp mô hình qua API, còn các nhóm có thể dùng cùng engine này dưới dạng ứng dụng no-code thông qua Document AI trong Mistral Studio
  • Mức giá như sau
    • OCR 4 API: $4 cho mỗi 1.000 trang
    • Khi áp dụng giảm giá 50% của Batch API: $2 cho mỗi 1.000 trang
    • Document AI: $5 cho mỗi 1.000 trang
  • OCR 4 được tích hợp làm thành phần thu thập trong Mistral Search Toolkit, cung cấp đầu vào có thể trích dẫn cho workflow thu thập, truy xuất và đánh giá phục vụ RAG và tìm kiếm doanh nghiệp

Kết quả đánh giá và giới hạn của benchmark

  • Đánh giá OCR 4 được thực hiện bằng cách so sánh với các mô hình OCR AI-native, các mô hình frontier đa dụng, các dịch vụ tài liệu doanh nghiệp và Mistral OCR 3
  • Đánh giá mức độ ưa thích của con người được thiết kế để phản ánh cách sử dụng thực tế, với hơn 600 tài liệu thuộc hơn 12 ngôn ngữ, nơi các annotator độc lập so sánh mù đầu ra của từng hệ thống cạnh tranh với đầu ra của OCR 4 theo từng tài liệu
    • Các annotator ưu tiên OCR 4 hơn ở phần lớn tài liệu đối với mọi hệ thống được thử nghiệm
    • Tỷ lệ thắng trung bình là 72%
  • Trên OlmOCRBench công khai, mô hình đạt 85.20, là điểm tổng cao nhất trong các mô hình được thử nghiệm
  • Trong Crawl Multilingual evaluation nội bộ, mô hình đạt .98, vượt qua các giải pháp AI-native và doanh nghiệp
  • Điểm OmniDocBench93.07, nhưng cả OlmOCRBench lẫn OmniDocBench đều có những giới hạn đã biết trong một số cách chấm đầu ra
  • Phần lớn các sai khác đã được kiểm toán phát sinh không phải từ lỗi mô hình mà từ cách benchmark thực hiện so sánh
    • Lỗi ground truth: chú thích tham chiếu có thể chứa văn bản bị thiếu hoặc thừa, bản chép lại của vùng bị che, hoặc lỗi chính tả
    • Biểu diễn công thức tương đương: ngay cả khi LaTeX cho cùng kết quả render, nếu chuỗi khác nhau vẫn bị tính là không khớp
    • Tách công thức: việc xuất dưới dạng một công thức duy nhất hay chia thành nhiều mảnh inline có thể làm việc khớp đáp án bị dao động
    • Thứ tự đọc nhiều cột: từ bị tách ở ranh giới cột và giả định về thứ tự cột có thể khiến phần trích xuất đúng vẫn bị chấm là sai
    • Gán loại block: ngay cả sau khi loại bỏ header/footer khỏi đầu ra, bài kiểm tra vẫn có thể gắn cờ nhầm các chuỗi như tiêu đề trang
  • Những hiện tượng này tập trung ở tài liệu toán học, khoa học và nhiều cột, và thay vì thưởng cho đầu ra sai thì thường lại phạt đầu ra đúng nhiều hơn
  • Vì mọi điểm số của đối thủ cạnh tranh đều là kết quả tái hiện nội bộ, cách an toàn hơn trước khi triển khai thực tế là tự đánh giá trực tiếp trên tài liệu của chính mình

Hiệu năng đa ngôn ngữ

  • Trong đánh giá đa ngôn ngữ nội bộ, OCR 4 dẫn đầu ở cả 8 nhóm ngôn ngữ
    • English
    • Western Europe
    • Eastern Europe
    • Middle Eastern
    • Chinese
    • East Asian
    • Southeast Asian
    • Các ngôn ngữ chuyên biệt như Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu
  • Khoảng cách lớn nhất xuất hiện ở các ngôn ngữ chuyên biệt và ít tài nguyên, nơi nhiều hệ thống cạnh tranh suy giảm mạnh nhưng OCR 4 vẫn giữ độ chính xác cao

Trường hợp sử dụng được khuyến nghị và phạm vi loại trừ

  • OCR 4 hỗ trợ cả pipeline thông lượng cao lẫn workflow tài liệu tương tác
  • Các trường hợp sử dụng được khuyến nghị gồm:
    • Phân tích và trích xuất tài liệu từ các tài liệu đa ngôn ngữ phức tạp
    • Tạo nội dung có cấu trúc, được phân loại và có thể trích dẫn cho RAG
    • Đầu vào cho pipeline tìm kiếm khi kết hợp với Search Toolkit
    • Workflow agent như điền biểu mẫu, xử lý hóa đơn và kiểm tra tuân thủ
    • Pipeline dữ liệu có cấu trúc dựa trên con người kiểm tra, tận dụng điểm độ tin cậy
    • Thành phần nguồn dữ liệu cho tìm kiếm doanh nghiệp và cơ sở tri thức
  • Những người dùng ban đầu đang áp dụng OCR 4 cho chuyển đổi trường có cấu trúc từ hóa đơn, số hóa kho lưu trữ công ty, trích xuất văn bản sạch từ báo cáo kỹ thuật và khoa học, và tìm kiếm doanh nghiệp
  • OCR 4 là mô hình hiểu tài liệu, không phải người ra quyết định
    • Không được thiết kế cho chẩn đoán y tế, tư vấn hay phán quyết pháp lý, quyết định tài chính rủi ro cao, hệ thống quan trọng về an toàn, xử lý thời gian thực hoặc nhạy cảm độ trễ, hay đầu vào không phải tài liệu như audio/video thô

Tiêu chí chọn OCR 4 API và Document AI

  • OCR 4 được cung cấp qua một API endpoint duy nhất, và mọi yêu cầu đều chạy cùng một mô hình OCR cơ sở
  • Phản hồi mặc định luôn bao gồm nội dung trích xuất, bounding box, loại block, điểm độ tin cậy và văn bản Markdown có cấu trúc
  • Chế độ trích xuất thuần phù hợp khi:
    • Cần nhúng trực tiếp khả năng trích xuất tài liệu nhanh và chính xác vào ứng dụng, agent hoặc pipeline dữ liệu
    • Muốn dùng trực tiếp phản hồi thô, bounding box, loại block và điểm độ tin cậy để xây dựng logic hậu xử lý tùy chỉnh
    • Thu thập theo lô và thông lượng cao với Batch API để kiểm soát thông lượng và chi phí
    • Tự host để đáp ứng các yêu cầu nghiêm ngặt về quyền riêng tư dữ liệu, chủ quyền và tuân thủ
  • Tính năng Document AI được kích hoạt bằng cách thêm tham số vào cùng endpoint đó
    • Khi gửi tài liệu cùng JSON schema, đầu ra OCR sẽ được đưa vào mistral-small-2603 để tạo JSON có cấu trúc theo đặc tả đã chỉ định
    • Khi gửi schema chú thích hình ảnh, hệ thống sẽ thực hiện thêm lệnh gọi mô hình vision-language cho mỗi hình ảnh được phát hiện để tạo JSON có cấu trúc
    • Có thể dùng prompt tùy chỉnh cùng JSON schema để hướng dẫn diễn giải hoặc tóm tắt nội dung trích xuất của toàn bộ tài liệu
    • Người dùng nghiệp vụ, đội giải pháp và các dự án pilot có thể tạo kết quả có cấu trúc mà không cần logic phân tích hậu xử lý riêng
  • Nếu chỉ cần nội dung trích xuất thô thì dùng nguyên OCR 4; nếu cần tái cấu trúc sang định dạng có cấu trúc, chú thích trường theo miền hoặc xử lý chỉ thị tùy chỉnh thì thêm tham số Document AI

Các kênh cung cấp và cách bắt đầu

  • Mistral OCRv4 và Document AI dựa trên OCRv4 có thể dùng qua API, Mistral Studio, Amazon SageMaker và Microsoft Foundry
  • Hỗ trợ Snowflake Parse Document sẽ sớm được cung cấp
  • Với các tổ chức cần giữ thông tin nhạy cảm trong hạ tầng riêng, OCR 4 cũng cung cấp tùy chọn tự host
  • Các tài nguyên để bắt đầu gồm:

1 bình luận

 
Ý kiến trên Hacker News
  • US Postal Service lúc nào cũng cho cảm giác như một kỳ quan công nghệ
    Họ nhận diện và định tuyến hàng tỷ bức thư bằng công nghệ còn thô sơ hơn nhiều, trong khi địa chỉ ở Mỹ lại cực kỳ phi chuẩn, nên cùng một địa chỉ có thể được viết theo nhiều cách mà vẫn đến đúng nơi
    Chắc hẳn cũng có rất nhiều kiến thức công khai trong lĩnh vực này, nhưng với những gì USPS đã làm được suốt nhiều năm ở quy mô đó, mỗi lần thấy công bố OCR mới lại có cảm giác như đây là bài toán đã được giải từ lâu

    • Cha tôi từng nhận một lá thư từ Algeria, trên phong bì chỉ ghi đúng ba từ: tên ông, “Créteil” (thành phố khoảng 100 nghìn dân nơi ông sống khi đó), và “France”
      Đó là thập niên 1970, chưa có Internet hay cơ sở dữ liệu tập trung, vậy mà bưu điện vẫn giao thành công
      Một phần vì cha tôi hoạt động xã hội rất tích cực và còn dẫn dắt đội bóng đá thanh thiếu niên, nên trong khu phố khá nhiều người biết tên
      Giờ đây nhiều người không tìm nổi người hay địa điểm nếu không có điện thoại hỗ trợ, còn người đưa thư thì cũng chẳng còn dừng lại tán gẫu
      Một lá thư như vậy có lẽ giờ sẽ không đi qua nổi cả quy trình xử lý kỹ thuật lẫn có thể là mạng lưới con người
    • Tôi từng làm bán thời gian ở bưu điện Đan Mạch, và hệ thống phân loại tự động chỉ xử lý tới mã bưu chính
      Khi thư đã tới đúng bưu cục thì phần còn lại do các nhân viên phát thư xử lý vào sáng sớm
      Việc đoán xem một địa chỉ muốn nói gì khá là vui, đặc biệt là các nhân viên lớn tuổi thường biết câu chuyện vì sao một nơi nào đó lại được ghi địa chỉ theo kiểu đó, hoặc chỉ nhìn tên cư dân là đoán ra địa chỉ
    • Tom Scott có một video hay về chủ đề này: https://www.youtube.com/watch?v=XxCha4Kez9c
    • Địa chỉ ở Mỹ có rất nhiều ngoại lệ kỳ quặc
      Carmel-by-the-Sea không có số nhà theo đường, còn địa chỉ ở Florida Keys nhiều khi chỉ đơn giản là số cột mốc dặm
      Việc giao được là vì người phụ trách tuyến đó đã quá quen thuộc
    • Nếu lấy chuẩn địa chỉ ở Ấn Độ ra so thì mức độ phi chuẩn của địa chỉ Mỹ chỉ khiến người ta bật cười
  • Tôi đang tò mò không biết có mô hình mở nào tập trung vào nhận diện biển số xe hay không
    Tôi có tìm được vài mô hình cũ, nhưng không rõ có mô hình mới nào đang được phát triển theo hướng này như các mô hình OCR kiểu này không
    Có lẽ cũng nên tự thử trực tiếp cho mục đích này để kiểm tra hiệu năng

  • Video trên trang được dẫn làm tôi thấy khác với kỳ vọng
    Tôi cứ nghĩ Mistral là một công ty AI châu Âu, nhưng video lại được quay ở San Francisco, và ba người xuất hiện cũng không tạo cảm giác là người châu Âu, nên khá bất ngờ
    Là một tổ chức toàn cầu thì tốt thôi, nhưng tôi đã hình dung ra văn phòng Paris và giọng châu Âu

    • Đáng tiếc là khách hàng châu Âu là kiểu khách khá khó kiếm tiền
      Họ hỏi rất nhiều nhưng lại cực kỳ chặt hầu bao, trong khi người Mỹ thì khác
    • Với một công ty công nghệ châu Âu đã có chút quy mô, gần như chắc chắn sẽ có văn phòng ở bờ Tây nước Mỹ ít nhất là vì bán hàng
      Có lẽ còn có cả đội kỹ sư hỗ trợ bán hàng nữa
      Chênh lệch múi giờ 8–10 tiếng nên thực tế gần như không có cách nào tránh được
      Công ty tôi từng làm trước đây thay vào đó có văn phòng ở Vancouver, cùng múi giờ
    • Blackmagic Design cũng tương tự
      Dù phần lớn đặt nền tảng ở Úc, nhưng nếu nhìn thứ tự danh sách văn phòng và trang công ty tại https://www.blackmagicdesign.com/company/offices thì trông cứ như một công ty Mỹ
    • Theo tôi biết thì phần lớn đội ngũ sáng lập khởi đầu sự nghiệp ở các công ty Mỹ như Meta, và nhà đầu tư lớn cũng là các quỹ VC của Mỹ
      Ở góc độ đó, họ đang rất khéo tận dụng cả hai lợi thế: tiền Mỹ và nhân tài châu Âu
    • Thậm chí còn treo cao cả cờ Mỹ ở phía sau
  • Tôi thấy khá thú vị không biết mô hình này sẽ xếp hạng ra sao so với https://github.com/baidu/Unlimited-OCR

  • 4 USD cho mỗi 1.000 trang thì rẻ, nhưng các phiên bản trước đều kiểu “độ chính xác 98% trên 4 file PDF benchmark nội bộ”, còn thực tế lại kém hơn gần như mọi lựa chọn thay thế trên thị trường, nên tôi ngại benchmark lại
    Lần này cũng vậy, họ nói OlmOCRBench và OmniDocBench có “giới hạn đã biết”, rồi lại đưa các con số nổi bật từ benchmark nội bộ
    https://getomni.ai/blog/benchmarking-open-source-models-for-ocr

    • Tôi cũng đi đến kết luận tương tự, nhưng sau khi tự chạy thử vài mẫu thì đúng là đã có cải thiện thực tế kể từ bản tháng 12 năm 2025
  • Tất cả các phòng thí nghiệm AI thật sự nên ngừng dùng trục y bị cắt trong các biểu đồ cột benchmark
    https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539

  • Tôi đã thử với tiếng Malayalam; chữ viết tay bình thường thì nhận khá chính xác, nhưng chỉ cần khác kiểu một chút là bị nhận thành Kannada
    Nếu cần tôi có thể đưa mẫu, còn Sarvam thì xử lý cùng mẫu đó với độ chính xác 99%, chỉ còn sót một lỗi văn bản

    • Tôi khá muốn biết trải nghiệm dùng Sarvam ngoài các ngôn ngữ Ấn Độ ra sao
      Ví dụ như Indian English, tài liệu có lẫn các cách diễn đạt kiểu Ấn Độ viết bằng chữ Latin, và các tài liệu có bố cục phức tạp như hình vẽ hay bảng biểu thì thế nào
      Tôi vẫn quan tâm đến các dịch vụ của Ấn Độ, nhưng thấy giá của họ có vẻ hơi cao hơn tôi tưởng nên vẫn còn lưỡng lự
      Tất nhiên cũng có thể là tôi nhớ nhầm
  • So với mô hình OCR v3 trước đó ra mắt vào tháng 12, gần như không có giải thích nào về khác biệt ngoài bounding box, trong khi giá thì gấp đôi: https://mistral.ai/news/mistral-ocr-3/
    Khi đó họ cũng dùng benchmark khác

  • “Lưu ý về việc sử dụng ngoài phạm vi. OCR 4 là mô hình hiểu tài liệu, không phải bên ra quyết định. Nó không dành cho chẩn đoán y khoa, tư vấn hay phán quyết pháp lý, các quyết định tài chính rủi ro cao, hệ thống thiết yếu về an toàn, xử lý thời gian thực/nhạy cảm độ trễ, hay đầu vào không phải tài liệu (âm thanh thô, video, v.v.).”
    Đã thấy háo hức chờ vị quản lý “đổi mới” nào đó ở cuộc họp tới sẽ đề xuất: “Được đấy, nhưng nếu dùng nó cho quyết định tài chính rủi ro cao với đầu vào không phải tài liệu như ảnh chụp bằng điện thoại thì sao?”
    Dám chắc khoảng tuần sau sẽ có ai đó trên HN đăng đúng “ý tưởng” này trong phần bình luận

    • Không hiểu sao lại nhất quyết phải làm thế
      Có hàng chục mô hình tốt hơn nhiều cho việc đó, còn cái này thì chỉ cho ra kết quả tệ hơn hẳn
      Đây không phải mô hình để trả lời câu hỏi mà là để chuyển đổi văn bản
      Cảm giác như chỉ đang cố gượng ép một góc nhìn phản AI
    • Mọi công ty AI đều đang xây các mô hình chuyên biệt cực mạnh cho từng tác vụ
      Mistral chỉ thẳng thắn hơn một chút về điều này, có lẽ vì họ không cần hoặc không muốn làm khán giả ngạc nhiên bằng một công cụ người dùng đa năng (chat) trông như chuyên gia mọi thứ
      Thực tế thì những công cụ như vậy cũng khá thường xuyên chỉ là dạng nối nhiều mô hình chuyên biệt lại với nhau
      Điều cần ở đây chỉ cần vài script Python là làm được
      Dùng Voxtral để chuyển lời nhắc bằng giọng nói thành văn bản, chuyển nó cùng prompt hệ thống bổ sung sang Mistral Large 3 để tạo prompt cho OCR và đường dẫn tệp, rồi dùng loop để tìm tệp và ném vào OCR 3, sau đó lại đưa sang Mistral Large 3 để diễn giải và biến thành quyết định là xong
      Kiểu cấu hình này rất phổ biến, thậm chí việc để một mô hình xử lý mọi thứ mới là hiếm hơn
    • “Chúng tôi đã giao các quyết định tài chính quan trọng cho phần mềm OCR, và bạn sẽ không tin chuyện gì xảy ra tiếp theo”
  • Gần đây tôi đã thử dùng Opus 4.8 cho OCR
    Nói chính xác thì đây không phải đúng công cụ, nhưng thứ tôi cần chỉ là trích xuất ngày tháng từ hóa đơn
    Nó sai khoảng 20% số ngày mà vẫn tự đánh giá tất cả là “độ tin cậy cao”
    Có lẽ tôi nên dùng mô hình chuyên cho OCR

    • Việc trích xuất ngày tháng từ hóa đơn chẳng phải là bài toán gần như đã được giải từ khoảng 30 năm trước rồi sao
      Tôi đoán ngay cả mấy công cụ OCR shareware từng đi kèm máy quét đen trắng ngày xưa cũng làm tốt hơn mức lỗi 20%
    • Tôi không rõ Opus thế nào, nhưng OCR trong sản phẩm thuê bao của Gemini có vẻ không phải do chính mô hình làm
      Có vẻ nó dùng một công cụ OCR kiểu cũ riêng biệt, và kết quả thử nghiệm cũng tệ
      Trong khi đó ở Gemini API thì mô hình tự làm OCR nên độ chính xác tốt hơn hẳn
    • Opus làm OCR rất tốt
      Tốt hơn nhiều so với các mô hình thị giác-ngôn ngữ cỡ nhỏ 1~4B
      Nếu Opus thất bại thì phần lớn các mô hình nhỏ như vậy cũng rất có khả năng sẽ thất bại
    • Chuyện này khó tin thật
      Tôi vừa quét hàng trăm PDF gần đây với đủ kiểu chữ viết tay tệ nhất bằng Opus 4.8, và ngoài một hồ sơ mà ngay cả tôi cũng không đọc nổi ra thì nó thành công 100%