PaddleOCR-VL - Mô hình thị giác-ngôn ngữ siêu nhỏ 0.9B cho OCR đa ngôn ngữ do Baidu công bố

xguru · 2025-10-21T09:31:02+09:00

Đây là mô hình thị giác-ngôn ngữ (VLM) siêu nhỏ được tối ưu cho phân tích tài liệu, hỗ trợ 109 ngôn ngữ bao gồm tiếng Hàn, đồng thời nhận diện chính xác các thành phần phức tạp như công thức, bảng, biểu đồ và chữ viết tay Mô hình cốt lõi PaddleOCR-VL-0.9B kết hợp bộ mã hóa hình ảnh độ phân giải động dựa trên NaViT với mô hình ngôn ngữ ERNIE-4.5-0.3B, đạt được đồng thời khả năng nhận diện độ chính xác cao và tốc độ suy luận nhanh Với kiến trúc VLM nhỏ nhưng mạnh mẽ, mô hình đảm bảo hiệu quả tính toán trong khi vẫn đạt hiệu năng nhận diện ở mức tương đương các mô hình lớn hiện có Trên OmniDocBench và các bộ đánh giá khác, mô hình ghi nhận SOTA (hiệu năng hàng đầu), vượt qua các mô hình dựa trên pipeline trước đây Không chỉ hỗ trợ tiếng Hàn, tiếng Trung, tiếng Anh, tiếng Nhật, mô hình còn hỗ trợ nhiều hệ chữ viết khác như tiếng Nga, tiếng Ả Rập, tiếng Hindi, tiếng Thái, nên có thể ứng dụng cho tự động hóa xử lý tài liệu trên toàn cầu Nhờ cấu trúc gọn nhẹ, mức sử dụng tài nguyên GPU thấp, đồng thời có thể dễ dàng triển khai và tích hợp thông qua Docker, CLI và Python API Ở một số hạng mục, mô hình còn vượt qua cả mô hình đa phương thức cấp 72B, trở thành giải pháp xử lý tài liệu đa ngôn ngữ có thể áp dụng ngay trong môi trường thực tế

(huggingface.co)

43 điểm bởi xguru 2025-10-21 | 6 bình luận | Chia sẻ qua WhatsApp

Đây là mô hình thị giác-ngôn ngữ (VLM) siêu nhỏ được tối ưu cho phân tích tài liệu, hỗ trợ 109 ngôn ngữ bao gồm tiếng Hàn, đồng thời nhận diện chính xác các thành phần phức tạp như công thức, bảng, biểu đồ và chữ viết tay
Mô hình cốt lõi PaddleOCR-VL-0.9B kết hợp bộ mã hóa hình ảnh độ phân giải động dựa trên NaViT với mô hình ngôn ngữ ERNIE-4.5-0.3B, đạt được đồng thời khả năng nhận diện độ chính xác cao và tốc độ suy luận nhanh
Với kiến trúc VLM nhỏ nhưng mạnh mẽ, mô hình đảm bảo hiệu quả tính toán trong khi vẫn đạt hiệu năng nhận diện ở mức tương đương các mô hình lớn hiện có
Trên OmniDocBench và các bộ đánh giá khác, mô hình ghi nhận SOTA (hiệu năng hàng đầu), vượt qua các mô hình dựa trên pipeline trước đây
Không chỉ hỗ trợ tiếng Hàn, tiếng Trung, tiếng Anh, tiếng Nhật, mô hình còn hỗ trợ nhiều hệ chữ viết khác như tiếng Nga, tiếng Ả Rập, tiếng Hindi, tiếng Thái, nên có thể ứng dụng cho tự động hóa xử lý tài liệu trên toàn cầu
Nhờ cấu trúc gọn nhẹ, mức sử dụng tài nguyên GPU thấp, đồng thời có thể dễ dàng triển khai và tích hợp thông qua Docker, CLI và Python API
Ở một số hạng mục, mô hình còn vượt qua cả mô hình đa phương thức cấp 72B, trở thành giải pháp xử lý tài liệu đa ngôn ngữ có thể áp dụng ngay trong môi trường thực tế

6 bình luận

helio 2025-10-21

Chắc cũng có nơi dùng PaddleOCR cho mục đích thương mại đấy nhỉ??

tsboard 2025-10-21

Wow trời ơi, ghê thật, với cái này thì chắc có thể nhận diện ngay cả các tài liệu có bảng biểu phức tạp rồi nhỉ

xguru 2025-10-21

Nghe nói nó còn vượt trội hơn hẳn một số engine OCR thương mại.

yeorinhieut 2025-10-21

Lần này hình như cũng có cả deepseek ocr ra mắt, nên mình khá tò mò về việc so sánh hiệu năng.

yangeok 2025-10-21

Nếu hỗ trợ đồng thời nhiều ngôn ngữ thì quá tuyệt,,

forgotdonkey456 2025-10-21

Bình luận dự đoán rằng nếu một doanh nghiệp tư nhân Trung Quốc có thể đưa ra được mô hình ở mức này, thì có lẽ NSA cũng đang sở hữu một mô hình OCR vượt trội hơn nữa (hoặc thậm chí là điên rồ) để phục vụ việc thu thập thông tin.

PaddleOCR-VL - Mô hình thị giác-ngôn ngữ siêu nhỏ 0.9B cho OCR đa ngôn ngữ do Baidu công bố

Bài viết liên quan

6 bình luận