DeepSeek OCR

(github.com/deepseek-ai)

25 điểm bởi clumsypupil 2025-10-20 | 3 bình luận | Chia sẻ qua WhatsApp

Tóm tắt một dòng

Đề xuất và kiểm chứng phương pháp nén ngữ cảnh quang học: biến tài liệu/lịch sử hội thoại thành hình ảnh (token thị giác) để giảm mạnh ngữ cảnh LLM (≈7–20×), rồi khôi phục lại chính xác thành văn bản (OCR). Bằng cách kết hợp bộ mã hóa thị giác mới (DeepEncoder) với bộ giải mã MoE 3B, hệ thống cho thấy hiệu năng phân tích tài liệu đạt mức SOTA ngay cả khi chỉ dùng ít token thị giác.

Định nghĩa bài toán
• Chi phí của LLM tăng theo bậc hai khi độ dài ngữ cảnh tăng lên.
• Nếu render văn bản tài liệu thành hình ảnh thì số token thị giác sẽ ít hơn nhiều so với token văn bản → nếu khôi phục tốt từ ảnh sang văn bản thì có thể nén với hiệu suất rất cao.
• OCR là một yếu tố thử nghiệm tốt vì cho phép ánh xạ nén/khôi phục tự nhiên giữa thị giác↔văn bản và có thể đánh giá định lượng.

Tổng quan phương pháp

Kiến trúc: DeepEncoder (encoder) + DeepSeek-3B-MoE-A570M (decoder)
• DeepEncoder (thành phần cốt lõi)
• Gồm hai giai đoạn:
1. Khối cảm nhận thị giác dựa trên window attention (họ SAM-base, ~80M) → giữ bộ nhớ hoạt hóa thấp ngay cả ở độ phân giải cao
2. Sau khi giảm mạnh số token bằng bộ nén tích chập 16×,
3. Khối tri thức thị giác dựa trên global attention (CLIP-large, bỏ patch embedding đầu tiên)
• Hỗ trợ đa độ phân giải (mode): Tiny (64 token, 512²), Small (100, 640²), Base (256, 1024²), Large (400,1280²) +
Gundam (n ô 640² + góc nhìn toàn cục 1024² → token = n×100+256),
Gundam-M (ô 1024² + toàn cục 1280²)
• Khái niệm token hợp lệ (valid): chỉ tính token thực sự hữu ích, loại trừ khoảng trống sinh ra do padding (được định nghĩa bằng công thức).
• Bộ giải mã MoE: dùng DeepSeek-3B-MoE (12 lớp) để khôi phục văn bản gốc từ các token thị giác đã được nén do encoder tạo ra.

Data engine & huấn luyện
• OCR 1.0 (OCR truyền thống):
• 30 triệu trang PDF trên Internet (khoảng 100 ngôn ngữ):
• Coarse: trích xuất bằng fitz (để huấn luyện nhận dạng văn bản quang học)
• Fine: 2 triệu trang tiếng Trung và 2 triệu trang tiếng Anh được gán nhãn tinh bằng layout/OCR cao cấp (xen kẽ box + văn bản), bổ sung thêm 3 triệu trang tài liệu Word
• OCR cảnh tự nhiên: 10 triệu mẫu cho mỗi ngôn ngữ Trung/Anh (nhãn PaddleOCR)
• OCR 2.0 (phân tích ảnh tổng hợp phức hợp):
• Biểu đồ (pyecharts/matplotlib) 10 triệu ảnh → gán nhãn thành bảng HTML
• Công thức hóa học: render bằng RDKit từ PubChem SMILES, 5 triệu mẫu
• Hình học phẳng: tạo dữ liệu theo phương pháp Slow Perception (từ điển đoạn thẳng, v.v.)
• Thị giác tổng quát: trộn 100 triệu mẫu LAION để tiền huấn luyện encoder
• Hạ tầng huấn luyện: 20 node (mỗi node 8×A100-40G), pipeline song song 4 giai đoạn (encoder 2, decoder 2), DP=40, batch toàn cục 640.
• Chỉ văn bản: 90B tok/ngày, đa phương thức: 70B tok/ngày
• Năng lực tạo dữ liệu production: 20 node có thể tạo 33 triệu trang/ngày

Kết quả thực nghiệm

Nghiên cứu nén ngữ cảnh quang học (Compression) — benchmark Fox (100 trang tiếng Anh, 600–1300 token)
• Theo chuẩn Small (100 token thị giác), độ chính xác & tỷ lệ nén (token văn bản/token thị giác):
• 600–700: 98.5%, 6.7×
• 700–800: 97.3%, 7.5×
• 800–900: 96.8%, 8.5×
• 900–1000: 96.8%, 9.7×
• 1000–1100: 91.5%, 10.6×
• 1100–1200: 89.8%, 11.3×
• 1200–1300: 87.1%, 12.6×

• Tóm lại: ở mức nén 9–10× đạt độ chính xác 96%+, ở mức 10–12× khoảng ≈90%, gần 20× thì còn ≈60%.
→ Quanh mức 10× là gần như bán-không mất dữ liệu, cao hơn nữa thì suy giảm dần do độ phức tạp của layout và hiện tượng nhòe ở độ phân giải thấp.
Phân tích tài liệu thực chiến (OmniDocBench) — khoảng cách chỉnh sửa (càng thấp càng tốt)
• Chỉ với 100 token (640²) đã vượt GOT-OCR2.0 (256 token)
• Ở 400 token (1280²) đạt ngang SOTA mới nhất
• Ở mode Gundam (<800 token) vượt hiệu năng MinerU-2.0 (≈6,790 token)
→ Hiệu quả token rất xuất sắc (ít token thị giác hơn mà hiệu năng tương đương/vượt trội).
Kết quả định tính (tính năng)
• Deep parsing:
• Biểu đồ → bảng HTML,
• Công thức hóa học → SMILES,
• Hình học → cấu trúc từ điển (đoạn thẳng/tọa độ/loại, v.v.)
• Với ảnh tự nhiên cũng có thể hỏi đáp cơ bản
• Đa ngôn ngữ: nhận dạng PDF khoảng 100 ngôn ngữ (có thể điều khiển đầu ra có layout/không layout bằng prompt)

Ý nghĩa
• Chứng minh thực nghiệm rằng nén đi qua token thị giác là một hướng giải quyết đầy hứa hẹn cho bài toán chi phí ngữ cảnh siêu dài của LLM.
• Đề xuất chiến lược memory decay: ngữ cảnh/hội thoại gần đây giữ ở độ phân giải cao, lịch sử cũ thì giảm dần kích thước (tăng tỷ lệ nén) → phân bổ tài nguyên tương tự đường cong quên lãng của con người.
• Tối ưu ngân sách token: cung cấp guideline về lượng token cần thiết theo từng loại tác vụ/tài liệu (ví dụ tài liệu mật độ cực cao như báo chí nên dùng mode Gundam/M).

Giới hạn & hướng nghiên cứu tiếp theo
• Hiện tại vẫn gần với một PoC dựa trên OCR; việc phân tích tổn thất trong pipeline số↔quang học↔số thực thụ vẫn cần nghiên cứu thêm.
• Cần cải thiện nguyên nhân làm hiệu năng giảm mạnh ở vùng trên 10× (layout phức tạp, nhòe độ phân giải thấp).
• Có vấn đề về độ khớp giữa format và benchmark (ví dụ khác biệt format đánh giá Fox có thể khiến hiệu năng thực tế bị đánh giá thấp).

Tóm tắt các điểm chính
• DeepEncoder: window attention (ít hoạt hóa) → nén conv 16× → global attention (CLIP)
• Đa độ phân giải + tile+kết hợp góc nhìn toàn cục (Gundam) để cân bằng giữa tiết kiệm bộ nhớ/token và hiệu năng
• Ở mức nén ≈10× vẫn đạt độ chính xác khôi phục ~96% → mở ra hướng giảm mạnh chi phí ngữ cảnh
• OmniDocBench: ở mức 100–800 token thị giác đã tiệm cận/vượt SOTA
• Tính thực dụng bao phủ cả biểu đồ/hóa học/hình học/đa ngôn ngữ

3 bình luận

m00nlygreat 2025-10-21

Wow, thật đáng kinh ngạc haha. Nhưng dù sao nếu khôi phục lại thì chẳng phải vẫn là đúng cái token đó thôi sao? Chỉ tiết kiệm được số token ở trạng thái lưu trữ thôi đúng không? Mình hơi ngốc nên không hiểu lắm hu hu. Có ai giải thích sao cho dễ hiểu giúp mình với

luminance 2025-10-21

Ý tưởng của DeepSeek thực sự rất hay.

xguru 2025-10-21

DeepSeek OCR - Mô hình OCR siêu hiệu quả thông qua nén ngữ cảnh thị giác
Hãy tham khảo thêm cả bản tóm tắt do GN+ thực hiện và các bình luận trên Hacker News.

DeepSeek OCR

Bài viết liên quan

3 bình luận