Đầu vào dựa trên pixel có tốt hơn văn bản không? Câu hỏi Karpathy đặt ra về bài báo DeepSeek-OCR

(twitter.com/karpathy)

3 điểm bởi GN⁺ 2025-10-24 | 1 bình luận | Chia sẻ qua WhatsApp

Bài báo DeepSeek-OCR được công bố gần đây khám phá khả năng để mô hình ngôn ngữ lớn (LLM) học bằng cách nhận trực tiếp pixel hình ảnh làm đầu vào thay vì văn bản
Cách tiếp cận này đề xuất bỏ qua bước OCR (nhận dạng ký tự quang học) truyền thống và chuyển thông tin thị giác nguyên vẹn vào mô hình
Khi nhắc đến bài báo này, Karpathy đặt câu hỏi liệu đầu vào pixel có thể cung cấp ngữ cảnh phong phú hơn token văn bản hay không
Ý tưởng này gắn với hướng phát triển của AI đa phương thức, đồng thời thử nghiệm một cách thực nghiệm xem liệu mô hình ngôn ngữ có thể nội tại hóa năng lực hiểu thị giác hay không
Cuộc thảo luận này được đánh giá là một hướng nghiên cứu quan trọng có thể định nghĩa lại cấu trúc đầu vào và mô hình học của LLM trong tương lai

Khái niệm cốt lõi của bài báo DeepSeek-OCR

DeepSeek-OCR đề xuất một kiến trúc mô hình ngôn ngữ lớn xử lý trực tiếp dữ liệu pixel của ảnh tài liệu thay vì đầu vào dựa trên văn bản truyền thống
- Các hệ thống OCR truyền thống trích xuất văn bản từ hình ảnh rồi chuyển nó cho mô hình ngôn ngữ, nhưng trong quá trình này sẽ làm mất hình dạng ký tự, bố cục và ngữ cảnh thị giác
- Để giảm thiểu tổn thất đó, DeepSeek-OCR sử dụng nguyên vẹn thông tin thị giác ở cấp độ pixel làm đầu vào cho mô hình
Mô hình được thiết kế để đồng thời hiểu nhiều yếu tố thị giác khác nhau trong ảnh như chữ, bảng biểu, công thức và sơ đồ
- Nhờ đó, nó không chỉ nhận dạng văn bản đơn thuần mà còn có thể thực hiện hiểu cấu trúc tài liệu và suy luận ngữ nghĩa

Vấn đề Karpathy nêu ra

Trong thread trên Twitter của mình, Karpathy nhắc đến bài báo và đặt câu hỏi: “Pixel có phải là đầu vào tốt hơn văn bản không?”
- Ông chỉ ra rằng cách học hiện nay, khi LLM chỉ học bằng token văn bản, có thể gây ra mất mát thông tin
- Đặc biệt, nếu mô hình ngôn ngữ có thể học trực tiếp ngữ cảnh thị giác, thì sẽ có thể hình thành cấu trúc học tích hợp bỏ qua bước OCR
Karpathy đánh giá cách tiếp cận này có tiềm năng nâng cao khả năng khái quát hóa và năng lực hiểu đa phương thức của mô hình
- Tuy vậy, ông cũng chỉ ra các giới hạn thực tiễn như chi phí tính toán cao của đầu vào pixel và khó khăn trong việc xây dựng bộ dữ liệu quy mô lớn

Ý nghĩa kỹ thuật và tác động tiềm năng

Đầu vào dựa trên pixel có ưu điểm là mật độ thông tin cao hơn và bảo toàn ngữ cảnh thị giác tốt hơn so với đầu vào dựa trên văn bản
- Ví dụ, với tài liệu có chứa bảng biểu hoặc công thức, quá trình chuyển đổi sang văn bản sẽ làm mất thông tin cấu trúc, trong khi đầu vào pixel giữ nguyên được các yếu tố này
Mặt khác, đầu vào pixel cũng đi kèm các vấn đề như tăng số lượng tham số mô hình, chi phí huấn luyện cao hơn và tốc độ suy luận chậm hơn
- Vì vậy, trong ứng dụng thực tế, cách tiếp cận lai giữa văn bản và pixel đang được xem là một phương án khả thi hơn
Cuộc thảo luận này được xem là một thử nghiệm khám phá xem liệu LLM có thể nội tại hóa năng lực nhận thức thị giác và không gian vượt ra ngoài khả năng hiểu ngôn ngữ đơn thuần hay không

Hàm ý đối với ngành

Trong các lĩnh vực công nghiệp xử lý tài liệu có cấu trúc phức tạp như tài chính, pháp lý và y tế, cách tiếp cận của DeepSeek-OCR mang nhiều ý nghĩa lớn
- Ví dụ, có thể xây dựng hệ thống AI hiểu nguyên vẹn cách sắp xếp thị giác của hợp đồng hoặc hóa đơn được quét
Thảo luận của Karpathy có thể thúc đẩy việc xem xét lại một cách căn bản định dạng đầu vào của AI, từ đó ảnh hưởng đến hướng thiết kế LLM trong tương lai
LLM dựa trên đầu vào pixel có thể dẫn đến sự thay thế hoặc tích hợp công nghệ OCR, và đang được chú ý như một bước ngoặt mới trong nghiên cứu AI đa phương thức

1 bình luận

GN⁺ 2025-10-24

Ý kiến Hacker News

Không phải pixel mà là percel. Pixel là điểm ảnh của hình ảnh, còn percel là đơn vị thông tin tri giác, có thể bao gồm âm thanh, cảm giác, thậm chí cả token của suy nghĩ
Với con người, ta nhận biết các percel kết hợp từ nhiều giác quan, còn mạng nơ-ron, đặc biệt là LLM, không xử lý từng percel riêng lẻ mà xử lý chúng cùng nhau trong ngữ cảnh (context) của các percel lân cận
- Tôi từng viết đề xuất xin tài trợ nghiên cứu dựa trên ý tưởng này. Các nhà nghiên cứu ML chê rất nặng vì cho rằng thiếu tính thực tiễn, nhưng các nhà khoa học thần kinh lại ủng hộ mạnh mẽ
  Tiềm năng của nghiên cứu liên ngành là rất lớn, nhưng thật đáng tiếc khi những ý tưởng không khớp với khuôn khổ sẵn có lại khó nhận được tài trợ
- Khái niệm này thú vị đến mức tôi đã thử tìm hiểu nhưng không thấy tài liệu nào. Không rõ đây có phải là từ mới tự tạo hay có bài báo hay công trình nào làm tài liệu tham khảo không
- Rốt cuộc tôi thấy nó khá giống với khái niệm không gian tiềm ẩn (latent space). Nó tương tự ở chỗ là một cấu trúc gom nhóm các vector có liên quan
- Nếu biểu diễn percel bằng vector, có lẽ cần ánh xạ nó vào không gian tiềm ẩn theo cách chia chiều theo từng phương thức tri giác như thị giác, thính giác, v.v.
- Nói đùa thôi, nhưng tôi lại muốn gọi nó là toxel thay vì percel
“Hãy giết tokenizer đi (Kill the tokenizer)” là một đề xuất cực đoan nhưng rất căn bản
Tokenization chỉ là một giải pháp chắp vá (hack) để định lượng hóa ngôn ngữ, và nó làm méo mó bản chất của ngôn ngữ
Ý tưởng rằng pixel có thể trở thành đơn vị biểu diễn mạnh hơn nghe có vẻ lạ, nhưng ai đó cũng phải thử một cách tiếp cận mới
- Khi đọc, tôi xử lý văn bản đồng thời theo cả mặt thị giác lẫn thính giác
  Vì vậy đầu vào dựa trên thị giác đem lại cảm giác như một kết quả tiến hóa tự nhiên
  Nếu thay vì render văn bản rồi đọc bằng OCR, ta mã hóa mẫu giọng nói bằng TTS, thì có khi còn hiệu quả hơn pixel. Tất nhiên điều đó còn phụ thuộc vào độ phân giải hay sample rate
- Byte Latent Transformer của Meta từng cố thay thế tokenizer, nhưng cuối cùng không thu hút được nhiều chú ý
- Vậy thì đến lúc sinh ra kết quả sẽ giải mã bằng gì? Token mang nhiều ý nghĩa hơn chỉ là biểu diễn thị giác đơn thuần, nên chỉ tạo ảnh văn bản thôi thì chưa đủ
- Văn bản có mật độ thông tin rất cao. Vì vậy nó vẫn rất hiệu quả với vai trò đầu vào
- Tôi cũng không hiểu lắm. Việc nói rằng hình ảnh của văn bản tốt hơn chính văn bản nghe có hợp lý không? Nghe như kiểu thà chụp cả màn hình rồi bắt mô hình học cả camera luôn vậy
Có một nghiên cứu liên quan khá thú vị, trong đó Lex Flagel và cộng sự đã chuyển dữ liệu chuỗi DNA thành hình ảnh rồi huấn luyện bằng CNN
Kết quả là CNN có thể tái hiện các chỉ số di truyền học vốn thu được từ phân tích dựa trên văn bản truyền thống
Liên kết bài báo
Trọng tâm của các thảo luận gần đây là sự nhận thức rằng những gì ta dùng để biểu diễn ngôn ngữ cho máy đều là trừu tượng hóa có mất mát (lossy abstraction)
Tokenization chỉ là một trong số đó, còn pixel hay tín hiệu âm thanh cũng chỉ là những phép xấp xỉ khác
Giá trị thật sự của các thử nghiệm như vậy nằm ở việc kiểm chứng các giả định thiết kế của kiến trúc hiện tại
Cách tiếp cận học căn chỉnh đa phương thức có thể giúp tìm ra cấu trúc tiềm ẩn hoặc cách huấn luyện tốt hơn, từ đó dẫn tới cải tiến cho các bộ mã hóa văn bản hiện có
Đặc biệt với những ngôn ngữ có ranh giới từ mơ hồ, các phương thức mã hóa thay thế có thể rất hữu ích
Lập luận trong bài báo rằng “nén thông tin → cửa sổ ngữ cảnh ngắn hơn → hiệu quả cao hơn” khá thú vị, nhưng
tôi vẫn băn khoăn liệu khi cỡ chữ, font, hay khoảng cách thay đổi thì tỷ lệ nén có thể còn tệ đi hay không
Tôi đồng ý với lập luận của Karpathy.
Một trong những ưu điểm của token văn bản là nó học được sự hiểu biết nội tại về cách nhập liệu bằng bàn phím QWERTY
Ví dụ, “Hello” và “Hwllo” được nhận diện là gần nhau về ngữ nghĩa nhờ các phím nằm gần nhau trên bàn phím
- Nếu đầu vào dựa trên pixel cho phép AI đọc được, thì các biến thể như “HWLLO” hay “H3LL0” cũng có thể được nhận diện là tương tự nhờ độ giống nhau về mặt thị giác
  Có thể sẽ cần nhiều dữ liệu huấn luyện hơn, nhưng đổi lại sẽ có được khả năng nhận biết được khái quát hóa
- Tôi rất đồng cảm với ý tưởng học lỗi chính tả (typo learning). Tôi cũng đã nói về điều này trong video của tôi
  Ta hoàn toàn có thể tạo lỗi chính tả trong ảnh để huấn luyện, nên tôi không nghĩ đó là vấn đề lớn
Khi nghĩ về chính mình, trong đầu tôi nghe thấy dòng chảy của từ ngữ
Không phải trang giấy hay hình ảnh, mà là cảm giác những từ dưới dạng âm thanh đang nối tiếp nhau
Tokenization hiện nay có thể không hiệu quả. Ngôn ngữ vốn đã có cấu trúc nén ở mức cao, nhưng
vẫn có khả năng tồn tại một cách biểu diễn tốt hơn trong không gian tiềm ẩn
- Trong ngành, mọi người cũng hiểu rất rõ giới hạn của tokenizer. Nhưng để thực sự triển khai một phương thức có thể scale nhằm thay thế nó là điều cực kỳ khó
- Mô hình ảnh dùng các token có đơn vị lớn hơn. Với văn bản cũng có thể tạo từ điển token lớn dựa trên n-gram, nhưng
  kiến trúc LLM hiện tại xử lý phân phối đầu ra quá lớn một cách kém hiệu quả
Tôi cảm thấy cách tiếp cận này vẫn còn rất xa mới trở nên thực tiễn
Mỗi lần ChatGPT đề nghị kiểu “có muốn trực quan hóa bằng hình ảnh không?”, kết quả tạo ra đều đầy ảo giác (hallucination)
- Nhưng tạo ảnh và đầu vào hình ảnh là hai vấn đề hoàn toàn khác nhau
  Điều đang được nói đến ở đây là chuyển văn bản thành hình ảnh rồi đưa vào LLM, chứ không phải tạo ra hình ảnh
Một số thảo luận liên quan gần đây gồm
trường hợp chạy DeepSeek-OCR trên Nvidia Spark và
dự án DeepSeek OCR.
Cả hai đều được thảo luận sôi nổi vào tháng 10 năm 2025

Đầu vào dựa trên pixel có tốt hơn văn bản không? Câu hỏi Karpathy đặt ra về bài báo DeepSeek-OCR

Khái niệm cốt lõi của bài báo DeepSeek-OCR

Vấn đề Karpathy nêu ra

Ý nghĩa kỹ thuật và tác động tiềm năng

Hàm ý đối với ngành

Bài viết liên quan

1 bình luận

Ý kiến Hacker News