1 điểm bởi GN⁺ 2026-02-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Đã thực hiện phân tích pháp y số đối với các tài liệu PDF được Bộ Tư pháp Hoa Kỳ công bố theo Epstein Files Transparency Act, tập trung vào cấu trúc và cú pháp tệp
  • Kết quả phân tích cho thấy các PDF trong bộ dữ liệu EFTA 01–07 đã được biên tập (redaction) đúng cách, và các tuyên bố trên mạng xã hội về việc “có thể khôi phục phần đã che” là không đúng sự thật
  • Tất cả PDF đều không có mã hóa, chú thích, JavaScript hay tệp đính kèm, và phần lớn ở dạng tài liệu quét dựa trên hình ảnh có áp dụng OCR; một số tệp có siêu dữ liệu ẩn (dictionary)
  • Phát hiện các chi tiết kỹ thuật như đánh số Bates, luồng đối tượng không nén, khai báo phiên bản sai, chú thích bị bỏ sót, nhưng không ảnh hưởng đáng kể đến tính hợp lệ của tệp
  • Trường hợp này cho thấy độ phức tạp của pháp y PDF và giới hạn về độ tin cậy của công cụ, đồng thời nhấn mạnh tầm quan trọng của quy trình làm sạch và biên tập chính xác trước khi công bố tài liệu nhạy cảm

Tổng quan dữ liệu được DoJ công bố

  • Bộ Tư pháp đã công bố 7 kho lưu trữ ZIP vào ngày 19/12/2025 (tổng 2,97GB), bên trong có 4.085 tệp PDF, 1 tệp AVI, cùng các tệp dữ liệu .DAT.OPT cho từng bộ
    • Tên tệp PDF được sắp tuần tự từ EFTA00000001.pdf đến EFTA00009664.pdf
    • Xác nhận rằng khoảng 5.879 tệp PDF vẫn chưa được công bố
  • Phần lớn PDF là tài liệu quét dựa trên hình ảnh, với một phần văn bản có thể tìm kiếm được nhờ OCR
    • Đã áp dụng biên tập dạng “hộp đen”, và xác nhận việc này được thực hiện đúng ở cấp độ pixel
    • Không phát hiện tài liệu sinh ra ở dạng số (born-digital)

Phân tích tính hợp lệ của tệp và phiên bản

  • Kết quả kiểm tra tính hợp lệ bằng nhiều công cụ pháp y PDF cho thấy chỉ phát hiện một lỗi nhỏ
    • Ở 109 tệp, giá trị FontDescriptor Descent được đặt là số dương, nhưng đây chỉ là lỗi khớp phông chữ không đáng kể và không ảnh hưởng đến tính hợp lệ tổng thể
  • Khi so sánh hai công cụ pdfinfo, kết quả đọc phiên bản PDF cho ra khác nhau
    • Tool A báo 209 tệp phiên bản 1.3 và 3.875 tệp phiên bản 1.5
    • Tool B báo 3.817 tệp phiên bản 1.3 và 267 tệp phiên bản 1.5
    • Sự khác biệt đến từ cách xử lý mục Version trong incremental update, và kết quả của Tool A là chính xác
  • Tất cả PDF đều không có mã hóa, thẻ, chú thích, bookmark, biểu mẫu, JavaScript hay tệp đính kèm
    • Tổng số trang là 9.659, và đa số là tài liệu một trang

Incremental update và số Bates

  • PDF lưu tích lũy lịch sử chỉnh sửa thông qua nhiều lần incremental update
    • PDF đầu tiên (EFTA00000001.pdf) chứa 2 lần incremental update
    • Ở lần cập nhật cuối, số Bates được thêm vào từng trang
  • Việc thêm số Bates sử dụng luồng tham chiếu chéo /Type /XRef, và được xác nhận có cùng mẫu trên mọi PDF mẫu
  • Ở lần incremental update đầu tiên, phiên bản PDF đổi từ 1.3 sang 1.5, nhưng có lỗi kỹ thuật là không khớp với phần header
    • Ngoài ra còn có Info dictionary tài liệu ẩn nhưng không được tham chiếu trong trailer cuối, nên không hiển thị trong trình xem PDF thông thường
    • Dictionary này chứa thông tin /Creator (OmniPage CSDK 21.1)/Producer (Processing-CLI)

Phân tích siêu dữ liệu và ngày tháng

  • Theo kết quả pdfinfo, đa số PDF không có siêu dữ liệu tường minh hay luồng XMP
    • Tuy vậy, ở một số tệp vẫn tồn tại orphaned Info dictionary, và mục /Info xuất hiện nhiều lần
  • Chỉ riêng tệp EFTA00003212.pdf có các mục Title, Author, Subject, Keywords, Creator
    • Có 215 tệp có giá trị /Producer hiển thị là “pypdf”
  • Ngày tạo (CreationDate) và ngày sửa (ModDate) đều trùng nhau, nằm trong khoảng 18–19/12/2025
    • Điều này cho thấy DoJ đã thực hiện batch processing trong khoảng 36 giờ

Đặc tính hình ảnh và bản quét

  • Trong tất cả PDF đều không có ảnh JPEG (DCTDecode), thay vào đó dùng bitmap nén FLATE
    • Độ phân giải khoảng 96 DPI, bảng màu giới hạn ở 256 màu
    • Điều này được cho là nhằm loại bỏ siêu dữ liệu EXIF, IPTC và XMP
  • Một số tài liệu có dấu vết quét thật (mép giấy, lỗ đục, vết nguệch ngoạc...), nhưng một số khác dường như là hình ảnh được mô phỏng quét sau khi render kỹ thuật số
    • Có thể phân biệt nhờ cùng một độ nghiêng (skew) và không có nhiễu
  • Do sử dụng phông chữ đơn cách Courier, tồn tại rủi ro có thể ước lượng số ký tự đã bị che bằng cách đếm ký tự

Chất lượng OCR và độ chính xác của biên tập

  • Kết quả OCR có độ chính xác thấp và không có khả năng nhận diện ngôn ngữ, chỉ ở mức nhận dạng ký tự đơn giản
    • Văn bản OCR của PDF đầu tiên (EFTA00000001.pdf) phần lớn không chính xác
  • Biên tập kiểu “hộp đen” được áp dụng trực tiếp ở cấp độ pixel của hình ảnh, chứ không phải hình chữ nhật phủ lên đối tượng văn bản
    • Vì vậy không tồn tại văn bản có thể khôi phục

Kết luận và hàm ý

  • Pipeline tạo PDF của DoJ gồm các bước như loại bỏ JPEG, tối giản siêu dữ liệu, render dựa trên hình ảnh, áp dụng OCR
    • Tuy nhiên, các yếu tố như đối tượng không cần thiết, luồng rỗng, phần dư của incremental update làm tăng kích thước tệp và độ phức tạp
  • Một số chú thích (comment) PDF và đối tượng mồ côi (orphaned object) vẫn còn sót lại, nên vẫn có khả năng rò rỉ thông tin
  • Pháp y PDF có nguy cơ bị đánh giá sai cao do sự khác biệt kết quả giữa các công cụ và độ phức tạp của định dạng
    • Vì vậy, PDF Association đang vận hành PDF Forensic Liaison Working Group để thúc đẩy chuẩn hóa ngành và đào tạo

1 bình luận

 
GN⁺ 2026-02-05
Ý kiến trên Hacker News
  • Có người phát hiện một số tài liệu trông như bản scan thật, nhưng thực ra là PDF nhân tạo không hề có nhiễu vật lý
    Nhìn việc mỗi trang đều có cùng độ nghiêng (skew) và mép hoàn hảo, có vẻ tài liệu số gốc đã được render thành ảnh rồi hậu xử lý như nghiêng, thu nhỏ, giảm màu

    • Điều thực sự gây tò mò là tài liệu nào là “scan giả” kiểu này, và liệu điều đó nhằm củng cố kiểu tường thuật chính trị nào
      Lý do ai đó làm vậy có lẽ là để khiến ảnh do AI tạo hoặc tài liệu bị thao túng trông giống đồ thật
    • Nếu dùng GNOME Desktop, bạn có thể đặt Bash script vào ~/.local/share/nautilus/ để tạo PDF scan giả ngay từ menu chuột phải
      Không nhớ nguồn gốc ban đầu, nhưng hình như tôi thấy trên Stack Exchange. Nó dùng lệnh magick để áp dụng xoay, nhiễu, chuyển grayscale, v.v.
    • Làm theo kiểu này thì khá lạ. Cứ in tài liệu ra rồi scan lại còn dễ hơn nhiều
    • Tài liệu được nhắc tới dường như là tài liệu DoJ phỏng vấn A. Acosta năm 2019.
      Nếu là thật thì khó hiểu vì sao FBI lại ngụy trang thành bản scan. Có phải có phần nào trong thỏa thuận giữa Epstein và Acosta mà họ không muốn công khai không
      Liên kết PDF liên quan
    • Tôi cũng hay làm việc tương tự. Khi được yêu cầu ký tên, tôi ký lên tờ giấy trắng rồi scan sẵn, sau đó ghép tài liệu vào phía trên và nộp sau
  • Tôi nghĩ việc DOJ công bố bản sao đã chỉnh sửa thay vì bản gốc là có vấn đề về mặt pháp lý
    Phần mềm được dùng là OmniPage CSDK 21.1 đã xóa toàn bộ metadata và cả các file được mã hóa

  • Tôi tự hỏi đã có ai phân tích phong cách viết của Epstein (JE) rồi so sánh với bài đăng ở các nơi như 4chan chưa
    Ghislaine chắc cũng có đủ dữ liệu tương tự; tôi không tin tuyên bố liên quan tới MaxwellHill, nhưng có vẻ vẫn có thể tìm ra manh mối nào đó

    • Trước đây từng có một dự án stylometry phân tích phong cách viết của người dùng HN để tìm các tài khoản tương đồng
      Bài liên quan
      Trang đã bị gỡ vì vấn đề quyền riêng tư, nhưng độ chính xác rất cao. Tôi cũng muốn thử làm một trợ lý trình duyệt AI để ngẫu nhiên hóa phong cách bình luận của mình
    • Nhưng tôi vẫn hoài nghi. Chỉ dựa vào phong cách viết và từ vựng thì quá nhiều người bị trùng, nên khó mà xác định chính xác được
      Dù vậy, email của Epstein có thể là ngoại lệ vì chúng quá đặc trưng
    • Thực tế thì stylometry tinh vi đến mức chỉ cần phân tích n-gram cũng có thể nhận diện tác giả
      Liên kết demo HN
      Cách này cũng phân biệt tốt văn bản do AI tạo. Tôi nghĩ nó tốt hơn nhiều so với cách huấn luyện “transformer để phát hiện AI”
    • Văn bản của Epstein gần như nhiều câu cú lệch lạc tới mức như chứng khó đọc
      Có thể vì những người ở tầng lớp rất cao hiếm khi tự viết nên mất luôn khả năng cấu trúc câu, hoặc đó là thứ ngôn ngữ nội bộ của họ
  • Tôi thấy buồn cười vì popup cookie trên trang này để nút từ chối là “Continue without consent”

    • Nghe đúng kiểu cố làm người dùng thấy tội lỗi
    • Mỉa mai là trang về Epstein lại hành xử giống Epstein
  • Có thể thông tin đang bị rò rỉ qua các orphan object trong chú thích PDF hoặc bên trong compressed object stream
    Mong là có ai đó đang lưu trữ toàn bộ tài liệu một cách độc lập. Có vẻ một phần đã bị xóa rồi

    • Trên Reddit, các bài liên quan cũng đang bị xóa hoặc shadowban
      Nhưng trên cộng đồng Lemmy thì họ vẫn đang thảo luận
    • Một số tài liệu có thể đã bị che thêm vì chứa tên nạn nhân
    • Lúc đầu, trang Epstein Files Transparency Act có liên kết .zip cho mọi bộ dữ liệu,
      có lúc tất cả đều biến mất rồi bây giờ đa số đã được khôi phục
  • Hiện tôi đang dùng model allenai/olmocr-2-7b để đối chiếu với kết quả OCR do DOJ cung cấp
    Có khoảng 500.000 ảnh nên sẽ mất khá nhiều thời gian. Dù vậy tỷ lệ nhận dạng của olmocr-2-7b khá cao

    • Không biết bạn đã thử cách giảm kích thước ảnh để tăng hiệu năng chưa.
      Tôi cũng muốn biết giảm xuống dưới cỡ nào thì việc nhận dạng chữ bắt đầu khó
  • Tôi từng thắc mắc vì sao một số file mới hơn lại có các ký tự '=' ngẫu nhiên
    Trông không giống lỗi OCR mà giống như cố tình làm cho việc tìm kiếm khó hơn

    • Hôm qua đã có bài liên quan lên trang chủ HN: liên kết
    • Thực ra đây là do lỗi xử lý quoted-printable encoding của email
      Lars Ingebrigtsen, nhà phát triển của gnus, đã giải thích trên blog
  • Trong một số PDF, tệp đính kèm mã hóa Base64 được chèn nguyên vào phần thân
    Chất lượng OCR quá tệ nên muốn khôi phục sẽ cần rất nhiều công sức
    PDF ví dụ,
    chuỗi Reddit liên quan

    • Tôi tự hỏi chỉ cần sai vài byte thôi thì có thể khiến không thể khôi phục dữ liệu nhị phân hay không
  • Cá nhân tôi thấy thú vị hơn cả là các tài khoản ngân hàng của Epstein
    Ai đã đưa tiền cho ông ta, và ai đã nhận tiền từ ông ta mới là điểm cốt lõi

    • DOJ hẳn đã biết các thông tin này, hoặc nếu muốn thì có thể kiểm tra ngay
    • Nhưng phân tích nguyên nhân gốc rễ của dòng tiền thì không được công khai cho công chúng
      Thay vào đó chỉ công bố vừa đủ để dư luận chuyển thành sự thù ghét giữa các nhóm nhất định
  • Bị Cloudflare chặn truy cập