- Đã thực hiện phân tích pháp y số đối với các tài liệu PDF được Bộ Tư pháp Hoa Kỳ công bố theo Epstein Files Transparency Act, tập trung vào cấu trúc và cú pháp tệp
- Kết quả phân tích cho thấy các PDF trong bộ dữ liệu EFTA 01–07 đã được biên tập (redaction) đúng cách, và các tuyên bố trên mạng xã hội về việc “có thể khôi phục phần đã che” là không đúng sự thật
- Tất cả PDF đều không có mã hóa, chú thích, JavaScript hay tệp đính kèm, và phần lớn ở dạng tài liệu quét dựa trên hình ảnh có áp dụng OCR; một số tệp có siêu dữ liệu ẩn (dictionary)
- Phát hiện các chi tiết kỹ thuật như đánh số Bates, luồng đối tượng không nén, khai báo phiên bản sai, chú thích bị bỏ sót, nhưng không ảnh hưởng đáng kể đến tính hợp lệ của tệp
- Trường hợp này cho thấy độ phức tạp của pháp y PDF và giới hạn về độ tin cậy của công cụ, đồng thời nhấn mạnh tầm quan trọng của quy trình làm sạch và biên tập chính xác trước khi công bố tài liệu nhạy cảm
Tổng quan dữ liệu được DoJ công bố
- Bộ Tư pháp đã công bố 7 kho lưu trữ ZIP vào ngày 19/12/2025 (tổng 2,97GB), bên trong có 4.085 tệp PDF, 1 tệp AVI, cùng các tệp dữ liệu
.DAT và .OPT cho từng bộ
- Tên tệp PDF được sắp tuần tự từ
EFTA00000001.pdf đến EFTA00009664.pdf
- Xác nhận rằng khoảng 5.879 tệp PDF vẫn chưa được công bố
- Phần lớn PDF là tài liệu quét dựa trên hình ảnh, với một phần văn bản có thể tìm kiếm được nhờ OCR
- Đã áp dụng biên tập dạng “hộp đen”, và xác nhận việc này được thực hiện đúng ở cấp độ pixel
- Không phát hiện tài liệu sinh ra ở dạng số (born-digital)
Phân tích tính hợp lệ của tệp và phiên bản
- Kết quả kiểm tra tính hợp lệ bằng nhiều công cụ pháp y PDF cho thấy chỉ phát hiện một lỗi nhỏ
- Ở 109 tệp, giá trị FontDescriptor Descent được đặt là số dương, nhưng đây chỉ là lỗi khớp phông chữ không đáng kể và không ảnh hưởng đến tính hợp lệ tổng thể
- Khi so sánh hai công cụ
pdfinfo, kết quả đọc phiên bản PDF cho ra khác nhau
- Tool A báo 209 tệp phiên bản 1.3 và 3.875 tệp phiên bản 1.5
- Tool B báo 3.817 tệp phiên bản 1.3 và 267 tệp phiên bản 1.5
- Sự khác biệt đến từ cách xử lý mục Version trong incremental update, và kết quả của Tool A là chính xác
- Tất cả PDF đều không có mã hóa, thẻ, chú thích, bookmark, biểu mẫu, JavaScript hay tệp đính kèm
- Tổng số trang là 9.659, và đa số là tài liệu một trang
Incremental update và số Bates
- PDF lưu tích lũy lịch sử chỉnh sửa thông qua nhiều lần incremental update
- PDF đầu tiên (
EFTA00000001.pdf) chứa 2 lần incremental update
- Ở lần cập nhật cuối, số Bates được thêm vào từng trang
- Việc thêm số Bates sử dụng luồng tham chiếu chéo
/Type /XRef, và được xác nhận có cùng mẫu trên mọi PDF mẫu
- Ở lần incremental update đầu tiên, phiên bản PDF đổi từ 1.3 sang 1.5, nhưng có lỗi kỹ thuật là không khớp với phần header
- Ngoài ra còn có Info dictionary tài liệu ẩn nhưng không được tham chiếu trong trailer cuối, nên không hiển thị trong trình xem PDF thông thường
- Dictionary này chứa thông tin
/Creator (OmniPage CSDK 21.1) và /Producer (Processing-CLI)
Phân tích siêu dữ liệu và ngày tháng
- Theo kết quả
pdfinfo, đa số PDF không có siêu dữ liệu tường minh hay luồng XMP
- Tuy vậy, ở một số tệp vẫn tồn tại orphaned Info dictionary, và mục
/Info xuất hiện nhiều lần
- Chỉ riêng tệp
EFTA00003212.pdf có các mục Title, Author, Subject, Keywords, Creator
- Có 215 tệp có giá trị
/Producer hiển thị là “pypdf”
- Ngày tạo (
CreationDate) và ngày sửa (ModDate) đều trùng nhau, nằm trong khoảng 18–19/12/2025
- Điều này cho thấy DoJ đã thực hiện batch processing trong khoảng 36 giờ
Đặc tính hình ảnh và bản quét
- Trong tất cả PDF đều không có ảnh JPEG (DCTDecode), thay vào đó dùng bitmap nén FLATE
- Độ phân giải khoảng 96 DPI, bảng màu giới hạn ở 256 màu
- Điều này được cho là nhằm loại bỏ siêu dữ liệu EXIF, IPTC và XMP
- Một số tài liệu có dấu vết quét thật (mép giấy, lỗ đục, vết nguệch ngoạc...), nhưng một số khác dường như là hình ảnh được mô phỏng quét sau khi render kỹ thuật số
- Có thể phân biệt nhờ cùng một độ nghiêng (skew) và không có nhiễu
- Do sử dụng phông chữ đơn cách Courier, tồn tại rủi ro có thể ước lượng số ký tự đã bị che bằng cách đếm ký tự
Chất lượng OCR và độ chính xác của biên tập
- Kết quả OCR có độ chính xác thấp và không có khả năng nhận diện ngôn ngữ, chỉ ở mức nhận dạng ký tự đơn giản
- Văn bản OCR của PDF đầu tiên (
EFTA00000001.pdf) phần lớn không chính xác
- Biên tập kiểu “hộp đen” được áp dụng trực tiếp ở cấp độ pixel của hình ảnh, chứ không phải hình chữ nhật phủ lên đối tượng văn bản
- Vì vậy không tồn tại văn bản có thể khôi phục
Kết luận và hàm ý
- Pipeline tạo PDF của DoJ gồm các bước như loại bỏ JPEG, tối giản siêu dữ liệu, render dựa trên hình ảnh, áp dụng OCR
- Tuy nhiên, các yếu tố như đối tượng không cần thiết, luồng rỗng, phần dư của incremental update làm tăng kích thước tệp và độ phức tạp
- Một số chú thích (comment) PDF và đối tượng mồ côi (orphaned object) vẫn còn sót lại, nên vẫn có khả năng rò rỉ thông tin
- Pháp y PDF có nguy cơ bị đánh giá sai cao do sự khác biệt kết quả giữa các công cụ và độ phức tạp của định dạng
- Vì vậy, PDF Association đang vận hành PDF Forensic Liaison Working Group để thúc đẩy chuẩn hóa ngành và đào tạo
1 bình luận
Ý kiến trên Hacker News
Có người phát hiện một số tài liệu trông như bản scan thật, nhưng thực ra là PDF nhân tạo không hề có nhiễu vật lý
Nhìn việc mỗi trang đều có cùng độ nghiêng (skew) và mép hoàn hảo, có vẻ tài liệu số gốc đã được render thành ảnh rồi hậu xử lý như nghiêng, thu nhỏ, giảm màu
Lý do ai đó làm vậy có lẽ là để khiến ảnh do AI tạo hoặc tài liệu bị thao túng trông giống đồ thật
~/.local/share/nautilus/để tạo PDF scan giả ngay từ menu chuột phảiKhông nhớ nguồn gốc ban đầu, nhưng hình như tôi thấy trên Stack Exchange. Nó dùng lệnh
magickđể áp dụng xoay, nhiễu, chuyển grayscale, v.v.Nếu là thật thì khó hiểu vì sao FBI lại ngụy trang thành bản scan. Có phải có phần nào trong thỏa thuận giữa Epstein và Acosta mà họ không muốn công khai không
Liên kết PDF liên quan
Tôi nghĩ việc DOJ công bố bản sao đã chỉnh sửa thay vì bản gốc là có vấn đề về mặt pháp lý
Phần mềm được dùng là OmniPage CSDK 21.1 đã xóa toàn bộ metadata và cả các file được mã hóa
Tôi tự hỏi đã có ai phân tích phong cách viết của Epstein (JE) rồi so sánh với bài đăng ở các nơi như 4chan chưa
Ghislaine chắc cũng có đủ dữ liệu tương tự; tôi không tin tuyên bố liên quan tới MaxwellHill, nhưng có vẻ vẫn có thể tìm ra manh mối nào đó
Bài liên quan
Trang đã bị gỡ vì vấn đề quyền riêng tư, nhưng độ chính xác rất cao. Tôi cũng muốn thử làm một trợ lý trình duyệt AI để ngẫu nhiên hóa phong cách bình luận của mình
Dù vậy, email của Epstein có thể là ngoại lệ vì chúng quá đặc trưng
Liên kết demo HN
Cách này cũng phân biệt tốt văn bản do AI tạo. Tôi nghĩ nó tốt hơn nhiều so với cách huấn luyện “transformer để phát hiện AI”
Có thể vì những người ở tầng lớp rất cao hiếm khi tự viết nên mất luôn khả năng cấu trúc câu, hoặc đó là thứ ngôn ngữ nội bộ của họ
Tôi thấy buồn cười vì popup cookie trên trang này để nút từ chối là “Continue without consent”
Có thể thông tin đang bị rò rỉ qua các orphan object trong chú thích PDF hoặc bên trong compressed object stream
Mong là có ai đó đang lưu trữ toàn bộ tài liệu một cách độc lập. Có vẻ một phần đã bị xóa rồi
Nhưng trên cộng đồng Lemmy thì họ vẫn đang thảo luận
có lúc tất cả đều biến mất rồi bây giờ đa số đã được khôi phục
Hiện tôi đang dùng model allenai/olmocr-2-7b để đối chiếu với kết quả OCR do DOJ cung cấp
Có khoảng 500.000 ảnh nên sẽ mất khá nhiều thời gian. Dù vậy tỷ lệ nhận dạng của olmocr-2-7b khá cao
Tôi cũng muốn biết giảm xuống dưới cỡ nào thì việc nhận dạng chữ bắt đầu khó
Tôi từng thắc mắc vì sao một số file mới hơn lại có các ký tự '=' ngẫu nhiên
Trông không giống lỗi OCR mà giống như cố tình làm cho việc tìm kiếm khó hơn
Lars Ingebrigtsen, nhà phát triển của gnus, đã giải thích trên blog
Trong một số PDF, tệp đính kèm mã hóa Base64 được chèn nguyên vào phần thân
Chất lượng OCR quá tệ nên muốn khôi phục sẽ cần rất nhiều công sức
PDF ví dụ,
chuỗi Reddit liên quan
Cá nhân tôi thấy thú vị hơn cả là các tài khoản ngân hàng của Epstein
Ai đã đưa tiền cho ông ta, và ai đã nhận tiền từ ông ta mới là điểm cốt lõi
Thay vào đó chỉ công bố vừa đủ để dư luận chuyển thành sự thù ghét giữa các nhóm nhất định
Bị Cloudflare chặn truy cập