Thông tin mới được hé lộ từ tài liệu Snowden qua phân tích phiên bản metadata PDF

(libroot.org)

1 điểm bởi GN⁺ 2026-01-12 | 1 bình luận | Chia sẻ qua WhatsApp

Kết quả phân tích lịch sử phiên bản metadata PDF của các tài liệu Snowden đã công bố xác nhận rằng các mục liên quan đến trạm mặt đất của cơ quan tình báo trong lãnh thổ Mỹ đã bị xóa có chủ đích
Nội dung bị xóa bao gồm tên vận hành và cấu trúc tên ngụy trang của Potomac Mission Ground Station (PMGS) và Consolidated Denver Mission Ground Station (CDMGS)
Cả hai tài liệu đều có chứa thông tin này trong phiên bản ban đầu, nhưng đã bị loại bỏ hoàn toàn trong bản công bố cuối cùng, chỉ còn dấu vết trong lịch sử phiên bản bên trong PDF
Trong khi đó, thông tin về các cơ sở ở nước ngoài như Menwith Hill của Anh và Pine Gap của Úc vẫn được giữ nguyên, cho thấy mô hình chỉ các cơ sở trong nước bị biên tập có hệ thống
Phát hiện này quan trọng vì là một ví dụ cho thấy có thể lần theo về mặt kỹ thuật quy trình biên tập và kiểm duyệt trong quá trình công bố tài liệu Snowden

Nội dung bị xóa liên quan đến các cơ sở tình báo trong nước Mỹ

Kết quả phân tích metadata của hai tài liệu xác nhận rằng các mục về cơ sở tình báo nội địa đã bị xóa hoàn toàn
- Trong Menwith satellite classification guide được công bố năm 2016, mục liên quan đến PMGS (Washington DC) đã bị loại bỏ
- Trong NRO SIGINT Guide for Pine Gap được công bố năm 2017, mục liên quan đến CDMGS (khu vực Denver) đã bị loại bỏ
Phần bị xóa bao gồm tên chính thức, tên ngụy trang, vị trí và thông tin dành cho khách thăm của cơ sở
Cả hai cơ sở đều được ghi rõ là Mission Ground Station của National Reconnaissance Office (NRO),
- tên ngụy trang của PMGS được ghi là “Classic Wizard Reporting and Testing Center(CWRTC)”
- tên ngụy trang của CDMGS được ghi là “Aerospace Data Facility(ADF)”

Potomac Mission Ground Station (PMGS)

Vị trí: trong các tòa nhà 259 và 260 của Naval Research Laboratory tại Washington DC
Tên công khai: “Classic Wizard Reporting and Testing Center(CWRTC)”
Chức năng thực tế: trạm mặt đất của mạng lưới tình báo vệ tinh NRO
Tài liệu nêu rõ cấp độ bảo mật của từng tên gọi
- “CWRTC” = không mật (UNCLASSIFIED)
- “PMGS” = mật (S//TK)
- “CWRTC là tên ngụy trang của PMGS” = mật (S//TK)
- “mối liên hệ giữa CWRTC với nhân sự NRO·CIA·NSA” = mật (S//TK)
Quảng cáo
Cấu trúc phân loại nhiều tầng này được giải thích là nhằm tách biệt tên công khai với nhiệm vụ thực tế trong vận hành

Consolidated Denver Mission Ground Station (CDMGS)

Vị trí: Buckley Space Force Base tại Aurora, Colorado
Tên công khai: “Aerospace Data Facility (ADF)”
Tên thực tế: “Consolidated Denver Mission Ground Station (CDMGS)”
Trên phương diện công khai, ADF-C được biết đến là cơ sở chỉ huy và điều khiển vệ tinh trinh sát, nhưng
- việc “ADF là tên ngụy trang của CDMGS” đã được tài liệu này xác nhận lần đầu tiên
Trong bảng của tài liệu, tên thật và tên ngụy trang của từng cơ sở được hiển thị song song,
- CDMGS–ADF–FSD(Field Station Denver)
- PMGS–MSF–CWRTC
- HMGS–RAF MHS, AMGS–JDFPG cùng các cấu trúc tương tự

Kết quả phân tích biên tập và metadata

Metadata PDF có ghi lại thời điểm biên tập và công cụ được sử dụng
- Tài liệu Pine Gap có hai phiên bản được tạo cách nhau vài phút vào ngày 31 tháng 7 năm 2017 bằng Nitro Pro 8
- Phiên bản đầu tiên có mục CDMGS, nhưng ở phiên bản thứ hai thì mục này đã bị xóa
- Xác nhận rằng The Intercept và ABC đã đăng tải cùng một tệp
Quảng cáo
Tài liệu Menwith Hill cũng cho thấy cùng một mô hình, với chỉ mục về cơ sở trong nước bị loại bỏ
Những metadata này đóng vai trò là bằng chứng pháp chứng số của quá trình biên tập và kiểm duyệt

Nghiên cứu tiếp theo và công cụ

Các phân tích trong tương lai sẽ tiếp tục theo dõi phiên bản trên toàn bộ metadata PDF để
- kiểm chứng về mặt kỹ thuật các tên điệp viên bị xóa, ảnh chụp màn hình đã chỉnh sửa, và dấu vết sửa đổi nhiều bước
Có thể dùng công cụ pdfresurrect để trích xuất phiên bản PDF
- Ví dụ: pdfresurrect -w filename.pdf
Libroot.org cung cấp khả năng tải trực tiếp các tệp phiên bản 1 và 2 của từng tài liệu
- Cả hai phiên bản của tài liệu Menwith Hill và Pine Gap đều đã được công khai

1 bình luận

GN⁺ 2026-01-12

Ý kiến trên Hacker News

Có vẻ các PDF này đã dùng tính năng “incremental update”
Nghĩa là khi chỉnh sửa tài liệu, chỉ phần thay đổi được nối thêm vào file gốc
Nói ngắn gọn, chỉ cần tìm dòng “%%EOF” bằng trình soạn thảo văn bản rồi cắt bỏ mọi thứ phía sau nó là có thể khôi phục phiên bản PDF trước đó
Tuy nhiên, với linearized PDF, ký tự %%EOF đầu tiên là một lần sửa đổi giả tồn tại vì lý do kỹ thuật chứ không phải phiên bản thật
- Cảm giác như vừa học được một kỹ năng OSINT mới
- Buồn cười ở chỗ Adobe cố bắt kịp tính năng của MS Word rồi lại vô tình tạo ra một công cụ tình báo như thế này
Xét từ góc độ bảo vệ thông tin, cách in tài liệu ra rồi quét lại thành PDF dạng ảnh ngày càng có vẻ hợp lý hơn
- Nhưng mọi máy in màu đều có mã chấm vàng vô hình (dotcode)
  Mã này có thể chứa số sê-ri của máy in, thậm chí cả địa chỉ IP khi kết nối Internet
  Vì vậy nên tránh dùng các máy in mà bạn không thể kiểm soát firmware
  Có các công cụ phân tích liên quan như YellowDotDecode, dotsecrets, bài trình bày CCC 2007
- Cách tốt hơn là chuyển PDF thành JPEG/PNG → BMP rồi mới chia sẻ hoặc in ra
  Hoặc cũng có thể dùng LLM để tái dựng tài liệu, bỏ dấu câu và khoảng trắng, rồi biến kết quả đó thành ảnh lại
  Chụp analog bằng máy ảnh phim hướng vào màn hình rất hữu ích cho việc chống giả mạo và lưu giữ bằng chứng
  Nhưng dù làm theo cách nào thì vẫn sẽ để lại dấu vết, nên tuyệt đối phải tránh chia sẻ thông tin khi chưa được phép
  Có cảm giác như thời đại điệp viên quay lại với microfilm đang tới
- Nếu là tôi thì tôi sẽ lưu PDF thành TIFF hoặc PNG rồi tạo lại thành PDF
  Nếu thực sự lo lắng thì tôi sẽ thêm bộ lọc nhiễu vào ảnh để làm nó mờ đi một chút
- Chẳng phải chỉ cần chụp ảnh màn hình từng trang là đơn giản hơn sao?
- Nếu vậy thì việc đáp ứng quy định tiếp cận Section 508 ở quy mô lớn sẽ khá buồn cười đấy
Cần cải thiện bộ công cụ để phân tích tài liệu PDF
Hiện tại có thể giải quyết phần nào bằng chế độ QDF của qpdf, nhưng rất cần GUI
- Có thể tham khảo trang phân tích PDF của REMNux
  Dù chủ yếu dành cho phân tích PDF độc hại, ở đó cũng có nhiều công cụ hữu ích để hiểu tài liệu thông thường
- Công cụ đó có vẻ thiên về chỉnh sửa hơn, nên tôi tò mò nó được dùng trong ngữ cảnh nào
  Sau vụ PDF Epstein, ý tưởng này càng trở nên thú vị hơn
Nghiên cứu này thực sự rất sâu sắc
Nó cũng gợi nhớ chuyện trước đây từng có người phân tích lại các tài liệu Snowden và tìm ra thông tin mới
Khá đáng tiếc là anh ấy không thể công khai toàn bộ tài liệu
- Thông tin hoàn toàn mới gần đây đến từ luận án tiến sĩ năm 2022 của Jacob Appelbaum
  Nó đề cập đến những nội dung trước đây chưa từng được công bố
  Có thể xem thêm ở blog Electrospaces và
  Libroot Phần 2, Phần 3
Tôi đã hỏi phóng viên Ryan Gallagher về quyết định biên tập nhưng vẫn chưa nhận được phản hồi
Kỳ nghỉ đã kết thúc rồi, hy vọng giờ sẽ có tin tức gì đó
- Tôi thắc mắc vì sao các phóng viên lại biên tập che đen (redact) tài liệu
  Không rõ là do áp lực từ chính phủ hay vì nội dung quá nhạy cảm
  Cũng tự hỏi liệu chỉ các phóng viên mới có file gốc hay không
Tôi từng thắc mắc làm sao PDF lại có thể hoạt động theo kiểu này
Không biết nó có cấu trúc lưu toàn bộ lịch sử phiên bản hay là giữ diff trong metadata
- PDF là một cấu trúc gồm nhiều đối tượng (object)
  Mỗi đối tượng có một ID, và khi chỉnh sửa thì không ghi đè đối tượng cũ mà thêm một thế hệ (generation) mới
  Ví dụ, nếu giải nén bằng mutool clean -d in.pdf out.pdf thì có thể thấy cấu trúc đó
  Cách này cho phép giữ nguyên bản gốc rồi nối thêm bản sửa đổi vào sau
- Nếu xem gói pdfresurrect ở cuối trang thì sẽ thấy giải thích rằng PDF giữ lại lịch sử chỉnh sửa
  Công cụ này có thể trích xuất các phiên bản trước và cung cấp bản tóm tắt thay đổi
- Tài liệu tham khảo liên quan là A Typical PDF
- Rốt cuộc PDF được tạo thành từ bảng đối tượng và cây tham chiếu
  Các đối tượng của phiên bản trước dù không còn được tham chiếu vẫn có thể còn nằm trong file
Thay vì in rồi quét lại, tôi tự hỏi liệu in ra XPS rồi chuyển lại sang PDF có hiệu quả không
Thật ngạc nhiên là đến bây giờ chuyện này mới được biết đến
- Chắc hẳn đã có người biết rồi
  Chỉ là loại thông tin này chưa được lan truyền rộng rãi thôi
- Có lẽ vụ file PDF Epstein đã khiến chủ đề này được chú ý trở lại
Có ai đã thử lệnh % pdfresurrect -w epsteinfiles.pdf chưa?
- Tôi tò mò không biết đã có ai thực sự thử chưa
Điều này gần như chắc chắn là kết quả của việc các phóng viên biên tập (redaction)
Đáng tiếc là không có dấu hiệu “đã biên tập” hay giải thích lý do
Về mặt kỹ thuật, nếu họ công bố dưới dạng ảnh chụp màn hình thì đã có thể ngăn rò rỉ metadata
- Đúng là các phóng viên đã biên tập
  Nhìn vào dấu thời gian trong metadata có thể thấy phiên bản tài liệu được tạo ra 3 tuần trước khi công bố
  Phần lớn tài liệu đã được xử lý đúng cách, nhưng riêng hai tài liệu lần này đã để lộ thông tin quan trọng do sai sót metadata
  Bài viết tiếp theo sẽ đi sâu vào khía cạnh kỹ thuật của pháp chứng số PDF và phân tích metadata

Thông tin mới được hé lộ từ tài liệu Snowden qua phân tích phiên bản metadata PDF

Nội dung bị xóa liên quan đến các cơ sở tình báo trong nước Mỹ

Potomac Mission Ground Station (PMGS)

Consolidated Denver Mission Ground Station (CDMGS)

Kết quả phân tích biên tập và metadata

Nghiên cứu tiếp theo và công cụ

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News