- Kết quả phân tích lịch sử phiên bản metadata PDF của các tài liệu Snowden đã công bố xác nhận rằng các mục liên quan đến trạm mặt đất của cơ quan tình báo trong lãnh thổ Mỹ đã bị xóa có chủ đích
- Nội dung bị xóa bao gồm tên vận hành và cấu trúc tên ngụy trang của Potomac Mission Ground Station (PMGS) và Consolidated Denver Mission Ground Station (CDMGS)
- Cả hai tài liệu đều có chứa thông tin này trong phiên bản ban đầu, nhưng đã bị loại bỏ hoàn toàn trong bản công bố cuối cùng, chỉ còn dấu vết trong lịch sử phiên bản bên trong PDF
- Trong khi đó, thông tin về các cơ sở ở nước ngoài như Menwith Hill của Anh và Pine Gap của Úc vẫn được giữ nguyên, cho thấy mô hình chỉ các cơ sở trong nước bị biên tập có hệ thống
- Phát hiện này quan trọng vì là một ví dụ cho thấy có thể lần theo về mặt kỹ thuật quy trình biên tập và kiểm duyệt trong quá trình công bố tài liệu Snowden
Nội dung bị xóa liên quan đến các cơ sở tình báo trong nước Mỹ
- Kết quả phân tích metadata của hai tài liệu xác nhận rằng các mục về cơ sở tình báo nội địa đã bị xóa hoàn toàn
- Trong Menwith satellite classification guide được công bố năm 2016, mục liên quan đến PMGS (Washington DC) đã bị loại bỏ
- Trong NRO SIGINT Guide for Pine Gap được công bố năm 2017, mục liên quan đến CDMGS (khu vực Denver) đã bị loại bỏ
- Phần bị xóa bao gồm tên chính thức, tên ngụy trang, vị trí và thông tin dành cho khách thăm của cơ sở
- Cả hai cơ sở đều được ghi rõ là Mission Ground Station của National Reconnaissance Office (NRO),
- tên ngụy trang của PMGS được ghi là “Classic Wizard Reporting and Testing Center(CWRTC)”
- tên ngụy trang của CDMGS được ghi là “Aerospace Data Facility(ADF)”
Potomac Mission Ground Station (PMGS)
- Vị trí: trong các tòa nhà 259 và 260 của Naval Research Laboratory tại Washington DC
- Tên công khai: “Classic Wizard Reporting and Testing Center(CWRTC)”
- Chức năng thực tế: trạm mặt đất của mạng lưới tình báo vệ tinh NRO
- Tài liệu nêu rõ cấp độ bảo mật của từng tên gọi
- “CWRTC” = không mật (UNCLASSIFIED)
- “PMGS” = mật (S//TK)
- “CWRTC là tên ngụy trang của PMGS” = mật (S//TK)
- “mối liên hệ giữa CWRTC với nhân sự NRO·CIA·NSA” = mật (S//TK)
- Cấu trúc phân loại nhiều tầng này được giải thích là nhằm tách biệt tên công khai với nhiệm vụ thực tế trong vận hành
Consolidated Denver Mission Ground Station (CDMGS)
- Vị trí: Buckley Space Force Base tại Aurora, Colorado
- Tên công khai: “Aerospace Data Facility (ADF)”
- Tên thực tế: “Consolidated Denver Mission Ground Station (CDMGS)”
- Trên phương diện công khai, ADF-C được biết đến là cơ sở chỉ huy và điều khiển vệ tinh trinh sát, nhưng
- việc “ADF là tên ngụy trang của CDMGS” đã được tài liệu này xác nhận lần đầu tiên
- Trong bảng của tài liệu, tên thật và tên ngụy trang của từng cơ sở được hiển thị song song,
- CDMGS–ADF–FSD(Field Station Denver)
- PMGS–MSF–CWRTC
- HMGS–RAF MHS, AMGS–JDFPG cùng các cấu trúc tương tự
Kết quả phân tích biên tập và metadata
- Metadata PDF có ghi lại thời điểm biên tập và công cụ được sử dụng
- Tài liệu Pine Gap có hai phiên bản được tạo cách nhau vài phút vào ngày 31 tháng 7 năm 2017 bằng Nitro Pro 8
- Phiên bản đầu tiên có mục CDMGS, nhưng ở phiên bản thứ hai thì mục này đã bị xóa
- Xác nhận rằng The Intercept và ABC đã đăng tải cùng một tệp
- Tài liệu Menwith Hill cũng cho thấy cùng một mô hình, với chỉ mục về cơ sở trong nước bị loại bỏ
- Những metadata này đóng vai trò là bằng chứng pháp chứng số của quá trình biên tập và kiểm duyệt
Nghiên cứu tiếp theo và công cụ
- Các phân tích trong tương lai sẽ tiếp tục theo dõi phiên bản trên toàn bộ metadata PDF để
- kiểm chứng về mặt kỹ thuật các tên điệp viên bị xóa, ảnh chụp màn hình đã chỉnh sửa, và dấu vết sửa đổi nhiều bước
- Có thể dùng công cụ pdfresurrect để trích xuất phiên bản PDF
- Ví dụ:
pdfresurrect -w filename.pdf
- Libroot.org cung cấp khả năng tải trực tiếp các tệp phiên bản 1 và 2 của từng tài liệu
- Cả hai phiên bản của tài liệu Menwith Hill và Pine Gap đều đã được công khai
1 bình luận
Ý kiến trên Hacker News
Có vẻ các PDF này đã dùng tính năng “incremental update”
Nghĩa là khi chỉnh sửa tài liệu, chỉ phần thay đổi được nối thêm vào file gốc
Nói ngắn gọn, chỉ cần tìm dòng “%%EOF” bằng trình soạn thảo văn bản rồi cắt bỏ mọi thứ phía sau nó là có thể khôi phục phiên bản PDF trước đó
Tuy nhiên, với linearized PDF, ký tự %%EOF đầu tiên là một lần sửa đổi giả tồn tại vì lý do kỹ thuật chứ không phải phiên bản thật
Xét từ góc độ bảo vệ thông tin, cách in tài liệu ra rồi quét lại thành PDF dạng ảnh ngày càng có vẻ hợp lý hơn
Mã này có thể chứa số sê-ri của máy in, thậm chí cả địa chỉ IP khi kết nối Internet
Vì vậy nên tránh dùng các máy in mà bạn không thể kiểm soát firmware
Có các công cụ phân tích liên quan như YellowDotDecode, dotsecrets, bài trình bày CCC 2007
Hoặc cũng có thể dùng LLM để tái dựng tài liệu, bỏ dấu câu và khoảng trắng, rồi biến kết quả đó thành ảnh lại
Chụp analog bằng máy ảnh phim hướng vào màn hình rất hữu ích cho việc chống giả mạo và lưu giữ bằng chứng
Nhưng dù làm theo cách nào thì vẫn sẽ để lại dấu vết, nên tuyệt đối phải tránh chia sẻ thông tin khi chưa được phép
Có cảm giác như thời đại điệp viên quay lại với microfilm đang tới
Nếu thực sự lo lắng thì tôi sẽ thêm bộ lọc nhiễu vào ảnh để làm nó mờ đi một chút
Cần cải thiện bộ công cụ để phân tích tài liệu PDF
Hiện tại có thể giải quyết phần nào bằng chế độ QDF của
qpdf, nhưng rất cần GUIDù chủ yếu dành cho phân tích PDF độc hại, ở đó cũng có nhiều công cụ hữu ích để hiểu tài liệu thông thường
Sau vụ PDF Epstein, ý tưởng này càng trở nên thú vị hơn
Nghiên cứu này thực sự rất sâu sắc
Nó cũng gợi nhớ chuyện trước đây từng có người phân tích lại các tài liệu Snowden và tìm ra thông tin mới
Khá đáng tiếc là anh ấy không thể công khai toàn bộ tài liệu
Nó đề cập đến những nội dung trước đây chưa từng được công bố
Có thể xem thêm ở blog Electrospaces và
Libroot Phần 2, Phần 3
Tôi đã hỏi phóng viên Ryan Gallagher về quyết định biên tập nhưng vẫn chưa nhận được phản hồi
Kỳ nghỉ đã kết thúc rồi, hy vọng giờ sẽ có tin tức gì đó
Không rõ là do áp lực từ chính phủ hay vì nội dung quá nhạy cảm
Cũng tự hỏi liệu chỉ các phóng viên mới có file gốc hay không
Tôi từng thắc mắc làm sao PDF lại có thể hoạt động theo kiểu này
Không biết nó có cấu trúc lưu toàn bộ lịch sử phiên bản hay là giữ diff trong metadata
Mỗi đối tượng có một ID, và khi chỉnh sửa thì không ghi đè đối tượng cũ mà thêm một thế hệ (generation) mới
Ví dụ, nếu giải nén bằng
mutool clean -d in.pdf out.pdfthì có thể thấy cấu trúc đóCách này cho phép giữ nguyên bản gốc rồi nối thêm bản sửa đổi vào sau
Công cụ này có thể trích xuất các phiên bản trước và cung cấp bản tóm tắt thay đổi
Các đối tượng của phiên bản trước dù không còn được tham chiếu vẫn có thể còn nằm trong file
Thay vì in rồi quét lại, tôi tự hỏi liệu in ra XPS rồi chuyển lại sang PDF có hiệu quả không
Thật ngạc nhiên là đến bây giờ chuyện này mới được biết đến
Chỉ là loại thông tin này chưa được lan truyền rộng rãi thôi
Có ai đã thử lệnh
% pdfresurrect -w epsteinfiles.pdfchưa?Điều này gần như chắc chắn là kết quả của việc các phóng viên biên tập (redaction)
Đáng tiếc là không có dấu hiệu “đã biên tập” hay giải thích lý do
Về mặt kỹ thuật, nếu họ công bố dưới dạng ảnh chụp màn hình thì đã có thể ngăn rò rỉ metadata
Nhìn vào dấu thời gian trong metadata có thể thấy phiên bản tài liệu được tạo ra 3 tuần trước khi công bố
Phần lớn tài liệu đã được xử lý đúng cách, nhưng riêng hai tài liệu lần này đã để lộ thông tin quan trọng do sai sót metadata
Bài viết tiếp theo sẽ đi sâu vào khía cạnh kỹ thuật của pháp chứng số PDF và phân tích metadata