FSE gặp FBI
(blog.freespeechextremist.com)- Máy chủ FSE(Freespeech Extremist) chia sẻ trải nghiệm từng trở thành mục tiêu thu thập dữ liệu của Cục Điều tra Liên bang Mỹ (FBI)
- FBI trả tiền cho các công ty tư nhân (như SocialGist) để thu thập dữ liệu quy mô lớn từ nhiều diễn đàn và fediverse, rồi dùng cho phân tích nội dung, phân loại theo từ khóa và phân tích cảm xúc
- Trong quá trình vận hành máy chủ, bài viết mô tả việc phát hiện người dùng độc hại, kinh nghiệm phân tích và truy vết lưu lượng, cũng như kinh nghiệm đối phó với đầu độc dữ liệu và crawling lách luật
- Các công ty thu thập dữ liệu như BoardReader liên tục quét máy chủ bằng crawling hung hăng và né proxy, đồng thời cũng bộc lộ mối liên hệ với dữ liệu của FBI
- Thông qua trường hợp này, bài viết nhấn mạnh rằng quản trị viên máy chủ fediverse và ngành CNTT cần nâng cao năng lực bảo mật dữ liệu, quan sát và ứng phó
FSE gặp FBI
Pete, ngày 6 tháng 4 năm 2025
Tổng quan và diễn biến sự việc
- Quản trị viên FSE(Freespeech Extremist) chia sẻ những trải nghiệm bất thường liên quan đến UGC của máy chủ, crawler và việc cơ quan liên bang thu thập dữ liệu
- Phân tích điểm tiếp xúc thực tế với FBI, cũng như cách dữ liệu bị scrape và thực sự được đưa vào hệ thống nội bộ của cơ quan điều tra và giao diện tổ chức dựa trên Facebook
- Nội dung chính của bài viết là phân tích log máy chủ, ứng phó với người dùng độc hại, phương pháp phát hiện bất thường trong lưu lượng, cùng với việc các công ty scraping truy cập vòng tránh và mối liên hệ giữa họ với cơ quan thực thi pháp luật
Gốc rễ sự việc – mối đe dọa từ nội dung bất hợp pháp
- Việc tội phạm xâm hại tình dục trẻ em xâm nhập vào fediverse là rủi ro nghiêm trọng nhất, đe dọa sự tồn tại của chính máy chủ
- FSE được quản lý với tinh thần đề cao tự do ngôn luận, nhưng khi có hành vi bất hợp pháp xảy ra thì vẫn lưu lại hồ sơ đầy đủ, chủ động chặn và công khai
- Cần lưu ý cả việc các instance khác chặn sai, hiểu nhầm làm méo mó thông tin, cũng như cấu trúc khiến dữ liệu bị chuyển sang các cơ quan tình báo bên ngoài (ví dụ: FBI)
Ứng phó kỹ thuật và crash course về phân tích log
Chẩn đoán dấu hiệu bất thường trong vận hành máy chủ
- Do giới hạn của phần mềm máy chủ, lưu lượng bất thường, cùng crawler/bot/scanner, máy chủ công khai luôn phải đối mặt với những điều “kỳ quặc”
- Để ứng phó hiệu quả cần nắm được các công cụ phân tích văn bản và mạng như awk, tail -f, whois, tcpdump, traceroute, Shodan
- Giới thiệu cách tùy biến định dạng log web server (TSV v.v.), ghi lại thời gian phản hồi theo tài nguyên, và nắm bắt luồng dữ liệu thời gian thực thông qua phát hiện giá trị bất thường
- Có thể dùng phân tích thống kê đơn giản (trung bình, độ lệch chuẩn, cảnh báo ngoại lệ) để nhận diện các tình huống bất thường như DDoS hay crawling
“Mô sẹo” tích lũy từ kinh nghiệm và phương án ứng phó
- Ban đầu, FSE gặp các vấn đề phổ biến như spammer thông thường và đăng ký tự động
- Nhằm ngăn đăng ký hàng loạt, họ tự tạo và vận hành các công cụ gọn nhẹ như email liên kết với log, cảnh báo bằng giọng nói, rate limit của nginx
- Thay vì áp dụng CAPTCHA hay xác thực email, họ chọn chính sách tối thiểu hóa dữ liệu cá nhân và cơ chế reset mật khẩu thủ công
- Hầu hết giải pháp đều do họ tự triển khai để bảo đảm tính linh hoạt, tốc độ và khả năng phản ứng nhanh
BoardReader và FSE, cùng việc phát hiện crawler
Diễn biến crawling của BoardReader và phân tích
- Một công ty tên BoardReader mà trước đó họ chưa biết đến đã coi dữ liệu FSE là bài đăng diễn đàn và tiến hành crawling quy mô lớn
- Crawler đã thử nhiều cách né tránh như nhiều IP, proxy dân cư, Tor, nhiều UA khác nhau, thậm chí phát lại phiên Chrome
- Khi trả về lỗi 429 (throttling), 401/403 (không có quyền/bị cấm), chúng lại càng lặp lại nhiều yêu cầu hơn
- Cuối cùng họ tiếp tục chặn bằng nhiều loại phản hồi như 402 (Payment Required), đồng thời thử đối thoại, nhưng phía kia vẫn tiếp tục thu thập dữ liệu qua đường vòng
- Trong quá trình nhận diện mẫu né tránh của crawler và truy vết, họ phát hiện mối liên hệ với SocialGist và dấu hiệu FBI có liên quan
Trao đổi thực tế với BoardReader và SocialGist
- Trước hoạt động crawling lặp đi lặp lại, họ gửi yêu cầu chính thức tới BoardReader và SocialGist, cố gắng yêu cầu dừng crawling và nhận phản hồi qua info@boardreader.com
- Phía SocialGist chỉ đưa ra câu trả lời mang tính hình thức nhưng trên thực tế vẫn tiếp tục né tránh, cho thấy họ không giữ lời hứa
- Ngoài ra còn tiếp tục truy vết IP của nhà phát triển (ISP Serbia, devtools.boardreader.com) và nội bộ bên kia cũng được hướng dẫn về kiến trúc fediverse
Sự can thiệp trực tiếp của FBI
Quá trình FBI liên hệ và những gì được xác định
- Trong lúc trao đổi với Dave(SocialGist), họ nhận được email chính thức từ địa chỉ fbi.gov với tiêu đề “Emergency Disclosure Request”
- Một đặc vụ FBI hỏi xin thông tin cá nhân của người dùng tên “WitchKingOfAngmar” và đính kèm ảnh chụp màn hình bài đăng
- Dù bài đăng đó không thuộc FSE mà là của sneed.social, crawler lại gán nó cho FSE trong cơ sở dữ liệu, gây ra sự hiểu nhầm
- Ảnh chụp màn hình phía FBI có chứa danh sách dạng diễn đàn, phân tích cảm xúc và phần làm nổi bật các từ khóa liên quan như ‘kill blackrock’, ‘larry fink’
- Điều này cho thấy các lỗi trong kiến trúc dữ liệu của Relay của SocialGist và BoardReader, sự hiểu sai có tính cấu trúc của FBI, đồng thời bộc lộ đặc tính phân tán của fediverse và sự nhầm lẫn ở cấp hệ thống
Ứng phó tiếp theo với FBI
- Quản trị viên FSE giải thích với FBI rằng bài đăng gốc không thuộc FSE, đồng thời đề nghị xác minh instance của người đăng gốc
- Sau đó việc liên hệ từ phía đặc vụ FBI dừng lại, quá trình ứng phó trực tiếp kết thúc; bài đăng bị chuyển sang không công khai và quyền truy cập dịch vụ máy chủ bị hạn chế tạm thời sau ứng phó khẩn cấp
- Trong cùng thời điểm, BoardReader vẫn tiếp tục thử crawling vòng tránh nhưng vẫn bị chặn, còn FBI kết thúc mà không có thêm phản hồi nào
Kết luận và hàm ý
- Trường hợp này cho thấy rất cụ thể thực trạng liên kết dữ liệu giữa các công ty scraping, data broker và cơ quan nhà nước
- Nó nhấn mạnh rằng các nhà vận hành máy chủ mạng xã hội phân tán (fediverse) cần thành thạo phân tích log, phát hiện mẫu bất thường, ứng phó pháp lý và xây dựng công cụ chặn tự động
- Ở bình diện xã hội rộng hơn, vụ việc gợi ra nguy cơ rằng các hệ thống web mở mang tính dân chủ có thể dễ dàng bị hấp thụ và bóp méo bởi cơ chế giám sát của tổ chức tư nhân hoặc nhà nước
- Cuối cùng, bài viết nhấn mạnh rằng thiết kế mạng mở và việc cộng đồng vận hành chia sẻ thông tin là cốt lõi để phòng thủ bảo mật dữ liệu hiệu quả
1 bình luận
Ý kiến Hacker News
Có ý kiến cho rằng Fediblock bị chỉ trích vì không kiểm chứng sự thật nên gây hiểu lầm, nhưng nơi được liên kết trong bài blog thực ra chỉ đơn thuần là danh sách các instance đã defederate với nhau, nhấn mạnh rằng Fediblock đã ngừng hoạt động từ vài năm trước và đó không phải tiêu chuẩn chính thức mà chỉ là thông tin tham khảo, đồng thời chia sẻ linh cảm rằng tác giả bài blog ban đầu định tìm nội dung Fediblock nhưng đã vô tình dùng liên kết thay thế đó
Phân tích vì sao bài này thú vị: ban đầu nó xuất phát từ trăn trở rằng việc áp CAPTCHA có thể gây hại cho người dùng thật, rồi cuối cùng lại phơi bày rất trần trụi một quá trình dài dòng trong đó sau khi chuyển đăng ký và timeline sang chế độ công khai thì hàng loạt vấn đề xuất hiện khiến trải nghiệm người dùng còn tệ hơn; chia sẻ trải nghiệm nội tâm rằng sau khi đọc xong thì đi đến kết luận mình tuyệt đối không muốn thử tự vận hành một không gian cộng đồng
Tóm tắt sức hấp dẫn của bài viết này bằng năm điểm: 1) nội dung kiểu khoa học công dân nhằm lần theo cơ chế FBI thu thập thông tin/giám sát, 2) các vụ việc lặt vặt trong Fediverse, 3) mẹo vận hành hệ thống thực dụng từ góc nhìn quản trị viên máy chủ nhỏ, 4) tiểu cốt truyện thú vị xoay quanh nhân vật torswats ở trung tâm nhiều sự việc cho đến lúc bị bắt, 5) phong cách viết thông minh và mượt mà, xứng đáng 5 sao và rất đáng đọc
Thành thật nói rằng bản thân rất ấn tượng với nội dung bài viết, và góp ý chi tiết của tôi là nút 'Negative' của công cụ tìm kiếm có lẽ không phải kết quả phân tích cảm xúc mà là cách biểu thị kết quả tìm kiếm không phù hợp (negative exploratory failure); chia sẻ góc nhìn rằng phân tích cảm xúc chẳng có nhiều lý do để được dùng trong kịch bản này
Nói rằng chính fediblock đã khiến người ta hiểu lầm FSE có quy định cho phép sai sự thật, đồng thời bày tỏ khó chịu khi trích dẫn một trang có mã nguồn nằm trên kiwifarms; bổ sung rằng lý do FSE bị chặn chủ yếu là vì đa số người dùng không muốn giao tiếp với nhóm 'free speech'
Đề xuất liệu có phương án kỹ thuật hiệu quả hơn để chống scraping hay không, chẳng hạn chặn lưu lượng ở cấp IP hoặc domain, hoặc dùng dịch vụ bên ngoài như Cloudflare để bảo vệ API endpoint; tuy vậy cũng nhắc rằng các dịch vụ như vậy có vấn đề chi phí và có thể không phù hợp với một site có tính chất như Free Speech Extremist, đồng thời nêu ý kiến rằng xét về chi phí thì chặn traffic độc hại đôi khi lại còn tiết kiệm hơn
Chỉ ra rằng trên FSE đã lộ ra vấn đề ấu dâm, và nói thêm rằng đây là vấn đề của toàn bộ Fediverse, Discord và nhiều nơi khác cũng vậy
Đặt câu hỏi vì sao FSE (Free Speech Extremist) phải bị gắn nhãn 'extremist', trong khi ở một đất nước coi trọng quyền tự do ngôn luận được Hiến pháp Mỹ bảo đảm thì có nhất thiết phải bị xem là cực đoan hay không
Tóm gọn bằng một câu rằng việc vận hành không gian trực tuyến thực tế là một công việc cực kỳ vất vả