1 điểm bởi GN⁺ 2025-06-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • Máy chủ FSE(Freespeech Extremist) chia sẻ trải nghiệm từng trở thành mục tiêu thu thập dữ liệu của Cục Điều tra Liên bang Mỹ (FBI)
  • FBI trả tiền cho các công ty tư nhân (như SocialGist) để thu thập dữ liệu quy mô lớn từ nhiều diễn đàn và fediverse, rồi dùng cho phân tích nội dung, phân loại theo từ khóa và phân tích cảm xúc
  • Trong quá trình vận hành máy chủ, bài viết mô tả việc phát hiện người dùng độc hại, kinh nghiệm phân tích và truy vết lưu lượng, cũng như kinh nghiệm đối phó với đầu độc dữ liệu và crawling lách luật
  • Các công ty thu thập dữ liệu như BoardReader liên tục quét máy chủ bằng crawling hung hăng và né proxy, đồng thời cũng bộc lộ mối liên hệ với dữ liệu của FBI
  • Thông qua trường hợp này, bài viết nhấn mạnh rằng quản trị viên máy chủ fediverse và ngành CNTT cần nâng cao năng lực bảo mật dữ liệu, quan sát và ứng phó

FSE gặp FBI

Pete, ngày 6 tháng 4 năm 2025

Tổng quan và diễn biến sự việc

  • Quản trị viên FSE(Freespeech Extremist) chia sẻ những trải nghiệm bất thường liên quan đến UGC của máy chủ, crawler và việc cơ quan liên bang thu thập dữ liệu
  • Phân tích điểm tiếp xúc thực tế với FBI, cũng như cách dữ liệu bị scrape và thực sự được đưa vào hệ thống nội bộ của cơ quan điều tra và giao diện tổ chức dựa trên Facebook
  • Nội dung chính của bài viết là phân tích log máy chủ, ứng phó với người dùng độc hại, phương pháp phát hiện bất thường trong lưu lượng, cùng với việc các công ty scraping truy cập vòng tránh và mối liên hệ giữa họ với cơ quan thực thi pháp luật

Gốc rễ sự việc – mối đe dọa từ nội dung bất hợp pháp

  • Việc tội phạm xâm hại tình dục trẻ em xâm nhập vào fediverse là rủi ro nghiêm trọng nhất, đe dọa sự tồn tại của chính máy chủ
  • FSE được quản lý với tinh thần đề cao tự do ngôn luận, nhưng khi có hành vi bất hợp pháp xảy ra thì vẫn lưu lại hồ sơ đầy đủ, chủ động chặn và công khai
  • Cần lưu ý cả việc các instance khác chặn sai, hiểu nhầm làm méo mó thông tin, cũng như cấu trúc khiến dữ liệu bị chuyển sang các cơ quan tình báo bên ngoài (ví dụ: FBI)

Ứng phó kỹ thuật và crash course về phân tích log

Chẩn đoán dấu hiệu bất thường trong vận hành máy chủ

  • Do giới hạn của phần mềm máy chủ, lưu lượng bất thường, cùng crawler/bot/scanner, máy chủ công khai luôn phải đối mặt với những điều “kỳ quặc”
  • Để ứng phó hiệu quả cần nắm được các công cụ phân tích văn bản và mạng như awk, tail -f, whois, tcpdump, traceroute, Shodan
  • Giới thiệu cách tùy biến định dạng log web server (TSV v.v.), ghi lại thời gian phản hồi theo tài nguyên, và nắm bắt luồng dữ liệu thời gian thực thông qua phát hiện giá trị bất thường
  • Có thể dùng phân tích thống kê đơn giản (trung bình, độ lệch chuẩn, cảnh báo ngoại lệ) để nhận diện các tình huống bất thường như DDoS hay crawling

“Mô sẹo” tích lũy từ kinh nghiệm và phương án ứng phó

  • Ban đầu, FSE gặp các vấn đề phổ biến như spammer thông thường và đăng ký tự động
  • Nhằm ngăn đăng ký hàng loạt, họ tự tạo và vận hành các công cụ gọn nhẹ như email liên kết với log, cảnh báo bằng giọng nói, rate limit của nginx
  • Thay vì áp dụng CAPTCHA hay xác thực email, họ chọn chính sách tối thiểu hóa dữ liệu cá nhân và cơ chế reset mật khẩu thủ công
  • Hầu hết giải pháp đều do họ tự triển khai để bảo đảm tính linh hoạt, tốc độ và khả năng phản ứng nhanh

BoardReader và FSE, cùng việc phát hiện crawler

Diễn biến crawling của BoardReader và phân tích

  • Một công ty tên BoardReader mà trước đó họ chưa biết đến đã coi dữ liệu FSE là bài đăng diễn đàn và tiến hành crawling quy mô lớn
  • Crawler đã thử nhiều cách né tránh như nhiều IP, proxy dân cư, Tor, nhiều UA khác nhau, thậm chí phát lại phiên Chrome
  • Khi trả về lỗi 429 (throttling), 401/403 (không có quyền/bị cấm), chúng lại càng lặp lại nhiều yêu cầu hơn
  • Cuối cùng họ tiếp tục chặn bằng nhiều loại phản hồi như 402 (Payment Required), đồng thời thử đối thoại, nhưng phía kia vẫn tiếp tục thu thập dữ liệu qua đường vòng
  • Trong quá trình nhận diện mẫu né tránh của crawler và truy vết, họ phát hiện mối liên hệ với SocialGist và dấu hiệu FBI có liên quan

Trao đổi thực tế với BoardReader và SocialGist

  • Trước hoạt động crawling lặp đi lặp lại, họ gửi yêu cầu chính thức tới BoardReader và SocialGist, cố gắng yêu cầu dừng crawling và nhận phản hồi qua info@boardreader.com
  • Phía SocialGist chỉ đưa ra câu trả lời mang tính hình thức nhưng trên thực tế vẫn tiếp tục né tránh, cho thấy họ không giữ lời hứa
  • Ngoài ra còn tiếp tục truy vết IP của nhà phát triển (ISP Serbia, devtools.boardreader.com) và nội bộ bên kia cũng được hướng dẫn về kiến trúc fediverse

Sự can thiệp trực tiếp của FBI

Quá trình FBI liên hệ và những gì được xác định

  • Trong lúc trao đổi với Dave(SocialGist), họ nhận được email chính thức từ địa chỉ fbi.gov với tiêu đề “Emergency Disclosure Request”
  • Một đặc vụ FBI hỏi xin thông tin cá nhân của người dùng tên “WitchKingOfAngmar” và đính kèm ảnh chụp màn hình bài đăng
  • Dù bài đăng đó không thuộc FSE mà là của sneed.social, crawler lại gán nó cho FSE trong cơ sở dữ liệu, gây ra sự hiểu nhầm
  • Ảnh chụp màn hình phía FBI có chứa danh sách dạng diễn đàn, phân tích cảm xúc và phần làm nổi bật các từ khóa liên quan như ‘kill blackrock’, ‘larry fink’
  • Điều này cho thấy các lỗi trong kiến trúc dữ liệu của Relay của SocialGist và BoardReader, sự hiểu sai có tính cấu trúc của FBI, đồng thời bộc lộ đặc tính phân tán của fediverse và sự nhầm lẫn ở cấp hệ thống

Ứng phó tiếp theo với FBI

  • Quản trị viên FSE giải thích với FBI rằng bài đăng gốc không thuộc FSE, đồng thời đề nghị xác minh instance của người đăng gốc
  • Sau đó việc liên hệ từ phía đặc vụ FBI dừng lại, quá trình ứng phó trực tiếp kết thúc; bài đăng bị chuyển sang không công khai và quyền truy cập dịch vụ máy chủ bị hạn chế tạm thời sau ứng phó khẩn cấp
  • Trong cùng thời điểm, BoardReader vẫn tiếp tục thử crawling vòng tránh nhưng vẫn bị chặn, còn FBI kết thúc mà không có thêm phản hồi nào

Kết luận và hàm ý

  • Trường hợp này cho thấy rất cụ thể thực trạng liên kết dữ liệu giữa các công ty scraping, data broker và cơ quan nhà nước
  • Nó nhấn mạnh rằng các nhà vận hành máy chủ mạng xã hội phân tán (fediverse) cần thành thạo phân tích log, phát hiện mẫu bất thường, ứng phó pháp lý và xây dựng công cụ chặn tự động
  • Ở bình diện xã hội rộng hơn, vụ việc gợi ra nguy cơ rằng các hệ thống web mở mang tính dân chủ có thể dễ dàng bị hấp thụ và bóp méo bởi cơ chế giám sát của tổ chức tư nhân hoặc nhà nước
  • Cuối cùng, bài viết nhấn mạnh rằng thiết kế mạng mở và việc cộng đồng vận hành chia sẻ thông tin là cốt lõi để phòng thủ bảo mật dữ liệu hiệu quả

1 bình luận

 
GN⁺ 2025-06-10
Ý kiến Hacker News
  • Có ý kiến cho rằng Fediblock bị chỉ trích vì không kiểm chứng sự thật nên gây hiểu lầm, nhưng nơi được liên kết trong bài blog thực ra chỉ đơn thuần là danh sách các instance đã defederate với nhau, nhấn mạnh rằng Fediblock đã ngừng hoạt động từ vài năm trước và đó không phải tiêu chuẩn chính thức mà chỉ là thông tin tham khảo, đồng thời chia sẻ linh cảm rằng tác giả bài blog ban đầu định tìm nội dung Fediblock nhưng đã vô tình dùng liên kết thay thế đó

    • Tôi là quản trị viên của một máy chủ Mastodon cỡ vừa, từng chặn một instance sau khi một người dùng ở đó buông lời lăng mạ phân biệt chủng tộc với tôi và dù đã báo quản trị viên nhưng không có hành động nào được thực hiện, nhấn mạnh rằng đây hoàn toàn không phải quyết định liên quan đến fediblock hay cơ chế cộng đồng nào, và không có lý do gì phải tiếp tục giao tiếp với một instance mà người từ đó sang quấy rối người dùng trên máy chủ của mình; tôi còn thấy khá buồn cười khi FSE kể như thể họ bị ai đó chặn vì âm mưu nào đó
    • Chỉ ra rằng dịch vụ Fediblock thực sự đã đóng vào tháng 9 năm 2023, và phần lớn các sự việc được nhắc trong bài đã xảy ra trước thời điểm đóng đó
  • Phân tích vì sao bài này thú vị: ban đầu nó xuất phát từ trăn trở rằng việc áp CAPTCHA có thể gây hại cho người dùng thật, rồi cuối cùng lại phơi bày rất trần trụi một quá trình dài dòng trong đó sau khi chuyển đăng ký và timeline sang chế độ công khai thì hàng loạt vấn đề xuất hiện khiến trải nghiệm người dùng còn tệ hơn; chia sẻ trải nghiệm nội tâm rằng sau khi đọc xong thì đi đến kết luận mình tuyệt đối không muốn thử tự vận hành một không gian cộng đồng

  • Tóm tắt sức hấp dẫn của bài viết này bằng năm điểm: 1) nội dung kiểu khoa học công dân nhằm lần theo cơ chế FBI thu thập thông tin/giám sát, 2) các vụ việc lặt vặt trong Fediverse, 3) mẹo vận hành hệ thống thực dụng từ góc nhìn quản trị viên máy chủ nhỏ, 4) tiểu cốt truyện thú vị xoay quanh nhân vật torswats ở trung tâm nhiều sự việc cho đến lúc bị bắt, 5) phong cách viết thông minh và mượt mà, xứng đáng 5 sao và rất đáng đọc

    • Tôi cũng thấy đây là một bài viết tuyệt vời với lượng chi tiết kỹ thuật vừa phải, đủ tầm để trình bày ở một hội nghị hacker như Chaos Communication Congress
    • Chỉ ra rằng tác giả đã rút ra kết luận sai: FBI gửi ảnh chụp màn hình của một người dùng có lời đe dọa bạo lực để yêu cầu cung cấp thông tin, nhưng tác giả lại gạt đi như chỉ là làm màu; xét tới những vụ bạo lực thực tế gần đây như vụ giết CEO thì đây là cách đánh giá thấp mức độ nguy hiểm, và dù việc quản trị viên FSE chủ động trao đổi với điều tra viên liên bang là điều đáng mừng, việc nhìn ảnh chụp đe dọa rồi kết luận ngay là vô hại là một thiên kiến nguy hiểm
  • Thành thật nói rằng bản thân rất ấn tượng với nội dung bài viết, và góp ý chi tiết của tôi là nút 'Negative' của công cụ tìm kiếm có lẽ không phải kết quả phân tích cảm xúc mà là cách biểu thị kết quả tìm kiếm không phù hợp (negative exploratory failure); chia sẻ góc nhìn rằng phân tích cảm xúc chẳng có nhiều lý do để được dùng trong kịch bản này

    • Cũng có ý kiến không đồng tình, cho rằng thiết kế biểu tượng 'Negative' trông như một khuôn đầu màu đỏ nên nếu hiểu là nhãn không phù hợp thì hơi kỳ về mặt ngôn ngữ, và diễn giải theo nghĩa phân tích cảm xúc có vẻ hợp lý hơn
  • Nói rằng chính fediblock đã khiến người ta hiểu lầm FSE có quy định cho phép sai sự thật, đồng thời bày tỏ khó chịu khi trích dẫn một trang có mã nguồn nằm trên kiwifarms; bổ sung rằng lý do FSE bị chặn chủ yếu là vì đa số người dùng không muốn giao tiếp với nhóm 'free speech'

    • Có phản hồi rằng dường như việc có bị chặn hay không chẳng liên quan gì đến fact-checking, và sự phản cảm hay chặn nhau không nhất thiết là vấn đề gắn với kiểm chứng sự thật
  • Đề xuất liệu có phương án kỹ thuật hiệu quả hơn để chống scraping hay không, chẳng hạn chặn lưu lượng ở cấp IP hoặc domain, hoặc dùng dịch vụ bên ngoài như Cloudflare để bảo vệ API endpoint; tuy vậy cũng nhắc rằng các dịch vụ như vậy có vấn đề chi phí và có thể không phù hợp với một site có tính chất như Free Speech Extremist, đồng thời nêu ý kiến rằng xét về chi phí thì chặn traffic độc hại đôi khi lại còn tiết kiệm hơn

    • Trên thực tế tôi cũng từng ra lệnh chặn các IP scraping trên máy chủ, nhưng nhanh chóng thấy mô hình thử lại từ các IP dân dụng mới ở Mỹ (proxy), chia sẻ kinh nghiệm thực chiến này
  • Chỉ ra rằng trên FSE đã lộ ra vấn đề ấu dâm, và nói thêm rằng đây là vấn đề của toàn bộ Fediverse, Discord và nhiều nơi khác cũng vậy

    • Đồng tình rằng ở bất kỳ không gian trực tuyến nào cho phép tải ảnh lên mà không cần dùng tên thật thì đều có thể xảy ra vấn đề tương tự
    • Chỉ ra rằng các nền tảng nhắn tin ẩn danh như Signal hay Telegram cũng có cùng nguy cơ
  • Đặt câu hỏi vì sao FSE (Free Speech Extremist) phải bị gắn nhãn 'extremist', trong khi ở một đất nước coi trọng quyền tự do ngôn luận được Hiến pháp Mỹ bảo đảm thì có nhất thiết phải bị xem là cực đoan hay không

    • Chỉ ra rằng với kiểu hài hước đặc trưng của tác giả, cách gọi này bản thân nó gần như là một trò đùa; trên thực tế, trong hệ thống pháp luật Mỹ vẫn luôn có tranh cãi về phạm vi và giới hạn của tự do ngôn luận, và phân tích rằng chính sách của instance FSE vận hành theo tinh thần 'những gì hợp pháp thì về nguyên tắc vẫn được phép, dù có ghê tởm hay gây khó chịu'; bản thân tôi cũng đồng cảm với nguyên tắc đó nhưng thành thật mà nói không có can đảm để áp dụng đầy đủ trong đời thực, đồng thời giải thích bối cảnh rằng phần lớn các instance khác trong liên bang lại vận hành bằng quy định nghiêm ngặt và danh sách chặn, kèm liên kết liên quan
    • Chỉ ra rằng chính việc nêu ra chủ đề này càng quan trọng hơn trong một câu chuyện cho thấy FBI đang né tránh hoặc trực tiếp vi phạm nghĩa vụ theo Hiến pháp
    • Nói rằng 'Extremist' là một cách gọi miệt thị của 'radical', và trong thực tế thì bất kỳ ai giữ một lập trường từng gây tranh cãi về mặt lịch sử hay văn hóa cũng sẽ bị dán nhãn như vậy
    • Giải thích rằng các quyền trong Hiến pháp Mỹ không phải là tuyệt đối và tòa án cũng đã nêu rõ những giới hạn nhất định, nên khi ai đó đòi hỏi vượt ra ngoài các giới hạn thực tế thì người phản đối rất dễ gán cho họ nhãn 'cực đoan'
    • Nói rằng người cực đoan luôn có xu hướng đặt một giá trị lên trên mọi giá trị khác; ví dụ nếu coi việc hít thở quan trọng tuyệt đối hơn ăn uống hay uống nước thì trong ngắn hạn có thể đúng nhưng về trung và dài hạn sẽ phát sinh vấn đề, dùng phép so sánh mang tính gợi mở này để truyền đạt nhu cầu phải cân bằng nhiều giá trị khác nhau
  • Tóm gọn bằng một câu rằng việc vận hành không gian trực tuyến thực tế là một công việc cực kỳ vất vả