"Web đã hỏng rồi" - Nếu thiết bị của tôi trở thành botnet tấn công người khác? AI crawling và hệ sinh thái proxy ẩn
(jan.wildeboer.net)- Một số công ty AI chèn 'SDK proxy P2P bị botnet hóa' vào ứng dụng để thu thập dữ liệu, khiến người dùng bị đưa vào hạ tầng web crawling của họ mà không hề hay biết
- SDK này tự ý 'bán' một phần băng thông mạng của người dùng (120~150kbps) để tạo doanh thu cho nhà phát triển (18 xu mỗi người), đồng thời thực hiện các hành vi bất thường như crawling và brute-force máy chủ mail
- Botnet này tận dụng hàng chục nghìn IP dân dụng/di động để né phát hiện, chỉ thử tấn công 1 lần mỗi ngày trên mỗi IP nhằm vượt qua các hệ thống bảo mật như fail2ban
- Trường hợp tiêu biểu là Infatica SDK; các nhà phát triển ứng dụng tích hợp nó về thực chất đang lây nhiễm botnet cho người dùng
- Thị trường 'proxy dân dụng (residential proxy)' đang tăng trưởng nhanh nhờ nhu cầu crawling của AI, và trên thực tế đây là hạ tầng crawling không được cho phép
- Cấu trúc botnet như vậy là một dạng tấn công mạng lén stealth kiểu mới, và các nhà phát triển ứng dụng đang tiếp tay cho hệ sinh thái này
- Tác giả xem chính hoạt động web crawling là 'hành vi tấn công nền tảng của web', kêu gọi trách nhiệm từ nhà phát triển và các công ty nền tảng, đồng thời cho rằng cần chặn mọi hình thức crawling
Botnet lén stealth, bản chất thật sự: Botnet Part 1
Botnet tấn công máy chủ mail cá nhân
- Máy chủ mail của tác giả liên tục bị tấn công brute-force SMTP
- Mục tiêu tấn công: chiếm đoạt tài khoản để gửi thư rác
- Phần lớn đều thất bại, nhưng các nỗ lực vẫn diễn ra liên tục và dai dẳng
Danh tính của botnet: lây nhiễm thiết bị qua SDK
- Trả tiền cho nhà phát triển ứng dụng để đổi lấy việc chèn SDK
- Ví dụ: 18 xu mỗi người dùng mỗi tháng
- SDK này cho thuê một phần lưu lượng của người dùng (120~150kbps)
- Được đóng gói thành "P2P proxy" hoặc "residential proxy", nhưng thực chất là biến thiết bị của người dùng thành node trong botnet
Phương thức tấn công: tấn công phân tán né phát hiện
- Chỉ thử đăng nhập một lần mỗi ngày trên mỗi IP → né được cơ chế phát hiện tự động như fail2ban, UFW
- Nhưng do sở hữu hàng chục nghìn IP, cuộc tấn công vẫn được duy trì liên tục theo kiểu phân tán
- Tác giả chỉ ra rằng cách làm này làm vô hiệu các công cụ bảo mật tiêu chuẩn
Sự kém hiệu quả của việc chặn theo ASN
- Tác giả phân tích xem IP có tập trung vào một nhà mạng cụ thể (ASN) hay không
- Kết quả: trung bình dưới 4 IP tấn công trên mỗi ASN → chặn cả ASN không hiệu quả
- Hiện tại vẫn duy trì cách làm phân tích log hằng ngày → gửi email lệnh chặn IP mới → chặn thủ công
Cách ứng phó và quan điểm
- Có thể tự động hóa, nhưng tác giả chọn trực tiếp quan sát và xử lý để nắm mẫu hành vi và duy trì ý thức giám sát
- Số IP tấn công: hiện đang chặn hơn khoảng 50.000 IP
- Phần lớn là IPv4, còn tấn công qua IPv6 hiện vẫn hiếm
Thực tế của hệ sinh thái botnet
- Một cấu trúc phân phối trông có vẻ hợp pháp kiểu "tích hợp SDK → chia sẻ doanh thu"
- Nhưng trên thực tế, lưu lượng của người dùng bị sử dụng không có sự đồng ý cho spam, tấn công, crawling...
- Những botnet này không bị phát hiện bởi phần mềm diệt virus hay hệ thống bảo mật thông thường
Kết luận
- Nếu nhà phát triển ứng dụng tích hợp các SDK kiểu này, thì về thực chất là tham gia tạo botnet
- Người dùng phổ thông không thể biết ứng dụng có chứa SDK đó hay không, và tự động bị lôi kéo tham gia botnet
- Từ nhận thức đó, tác giả cảnh báo về sự sụp đổ của hệ sinh thái web
"Tôi hoàn toàn không tin các công ty nói rằng đây là một 'SDK bình thường'. Đây là botnet."
— Jan Wildeboer, tháng 2 năm 2025
# Web đã hỏng rồi: Botnet Part 2
Sự bùng nổ của web crawler và bối cảnh phía sau
- Gần đây nhu cầu thu thập dữ liệu quy mô lớn để huấn luyện mô hình AI tăng mạnh
- Các công ty AI âm thầm cào sạch mọi nội dung trên web, gây quá tải lưu lượng
- Các webmaster và quản trị viên máy chủ thông thường đang phải vật lộn với crawler, nhưng nhiều khi không biết ai đang vận hành chúng
Một dạng botnet mới: lây nhiễm người dùng qua SDK
- Một số công ty trả tiền cho nhà phát triển ứng dụng để đổi lấy việc chèn SDK
- Người dùng cài các ứng dụng có tích hợp SDK đó sẽ không hề biết rằng lưu lượng của họ đang bị dùng cho crawler AI
- Các SDK như vậy có thể được nhúng vào ứng dụng iOS, Android, MacOS, Windows
Trường hợp tiêu biểu: Infatica
- Trang web: https://infatica.io
- Trên trang giới thiệu cho nhà phát triển, họ quảng bá rằng có thể crawl thông qua mạng của người dùng
- Tuyên bố cung cấp hàng triệu IP xoay vòng (residential/mobile)
Vì sao đây là vấn đề?
- Các công ty như Infatica nói rằng họ giám sát việc khách hàng của mình (như các công ty AI dùng để crawling) thực thi những lệnh gì, nhưng trên thực tế đây là một cấu trúc né tránh trách nhiệm
- Báo cáo năm 2023 của Trend Micro cũng xác nhận các trường hợp tương tự
- Một số nơi còn bí mật cấy SDK vào phần mềm miễn phí để phát tán, cài đặt mà không có sự đồng ý của người dùng
Thiệt hại: cả người dùng cá nhân lẫn máy chủ nhỏ đều bị ảnh hưởng
- Nhà phát triển ứng dụng: bị cám dỗ bởi tiền bạc để chèn SDK → về thực chất là phát tán mã độc
- Người dùng: thiết bị và mạng của tôi bị dùng cho web crawling và DDoS
- Người vận hành máy chủ: trở thành mục tiêu nhận lượng yêu cầu quá mức mà không hề hay biết
- Ví dụ: instance
Forgejocủa tác giả cũng đã phải chuyển sang chế độ riêng tư vì lưu lượng bot quá nhiều
- Ví dụ: instance
Vỏ bọc mang tên 'proxy dân dụng'
- Proxy tận dụng thiết bị người dùng làm điểm trung chuyển được gọi là "residential IP"
- Ví dụ trang review dịch vụ proxy:
https://proxyway.com/reviews - Bề ngoài trông như một hạ tầng hợp pháp, nhưng thực chất là cấu trúc phát tán trái phép và proxy hóa người dùng
Kết luận: web crawling giờ đã ở mức lạm dụng
- Tác giả cho rằng mọi hình thức web crawling đều nên bị xem là hành vi ác ý
- Theo ông, các web crawler đang tấn công nền móng của web
- AI là động lực cốt lõi của cấu trúc này, và ông phản đối mạnh mẽ luận điệu cho rằng nó là 'hợp pháp'
Đề xuất và vấn đề cần nhìn nhận
- Các nhà phát triển ứng dụng tích hợp SDK phải chịu trách nhiệm
- Các đơn vị vận hành nền tảng như Apple, Google, Microsoft cần trừng phạt thị trường này
- Người dùng phổ thông gần như không thể nhận diện hay chặn được điều này
- Các nhà vận hành web có cố gắng ngăn crawler bằng biện pháp kỹ thuật, nhưng vẫn có giới hạn
“Nhờ AI mà web đang dần trở thành một không gian không còn đáng tin nữa. Cảm ơn nhé, AI.”
– Jan Wildeboer, tháng 4 năm 2025
1 bình luận
Ý kiến trên Hacker News
Việc nhà phát triển ứng dụng tích hợp SDK bên thứ ba để kiếm doanh thu là một phần của vấn đề, và họ nên chịu trách nhiệm vì đã phát tán phần mềm độc hại cho người dùng
Có một thị trường nơi nhà phát triển ứng dụng trên iOS, Android, MacOS, Windows được trả tiền để nhúng thư viện bán băng thông mạng của người dùng
Vấn đề của web là để dữ liệu tiếp tục có thể đọc được thì phải có một quản trị viên hệ thống nào đó duy trì máy chủ
Phần mềm chia sẻ mạng nên bị xếp vào loại ứng dụng không mong muốn
Ứng dụng chứa phần mềm độc hại cần bị cách ly ngay lập tức
Web scraping nên bị xem là hành vi lạm dụng và máy chủ web cần chặn việc này
Tò mò không biết đã có ai tổng hợp danh sách phần mềm dùng các thư viện như vậy chưa
Proxy IP dân cư có điểm yếu là địa chỉ IP thay đổi rất thường xuyên
Tính đến hiện tại chưa có bằng chứng rõ ràng, nhưng loại hành vi này có thể bị phát hiện khá dễ
Tò mò không biết có danh sách máy chủ c&c nào có thể thêm vào Pihole hay các công cụ tương tự không