"Web đã hỏng rồi" - Nếu thiết bị của tôi trở thành botnet tấn công người khác? AI crawling và hệ sinh thái proxy ẩn

(jan.wildeboer.net)

8 điểm bởi GN⁺ 2025-04-20 | 1 bình luận | Chia sẻ qua WhatsApp

Một số công ty AI chèn 'SDK proxy P2P bị botnet hóa' vào ứng dụng để thu thập dữ liệu, khiến người dùng bị đưa vào hạ tầng web crawling của họ mà không hề hay biết
SDK này tự ý 'bán' một phần băng thông mạng của người dùng (120~150kbps) để tạo doanh thu cho nhà phát triển (18 xu mỗi người), đồng thời thực hiện các hành vi bất thường như crawling và brute-force máy chủ mail
Botnet này tận dụng hàng chục nghìn IP dân dụng/di động để né phát hiện, chỉ thử tấn công 1 lần mỗi ngày trên mỗi IP nhằm vượt qua các hệ thống bảo mật như fail2ban
Trường hợp tiêu biểu là Infatica SDK; các nhà phát triển ứng dụng tích hợp nó về thực chất đang lây nhiễm botnet cho người dùng
Thị trường 'proxy dân dụng (residential proxy)' đang tăng trưởng nhanh nhờ nhu cầu crawling của AI, và trên thực tế đây là hạ tầng crawling không được cho phép
Cấu trúc botnet như vậy là một dạng tấn công mạng lén stealth kiểu mới, và các nhà phát triển ứng dụng đang tiếp tay cho hệ sinh thái này
Tác giả xem chính hoạt động web crawling là 'hành vi tấn công nền tảng của web', kêu gọi trách nhiệm từ nhà phát triển và các công ty nền tảng, đồng thời cho rằng cần chặn mọi hình thức crawling

Botnet lén stealth, bản chất thật sự: Botnet Part 1

Botnet tấn công máy chủ mail cá nhân

Máy chủ mail của tác giả liên tục bị tấn công brute-force SMTP
Mục tiêu tấn công: chiếm đoạt tài khoản để gửi thư rác
Phần lớn đều thất bại, nhưng các nỗ lực vẫn diễn ra liên tục và dai dẳng

Danh tính của botnet: lây nhiễm thiết bị qua SDK

Trả tiền cho nhà phát triển ứng dụng để đổi lấy việc chèn SDK
- Ví dụ: 18 xu mỗi người dùng mỗi tháng
SDK này cho thuê một phần lưu lượng của người dùng (120~150kbps)
Được đóng gói thành "P2P proxy" hoặc "residential proxy", nhưng thực chất là biến thiết bị của người dùng thành node trong botnet

Phương thức tấn công: tấn công phân tán né phát hiện

Chỉ thử đăng nhập một lần mỗi ngày trên mỗi IP → né được cơ chế phát hiện tự động như fail2ban, UFW
Nhưng do sở hữu hàng chục nghìn IP, cuộc tấn công vẫn được duy trì liên tục theo kiểu phân tán
Tác giả chỉ ra rằng cách làm này làm vô hiệu các công cụ bảo mật tiêu chuẩn

Sự kém hiệu quả của việc chặn theo ASN

Tác giả phân tích xem IP có tập trung vào một nhà mạng cụ thể (ASN) hay không
- Kết quả: trung bình dưới 4 IP tấn công trên mỗi ASN → chặn cả ASN không hiệu quả
Quảng cáo
Hiện tại vẫn duy trì cách làm phân tích log hằng ngày → gửi email lệnh chặn IP mới → chặn thủ công

Cách ứng phó và quan điểm

Có thể tự động hóa, nhưng tác giả chọn trực tiếp quan sát và xử lý để nắm mẫu hành vi và duy trì ý thức giám sát
Số IP tấn công: hiện đang chặn hơn khoảng 50.000 IP
Phần lớn là IPv4, còn tấn công qua IPv6 hiện vẫn hiếm

Thực tế của hệ sinh thái botnet

Một cấu trúc phân phối trông có vẻ hợp pháp kiểu "tích hợp SDK → chia sẻ doanh thu"
Nhưng trên thực tế, lưu lượng của người dùng bị sử dụng không có sự đồng ý cho spam, tấn công, crawling...
Những botnet này không bị phát hiện bởi phần mềm diệt virus hay hệ thống bảo mật thông thường

Kết luận

Nếu nhà phát triển ứng dụng tích hợp các SDK kiểu này, thì về thực chất là tham gia tạo botnet
Người dùng phổ thông không thể biết ứng dụng có chứa SDK đó hay không, và tự động bị lôi kéo tham gia botnet
Từ nhận thức đó, tác giả cảnh báo về sự sụp đổ của hệ sinh thái web

"Tôi hoàn toàn không tin các công ty nói rằng đây là một 'SDK bình thường'. Đây là botnet."
— Jan Wildeboer, tháng 2 năm 2025

# Web đã hỏng rồi: Botnet Part 2

Sự bùng nổ của web crawler và bối cảnh phía sau

Gần đây nhu cầu thu thập dữ liệu quy mô lớn để huấn luyện mô hình AI tăng mạnh
Các công ty AI âm thầm cào sạch mọi nội dung trên web, gây quá tải lưu lượng
Các webmaster và quản trị viên máy chủ thông thường đang phải vật lộn với crawler, nhưng nhiều khi không biết ai đang vận hành chúng

Một dạng botnet mới: lây nhiễm người dùng qua SDK

Một số công ty trả tiền cho nhà phát triển ứng dụng để đổi lấy việc chèn SDK
Người dùng cài các ứng dụng có tích hợp SDK đó sẽ không hề biết rằng lưu lượng của họ đang bị dùng cho crawler AI
Các SDK như vậy có thể được nhúng vào ứng dụng iOS, Android, MacOS, Windows

Trường hợp tiêu biểu: Infatica

Trang web: https://infatica.io
Trên trang giới thiệu cho nhà phát triển, họ quảng bá rằng có thể crawl thông qua mạng của người dùng
Tuyên bố cung cấp hàng triệu IP xoay vòng (residential/mobile)

Vì sao đây là vấn đề?

Các công ty như Infatica nói rằng họ giám sát việc khách hàng của mình (như các công ty AI dùng để crawling) thực thi những lệnh gì, nhưng trên thực tế đây là một cấu trúc né tránh trách nhiệm
Báo cáo năm 2023 của Trend Micro cũng xác nhận các trường hợp tương tự
Một số nơi còn bí mật cấy SDK vào phần mềm miễn phí để phát tán, cài đặt mà không có sự đồng ý của người dùng

Thiệt hại: cả người dùng cá nhân lẫn máy chủ nhỏ đều bị ảnh hưởng

Nhà phát triển ứng dụng: bị cám dỗ bởi tiền bạc để chèn SDK → về thực chất là phát tán mã độc
Người dùng: thiết bị và mạng của tôi bị dùng cho web crawling và DDoS
Người vận hành máy chủ: trở thành mục tiêu nhận lượng yêu cầu quá mức mà không hề hay biết
- Ví dụ: instance Forgejo của tác giả cũng đã phải chuyển sang chế độ riêng tư vì lưu lượng bot quá nhiều
Quảng cáo

Vỏ bọc mang tên 'proxy dân dụng'

Proxy tận dụng thiết bị người dùng làm điểm trung chuyển được gọi là "residential IP"
Ví dụ trang review dịch vụ proxy:
https://proxyway.com/reviews
Bề ngoài trông như một hạ tầng hợp pháp, nhưng thực chất là cấu trúc phát tán trái phép và proxy hóa người dùng

Kết luận: web crawling giờ đã ở mức lạm dụng

Tác giả cho rằng mọi hình thức web crawling đều nên bị xem là hành vi ác ý
Theo ông, các web crawler đang tấn công nền móng của web
AI là động lực cốt lõi của cấu trúc này, và ông phản đối mạnh mẽ luận điệu cho rằng nó là 'hợp pháp'

Đề xuất và vấn đề cần nhìn nhận

Các nhà phát triển ứng dụng tích hợp SDK phải chịu trách nhiệm
Các đơn vị vận hành nền tảng như Apple, Google, Microsoft cần trừng phạt thị trường này
Người dùng phổ thông gần như không thể nhận diện hay chặn được điều này
Các nhà vận hành web có cố gắng ngăn crawler bằng biện pháp kỹ thuật, nhưng vẫn có giới hạn

“Nhờ AI mà web đang dần trở thành một không gian không còn đáng tin nữa. Cảm ơn nhé, AI.”
– Jan Wildeboer, tháng 4 năm 2025

1 bình luận

GN⁺ 2025-04-20

Ý kiến trên Hacker News

Việc nhà phát triển ứng dụng tích hợp SDK bên thứ ba để kiếm doanh thu là một phần của vấn đề, và họ nên chịu trách nhiệm vì đã phát tán phần mềm độc hại cho người dùng
- Nghi ngờ rằng nhiều SDK gặp vấn đề như vậy
- Cá nhân tôi thích tự phát triển hơn để tránh sự lệ thuộc quá mức vào dependency
- Các tác nhân xấu đang lợi dụng sự nghiện dependency của nhà phát triển hiện đại để giăng bẫy
Có một thị trường nơi nhà phát triển ứng dụng trên iOS, Android, MacOS, Windows được trả tiền để nhúng thư viện bán băng thông mạng của người dùng
- Điều này có liên quan đến lý do Cloudflare và Google yêu cầu CAPTCHA
- Không hiểu vì sao Play Protect, MS Defender và phần mềm diệt virus của Apple lại không phát hiện loại phần mềm độc hại này
- Việc thư viện SDK biến thiết bị của người dùng thành một phần của botnet là ví dụ quá rõ ràng của trojan
Vấn đề của web là để dữ liệu tiếp tục có thể đọc được thì phải có một quản trị viên hệ thống nào đó duy trì máy chủ
- Dùng mô hình địa chỉ nội dung có thể loại bỏ ràng buộc về tính duy nhất
- Các AI scraper có thể chia sẻ dữ liệu với nhau mà không gây thêm tải cho nguồn gốc
Phần mềm chia sẻ mạng nên bị xếp vào loại ứng dụng không mong muốn
- Nó được cài kèm với thứ mà người dùng thực sự muốn cài và lạm dụng tài nguyên
- Muốn dùng Wireshark để kiểm tra hoạt động đáng ngờ
- Cần có một kho công khai về các ứng dụng có hành vi như vậy
Ứng dụng chứa phần mềm độc hại cần bị cách ly ngay lập tức
- Dù không gây thiệt hại trực tiếp thì nó vẫn là phần mềm độc hại
Web scraping nên bị xem là hành vi lạm dụng và máy chủ web cần chặn việc này
- Các nền tảng như Youtube nhiều khả năng sẽ đồng ý với điều đó
Tò mò không biết đã có ai tổng hợp danh sách phần mềm dùng các thư viện như vậy chưa
- Sẽ rất hữu ích nếu biết ứng dụng nào cần tránh
Proxy IP dân cư có điểm yếu là địa chỉ IP thay đổi rất thường xuyên
- Các IP đến từ cùng một nhà cung cấp proxy có thể bị phát hiện khá dễ
- Đang phát triển một nền tảng chống gian lận mã nguồn mở, và việc phát hiện người dùng giả từ proxy dân cư là một trong các trường hợp sử dụng
Tính đến hiện tại chưa có bằng chứng rõ ràng, nhưng loại hành vi này có thể bị phát hiện khá dễ
- iOS có tính năng cho phép kiểm tra các kết nối của ứng dụng
- Android không có tính năng này, nhưng có thể dùng tường lửa bên thứ ba như pcapdroid
- Trên MacOS có Little Snitch, trên Windows có Fort Firewall
- Không nhiều người dùng các ứng dụng này, nhưng họ có khả năng sẽ báo cáo những ứng dụng biến thiết bị thành botnet
Tò mò không biết có danh sách máy chủ c&c nào có thể thêm vào Pihole hay các công cụ tương tự không

"Web đã hỏng rồi" - Nếu thiết bị của tôi trở thành botnet tấn công người khác? AI crawling và hệ sinh thái proxy ẩn

Botnet lén stealth, bản chất thật sự: Botnet Part 1

Botnet tấn công máy chủ mail cá nhân

Danh tính của botnet: lây nhiễm thiết bị qua SDK

Phương thức tấn công: tấn công phân tán né phát hiện

Sự kém hiệu quả của việc chặn theo ASN

Cách ứng phó và quan điểm

Thực tế của hệ sinh thái botnet

Kết luận

# Web đã hỏng rồi: Botnet Part 2

Sự bùng nổ của web crawler và bối cảnh phía sau

Một dạng botnet mới: lây nhiễm người dùng qua SDK

Trường hợp tiêu biểu: Infatica

Vì sao đây là vấn đề?

Thiệt hại: cả người dùng cá nhân lẫn máy chủ nhỏ đều bị ảnh hưởng

Vỏ bọc mang tên 'proxy dân dụng'

Kết luận: web crawling giờ đã ở mức lạm dụng

Đề xuất và vấn đề cần nhìn nhận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News