LWN đang hứng chịu cuộc tấn công scraper nghiêm trọng nhất từ trước đến nay
(social.kernel.org)- LWN.net đang hứng chịu một cuộc tấn công DDoS quy mô lớn dựa trên scraping xuất phát từ hàng chục nghìn địa chỉ, khiến tốc độ phản hồi của trang bị chậm lại
- Jonathan Corbet cho biết họ đang ở trong tình huống phải bảo vệ trang trước các scraper liên quan đến AI, và dù không muốn dựng rào cản đối với độc giả, điều đó có thể sẽ trở nên cần thiết
- Trong cộng đồng, có ý kiến cho rằng các công ty thu thập dữ liệu thương mại như Bright Data có thể đứng sau cuộc tấn công, và nhiều người dùng cũng báo cáo mức tăng đột biến lưu lượng tương tự
- Một số người đang ứng phó bằng đăng ký RSS, tạo site tĩnh, LLM tarpit; cũng có chia sẻ rằng cuộc tấn công đến từ IP của các đám mây lớn như Azure, Google và AliCloud
- Vụ việc này được chú ý như một ví dụ cho thấy việc thu thập dữ liệu phục vụ AI đang gây tổn hại đến sự ổn định của hệ sinh thái web và tính bền vững của những người sáng tạo
Cuộc tấn công scraper quy mô lớn nhằm vào LWN.net
-
Jonathan Corbet cho biết LWN.net đang hứng chịu cuộc tấn công scraper nghiêm trọng nhất mà họ từng gặp
- Cuộc tấn công mang dạng DDoS, huy động hàng chục nghìn địa chỉ IP, khiến khả năng phản hồi của trang suy giảm
- Ông nói rằng “việc phải bảo vệ LWN trước các scraper liên quan đến AI là điều tôi không muốn làm”, đồng thời cho biết ông không muốn dựng rào cản truy cập với độc giả nhưng có thể sẽ phải làm vậy
-
Corbet cho biết ông không thể xác định chính xác chủ thể tấn công, nhưng có nhắc đến khả năng Bright Data hoặc các đối thủ tương tự có liên quan
- Có những lúc tải CPU tăng rất nghiêm trọng; dù có thể mở rộng máy chủ, ông nói rằng “thật bực bội khi phải trả tiền chỉ để nuôi những kẻ đó bằng các bài viết đã được đầu tư công sức”
Phản ứng và đề xuất từ cộng đồng
- Tristan Colgate-McFarlane chỉ ra rằng các công cụ tìm kiếm ưu tiên hiển thị nội dung bị chiếm dụng, qua đó lấy đi lưu lượng và doanh thu quảng cáo của tác giả gốc
- Nhiều người dùng báo cáo đã trải qua làn sóng tăng mạnh lưu lượng từ AI scraper
- Light Owl cho biết lưu lượng trang của anh đã tăng gấp 20 lần so với bình thường
- Ben Tasker cho biết anh đang chặn một phần yêu cầu bằng bẫy robot LLM tarpit
- Một số người báo cáo rằng cuộc tấn công đến từ IP của các đám mây lớn như Azure, Google, AliCloud
- Dec, mx alex tax1a và David Gerard mỗi người đều chia sẻ trường hợp chặn dải IP của MSFT, Google, Ali
Thảo luận về phương án đối phó
- Riku Voipio đề xuất dùng máy chủ chỉ dành cho người đăng ký (subscriber.lwn.net), nhưng Corbet trả lời rằng điều đó có thể khiến việc thu hút người đăng ký mới trở nên khó hơn
- Jani Nikula đề xuất chỉ cho người dùng đã đăng ký truy cập, nhưng Corbet nói rằng điều này khó hiệu quả vì bot đã có thể tạo tài khoản
- trademark đề xuất tăng hiệu quả cache bằng sharding nội dung, nhưng Corbet trả lời rằng vấn đề không nằm ở cache
Chia sẻ kinh nghiệm từ các quản trị viên trang khác
- Nhiều quản trị viên báo cáo mẫu tấn công tương tự
- Dec cho biết các đợt quét lỗ hổng PHP và thử đăng nhập
wp-adminđến từ IP của MSFT - David Gerard cho biết RationalWiki đang ứng phó bằng xác minh cookie dựa trên JavaScript, nhưng tác dụng phụ là cả Googlebot cũng bị chặn
- Catherine (whitequark) cho biết chỉ riêng việc xử lý phản hồi 404 cũng đã giúp giảm tải máy chủ
- Dec cho biết các đợt quét lỗ hổng PHP và thử đăng nhập
Nhận thức trong cộng đồng
- Một số người nói rằng “web đang thực sự bị phá hỏng”, đồng thời chỉ trích AI scraping đang đẩy nhanh sự sụp đổ của hệ sinh thái web
- Ayush Agarwal chỉ ra rằng ngay trong cộng đồng kernel cũng cần nhận thức được thực tế rằng việc sử dụng LLM đang gây hại cho các site nhỏ
- Martin Roukala tự giễu rằng đây là “vấn đề phát sinh vì quá liên quan”, nhưng Jani Nikula đáp lại rằng “scraper không hề quan tâm đến điều đó”
1 bình luận
Ý kiến trên Hacker News
Tò mò không biết ai đang vận hành những scraper hung hăng kiểu này
Nếu là các phòng nghiên cứu AI thì việc cào đồng thời rất nhiều trang để thu thập dữ liệu có thể là hiệu quả, nhưng không hiểu vì sao họ lại chấp nhận rủi ro về danh tiếng để làm quá tải các trang phổ biến
Có lẽ họ đã vội vàng thử sơ một scraper do AI tạo ra rồi triển khai ngay
Hơn nữa, họ che giấu danh tính qua các ‘residential IP provider’ nên cũng không có rủi ro về danh tiếng
Kể cả đó là các công ty lớn như OpenAI hay Anthropic thì có lẽ mọi người cũng sẽ bỏ qua thôi
Với các công cụ như Claude Cowork, người dùng có thể tự tạo crawler, nên tôi cũng từng bị chặn tạm thời sau khi cào trang NASA và bắn phá các trang 404
Cuối cùng, ngay cả những người dùng có ‘ý tốt’ cũng đang làm thay đổi mô hình lưu lượng web
Có thể xem thống kê liên quan tại Cloudflare AI Insights
Ngoài GPTBot của OpenAI ra thì phần lớn đều là các công ty nhỏ chưa từng nghe tên, một số còn giấu cả User-Agent
Dữ liệu đã có trong Common Crawl rồi mà vẫn cứ cào, thật sự không hiểu nổi
Việc AI bán lại mã nguồn mở như thể chính họ viết ra để lách giấy phép là một vấn đề lớn
Không chỉ mã nguồn mà các loại nội dung khác cũng đang bị cào như vậy
Chỉ đổi nhẹ tên biến, còn cấu trúc thì y hệt
Nếu ai làm thế trong công ty thì bị sa thải ngay
Thế mà khi AI làm thì lại viện cớ “fair use” để đòi tính chính đáng về mặt đạo đức, thật kỳ quặc
Kiểu scraping này có thể không đơn thuần là thu thập dữ liệu cho AI
Các trang FOSS đang liên tục bị tấn công, nhưng không hợp lý về mặt kinh tế
Có khi đây là hành động nhằm gây nhiễu ngành công nghệ hoặc cộng đồng mã nguồn mở
Dù là dự án phi lợi nhuận nhưng lưu lượng vẫn dồn tới mức gần như DDOS, cuối cùng buộc phải dựng tường đăng nhập
Phần lớn dùng IP dân dụng, và có vẻ gốc rễ vấn đề là những người nghĩ rằng “mọi thứ trên internet đều là của tôi”
Blog của tôi chán quá nên không gặp vấn đề bị scraping
Đúng như câu “một cuộc tấn công DDOS có liên quan đến hàng chục nghìn địa chỉ”, cuộc tấn công này phân tán ở quy mô khủng khiếp
Ngay cả các site nhỏ cũng hứng lưu lượng từ hàng nghìn IP
BrightData là ví dụ tiêu biểu; đắt hơn IP datacenter nhưng khó chặn hơn
còn cách diễn giải tệ nhất là chỉ có những lập trình viên phản xã hội làm bot vô ý thức như vậy
Residential proxy trên thực tế nên bị xem là malware
Cần thêm vào định nghĩa của phần mềm diệt virus và loại khỏi app store
Tôi cũng tự hỏi liệu đây có thật sự là scraping để huấn luyện AI hay không
Nếu không phân biệt được với DDOS thông thường thì đâu thể chắc chắn
Có vẻ hiện giờ cuộc tấn công đã dừng
Trang chính cũng đã tải bình thường
Tôi chặn scraper blog bằng cách ghi đè các phương thức JavaScript để xóa sạch nội dung trang
Nếu ẩn phần tử bằng Shadow DOM thì sẽ khiến việc này khó hơn nữa
Tuy nhiên, cách đó gây vấn đề với các công cụ kiểm thử như Playwright hay Selenium và cả việc lập chỉ mục của công cụ tìm kiếm
Có người cho rằng “các công ty AI làm DDOS để đánh sập đối thủ và độc chiếm dữ liệu”
Cào một site như vậy thì AI cũng chẳng được gì, nên nhìn chung có vẻ là hoang tưởng quá mức