1 điểm bởi GN⁺ 2026-01-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • LWN.net đang hứng chịu một cuộc tấn công DDoS quy mô lớn dựa trên scraping xuất phát từ hàng chục nghìn địa chỉ, khiến tốc độ phản hồi của trang bị chậm lại
  • Jonathan Corbet cho biết họ đang ở trong tình huống phải bảo vệ trang trước các scraper liên quan đến AI, và dù không muốn dựng rào cản đối với độc giả, điều đó có thể sẽ trở nên cần thiết
  • Trong cộng đồng, có ý kiến cho rằng các công ty thu thập dữ liệu thương mại như Bright Data có thể đứng sau cuộc tấn công, và nhiều người dùng cũng báo cáo mức tăng đột biến lưu lượng tương tự
  • Một số người đang ứng phó bằng đăng ký RSS, tạo site tĩnh, LLM tarpit; cũng có chia sẻ rằng cuộc tấn công đến từ IP của các đám mây lớn như Azure, Google và AliCloud
  • Vụ việc này được chú ý như một ví dụ cho thấy việc thu thập dữ liệu phục vụ AI đang gây tổn hại đến sự ổn định của hệ sinh thái web và tính bền vững của những người sáng tạo

Cuộc tấn công scraper quy mô lớn nhằm vào LWN.net

  • Jonathan Corbet cho biết LWN.net đang hứng chịu cuộc tấn công scraper nghiêm trọng nhất mà họ từng gặp

    • Cuộc tấn công mang dạng DDoS, huy động hàng chục nghìn địa chỉ IP, khiến khả năng phản hồi của trang suy giảm
    • Ông nói rằng “việc phải bảo vệ LWN trước các scraper liên quan đến AI là điều tôi không muốn làm”, đồng thời cho biết ông không muốn dựng rào cản truy cập với độc giả nhưng có thể sẽ phải làm vậy
  • Corbet cho biết ông không thể xác định chính xác chủ thể tấn công, nhưng có nhắc đến khả năng Bright Data hoặc các đối thủ tương tự có liên quan

    • Có những lúc tải CPU tăng rất nghiêm trọng; dù có thể mở rộng máy chủ, ông nói rằng “thật bực bội khi phải trả tiền chỉ để nuôi những kẻ đó bằng các bài viết đã được đầu tư công sức”

Phản ứng và đề xuất từ cộng đồng

  • Tristan Colgate-McFarlane chỉ ra rằng các công cụ tìm kiếm ưu tiên hiển thị nội dung bị chiếm dụng, qua đó lấy đi lưu lượng và doanh thu quảng cáo của tác giả gốc
  • Nhiều người dùng báo cáo đã trải qua làn sóng tăng mạnh lưu lượng từ AI scraper
    • Light Owl cho biết lưu lượng trang của anh đã tăng gấp 20 lần so với bình thường
    • Ben Tasker cho biết anh đang chặn một phần yêu cầu bằng bẫy robot LLM tarpit
  • Một số người báo cáo rằng cuộc tấn công đến từ IP của các đám mây lớn như Azure, Google, AliCloud
    • Dec, mx alex tax1a và David Gerard mỗi người đều chia sẻ trường hợp chặn dải IP của MSFT, Google, Ali

Thảo luận về phương án đối phó

  • Riku Voipio đề xuất dùng máy chủ chỉ dành cho người đăng ký (subscriber.lwn.net), nhưng Corbet trả lời rằng điều đó có thể khiến việc thu hút người đăng ký mới trở nên khó hơn
  • Jani Nikula đề xuất chỉ cho người dùng đã đăng ký truy cập, nhưng Corbet nói rằng điều này khó hiệu quả vì bot đã có thể tạo tài khoản
  • trademark đề xuất tăng hiệu quả cache bằng sharding nội dung, nhưng Corbet trả lời rằng vấn đề không nằm ở cache

Chia sẻ kinh nghiệm từ các quản trị viên trang khác

  • Nhiều quản trị viên báo cáo mẫu tấn công tương tự
    • Dec cho biết các đợt quét lỗ hổng PHP và thử đăng nhập wp-admin đến từ IP của MSFT
    • David Gerard cho biết RationalWiki đang ứng phó bằng xác minh cookie dựa trên JavaScript, nhưng tác dụng phụ là cả Googlebot cũng bị chặn
    • Catherine (whitequark) cho biết chỉ riêng việc xử lý phản hồi 404 cũng đã giúp giảm tải máy chủ

Nhận thức trong cộng đồng

  • Một số người nói rằng “web đang thực sự bị phá hỏng”, đồng thời chỉ trích AI scraping đang đẩy nhanh sự sụp đổ của hệ sinh thái web
  • Ayush Agarwal chỉ ra rằng ngay trong cộng đồng kernel cũng cần nhận thức được thực tế rằng việc sử dụng LLM đang gây hại cho các site nhỏ
  • Martin Roukala tự giễu rằng đây là “vấn đề phát sinh vì quá liên quan”, nhưng Jani Nikula đáp lại rằng “scraper không hề quan tâm đến điều đó”

1 bình luận

 
GN⁺ 2026-01-19
Ý kiến trên Hacker News
  • Tò mò không biết ai đang vận hành những scraper hung hăng kiểu này
    Nếu là các phòng nghiên cứu AI thì việc cào đồng thời rất nhiều trang để thu thập dữ liệu có thể là hiệu quả, nhưng không hiểu vì sao họ lại chấp nhận rủi ro về danh tiếng để làm quá tải các trang phổ biến

    • Nhìn những trường hợp như vậy thì thường là do thiếu năng lực kỹ thuật hoặc sự cân nhắc
      Có lẽ họ đã vội vàng thử sơ một scraper do AI tạo ra rồi triển khai ngay
      Hơn nữa, họ che giấu danh tính qua các ‘residential IP provider’ nên cũng không có rủi ro về danh tiếng
      Kể cả đó là các công ty lớn như OpenAI hay Anthropic thì có lẽ mọi người cũng sẽ bỏ qua thôi
    • Ban đầu người ta nghi ngờ các tập đoàn lớn của Mỹ như OpenAI hay Anthropic, nhưng thực tế ngày càng có nhiều AI agent cá nhân tự cào web
      Với các công cụ như Claude Cowork, người dùng có thể tự tạo crawler, nên tôi cũng từng bị chặn tạm thời sau khi cào trang NASA và bắn phá các trang 404
      Cuối cùng, ngay cả những người dùng có ‘ý tốt’ cũng đang làm thay đổi mô hình lưu lượng web
      Có thể xem thống kê liên quan tại Cloudflare AI Insights
    • Trang cá nhân của tôi cũng thỉnh thoảng bị scraper làm tê liệt
      Ngoài GPTBot của OpenAI ra thì phần lớn đều là các công ty nhỏ chưa từng nghe tên, một số còn giấu cả User-Agent
      Dữ liệu đã có trong Common Crawl rồi mà vẫn cứ cào, thật sự không hiểu nổi
    • Chắc ai đó đã bảo Claude Code “hãy lưu trữ toàn bộ LWN”
    • LWN có chứa nhiều kho lưu trữ mailing list, nên có thể đó là lý do
  • Việc AI bán lại mã nguồn mở như thể chính họ viết ra để lách giấy phép là một vấn đề lớn
    Không chỉ mã nguồn mà các loại nội dung khác cũng đang bị cào như vậy

    • Tôi từng làm một dự án về game DOS cũ, và Claude đã gần như cào nguyên mã của tôi rồi tái tạo nó dưới giấy phép khác
      Chỉ đổi nhẹ tên biến, còn cấu trúc thì y hệt
      Nếu ai làm thế trong công ty thì bị sa thải ngay
      Thế mà khi AI làm thì lại viện cớ “fair use” để đòi tính chính đáng về mặt đạo đức, thật kỳ quặc
    • Rốt cuộc thì rửa tài sản trí tuệ đã trở thành phiên bản mới của rửa tiền
    • Tuy vậy, chưa từng có phán quyết nào nói rằng AI được phép làm như thế về mặt pháp lý, đó chỉ là điều ngành AI tự khẳng định thôi
  • Kiểu scraping này có thể không đơn thuần là thu thập dữ liệu cho AI
    Các trang FOSS đang liên tục bị tấn công, nhưng không hợp lý về mặt kinh tế
    Có khi đây là hành động nhằm gây nhiễu ngành công nghệ hoặc cộng đồng mã nguồn mở

    • Các cộng đồng mod game ít người biết đến cũng đã bị tấn công như vậy
      Dù là dự án phi lợi nhuận nhưng lưu lượng vẫn dồn tới mức gần như DDOS, cuối cùng buộc phải dựng tường đăng nhập
    • Có lẽ nhiều nhà khoa học dữ liệu dùng scraper tạo bằng AI mà chẳng quan tâm nó đập vào site với tần suất ra sao
    • Một số diễn đàn tôi từng theo dõi rồi cũng chỉ còn đọc được khi đăng nhập
    • Tôi cũng vận hành một wiki game trình duyệt quy mô nhỏ, và rất nhiều bot bao gồm Claude lẫn OpenAI đang cào cực kỳ hung hăng
      Phần lớn dùng IP dân dụng, và có vẻ gốc rễ vấn đề là những người nghĩ rằng “mọi thứ trên internet đều là của tôi”
    • May là với các cộng đồng sở thích mang tính địa phương thì có thể chặn mạnh tay hơn một chút
  • Blog của tôi chán quá nên không gặp vấn đề bị scraping

    • Nhưng nhờ blog đó mà tôi mới biết đến Git Brag. Khá thú vị
    • Nếu có thể làm cho LLM thấy buồn chán thì ngược lại cũng là một thành tựu
  • Đúng như câu “một cuộc tấn công DDOS có liên quan đến hàng chục nghìn địa chỉ”, cuộc tấn công này phân tán ở quy mô khủng khiếp
    Ngay cả các site nhỏ cũng hứng lưu lượng từ hàng nghìn IP

    • Phần lớn các cuộc tấn công như vậy diễn ra qua dịch vụ residential proxy
      BrightData là ví dụ tiêu biểu; đắt hơn IP datacenter nhưng khó chặn hơn
    • git.ardour.org cũng bị scraping git vô nghĩa từ hơn 1 triệu IP
    • Cách diễn giải dễ dãi nhất là các công ty AI không biết tới những nguồn thay thế như CommonCrawl nên tự đi cào trực tiếp,
      còn cách diễn giải tệ nhất là chỉ có những lập trình viên phản xã hội làm bot vô ý thức như vậy
    • Tôi muốn gọi kiểu tấn công này là “Distributed Intelligence Logic Denial Of Service (DILDOS)
  • Residential proxy trên thực tế nên bị xem là malware
    Cần thêm vào định nghĩa của phần mềm diệt virus và loại khỏi app store

  • Tôi cũng tự hỏi liệu đây có thật sự là scraping để huấn luyện AI hay không
    Nếu không phân biệt được với DDOS thông thường thì đâu thể chắc chắn

    • Nhưng LWN đã hoạt động gần 30 năm, và trước thời AI crawling thì chưa từng có DDOS
  • Có vẻ hiện giờ cuộc tấn công đã dừng
    Trang chính cũng đã tải bình thường

  • Tôi chặn scraper blog bằng cách ghi đè các phương thức JavaScript để xóa sạch nội dung trang
    Nếu ẩn phần tử bằng Shadow DOM thì sẽ khiến việc này khó hơn nữa
    Tuy nhiên, cách đó gây vấn đề với các công cụ kiểm thử như Playwright hay Selenium và cả việc lập chỉ mục của công cụ tìm kiếm

    • Nhưng tôi cũng không chắc cách đó có thực sự hiệu quả hay không
    • Cũng thú vị nếu làm cho hàm tạo ra dữ liệu rác để gây nhiễu bot
  • Có người cho rằng “các công ty AI làm DDOS để đánh sập đối thủ và độc chiếm dữ liệu

    • Nhưng nghe khá giống thuyết âm mưu
    • Cũng có thể đó là một kiểu chiến lược ‘rút thang sau khi leo lên’
    • Nhưng LWN vốn đã là một trang bản tin cũ nên hầu như không có dữ liệu giá trị
      Cào một site như vậy thì AI cũng chẳng được gì, nên nhìn chung có vẻ là hoang tưởng quá mức