1 điểm bởi GN⁺ 2026-01-14 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gần đây, việc các công ty AI thu thập dữ liệu trái phép đang khiến máy chủ của MetaBrainz bị quá tải
  • Họ phớt lờ các quy tắc robots.txtcrawl dữ liệu MusicBrainz theo từng trang, một cách làm cực kỳ kém hiệu quả, có thể mất tới hàng trăm năm
  • Hành vi tương tự cũng lan sang API của ListenBrainz, khiến dịch vụ phải áp dụng yêu cầu token xác thực và đóng một phần API để tự bảo vệ
  • LB Radio hiện chỉ dành cho người dùng đã đăng nhập, và khi gọi API cũng cần header Authorization
  • Những biện pháp này được giải thích là phản ứng cần thiết để duy trì khả năng truy cập cho người dùng hợp lệ

Vấn đề quá tải máy chủ do scraper AI

  • Trong vài tháng gần đây, đội ngũ MetaBrainz đang phải đối phó với hoạt động crawl trái phép nhằm thu thập dữ liệu để huấn luyện mô hình AI
    • Một số công ty AI bỏ qua phép lịch sự Internet cơ bản như robots.txt và cứ thế lấy dữ liệu
    • Họ truy cập dữ liệu MusicBrainz theo kiểu yêu cầu từng trang một, kém hiệu quả hơn tải toàn bộ dữ liệu và gây tải nặng lên máy chủ
  • Cách tiếp cận này kém hiệu quả đến mức có thể mất hàng trăm năm, và hệ quả là cản trở người dùng hợp lệ truy cập dịch vụ

Biện pháp bảo vệ API ListenBrainz

  • Các scraper AI đã cố gắng thu thập dữ liệu từ nhiều endpoint API của ListenBrainz
  • Vì vậy, các thay đổi sau đã được áp dụng:
    • API /metadata/lookup (GET và POST) chỉ hoạt động khi có token Authorization
    • Các endpoint mbid-mapping, mbid-mapping-release, mbid-mapping-explain của ListenBrainz Labs API đã bị xóa
      • Các API này ban đầu được cung cấp cho mục đích gỡ lỗi, và trong tương lai sẽ được thay bằng endpoint cho mapper mới
    • LB Radio chỉ dành cho người dùng đã đăng nhập, và khi gọi API cần header Authorization

Ứng phó khẩn cấp để đảm bảo tính ổn định của dịch vụ

  • MetaBrainz cho biết các biện pháp lần này là quyết định không thể tránh khỏi để ngăn quá tải dịch vụ và duy trì vận hành bình thường
  • Họ xin lỗi vì những thay đổi không báo trước đã gây bất tiện cho người dùng, đồng thời cho biết sau khi hoàn thành dự án cuối năm sẽ cải thiện thông báo lỗi

Phản ứng của cộng đồng

  • Trong phần bình luận, nhiều người thảo luận về cách tiếp cận kém hiệu quả của scraper AI và cấu trúc spider web tự động
    • Một số người dùng chỉ ra “sự bất tài của những người làm AI
    • Người khác giải thích rằng đó là vì “crawler tự động chỉ đơn giản lần theo các liên kết để thu thập dữ liệu

Ý nghĩa tổng thể

  • Biện pháp của MetaBrainz cho thấy thiệt hại mà các dự án dữ liệu mở phải gánh chịu do việc thu thập dữ liệu cho AI
  • Để đảm bảo tính bền vững của các API công khai, việc tăng cường xác thực và hạn chế truy cập đang trở nên khó tránh khỏi

1 bình luận

 
GN⁺ 2026-01-14
Ý kiến trên Hacker News
  • Metabrainz thực sự là một cơ sở dữ liệu vì lợi ích công cộng tuyệt vời
    Trước đây tôi từng viết về chủ đề này trên blog của EFF
    Dữ liệu công cộng như Metabrainz bị bot AI lấy đi thì không sao, vấn đề là chúng đang cào theo cách cực kỳ kém hiệu quả như hiện nay
    Rốt cuộc đây là vấn đề của thất bại trong điều phối. Metabrainz giả định bot có thiện chí, còn bot lại nghĩ website đang cố che giấu dữ liệu
    Dù có nói “đừng tiếp tục đập vào API nữa, hãy tải một lần file tar đã nén gzip ở đây” thì chúng cũng không tin
    Thậm chí nếu cung cấp bằng file torrent thì bot có thể còn chia sẻ dữ liệu tốt hơn

    • Tôi cũng đã đóng website tvnfo.com của mình vì scraper AI
      Tôi đã mở công khai từ năm 2016, nhưng mức tiêu tốn tài nguyên quá lớn nên giờ chỉ vận hành cho người tài trợ
      Đây là dự án sở thích tốn 60 USD mỗi tháng nên rất khó duy trì. Nếu sau này có thêm hỗ trợ, tôi có thể gắn giải pháp phòng thủ bot rồi mở lại
      Nhưng tôi ngạc nhiên khi biết đây không chỉ là vấn đề riêng của mình. Có cảm giác Internet đang dần đi theo hướng ngày càng đóng hơn
    • Tôi tự hỏi liệu robots.txt có cách nào để báo “hãy tải file tar ở đây” hay không
      Tôi không rõ trong tiêu chuẩn có chức năng như vậy không
    • Nếu bot dùng torrent thì cũng có thể thao túng thống kê chia sẻ
      Trước đây tôi cũng từng thổi phồng tỷ lệ upload để không bị đuổi khỏi tracker riêng
    • Việc bot coi website là một thực thể thù địch là vấn đề nghiêm trọng
      Phớt lờ ý chí của chủ sở hữu website là cách tiếp cận sai lầm
    • Thực ra phần lớn “scraper AI” chỉ là script crawler đệ quy đơn giản
      Không phải AI thật sự đọc và phán đoán trang, mà chỉ là mã tự động đi theo liên kết và cào tài liệu
  • AI đang phá hủy hệ sinh thái web tự do
    Nhà cung cấp hosting của tôi đã bất ngờ khóa tài khoản vì lưu lượng bot tăng vọt
    Cuối cùng tôi phải chuyển sang host mới, nhưng người vận hành cá nhân thì gần như không có hy vọng trong tình huống này
    Các công ty AI có nguồn lực vô hạn và không quan tâm tới thiệt hại gây ra
    Nhìn một cách cay đắng, có khi đây còn là chiến lược có chủ ý — xóa sổ các site miễn phí để rồi mọi người cuối cùng chỉ còn lấy thông tin thông qua mô hình AI

    • Các dịch vụ tóm tắt bằng AI đang rút đi hơn một nửa lưu lượng của web độc lập
      Tính kinh tế của việc chia sẻ thông tin đang sụp đổ
      Cuối cùng chỉ một số ít công ty độc chiếm giá trị, rồi sau đó enshittification sẽ bắt đầu
  • Tôi quản lý website PTA của trường con tôi, và bot của OpenAI đã cào lịch sự kiện một cách ngẫu nhiên
    Nó gửi yêu cầu từ năm 1000 đến năm 3000
    Chỉ sau khi chặn User-Agent thì khoảng 4 tiếng sau nó mới dừng

  • Tôi đang vận hành website tĩnh và một instance cgit trên VPS e2-micro của Google Cloud
    Trong 160 ngày, tôi đã nhận hơn 8,5 triệu request từ OpenAI và Claude
    Vì thế tôi cấu hình lighttpd để trả về 403 nếu User-Agent chứa “claude|openai”, và dùng nftables để giới hạn tốc độ

    • Những bot này còn thuộc loại “có lương tâm” hơn
      Vấn đề thực sự là botnet dùng proxy dân cư. Chúng giả làm trình duyệt thông thường để truy cập
    • OpenAI công bố danh sách IP bot chính thức, nhưng Anthropic thì không
    • Điều thú vị là blog GitHub của tôi hoàn toàn không bị kiểu scraping này
      Tôi không biết là Microsoft đang chặn nó, hay chỉ vì blog của tôi không đủ hấp dẫn với bot
  • Cloudflare giờ đã cung cấp dịch vụ phát hiện scraper AI
    Nó dẫn bot bị phát hiện vào các trang do AI tạo ra trong vòng lặp vô tận

    • Nhưng làm vậy thì mọi lưu lượng đều phải đi qua Cloudflare
      Cuối cùng bên thứ ba lại trở thành bên quyết định quyền truy cập nội dung của tôi, điều này rất khó chịu
    • Cloudflare thường gây ra vấn đề truy cập cho người dùng VPN và các trình duyệt hiếm
      Tôi cũng rất bực mình nên cuối cùng đã gỡ nó đi
    • Tôi không nghĩ nó phù hợp với vai trò “dịch vụ thêm rồi gỡ TLS”
    • Có một ý tưởng liên quan là dự án Poison Fountain
    • Nếu Cloudflare nắm đủ nhiều website, họ thậm chí có thể thu phí truy cập cache từ các công ty AI
  • Nhóm SQLite cũng đã gặp vấn đề tương tự
    Nhà sáng lập Richard Hipp đã chỉ trích đây là “hành vi ích kỷ”, nói rằng “chỉ cần clone toàn bộ kho lưu trữ là được, đâu cần phải đi cào và làm phiền người khác như vậy”
    Xem bài viết trên diễn đàn liên quan

    • Tuy nhiên cũng có người phản bác rằng gọi đó là “ác ý” thì hơi phóng đại
  • Càng về sau, tôi càng nghĩ mọi hoạt động crawling nên được hợp nhất vào các kênh công cộng như Common Crawl
    Cần giảm tải cho máy chủ nhưng vẫn giữ được tính mở và khả năng bị scraping của web
    Ví dụ có thể chuẩn hóa bằng cách đặt các liên kết dump dữ liệu có timestamp dưới đường dẫn /well-known/

    • MetaBrainz đã dùng cách này rồi — họ cung cấp toàn bộ DB dưới dạng tarball
      Tôi cũng mất khoảng một tiếng để tải xuống, sau đó xử lý bằng truy vấn cục bộ
      Nhưng đa số vẫn không dùng dump vì scraping vẫn dễ hơn
    • Tôi cho rằng cần cải cách chế độ bản quyền
      Tôi đề xuất một cấu trúc trong đó sau một khoảng thời gian nhất định, nếu dữ liệu được hiến tặng vào “bộ dữ liệu quốc gia”, nó có thể được dùng cho huấn luyện AI và doanh thu sẽ được phân phối cho chủ sở hữu bản quyền
      Làm vậy thì nhà phát triển AI, chủ sở hữu bản quyền và công chúng đều có thể cùng có lợi
    • Cá nhân tôi cũng có scraping quy mô nhỏ bằng script Tampermonkey
      Tôi dùng AI để sinh mã và tự động thu thập những thứ như danh sách giá VPS
      Trước đây tôi cũng từng cào toàn bộ headline của lowendtalk để tạo thành bộ dữ liệu cho phân tích LLM
    • Tạo một file tiêu chuẩn như /llms.txt, chỉ cung cấp dữ liệu văn bản thuần mà LLM cần, cũng có thể là một cách
      Chẳng hạn loại bỏ URL, địa chỉ, số điện thoại và chỉ giữ lại markup tối thiểu như <item><subitem>
      Tuy nhiên có lẽ nhiều website sẽ chỉ đặt một file rỗng cho đúng hình thức
    • Thực ra đây không phải vấn đề kỹ thuật mà là vấn đề của cấu trúc kinh tế
      Dòng vốn khổng lồ đang phá hỏng web vì lợi ích ngắn hạn
      Nhưng tôi tin cuối cùng sẽ xuất hiện sự thích nghi và cân bằng
  • Dạo này không chỉ có scraper AI, mà người dùng tự thân cũng đang gián tiếp scraping thông qua yêu cầu tóm tắt
    Ví dụ Firefox cung cấp bản xem trước tóm tắt ngay cả khi chưa bấm vào liên kết
    Hình ảnh liên quan

    • Tính năng này tạo bản tóm tắt bằng mô hình SmolLM2-360M chạy cục bộ bằng llama.cpp(wllama)
      Cuối cùng trình duyệt tự lấy trang rồi tạo tóm tắt, nên từ phía website thì nó vẫn chỉ là cùng một kiểu request
      Xem giải thích chính thức của Mozilla
    • Vấn đề có ba mặt
      1. Hoạt động crawling phi đạo đức của các công ty AI
      2. Các yêu cầu tóm tắt dựa trên agent từ phía người dùng
      3. Những agent này kém hiệu quả hơn con người nhưng lại nhanh hơn rất nhiều
    • Nhưng không phải người dùng bị “huấn luyện” thành như vậy, mà đơn giản là vì LLM thực sự hoạt động rất tốt nên họ dùng
  • Các scraper hiện nay đang dùng pool IP dân cư để né phát hiện

    • Có người nghi ngờ rằng các ISP cung cấp pool IP kiểu này đã tạo ra một mô hình kiếm tiền mới
    • Hơn nữa giờ còn có nhiều bot chạy trình duyệt thật nên vượt qua cả captcha của Cloudflare
      Trong tình hình này, tôi không biết các biện pháp phòng thủ còn hiệu lực được bao lâu