- Gần đây, việc các công ty AI thu thập dữ liệu trái phép đang khiến máy chủ của MetaBrainz bị quá tải
- Họ phớt lờ các quy tắc robots.txt và crawl dữ liệu MusicBrainz theo từng trang, một cách làm cực kỳ kém hiệu quả, có thể mất tới hàng trăm năm
- Hành vi tương tự cũng lan sang API của ListenBrainz, khiến dịch vụ phải áp dụng yêu cầu token xác thực và đóng một phần API để tự bảo vệ
- LB Radio hiện chỉ dành cho người dùng đã đăng nhập, và khi gọi API cũng cần header
Authorization
- Những biện pháp này được giải thích là phản ứng cần thiết để duy trì khả năng truy cập cho người dùng hợp lệ
Vấn đề quá tải máy chủ do scraper AI
- Trong vài tháng gần đây, đội ngũ MetaBrainz đang phải đối phó với hoạt động crawl trái phép nhằm thu thập dữ liệu để huấn luyện mô hình AI
- Một số công ty AI bỏ qua phép lịch sự Internet cơ bản như robots.txt và cứ thế lấy dữ liệu
- Họ truy cập dữ liệu MusicBrainz theo kiểu yêu cầu từng trang một, kém hiệu quả hơn tải toàn bộ dữ liệu và gây tải nặng lên máy chủ
- Cách tiếp cận này kém hiệu quả đến mức có thể mất hàng trăm năm, và hệ quả là cản trở người dùng hợp lệ truy cập dịch vụ
Biện pháp bảo vệ API ListenBrainz
- Các scraper AI đã cố gắng thu thập dữ liệu từ nhiều endpoint API của ListenBrainz
- Vì vậy, các thay đổi sau đã được áp dụng:
- API
/metadata/lookup (GET và POST) chỉ hoạt động khi có token Authorization
- Các endpoint
mbid-mapping, mbid-mapping-release, mbid-mapping-explain của ListenBrainz Labs API đã bị xóa
- Các API này ban đầu được cung cấp cho mục đích gỡ lỗi, và trong tương lai sẽ được thay bằng endpoint cho mapper mới
- LB Radio chỉ dành cho người dùng đã đăng nhập, và khi gọi API cần header
Authorization
Ứng phó khẩn cấp để đảm bảo tính ổn định của dịch vụ
- MetaBrainz cho biết các biện pháp lần này là quyết định không thể tránh khỏi để ngăn quá tải dịch vụ và duy trì vận hành bình thường
- Họ xin lỗi vì những thay đổi không báo trước đã gây bất tiện cho người dùng, đồng thời cho biết sau khi hoàn thành dự án cuối năm sẽ cải thiện thông báo lỗi
Phản ứng của cộng đồng
- Trong phần bình luận, nhiều người thảo luận về cách tiếp cận kém hiệu quả của scraper AI và cấu trúc spider web tự động
- Một số người dùng chỉ ra “sự bất tài của những người làm AI”
- Người khác giải thích rằng đó là vì “crawler tự động chỉ đơn giản lần theo các liên kết để thu thập dữ liệu”
Ý nghĩa tổng thể
- Biện pháp của MetaBrainz cho thấy thiệt hại mà các dự án dữ liệu mở phải gánh chịu do việc thu thập dữ liệu cho AI
- Để đảm bảo tính bền vững của các API công khai, việc tăng cường xác thực và hạn chế truy cập đang trở nên khó tránh khỏi
1 bình luận
Ý kiến trên Hacker News
Metabrainz thực sự là một cơ sở dữ liệu vì lợi ích công cộng tuyệt vời
Trước đây tôi từng viết về chủ đề này trên blog của EFF
Dữ liệu công cộng như Metabrainz bị bot AI lấy đi thì không sao, vấn đề là chúng đang cào theo cách cực kỳ kém hiệu quả như hiện nay
Rốt cuộc đây là vấn đề của thất bại trong điều phối. Metabrainz giả định bot có thiện chí, còn bot lại nghĩ website đang cố che giấu dữ liệu
Dù có nói “đừng tiếp tục đập vào API nữa, hãy tải một lần file tar đã nén gzip ở đây” thì chúng cũng không tin
Thậm chí nếu cung cấp bằng file torrent thì bot có thể còn chia sẻ dữ liệu tốt hơn
Tôi đã mở công khai từ năm 2016, nhưng mức tiêu tốn tài nguyên quá lớn nên giờ chỉ vận hành cho người tài trợ
Đây là dự án sở thích tốn 60 USD mỗi tháng nên rất khó duy trì. Nếu sau này có thêm hỗ trợ, tôi có thể gắn giải pháp phòng thủ bot rồi mở lại
Nhưng tôi ngạc nhiên khi biết đây không chỉ là vấn đề riêng của mình. Có cảm giác Internet đang dần đi theo hướng ngày càng đóng hơn
Tôi không rõ trong tiêu chuẩn có chức năng như vậy không
Trước đây tôi cũng từng thổi phồng tỷ lệ upload để không bị đuổi khỏi tracker riêng
Phớt lờ ý chí của chủ sở hữu website là cách tiếp cận sai lầm
Không phải AI thật sự đọc và phán đoán trang, mà chỉ là mã tự động đi theo liên kết và cào tài liệu
AI đang phá hủy hệ sinh thái web tự do
Nhà cung cấp hosting của tôi đã bất ngờ khóa tài khoản vì lưu lượng bot tăng vọt
Cuối cùng tôi phải chuyển sang host mới, nhưng người vận hành cá nhân thì gần như không có hy vọng trong tình huống này
Các công ty AI có nguồn lực vô hạn và không quan tâm tới thiệt hại gây ra
Nhìn một cách cay đắng, có khi đây còn là chiến lược có chủ ý — xóa sổ các site miễn phí để rồi mọi người cuối cùng chỉ còn lấy thông tin thông qua mô hình AI
Tính kinh tế của việc chia sẻ thông tin đang sụp đổ
Cuối cùng chỉ một số ít công ty độc chiếm giá trị, rồi sau đó enshittification sẽ bắt đầu
Tôi quản lý website PTA của trường con tôi, và bot của OpenAI đã cào lịch sự kiện một cách ngẫu nhiên
Nó gửi yêu cầu từ năm 1000 đến năm 3000
Chỉ sau khi chặn User-Agent thì khoảng 4 tiếng sau nó mới dừng
Tôi đang vận hành website tĩnh và một instance cgit trên VPS e2-micro của Google Cloud
Trong 160 ngày, tôi đã nhận hơn 8,5 triệu request từ OpenAI và Claude
Vì thế tôi cấu hình lighttpd để trả về 403 nếu User-Agent chứa “claude|openai”, và dùng nftables để giới hạn tốc độ
Vấn đề thực sự là botnet dùng proxy dân cư. Chúng giả làm trình duyệt thông thường để truy cập
Tôi không biết là Microsoft đang chặn nó, hay chỉ vì blog của tôi không đủ hấp dẫn với bot
Cloudflare giờ đã cung cấp dịch vụ phát hiện scraper AI
Nó dẫn bot bị phát hiện vào các trang do AI tạo ra trong vòng lặp vô tận
Cuối cùng bên thứ ba lại trở thành bên quyết định quyền truy cập nội dung của tôi, điều này rất khó chịu
Tôi cũng rất bực mình nên cuối cùng đã gỡ nó đi
Nhóm SQLite cũng đã gặp vấn đề tương tự
Nhà sáng lập Richard Hipp đã chỉ trích đây là “hành vi ích kỷ”, nói rằng “chỉ cần clone toàn bộ kho lưu trữ là được, đâu cần phải đi cào và làm phiền người khác như vậy”
Xem bài viết trên diễn đàn liên quan
Càng về sau, tôi càng nghĩ mọi hoạt động crawling nên được hợp nhất vào các kênh công cộng như Common Crawl
Cần giảm tải cho máy chủ nhưng vẫn giữ được tính mở và khả năng bị scraping của web
Ví dụ có thể chuẩn hóa bằng cách đặt các liên kết dump dữ liệu có timestamp dưới đường dẫn
/well-known/Tôi cũng mất khoảng một tiếng để tải xuống, sau đó xử lý bằng truy vấn cục bộ
Nhưng đa số vẫn không dùng dump vì scraping vẫn dễ hơn
Tôi đề xuất một cấu trúc trong đó sau một khoảng thời gian nhất định, nếu dữ liệu được hiến tặng vào “bộ dữ liệu quốc gia”, nó có thể được dùng cho huấn luyện AI và doanh thu sẽ được phân phối cho chủ sở hữu bản quyền
Làm vậy thì nhà phát triển AI, chủ sở hữu bản quyền và công chúng đều có thể cùng có lợi
Tôi dùng AI để sinh mã và tự động thu thập những thứ như danh sách giá VPS
Trước đây tôi cũng từng cào toàn bộ headline của lowendtalk để tạo thành bộ dữ liệu cho phân tích LLM
/llms.txt, chỉ cung cấp dữ liệu văn bản thuần mà LLM cần, cũng có thể là một cáchChẳng hạn loại bỏ URL, địa chỉ, số điện thoại và chỉ giữ lại markup tối thiểu như
<item>và<subitem>Tuy nhiên có lẽ nhiều website sẽ chỉ đặt một file rỗng cho đúng hình thức
Dòng vốn khổng lồ đang phá hỏng web vì lợi ích ngắn hạn
Nhưng tôi tin cuối cùng sẽ xuất hiện sự thích nghi và cân bằng
Dạo này không chỉ có scraper AI, mà người dùng tự thân cũng đang gián tiếp scraping thông qua yêu cầu tóm tắt
Ví dụ Firefox cung cấp bản xem trước tóm tắt ngay cả khi chưa bấm vào liên kết
Hình ảnh liên quan
Cuối cùng trình duyệt tự lấy trang rồi tạo tóm tắt, nên từ phía website thì nó vẫn chỉ là cùng một kiểu request
Xem giải thích chính thức của Mozilla
Các scraper hiện nay đang dùng pool IP dân cư để né phát hiện
Trong tình hình này, tôi không biết các biện pháp phòng thủ còn hiệu lực được bao lâu