- Cloudflare đã giới thiệu một thiết lập mới chặn trình thu thập dữ liệu A.I. theo mặc định
- Trừ khi chủ sở hữu website cấp quyền, việc thu thập dữ liệu của bot AI sẽ tự động bị chặn
- Công ty tăng cường vai trò bảo vệ nội dung trên internet liên quan đến việc thu thập dữ liệu chất lượng cao cần cho huấn luyện mô hình AI
- Nhà sáng tạo nội dung và các cơ quan truyền thông tiếp tục bày tỏ lo ngại về việc dữ liệu bị sử dụng trái phép
- Tranh chấp pháp lý giữa các công ty AI và chủ sở hữu nội dung đang ngày càng trở nên thường xuyên hơn
Cloudflare triển khai tính năng chặn mặc định trình thu thập dữ liệu AI
- Cloudflare là công ty công nghệ cung cấp dịch vụ quản lý lưu lượng trực tuyến và bảo mật
- Khi hiện tượng các công ty AI thu thập dữ liệu website không được phép gần đây gia tăng, Cloudflare đã đưa ra thiết lập mới dựa trên quyền cấp phép cho phép khách hàng tự động chặn quyền truy cập của trình thu thập dữ liệu AI
Chính sách mặc định mới và những thay đổi
- Với tính năng mới này, website có thể chặn mặc định việc bot AI tự động crawl (scrape)
- Nếu cần thu thập dữ liệu, chủ sở hữu website phải tự cấp quyền truy cập thủ công riêng
- Trước đây, các bot không bị Cloudflare xem là hacker hay tác nhân độc hại có thể tự do thu thập thông tin từ website
Lý do Cloudflare thay đổi chính sách
- CEO Cloudflare, Matthew Prince, nhấn mạnh biện pháp này nhằm "bảo vệ nội dung gốc trên internet và tăng cường quyền lợi của các nhà xuất bản web"
- Nếu các công ty AI sử dụng dữ liệu internet trái phép, sẽ phát sinh vấn đề làm giảm động lực tạo ra nội dung mới của các nhà sáng tạo nội dung
- Mạng lưới Cloudflare xử lý khoảng 20% lưu lượng internet trên toàn thế giới
- Đây là động thái chính sách để ứng phó khi hoạt động của các trình thu thập dữ liệu AI trên web tăng vọt trong thời gian gần đây
Dữ liệu AI và xung đột trong ngành ngày càng sâu sắc
- OpenAI, Anthropic, Google và các bên khác đang cạnh tranh quyết liệt trong cuộc đua thu thập dữ liệu quy mô lớn để phát triển mô hình AI
- Dữ liệu web chất lượng cao đóng vai trò then chốt đối với độ tinh vi của mô hình AI và chất lượng đầu ra
- Vì vậy, nhà vận hành website, cơ quan báo chí và chủ sở hữu bản quyền đã phản đối việc thu thập dữ liệu không được phép và không có bồi thường
Các trường hợp tranh chấp pháp lý mở rộng
- Vào tháng 6/2025, Reddit đã kiện Anthropic; vào năm 2023, The New York Times đã kiện OpenAI và Microsoft, với lý do lần lượt là sử dụng trái phép dữ liệu huấn luyện AI và vi phạm bản quyền
- OpenAI và Microsoft phủ nhận các cáo buộc vi phạm bản quyền này
Kết luận
- Chính sách chặn mặc định việc thu thập dữ liệu AI mới của Cloudflare có ảnh hưởng đáng kể đến các tiêu chuẩn đạo đức và pháp lý về quyền truy cập và sử dụng dữ liệu giữa ngành AI và các chủ sở hữu nội dung
- Sự thay đổi chính sách lần này đang trở thành một bước ngoặt quan trọng trong việc thiết lập tiêu chuẩn về bảo vệ quyền nội dung và sự đồng ý trước trong hệ sinh thái AI.
2 bình luận
Cloudflare giới thiệu cơ chế tính phí theo từng lần thu thập dữ liệu (pay-per-crawl) dành cho bot AI
Ý kiến trên Hacker News
robots.txtbị thay đổi tự động; chưa rõ có hành vi bổ sung nào khác không; trong filerobots.txtđã được thêm cấu hình chặn nhiều bot và crawler AI khác nhauUser-agent: CCBot disallow: /nên có người đặt câu hỏi liệu CCBot(Common Crawl) có thực sự chỉ dành cho AI không; CCBot vốn từ trước đã bị chặn trong nhiềurobots.txt; cũng có thắc mắc Common Crawl có thực sự kiểm soát được cách nội dung bị sử dụng hay không, nếu CC dựa vào fair use thì liệu họ có thực sự có quyền thu phí giấy phép hay cho phép tái sử dụng thứ cấp không; cũng có nghi ngờ rằng liệu điều khoản của website có thường cho phép nhà vận hành trang tái cấp phép nội dung của người khác (người dùng) cho mục đích LLM và chia sẻ doanh thu hay khôngrobots.txtlại cho phép ngoại lệ cho mục đích 'AI RAG(Retrieval Augmented Generation)', điều này nghe lạ vì RAG mới là thứ gây ảnh hưởng trực tiếp và theo thời gian thực tới thu nhập của tác giả hơn cả huấn luyện mô hình ngôn ngữuser-agentcó chứabotvà yêu cầu bất kỳ tệp nào ngoàirobots.txt,humans.txt,favicon.icothì tôi trả về trạng thái 444 (đóng kết nối ngay lập tức); đa số công cụ tìm kiếm thì tôi blackhole theo từng khối CIDR; chắc tôi là số ít làm kiểu này420 Enhance Your Calmhơn nữa tham khảorobots.txt, thông qua các quy tắc dựng sẵn; nhưng một số công ty như Perplexity đã ngụy trang traffic, nên có người nghi ngờ kiểu chặn này rốt cuộc chỉ làm bot trung thực chịu thiệt và khuyến khích hành vi che giấu; hiện tượng kiểu chạy đua vũ trang này đã kéo dài suốt 20 năm qua chứ không phải mới, và nhờ tín hiệu toàn cục, chấm điểm bot và fingerprint traffic, Cloudflare được cho là có cấu trúc đủ để nhận diện cả bot AI ngụy trang; cũng có chia sẻ link giải thích liên quan tham khảo blog.cloudflare.comBlock AI Botscủa Super Bot Fight Mode thực sự đã loại bỏ được phần lớn bot traffic, và đó không phải cách tiếp cận phụ thuộc vàorobots.txthayuser agentmà là phân tích mẫu traffic; nhờ vậy mà công cụ của tôi muốn hoạt động còn phải thêm quy tắc bypass riêngrobots.txtđể bot không bị phân loại là độc hại thì vẫn còn dư địa cho phép theo từng site, nhưng phần còn lại sẽ phải đi theo cách xử lý riêng của Cloudflarerobots.txthay không; có lẽ chỉ một phần crawler công khai là tuân thủ, còn bên dưới họ vẫn vận hành các cách crawl ẩn; thực tế họ từng có tiền sử scrape trái phép cả sách, hình ảnh lẫn dữ liệu người dùngrobots.txtrốt cuộc chỉ là một thông lệ, không có cưỡng chế pháp lý hay kỹ thuật rõ ràng; có thể ghi điều khoản tuân thủ chính sáchrobots.txttrong điều khoản sử dụng, nhưng hiệu lực thực tế vẫn đáng ngờrobots.txtnhư một trình duyệt phục vụ nghiên cứu hay chỉ cho mục đích lập chỉ mục