3 điểm bởi GN⁺ 2025-07-03 | 2 bình luận | Chia sẻ qua WhatsApp
  • Cloudflare đã giới thiệu một thiết lập mới chặn trình thu thập dữ liệu A.I. theo mặc định
  • Trừ khi chủ sở hữu website cấp quyền, việc thu thập dữ liệu của bot AI sẽ tự động bị chặn
  • Công ty tăng cường vai trò bảo vệ nội dung trên internet liên quan đến việc thu thập dữ liệu chất lượng cao cần cho huấn luyện mô hình AI
  • Nhà sáng tạo nội dung và các cơ quan truyền thông tiếp tục bày tỏ lo ngại về việc dữ liệu bị sử dụng trái phép
  • Tranh chấp pháp lý giữa các công ty AI và chủ sở hữu nội dung đang ngày càng trở nên thường xuyên hơn

Cloudflare triển khai tính năng chặn mặc định trình thu thập dữ liệu AI

  • Cloudflare là công ty công nghệ cung cấp dịch vụ quản lý lưu lượng trực tuyến và bảo mật
  • Khi hiện tượng các công ty AI thu thập dữ liệu website không được phép gần đây gia tăng, Cloudflare đã đưa ra thiết lập mới dựa trên quyền cấp phép cho phép khách hàng tự động chặn quyền truy cập của trình thu thập dữ liệu AI

Chính sách mặc định mới và những thay đổi

  • Với tính năng mới này, website có thể chặn mặc định việc bot AI tự động crawl (scrape)
  • Nếu cần thu thập dữ liệu, chủ sở hữu website phải tự cấp quyền truy cập thủ công riêng
  • Trước đây, các bot không bị Cloudflare xem là hacker hay tác nhân độc hại có thể tự do thu thập thông tin từ website

Lý do Cloudflare thay đổi chính sách

  • CEO Cloudflare, Matthew Prince, nhấn mạnh biện pháp này nhằm "bảo vệ nội dung gốc trên internet và tăng cường quyền lợi của các nhà xuất bản web"
  • Nếu các công ty AI sử dụng dữ liệu internet trái phép, sẽ phát sinh vấn đề làm giảm động lực tạo ra nội dung mới của các nhà sáng tạo nội dung
  • Mạng lưới Cloudflare xử lý khoảng 20% lưu lượng internet trên toàn thế giới
  • Đây là động thái chính sách để ứng phó khi hoạt động của các trình thu thập dữ liệu AI trên web tăng vọt trong thời gian gần đây

Dữ liệu AI và xung đột trong ngành ngày càng sâu sắc

  • OpenAI, Anthropic, Google và các bên khác đang cạnh tranh quyết liệt trong cuộc đua thu thập dữ liệu quy mô lớn để phát triển mô hình AI
  • Dữ liệu web chất lượng cao đóng vai trò then chốt đối với độ tinh vi của mô hình AI và chất lượng đầu ra
  • Vì vậy, nhà vận hành website, cơ quan báo chí và chủ sở hữu bản quyền đã phản đối việc thu thập dữ liệu không được phép và không có bồi thường

Các trường hợp tranh chấp pháp lý mở rộng

  • Vào tháng 6/2025, Reddit đã kiện Anthropic; vào năm 2023, The New York Times đã kiện OpenAI và Microsoft, với lý do lần lượt là sử dụng trái phép dữ liệu huấn luyện AI và vi phạm bản quyền
  • OpenAI và Microsoft phủ nhận các cáo buộc vi phạm bản quyền này

Kết luận

  • Chính sách chặn mặc định việc thu thập dữ liệu AI mới của Cloudflare có ảnh hưởng đáng kể đến các tiêu chuẩn đạo đức và pháp lý về quyền truy cập và sử dụng dữ liệu giữa ngành AI và các chủ sở hữu nội dung
  • Sự thay đổi chính sách lần này đang trở thành một bước ngoặt quan trọng trong việc thiết lập tiêu chuẩn về bảo vệ quyền nội dung và sự đồng ý trước trong hệ sinh thái AI.

2 bình luận

 
GN⁺ 2025-07-03
Ý kiến trên Hacker News
  • Một điểm mà nhiều người chưa thực sự nhận ra là gần như mọi hành vi của chúng ta trên mạng từ trước tới nay về cơ bản chỉ đang cung cấp dữ liệu huấn luyện miễn phí cho các công ty như OpenAI, Anthropic, trong khi những con người thực sự tạo ra giá trị lại bị gạt ra ngoài; tôi nghĩ định hướng nhấn mạnh điều này là đúng 100%, nhưng khó coi giải pháp này là mang tính đột phá, và tôi hy vọng sẽ có nhiều đổi mới hơn nữa để chống lại hiện tượng AI ký sinh
    • Có ý kiến cho rằng chính Cloudflare và các công ty tương tự mới đang phá hỏng tính tự do của Internet; trên thực tế, các trang web quá thường xuyên bị chậm hoặc bị chặn với cái cớ xác thực, tạo ra trải nghiệm tải chậm như năm 1998; chúng ta đang đi vào thời kỳ mà chỉ những trình duyệt cho phép công ty quảng cáo theo dõi và kiếm tiền từ người dùng mới hoạt động bình thường, và Cloudflare bị chỉ trích là không giải quyết vấn đề mà chỉ đứng giữa để thu tiền và làm giảm chất lượng trải nghiệm Internet nói chung
    • Tôi viết trên mạng vì muốn chia sẻ suy nghĩ của mình, và dù nó được dùng làm dữ liệu huấn luyện AI hay được con người đọc thì tôi vẫn thấy hài lòng
    • Tôi cho rằng việc tự do dùng dữ liệu Internet công khai để huấn luyện AI là hoàn toàn ổn, nhưng việc crawl với tốc độ quá nhanh tới mức gây gánh nặng khiến các website nhỏ khó vận hành thì tuyệt đối không thể chấp nhận, và tôi xem đây là một bi kịch thật sự của tài nguyên công cộng
    • Tôi hoài nghi liệu Cloudflare có thực sự chặn hoàn toàn mọi hoạt động scrape dữ liệu cho AI hay không; các biện pháp như vậy trên thực tế sẽ khiến việc crawl khó hơn và đắt đỏ hơn, nhờ đó ngăn chuyện quét toàn bộ mọi trang mỗi ngày và đẩy chi phí cho phía xuất bản, nhưng cuối cùng dữ liệu vẫn sẽ chui vào đâu đó trong một hay nhiều bộ dữ liệu
  • Tôi đã bật tính năng này thử và chỉ xác nhận được rằng robots.txt bị thay đổi tự động; chưa rõ có hành vi bổ sung nào khác không; trong file robots.txt đã được thêm cấu hình chặn nhiều bot và crawler AI khác nhau
    • Nhìn thấy đoạn User-agent: CCBot disallow: / nên có người đặt câu hỏi liệu CCBot(Common Crawl) có thực sự chỉ dành cho AI không; CCBot vốn từ trước đã bị chặn trong nhiều robots.txt; cũng có thắc mắc Common Crawl có thực sự kiểm soát được cách nội dung bị sử dụng hay không, nếu CC dựa vào fair use thì liệu họ có thực sự có quyền thu phí giấy phép hay cho phép tái sử dụng thứ cấp không; cũng có nghi ngờ rằng liệu điều khoản của website có thường cho phép nhà vận hành trang tái cấp phép nội dung của người khác (người dùng) cho mục đích LLM và chia sẻ doanh thu hay không
    • Cloudflare nói họ thay đổi mặc định để bảo vệ nội dung gốc, nhưng trong phần hướng dẫn robots.txt lại cho phép ngoại lệ cho mục đích 'AI RAG(Retrieval Augmented Generation)', điều này nghe lạ vì RAG mới là thứ gây ảnh hưởng trực tiếp và theo thời gian thực tới thu nhập của tác giả hơn cả huấn luyện mô hình ngôn ngữ
    • Có suy nghĩ rằng Google rốt cuộc cũng sẽ vừa crawl dữ liệu để lập chỉ mục web vừa để huấn luyện AI, và cuối cùng có thể ép người ta phải chọn; nếu chủ website buộc phải từ bỏ khả năng xuất hiện trên Google Search chỉ vì không muốn hợp tác cho AI học thì đó sẽ là một tình thế tiến thoái lưỡng nan rất tinh tế
    • Trên các website cá nhân mang tính sở thích của tôi, nếu user-agent có chứa bot và yêu cầu bất kỳ tệp nào ngoài robots.txt, humans.txt, favicon.ico thì tôi trả về trạng thái 444 (đóng kết nối ngay lập tức); đa số công cụ tìm kiếm thì tôi blackhole theo từng khối CIDR; chắc tôi là số ít làm kiểu này
    • Có những tòa soạn đã chặn không chỉ crawler của LLM mà cả tính năng tìm kiếm của ChatGPT, và thiết lập của Cloudflare xét ra vẫn là một mặc định hợp lý hơn nhiều
  • Tiêu đề lần này có thể gây hiểu nhầm đôi chút; hiện tại các website dùng Cloudflare chỉ mới có thể nhanh chóng bật chế độ chặn toàn bộ bot AI theo kiểu 'opt-in', chứ đây chưa phải mặc định và cũng không được áp dụng tự động; việc Cloudflare có thể tùy ý làm những thay đổi hàng loạt kiểu này cho thấy quyền lực của họ mạnh đến mức nào
    • Có người hỏi liệu thật sự đây không phải mặc định sao; bài blog chính thức của Cloudflare có nhắc đến việc thay đổi thiết lập mặc định
    • Giờ đây quan hệ giữa bot AI và website đã mang tính đối kháng; Cloudflare chỉ đang phản ứng với tình hình đó mà thôi; có người hỏi liệu chống DDoS chẳng phải cũng cùng một ngữ cảnh hay sao
    • Có cảm giác Cloudflare chẳng mang lại công cụ phòng thủ đúng nghĩa mà chỉ làm Internet chậm hơn; chưa từng có challenge nào của họ mà tôi không phá được trong vòng nửa ngày; tôi xem các bước đi này rốt cuộc chỉ là giai đoạn đầu để nhảy vào thị trường trung gian cho AI SEO; bản chất Cloudflare được diễn giải là không đứng về phía website, mà muốn đứng giữa scraper và publisher để thu phí; tôi ghét Cloudflare
  • Lượng dữ liệu của tôi được phục vụ qua Cloudflare đã tăng vọt từ 20gb hai năm trước lên 100gb; dù khách truy cập thực tế đã giảm còn chưa tới một nửa nhưng traffic vẫn phình to, nên tôi đoán từ góc nhìn của Cloudflare họ làm vậy để cắt giảm chi phí tài nguyên
    • Có sự đồng tình rằng ở quy mô traffic lớn thì chi phí băng thông là rất đắt
  • Trên HN thường có phàn nàn rằng traffic bot làm website chậm đi, nhưng với tư cách người vận hành site thì tôi khó hiểu điều đó; nếu mặc định dùng cache của Cloudflare thì phần lớn traffic sẽ được xử lý bằng cache và gần như không gây gánh nặng cho server, mà chi phí CPU và băng thông dạo này cũng đâu còn quá đắt, nên tôi thắc mắc vì sao mọi người lại nhạy cảm đến vậy
    • Tôi cũng vận hành một site lớn, cung cấp bằng 10 ngôn ngữ trên hàng trăm nghìn trang, tổng quy mô là hàng triệu trang và gần chạm mức 1000 RPS; khi crawler AI bắn cùng lúc 100~200 RPS từ nhiều IP khác nhau vào các endpoint đắt đỏ, các biện pháp chặn robot hiện có cũng không chịu nổi, tạo hiệu ứng tương tự DDoS
    • Tôi cũng từng bị AI traffic đánh sập; dù dùng cache nhiều tầng, một số endpoint API công khai lộ ra mà không cần xác thực thì không thể cache, và nếu bị đánh liên tục vào các điểm này thì cuối cùng site vẫn sập; nếu hàng triệu trang cùng lúc bị regen miss-cache trong thời gian ngắn thì request sẽ dồn ứ và phát sinh lỗi, còn lỗi lại kéo theo vòng luẩn quẩn cache không hoàn tất; nếu AI traffic cứ tiếp tục đập vào các endpoint này thì vấn đề sẽ kéo dài
    • Vấn đề nằm ngay từ giả định mặc định rằng ai cũng dùng Cloudflare; chẳng lẽ đây đã là thời đại mà ngay cả vận hành một site đơn giản cũng coi đó là thành phần bắt buộc sao
    • Vấn đề traffic AI mà mọi người chỉ ra chủ yếu tập trung vào các crawler cứ không ngừng gọi những API kiểu 'truy vấn mọi bài viết theo date range'
    • Tôi cũng hơi ngạc nhiên trước phản ứng mạnh như vậy, nhưng có thể hiểu vì sao những người vận hành site chưa tối ưu lại muốn thoát khỏi crawler AI; trong các công cụ liên quan, thứ lan nhanh và rộng nhất có vẻ là Anubis checker github link; xét tới việc AI traffic là dạng crawler phân tán, tôi thấy cần có thêm nhiều phần mềm mã nguồn mở giúp giới hạn theo kiểu hợp tác; web cần nhiều kiểu phản hồi như mã trạng thái HTTP 420 Enhance Your Calm hơn nữa tham khảo
  • Nếu các công ty AI cứ lấy dữ liệu từ nhiều website mà không xin phép, động lực tạo ra nội dung số sẽ biến mất; cuối cùng chính cấu trúc tăng trưởng của AI sẽ cản trở các hoạt động số khác và tới cuối cùng còn phá hủy cả web (một cách thú vị là đối với AI, bản thân web lại chính là 'con mồi')
    • Có ý kiến rằng tỷ lệ dùng trình chặn quảng cáo trên toàn cầu là 30%, nên lập luận về việc nội dung số bị xói mòn phức tạp hơn thế
    • Nếu AI không thể đạt được điều mà nó rốt cuộc muốn làm, tức các dạng tương tác và hoạt động kinh tế đa dạng với con người, thì AI cuối cùng cũng sẽ cạn kiệt tài nguyên dữ liệu
    • Có góc nhìn cho rằng cũng như chủ nghĩa tư bản giờ lấy con người làm đối tượng khai thác chính, AI rồi cũng sẽ đi theo con đường có cấu trúc tương tự
  • Cloudflare có thể chặn được các bot AI hay crawler hành xử trung thực, tuân thủ robots.txt, thông qua các quy tắc dựng sẵn; nhưng một số công ty như Perplexity đã ngụy trang traffic, nên có người nghi ngờ kiểu chặn này rốt cuộc chỉ làm bot trung thực chịu thiệt và khuyến khích hành vi che giấu; hiện tượng kiểu chạy đua vũ trang này đã kéo dài suốt 20 năm qua chứ không phải mới, và nhờ tín hiệu toàn cục, chấm điểm bot và fingerprint traffic, Cloudflare được cho là có cấu trúc đủ để nhận diện cả bot AI ngụy trang; cũng có chia sẻ link giải thích liên quan tham khảo blog.cloudflare.com
    • Trước câu hỏi rằng nếu chỉ quản lý bot trung thực và minh bạch thì chẳng phải sẽ càng làm tăng crawl ngụy trang hay sao, có người nói cuộc đấu này đã diễn ra hơn 20 năm và không hề là chuyện mới hay một câu trả lời hoàn toàn mới
    • Tùy chọn Block AI Bots của Super Bot Fight Mode thực sự đã loại bỏ được phần lớn bot traffic, và đó không phải cách tiếp cận phụ thuộc vào robots.txt hay user agent mà là phân tích mẫu traffic; nhờ vậy mà công cụ của tôi muốn hoạt động còn phải thêm quy tắc bypass riêng
    • Cloudflare biết rất rõ cách khiến việc dùng Internet trở nên cực kỳ khó khăn với những người dùng mà họ không thích; nếu dùng robots.txt để bot không bị phân loại là độc hại thì vẫn còn dư địa cho phép theo từng site, nhưng phần còn lại sẽ phải đi theo cách xử lý riêng của Cloudflare
    • Với bot AI scrape quy mô lớn thì dưới góc nhìn của Cloudflare thật ra rất khó che giấu; có thể phân biệt bằng nhiều tín hiệu ở cấp fingerprint và mạng; trên thực tế các công ty lớn còn giao tiếp trực tiếp với Cloudflare, nên có lẽ cuối cùng vẫn có nhiều biện pháp như cảnh báo hay ứng phó khác nhau
  • Liệu các công ty AI lớn có thực sự tôn trọng robots.txt hay không; có lẽ chỉ một phần crawler công khai là tuân thủ, còn bên dưới họ vẫn vận hành các cách crawl ẩn; thực tế họ từng có tiền sử scrape trái phép cả sách, hình ảnh lẫn dữ liệu người dùng
    • Các crawler quy mô nhỏ cũng thường giả danh doanh nghiệp lớn để né chặn, nên rất khó phân biệt
    • Việc tuân thủ robots.txt rốt cuộc chỉ là một thông lệ, không có cưỡng chế pháp lý hay kỹ thuật rõ ràng; có thể ghi điều khoản tuân thủ chính sách robots.txt trong điều khoản sử dụng, nhưng hiệu lực thực tế vẫn đáng ngờ
    • Phần đáng kể của traffic này có thể không phải AI trực tiếp scrape để lập chỉ mục, mà là khi con người đặt câu hỏi thì AI mới đi khảo sát Internet; cũng có sự lúng túng về việc nên xem phạm vi điều chỉnh của robots.txt như một trình duyệt phục vụ nghiên cứu hay chỉ cho mục đích lập chỉ mục
    • Dù không thích vai trò gác cổng của Cloudflare, họ vẫn đang ở vị trí có thể thực sự gây ảnh hưởng tới các công ty AI
  • Danh sách bot AI hiện bị chặn vẫn còn rất ngắn tham khảo
    • Theo giải thích của Cloudflare, Common Crawl(CCBot) cũng được xếp vào nhóm AI Bots và nằm trong tùy chọn chặn; nhưng Common Crawl thực chất không phải bot chỉ dành riêng cho AI mà là hạ tầng crawl mở tham khảo
    • Cloudflare quan sát được lượng lớn web traffic, nên danh sách bot hiện nhận diện được có lẽ chủ yếu là các bot xuất hiện thường xuyên; về sau nếu phát hiện bot mới thì có vẻ họ sẽ tiếp tục bổ sung; dù không thể chặn mọi crawler, nhưng xét trên toàn bộ Internet thì hiếm nơi nào có thể phát hiện nhiều bot như Cloudflare
    • Chỉ riêng kiểu chặn này thôi cũng có thể giúp phần lớn website giảm traffic xuống còn chưa tới một nửa
  • Những bước tiến hóa lớn của web (sự rào kín của web2, sự hão huyền của web3, và cả hiện tại) dường như ngày càng đi xa khỏi vai trò cộng đồng và kho lưu trữ tri thức; chất lượng và công nghệ vẫn tiếp tục tiến bộ, nhưng cùng lúc đó cũng có rất nhiều thứ đã mất đi