- Cloudflare công bố một dịch vụ mới cho phép chủ sở hữu nội dung tính phí khi truy cập đối với trình thu thập dữ liệu AI
- Nhà sáng tạo nội dung có thể chọn một trong ba phương án: cho phép miễn phí, chặn hoàn toàn, hoặc cho phép truy cập trả phí
- Việc tính phí hoạt động dựa trên phản hồi chuẩn HTTP 402 Payment Required, và Cloudflare cung cấp hạ tầng thanh toán và đối soát
- Trình thu thập dữ liệu và chủ sở hữu nội dung được đảm bảo tính minh bạch và bảo mật thông qua xác thực và thanh toán theo phương thức lập trình
- Dịch vụ này sẽ bắt đầu ở dạng private beta, và trong tương lai dự kiến mở rộng hỗ trợ nhiều trường hợp sử dụng cùng cơ chế tính phí động
Sự thay đổi của môi trường tiêu thụ AI
- Nhiều nhà xuất bản, nhà sáng tạo nội dung, chủ sở hữu website trước đây chỉ có thể chọn theo kiểu nhị phân với trình thu thập AI: hoặc cho phép toàn bộ truy cập, hoặc chặn hoàn toàn
- Cloudflare theo đuổi nguyên tắc cốt lõi là tăng quyền kiểm soát cho chủ sở hữu nội dung, cho phép họ có thể chặn toàn bộ trình thu thập AI, cho phép miễn phí, hoặc chỉ cho phép chọn lọc những trình thu thập mà họ muốn
- Qua các cuộc thảo luận với hàng trăm công ty truyền thông, nhà xuất bản và các nền tảng xã hội lớn, Cloudflare xác nhận nhu cầu cho phép trình thu thập AI truy cập nhưng vẫn muốn nhận được đền bù là rất lớn
- Trước đây, việc cho phép truy cập thường phải thông qua đàm phán riêng với từng trình thu thập, nhưng điều đó gần như bất khả thi đối với các website nhỏ do thiếu quy mô và sức mạnh thương lượng
Triển khai mô hình 'tính phí theo lượt crawl (pay per crawl)'
- Ngoài hai lựa chọn cực đoan là miễn phí hoặc chặn, Cloudflare đề xuất lựa chọn thứ ba là tính phí truy cập
- Nhờ đó, chủ sở hữu nội dung có thể kiếm tiền từ tài sản số ở quy mô Internet
- Nền tảng kỹ thuật cốt lõi là mã trạng thái gần như đã bị lãng quên HTTP 402 Payment Required: nếu trình thu thập bày tỏ ý định thanh toán thì nội dung được trả về với 200 OK, nếu không thì phản hồi 402 sẽ thông báo mức giá
- Cloudflare đóng vai trò Merchant of Record, chịu trách nhiệm xử lý thanh toán và hạ tầng kỹ thuật
Quyền điều chỉnh của nhà xuất bản và chính sách giá
- Nhà xuất bản có thể thiết lập mức giá cố định cho toàn bộ website
- Cho phép (cung cấp miễn phí)
- Tính phí (cung cấp khi thanh toán theo mức giá đã đặt)
- Chặn (không cho truy cập và thông báo về khả năng quan hệ hợp tác trong tương lai)
- Hỗ trợ vận hành chính sách linh hoạt theo từng trình thu thập như ngoại lệ tính phí, cho phép truy cập miễn phí, hoặc đàm phán riêng
- Tích hợp với chính sách bảo mật của Cloudflare (WAF, quản lý bot, v.v.), trong đó tường lửa hiện có được áp dụng trước rồi quy tắc pay per crawl mới hoạt động
Giao thức xác thực và thanh toán: Web Bot Auth
- Được thiết kế để chỉ những trình thu thập cụ thể mới nhận được quyền thanh toán và truy cập, từ đó ngăn chặn việc giả mạo ID trình thu thập (spoofing)
- Trình thu thập phải tạo cặp khóa Ed25519, đăng ký thư mục khóa công khai ở định dạng JWK, và gửi thông tin tới Cloudflare
- Chứng minh danh tính và ý định thanh toán bằng các header ký thông điệp HTTP (Signature-Agent, Signature-Input, Signature)
Cách truy cập nội dung trả phí
- Hỗ trợ hai giao thức
- Phản ứng (ưu tiên khám phá): khi trình thu thập yêu cầu một URL trả phí, hệ thống phản hồi 402 kèm mức giá đề xuất → nếu đồng ý thì ở lần yêu cầu lại sẽ kèm header
crawler-exact-price
- Chủ động (ưu tiên ý định): ngay trong yêu cầu đầu tiên, trình thu thập gửi giới hạn thanh toán qua header
crawler-max-price → nếu không vượt ngưỡng thì trả về 200 OK cùng chi tiết tính phí
- Việc thương lượng giá và thể hiện ý định thanh toán được hỗ trợ theo cách thức lập trình được
Đối soát và xử lý tài chính
- Nhà vận hành trình thu thập và chủ sở hữu nội dung cần đăng ký thông tin thanh toán trong tài khoản Cloudflare
- Với mỗi yêu cầu thanh toán đã xác thực và phản hồi 200 OK, sự kiện tính phí sẽ được ghi nhận; sau đó Cloudflare tổng hợp để lập hóa đơn cho trình thu thập và thanh toán cho nhà xuất bản
Khởi đầu cho những thay đổi hướng tới thời đại agent
- pay per crawl tượng trưng cho sự tiến hóa của công nghệ kiểm soát nội dung trực tuyến
- Kỳ vọng bảo vệ nhà sáng tạo và mở rộng các BM (mô hình kinh doanh) mới thông qua phương thức xác định giá trị tài sản có thể lập trình
- Trong tương lai, nhiều hướng mở rộng đang được thảo luận như tính phí động theo loại nội dung/đường dẫn, định giá theo quy mô lưu lượng AI, quản lý giấy phép quy mô lớn
- Với việc áp dụng HTTP 402, hệ thống có thể đáp ứng tương lai nơi AI/agent thương lượng các điều kiện truy cập tài nguyên số theo cách lập trình
Hướng dẫn bắt đầu
- Tính năng pay per crawl hiện đang được cung cấp trước dưới dạng private beta
- Các trình thu thập và nhà sáng tạo nội dung muốn sử dụng có thể liên hệ thông qua liên kết đăng ký riêng
- Cloudflare cũng hỗ trợ phòng vệ DDoS, tăng tốc truy cập Internet, xây dựng ứng dụng Internet, chặn hacker, triển khai Zero Trust
Thông tin bổ sung và xu hướng liên quan
- Các động thái chặn crawl miễn phí như 'Content Independence Day' cùng với việc Cloudflare mở rộng giải pháp quản lý bot đang diễn ra
- Trong giai đoạn 2024~2025, lưu lượng từ trình thu thập AI tăng 18%, với các số liệu tăng trưởng được công bố như GPTBot 305% và Googlebot 96%
- Đồng thời cũng giới thiệu tính năng tăng cường xác thực trình thu thập thông qua chữ ký thông điệp dựa trên khóa công khai
5 bình luận
Bản dịch: https://rosettalens.com/s/ko/introducing-pay-per-crawl
Họ sẽ phân biệt bot AI hay không phải bot AI bằng cách nào?
Bất kể có phải AI hay không, nếu cố tình thì ngay cả việc crawl cũng không thể ngăn chặn được.
Tức là Cloudflare muốn kiếm tiền
Rốt cuộc những người muốn kiếm tiền đều sẽ dồn về đó
Quy mô của Cloudflare sẽ ngày càng lớn hơn
Và dữ liệu sẽ bị suy giảm về chất lượng
Naver, Instagram hay YouTube, cứ nơi nào dính đến tiền thì đều cho thấy cùng một xu hướng như vậy
Ý kiến trên Hacker News
Tôi nghĩ đây là hình thức micropayment mà chúng ta từng mong muốn. Coinbase gần đây đã giới thiệu một thư viện dùng tiền mã hóa và mã trạng thái 402, đó là x402 liên kết GitHub x402
Tôi nghĩ mô hình kinh doanh của web nên là kiểu này thay vì dựa vào các bên trung gian quảng cáo. Ngành adtech đã khai thác dữ liệu của chúng ta vĩnh viễn, làm ô nhiễm truyền thông và gây hại cho cả nền dân chủ. Tôi hy vọng vài chục năm nữa, người ta sẽ nhận ra mô hình quảng cáo hiện tại độc hại đến mức nào, rồi quản lý và trừng phạt các công ty liên quan giống như đã làm với Big Tobacco. BAT của Brave cũng là một nỗ lực tốt, nhưng x402 cho cảm giác là giải pháp phổ quát hơn. Tuy vậy, vì hình ảnh tiêu cực của tiền mã hóa và ảnh hưởng quá mạnh của ngành quảng cáo, có vẻ cách này sẽ không dễ bén rễ
Tôi không muốn dùng tiền mã hóa, không muốn nhận tiền cho nội dung bằng tiền mã hóa, và cũng không muốn trả phí cho bên trung gian. Việc dùng tiền mã hóa cho micropayment thực tế có cảm giác chỉ là phương tiện để nâng đỡ hệ sinh thái crypto. Thêm nữa, rất khó để mọi người thống nhất sẽ thanh toán bằng đồng coin nào. Nếu rơi vào tình huống mỗi site chỉ nhận một đồng khác nhau, hoặc tất cả buộc phải nhận một stablecoin duy nhất, thì việc kiểm soát cũng sẽ rất khó. Cách của Cloudflare tốt hơn. Với cách này, phía kiếm ra tiền sẽ chịu chi phí, chứ không đòi tiền từ người dùng phổ thông. Và cũng không dùng tiền mã hóa
Tôi hy vọng mình sai, nhưng có cảm giác cơ hội cho micropayment đã trôi qua rồi. Nếu ngày xưa có cấu trúc kiểu nạp trước như điện thoại phổ thông, ví dụ “nạp 10.000 won cho internet”, rồi các site trừ dần bằng micropayment, thì có lẽ nó đã thật sự bén rễ. Nhưng bây giờ để triển khai hệ thống này và khiến toàn thị trường cùng tham gia thì cần quá nhiều hạ tầng và đồng thuận, nên có vẻ đã lỡ thời điểm
Công nghệ này thực sự rất thú vị. Nếu tôi hiểu đúng, tôi thắc mắc vì sao giao thức lại không được thiết kế để phản hồi ngay khi nhận địa chỉ và số tiền thanh toán. Nếu các lần thử tiếp theo bị chặn cho tới khi trả về checksum của số tiền và địa chỉ ví, rồi để bên thứ ba xác minh checksum này, thì từng server sẽ không cần tự triển khai logic xác minh. Để xây dựng một nền kinh tế số đúng nghĩa thì cần hai thứ: 1) nội dung chỉ được người yêu cầu tiêu thụ và không thể sao chép/lưu lại, 2) nội dung phải có một hệ thống danh tiếng hoặc xếp hạng do con người gán. Cái đầu có thể giải quyết bằng DRM hoặc mã hóa đồng hình, cái thứ hai có thể do các tổ chức đánh giá được DAO hóa xử lý. Để tham gia DAO với tư cách người đánh giá, có thể chia sẻ bằng chứng thành tích dựa trên blockchain và ký gửi tiền mã hóa đắt giá (= giấy phép) để tăng độ tin cậy. Cũng có thể liên kết nội dung với người đánh giá như chỉ mục BitTorrent để loại bỏ quảng cáo trung gian. Khi cấu trúc này hoàn thiện, những người có chuyên môn có thể tham gia tạo ra giá trị đồng thời loại bỏ trung gian, và con người có thể trở lại vị trí trung tâm của nền kinh tế nội dung. Nếu giải được vấn đề thanh toán kép cho nội dung, mỗi người có thể liên tục được đền bù trong khi vẫn phát triển chuyên môn ngoài đời thực. Ví dụ khi tìm sách hay phim hay, ta tham khảo điểm số trên Amazon hoặc Goodreads, nhưng hiện tại bên cung cấp điểm số không có mức độ gắn lợi ích tương xứng. Nếu nội dung đánh giá đó có được uy tín như một cơ quan xếp hạng, thì giá trị của từng tác phẩm riêng lẻ cũng có thể tăng lên. Mọi người sẽ được khuyến khích tự gìn giữ danh tiếng của mình
Bản thân khái niệm này không mới. Tôi cũng từng làm một dự án dùng mã trạng thái 402 tên là ln-paywall vào năm 2018
Tôi cho rằng đây hoàn toàn là cách tiếp cận sai. Cloudflare chỉ đơn giản nói rằng “hãy crawl như trước, nhưng giờ phải trả thêm tiền”, mà không cung cấp giá trị tương xứng. Crawl không phải lợi thế cạnh tranh của các công ty AI hay các công cụ tìm kiếm mới. Nó chỉ là công việc tốn chi phí và phân tán sự chú ý. Sẽ hợp lý hơn nếu họ hợp tác bằng cách dùng chung hạ tầng. Thay vì mỗi công ty tự truy cập từng site, lý tưởng là chỉ có một crawler duy nhất ghé thăm mọi site, còn các công ty thiết lập bộ lọc riêng và đóng góp chi phí theo tỷ lệ URL khớp. Thay vì nhiều lượt traffic, có thể dùng một crawler duy nhất, đồng thời cưỡng chế robots.txt cả về mặt kỹ thuật lẫn hợp đồng; khi đó nội dung không mong muốn sẽ không bị cung cấp, và nếu muốn lách thì họ phải tự duy trì crawler riêng về mặt kỹ thuật nên sẽ rất tốn kém. Ngay cả nếu thêm thanh toán vào đây, khả năng cao bạn sẽ phải trả tiền cho vô số trang rác mà chưa từng xem trước, nên cũng không có giá trị. Theo phương án này, phía công ty AI hay search engine cũng crawl rẻ hơn và dễ hơn, còn phía site cũng giảm tải đáng kể và tăng hiệu quả chặn. Trong khi đó Cloudflare chỉ đơn giản là kiểu “trả tiền đi”, nên quá thiếu tưởng tượng và không thuyết phục
Tôi nghĩ để thấy đúng cấu trúc khuyến khích ở đây, phải nhìn sang phía đối diện của thị trường. Vấn đề của bên sản xuất nội dung không phải là traffic đổ về site, mà là họ không nhận được thù lao tương xứng cho lượng traffic đó. Dù 8 công ty có ghé mọi trang trên site của tôi 10 lần mỗi ngày đi nữa, nếu tôi nhận được khoản trả ở mức giá thị trường thì chẳng có vấn đề gì. Khi đó 8 công ty kia sẽ có động lực hợp tác để tích hợp việc crawl vì họ không còn externalize chi phí nữa. Cách này ngược lại còn hợp lý hơn cho tất cả mọi bên
Thực ra Common Crawl lẽ ra đảm nhiệm vai trò đó, nhưng trớ trêu là các startup AI tham lam lấy dữ liệu của nó quá mức nên gần đây tải nặng đến mức gần như không dùng nổi nữa. Chính kiểu vấn đề này tạo ra dư địa cho thị trường dịch vụ crawl web thuê ngoài, và từ góc nhìn doanh nghiệp thì thuê ngoài crawler có nhiều lợi thế. Tất nhiên vẫn chưa chắc nhu cầu này có đủ lớn để hình thành một thị trường kinh doanh đáng kể hay không, nhưng việc cần năng lực crawl hoặc truy cập dữ liệu web bài bản thì là điều rõ ràng
Trái với ý kiến cho rằng crawl web không phải lợi thế cạnh tranh của công ty AI, khả năng phản ánh nhanh thông tin mới nhất hoặc các nguồn cụ thể chắc chắn là một năng lực cạnh tranh. Vấn đề là khi họ lấy nội dung từ site thì không trả gì cho site, cũng không mang traffic về, nên kết quả là phá hủy hệ sinh thái web. Đặc biệt từ góc nhìn của site, bot AI đọc thông tin của tôi mà giá trị tôi nhận lại là 0
Ngay cả khi traffic crawl chỉ trả được một khoản nào đó, chi phí hạ tầng cũng không phải vấn đề. Trước đây chuyện site chết vì traffic lớn vốn hiếm. Gần đây thì hoặc là 1) ngày càng nhiều site trực tiếp chặn bot, scraper, v.v., hoặc 2) những nơi không làm được vậy (site khó kiểm soát truy cập hoặc không có mô hình doanh thu) thì bị dội bom. Nếu trong cấu trúc này tiền thực sự được trả cho site, thì ít nhất cũng có thể bù gánh nặng do traffic bot quá mức gây ra, thậm chí còn hơn thế
Dù vậy, tôi vẫn nghĩ cấu trúc chi phí như thế này có thể đóng vai trò là động lực trực tiếp cho hợp tác
Cuối cùng chính vì những điều này mà Google sẽ tiếp tục giữ lợi thế trong AI. Phần lớn mọi người đều muốn Googlebot crawl site của họ. Nhờ đó có traffic, và Google dùng chỉ mục đó cả cho huấn luyện AI. Có thể mang tính độc quyền, nhưng tôi nghĩ là có lợi cho cả hai phía. Nhưng nếu là những công ty như OpenAI, Anthropic hay Meta, những bên crawl mà không bồi hoàn gì cả, thì có lẽ hầu như chẳng ai muốn site của mình bị crawl. Vì vậy tôi thấy chính sách này của Cloudflare là rất đúng thời điểm. Nếu chính sách này thành công, thì với Cloudflare đây cũng là một cơ hội khổng lồ
Tỷ lệ click đang giảm mạnh vì “AI Overview” của Google. Trước đây Google crawl 2 trang thì mang lại 1 lượt traffic, 6 tháng trước là 6:1, còn bây giờ là 18:1. Điều thay đổi là AI Overviews. OpenAI còn tệ hơn, 6 tháng trước là 250:1, giờ là 1.500:1, tức AI đang chặn gần hết lượng truy cập về liên kết gốc. (Tài liệu tham khảo trên Twitter: https://twitter.com/ethanhays/status/1938651733976310151)
Tôi là startup nên ngược lại, tôi muốn site của mình được AI crawl. Khi ai đó hỏi ChatGPT “$CompanyName là gì”, tôi muốn các điểm mạnh và thông điệp cốt lõi của công ty tôi được phản ánh đúng. Nội dung SEO truyền thống cũng có thể được dùng làm dữ liệu huấn luyện AI. Khi yêu cầu công cụ AI tóm tắt ưu và nhược điểm của web, các bài dạng danh sách như "top 10 tools for X" do chính công ty đăng trên blog của mình thường trở thành nguồn. Các tập đoàn lớn như cơ quan du lịch, hay những tổ chức muốn lan truyền góc nhìn của họ ra thế giới một cách thuyết phục, cũng vậy
Có nhắc đến chuyện OpenAI, Anthropic và Meta crawl nội dung do con người trực tiếp viết mà không có bồi thường nào, nhưng thực ra với những nơi như cơ quan nhà nước hay tập đoàn lớn, việc được crawl đôi khi lại có lợi. Ví dụ nếu một AI toàn cầu trả lời câu hỏi “Làm sao để xem kangaroo?” mà lại gợi ý vườn thú ở New Zealand thay vì Australia (hãng hàng không quốc gia New Zealand, động vật của họ, v.v.) thì đó là vấn đề. Việc thông tin đúng được phản ánh trong mô hình AI có thể tạo ảnh hưởng lên phạm vi rất rộng người dùng
Google còn có những dự án như Google Books, nên các công ty phương Tây khác khó mà có được tài liệu huấn luyện ở quy mô này, còn công ty Trung Quốc thì không quá để tâm đến bản quyền, nên đây là khác biệt rất lớn
Tôi không nghĩ Google nhất thiết có lợi thế trong AI. Từ góc nhìn người dùng, AI Overview của Google thường sai một cách khủng khiếp. Về mặt kỹ thuật họ có thể cung cấp API, chất lượng hay tính năng rất tốt, nhưng trải nghiệm AI chủ đạo mà người dùng phổ thông nhìn thấy thì không ổn lắm
Bản thân công nghệ thì rất hay, nhưng tôi không thích việc mọi crawler đều phải dùng Cloudflare. Tôi nhớ các nhà phát triển Google Chrome từng đề xuất Web Monetization API, và nếu áp dụng cấu trúc thanh toán phi tập trung thì sẽ không phải phụ thuộc vào một công ty cụ thể nào
Đây là hướng đi tốt, nhưng vẫn còn nhiều điểm thiếu sót. Cấu trúc lý tưởng nhất là tính phí khác nhau theo mục đích sử dụng. Ví dụ nếu crawl site cho “mục đích nghiên cứu” thì gần như nên miễn phí. Còn nếu là “huấn luyện AI để thương mại hóa” thì nên rất đắt. Thật đáng tiếc khi phải nghĩ đến cách này, nhưng bây giờ kiểu cũ gần như đã bị cấm trên thực tế, nên việc công khai miễn phí không đối giá là không còn khả thi. Thật ra nếu ai đó xây dựng một thư viện toàn cầu nơi mọi thông tin đều được cung cấp miễn phí, đồng thời có cả hệ thống bồi hoàn IP tương ứng, thì tôi nghĩ toàn nhân loại sẽ được lợi rất nhiều. Dù phần lớn giới hạn kỹ thuật đã được giải quyết trong thời đại này, những ràng buộc kiểu “cartel de facto” ngày nay vẫn tiếp diễn. Giờ thì đành nghiêng về phía “vậy ít nhất hãy trả tiền đi”
Nếu làm vậy thì cuối cùng những người nhắm đến lợi nhuận sẽ tìm ra đủ loại kẽ hở để lạm dụng, hoặc bán lại dữ liệu trái với ý định ban đầu, hoặc xâm nhập hệ thống. Ví dụ ngay cả khi nói “nghiên cứu thì miễn phí”, họ vẫn có thể chỉ cần tuyên bố “tôi vào để nghiên cứu đây!” nhưng thực tế là kiếm lời bằng cách bán dữ liệu cho công ty liên kết của mình
Dù kiểu “thư viện chia sẻ miễn phí mọi dữ liệu” này có vẻ khả thi về mặt kỹ thuật, vấn đề cốt lõi là tính bền vững kinh tế. Nếu chi phí truy cập quá thấp thì ngược lại sẽ dẫn đến sao chép vô hạn hoặc lạm dụng quá mức, khiến hệ thống sụp đổ. Thậm chí một mức độ hạn chế nhất định còn tạo ra động lực tốt hơn cho hợp tác và nâng cao chất lượng. (Giống chiến lược r/K trong sinh học.) Khi có hạn chế, giá trị trên mỗi cá thể cao hơn nên thông tin và dịch vụ chất lượng cao có thể mở rộng hơn. Cuối cùng có lẽ thư viện công cộng ngoài đời thực từng là điểm gần tối ưu kiểu này
Có vẻ HN đang đánh giá thấp vấn đề này, nhưng đây là thay đổi cực lớn. 20% toàn bộ web nằm trên Cloudflare. Nếu tính năng này được cung cấp cho toàn bộ khách hàng, thậm chí cả người vận hành blog miễn phí, thì đây sẽ là một cấu trúc thú vị nơi chủ blog cũng có thể nhận tiền
Tôi lo rằng chẳng bao lâu nữa chúng ta sẽ chuyển sang cấu trúc cứ mỗi lần dùng trình duyệt là phải micropayment, và internet sẽ biến mất
Tôi đã mất khá nhiều thời gian vì tính năng phát hiện bot của Cloudflare. Tôi dùng Chrome + uBlock, và có khi chẳng bao lâu nữa sẽ thấy cả màn hình đòi thanh toán. Nếu hiện CAPTCHA thì tôi просто bỏ site đó và đi nơi khác
Thực ra biết đâu còn đỡ hơn việc phải chịu đựng hàng chục quảng cáo và paywall
Cũng cần nghĩ đến trường hợp dùng crawler AI làm công cụ hỗ trợ điều hướng web cho người khuyết tật. Các tính năng tự động hóa UI vốn đã gặp nhiều cản trở ở đủ loại thủ tục xác thực
Chủ site có thể cho phép loại crawler này. Vấn đề kẻ xấu giả danh người tốt để truy cập vốn đã tồn tại từ trước, chẳng hạn trường hợp muốn cho phép Google web crawler nhưng chặn việc huấn luyện Gemini, nên cần có giải pháp kỹ thuật cho việc này
Tôi không rõ chính xác ý “người dùng cá nhân có thể dùng crawler để ‘duyệt’ web” nghĩa là gì. AI browser không lập tức đồng nghĩa với crawler. Crawler là công cụ thu thập (harvest) cả website trên quy mô lớn
Đã có sẵn tiêu chuẩn công nghệ tiếp cận là ARIA, và các site lớn đều áp dụng nó. Với mục đích tiếp cận, AI đáng ra không cần thiết và cũng không nên được dùng
Ngày xưa tôi từng nghĩ những công ty cung cấp tìm kiếm hữu ích trên internet là “công ty tốt”. Và bây giờ Cloudflare có vẻ cũng đang làm “việc tốt” như chống DDoS, CDN, bảo vệ trước AI, v.v. Nhưng có khả năng sau này ta cũng sẽ ghét những công ty như vậy
Cloudflare không phải là công ty mà ai cũng ghét, nhưng ảnh hưởng của họ càng lớn thì cảm giác cảnh giác càng tăng. Bluesky từng nói “the company is tomorrow's adversary”, và Cloudflare cũng đang lớn lên thành một “đối thủ” rất mạnh
Những người bạn ngoài đời quanh tôi thì đã ghét Cloudflare rồi
Họ nói là đang “làm điều tốt cho internet”, nhưng chính sự cản trở trong xác minh/kiểm chứng mà Cloudflare tạo ra lại khiến tôi dùng LLM nhiều hơn thay vì Stack Exchange
Nhìn chung tôi đồng ý với ý tưởng này, nhưng các ông lớn sẽ tìm ra đủ kiểu đường vòng dữ liệu (đặc biệt là Google có thể biện minh cho crawl miễn phí dưới danh nghĩa search engine), và nếu thật sự thành công thì chi phí đó rất có thể sẽ lại bị chuyển sang chúng ta, những người dùng cuối
Ngay cả khi Google crawl dữ liệu miễn phí dưới danh nghĩa tìm kiếm, tôi tự hỏi liệu ở bước 2 có thể buộc Google trả phí theo từng trang hay không. Có thể thiết lập riêng các vùng mà crawler không được truy cập theo mức phí của từng bài, ví dụ tin tức chính thì yêu cầu mức phí cao, còn thông tin phổ thông, dữ liệu cho huấn luyện LLM, nghiên cứu nội bộ, v.v. thì ghi giá riêng cho từng loại giấy phép theo mục đích. Nếu Cloudflare đóng vai trò trung tâm trung gian cho hàng triệu site thì đây là cấu trúc hoàn toàn khả thi
Sẽ có thêm nhiều publisher chặn cả Googlebot, vì Google đã lấy đi doanh thu của họ bằng các câu trả lời tìm kiếm AI rồi