7 điểm bởi GN⁺ 2024-09-24 | 2 bình luận | Chia sẻ qua WhatsApp
  • Cloudflare đã công bố kế hoạch ra mắt vào năm tới một marketplace cho phép chủ sở hữu website bán quyền truy cập cào nội dung trang cho các nhà cung cấp mô hình AI
  • Marketplace này là giai đoạn cuối trong kế hoạch lớn hơn của CEO Cloudflare Matthew Prince, nhằm giúp các nhà xuất bản kiểm soát tốt hơn cách thức và thời điểm bot AI cào dữ liệu website của họ
  • Ở bước đầu tiên, Cloudflare ra mắt AI Audit, một công cụ observability miễn phí
    • Chủ sở hữu website sẽ được cung cấp một dashboard để xem phân tích về tần suất các mô hình AI cào dữ liệu trang của họ
    • Thông qua AI Audit, chủ sở hữu website có thể chặn bot AI hoặc cho phép các web scraper cụ thể
    • Bản demo của AI Audit cho phép chủ sở hữu website xem từng scraper đến từ đâu, đồng thời cung cấp một cửa sổ tùy chọn để xem các nhà cung cấp mô hình AI như OpenAI, Meta, Amazon ghé thăm trang thường xuyên đến mức nào
  • Giải quyết vấn đề của ngành AI
    • Các nhà cung cấp mô hình AI đang cào dữ liệu từ hàng nghìn website nhỏ và dùng chúng làm nguồn thông tin để vận hành LLM
    • Phần lớn website không nhận được bất kỳ khoản bồi hoàn nào, điều này có thể phá vỡ mô hình kinh doanh của nhiều trang web
    • Cloudflare đã ra mắt một nút cho phép chủ sở hữu website chặn bot AI
  • Phản ánh nhu cầu khách hàng
    • Khách hàng của Cloudflare yêu cầu các công cụ giúp họ chọn mô hình AI nào có thể truy cập website của mình
    • Công cụ mới của Cloudflare cho phép chặn một số crawler AI trong khi vẫn cho phép các crawler khác
  • Mục tiêu của marketplace
    • Marketplace của Cloudflare sẽ giúp các nhà xuất bản nhỏ có thể giao dịch với các nhà cung cấp mô hình AI
    • Website có thể đặt mức phí cào dữ liệu hoặc yêu cầu tín dụng từ các phòng thí nghiệm AI
  • Tác động tới hệ sinh thái AI
    • Tình trạng hiện nay khi một số công ty AI không trả bất kỳ chi phí nào cho nội dung là điều không bền vững
    • CEO của Cloudflare cho rằng marketplace này về lâu dài sẽ có lợi cho hệ sinh thái AI

Tóm tắt của GN⁺

  • Cloudflare đã công bố kế hoạch ra mắt một marketplace cho phép chủ sở hữu website bán quyền truy cập cào nội dung trang cho các nhà cung cấp mô hình AI
  • Thông qua công cụ AI Audit, chủ sở hữu website có thể phân tích tần suất các mô hình AI cào dữ liệu website của họ
  • Marketplace này sẽ giúp các nhà xuất bản nhỏ có thể giao dịch với các nhà cung cấp mô hình AI, từ đó nhận được bồi hoàn cho nội dung của mình
  • Điều này có thể góp phần nâng cao tính bền vững của hệ sinh thái AI

2 bình luận

 
yangeok 2024-10-01

Ý tưởng này khá hay.

 
GN⁺ 2024-09-24
Ý kiến trên Hacker News
  • Common Crawl được đưa vào danh sách "Providers" cùng với OpenAI và Anthropic

    • Common Crawl được sử dụng cho nhiều mục đích ngoài huấn luyện AI
    • Đây là nguồn nội dung chính của Wayback Machine
    • Mục tiêu của dự án Common Crawl là để Common Crawl thu thập dữ liệu và cung cấp theo định dạng chuẩn, thay vì nhiều công ty tự vận hành trình thu thập dữ liệu riêng lẻ
    • Nếu Cloudflare hạn chế quyền truy cập nội dung, tác động có thể sẽ rất lớn
    • Có thể sẽ đến một thế giới nơi phần lớn website dùng sản phẩm bảo mật để hạn chế truy cập
  • OpenFoodFacts, OpenStreetMap và Wikipedia đang bị tấn công DDoS

    • Dù dữ liệu có thể được tải xuống miễn phí, bot vẫn cào toàn bộ mọi thứ
    • Điều này tạo ra lưu lượng không cần thiết và làm tăng chi phí
    • Đây không phải vấn đề bản quyền mà là do sự kém hiệu quả của bot và sự thờ ơ của các đơn vị vận hành
    • Cần có giải pháp
  • Việc ngăn chặn crawling có thể là một nỗ lực vô nghĩa

    • Tính năng này có thể càng củng cố các tay chơi lớn đã thu thập được rất nhiều dữ liệu
    • Người dùng có thể bị ảnh hưởng bởi các trường hợp dương tính giả và CAPTCHA quá mức
  • Cloudflare đang cung cấp dịch vụ bảo vệ khỏi lạm dụng theo một cách mới

    • Cloudflare hợp tác với bên lạm dụng để hình thành một "marketplace"
    • Nếu không dùng dịch vụ của Cloudflare, tình trạng lạm dụng sẽ tiếp diễn
    • Điều này có thể giống với hành vi đòi tiền bảo kê
  • Câu hỏi về tương lai của World Wide Web

    • Từng có cảm giác nó sẽ tồn tại mãi mãi, nhưng một ngày nào đó có thể biến mất như IRC
    • Thời kỳ hoàng kim có lẽ đã qua, và "AI" có thể là khởi đầu của hồi kết
  • Có thể xem thêm chi tiết trên blog của Cloudflare

    • Bản demo của AI Audit cho phép chủ sở hữu website thấy cách các mô hình AI cào dữ liệu từ trang của họ
    • Có thể thấy số lần các scraper như OpenAI, Meta, Amazon... đã truy cập website
  • Ví dụ về Bingeclock dùng AI Audit

    • Những thay đổi thú vị trong 48 giờ sau thông báo của Cloudflare
    • Chương trình thanh toán thì thú vị, nhưng website có thể trở nên kém hiệu quả do lưu lượng truy cập giảm
    • Các scraper AI nhiều khả năng chỉ trả mức phí tối thiểu
  • Bước tiếp theo: dùng AI tạo nội dung, rồi nhận thanh toán khi Cloudflare quét nội dung đó

  • Việc lặp đi lặp lại cào cùng một website là một sự lãng phí lớn

    • Nếu Cloudflare có thể quản lý các thay đổi và cập nhật, có thể tiết kiệm rất nhiều tài nguyên
    • Website sẽ trực tiếp báo thay đổi cho Cloudflare, và Cloudflare chuyển tiếp cho AI
    • AI mua các thay đổi đó, Cloudflare thanh toán cho website và giữ lại phần chênh lệch