1 điểm bởi GN⁺ 2025-09-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cloudflare Radar đã bổ sung trang riêng AI Insights, cho phép nắm bắt trên một màn hình lưu lượng bot/trình thu thập AI, mức độ phổ biến của các dịch vụ AI tạo sinh dựa trên DNS, chỉ thị robots.txt và xu hướng sử dụng mô hình trên Workers AI
  • Biểu đồ lưu lượng bot và crawler AI cung cấp dữ liệu chuỗi thời gian/tóm tắt của các UA hàng đầu dựa trên danh sách ai.robots.txt, đồng thời hỗ trợ phân tích chi tiết qua Radar API và Data Explorer
  • Xếp hạng dịch vụ AI tạo sinh dùng dữ liệu DNS từ 1.1.1.1 cho thấy xu hướng biến động theo tổng hợp hằng ngày, qua đó xác nhận biến động mạnh của các dịch vụ mới nổi như DeepSeek tăng vọt vào cuối tháng 1/2025 (xuất hiện ngày 26/1 → hạng 3 ngày 29/1)
  • Phân tích robots.txt tổng hợp các chỉ thị Allow/Disallow liên quan đến AI trên 10.000 tên miền hàng đầu để trực quan hóa xu hướng chặn theo từng danh mục, cho thấy xu hướng không cho phép trên diện rộng trong mảng tin tức và truyền thông
  • Mức độ phổ biến của mô hình/tác vụ trên Workers AI cung cấp xu hướng sử dụng theo mô hình và tác vụ cùng so sánh theo giai đoạn dựa trên dữ liệu chia sẻ, giúp hiểu được dòng chảy của hệ sinh thái mô hình đang tiến hóa rất nhanh

Tổng quan

  • Cloudflare đã mở thêm trang AI Insights trong Radar để cung cấp tích hợp xu hướng lưu lượng, độ phổ biến của dịch vụ, kiểm soát truy cập và sử dụng mô hình liên quan đến AI
  • Nguồn dữ liệu gồm lưu lượng DNS 1.1.1.1, danh sách user-agent ai.robots.txt, dữ liệu chia sẻ của Workers AI, cùng tích hợp với Radar API/Data Explorer

Xu hướng lưu lượng bot và crawler AI

  • Hoạt động của 5 bot/crawler AI hàng đầu được trực quan hóa theo từng giai đoạn để giúp nhận biết cường độ request và tính chu kỳ
    • Tiêu chí thu thập user-agent tham chiếu danh sách ai.robots.txt và được cập nhật liên tục
    • Hỗ trợ truy cập theo chương trình qua các endpoint API chuỗi thời gian/tóm tắt
  • Có thể khám phá xu hướng diện rộng của toàn bộ tập bot AI trong Data Explorer
    • Nhà vận hành có thể kiểm tra lưu lượng bất thường theo khu vực, thời gian và UA
    • Có thể dùng cho phân tích tương quan với chính sách ứng phó nội bộ

Mức độ phổ biến của các dịch vụ AI tạo sinh

  • Cung cấp xếp hạng tương đối của các dịch vụ AI tạo sinh công khai theo ngày dựa trên lượng request DNS từ 1.1.1.1
    • Trong các bài tổng kết thường niên 2023/2024, ChatGPT tiếp tục giữ vị trí số 1
    • Vào cuối tháng 1/2025, nhóm hạng 6–10 được ghi nhận có biến động lớn
  • DeepSeek sau lần xuất hiện đầu tiên ngày 26/1 đã tăng vọt lên hạng 3 vào ngày 29/1
    • Cung cấp dữ liệu xếp hạng tần suất cao hữu ích để phát hiện các dịch vụ mới nổi tăng trưởng nhanh
    • Có thể truy cập chuỗi thời gian dữ liệu gốc trong Radar API bằng tham số serviceCategory=Generative%20AI

Phân tích tệp robots.txt

  • Thu thập định kỳ 10.000 tên miền hàng đầu để tổng hợp các chỉ thị Allow/Disallow liên quan đến AI
    • Biểu đồ tóm tắt cho phép/không cho phép hoàn toàn và cho phép/không cho phép một phần theo từng user-agent
    • Danh mục tin tức và truyền thông cho thấy xu hướng không cho phép trên diện rộng đối với AI UA
  • Xét theo chỉ thị Allow, số lượng website cho phép một cách tường minh đã giảm mạnh
    • Cần lưu ý rằng khi không ghi rõ UA và không có wildcard thì hệ thống sẽ mặc định cho phép toàn bộ
    • Radar API và Data Explorer hỗ trợ phân tích lọc theo bot/chỉ thị

Mức độ phổ biến của mô hình và tác vụ trên Workers AI

  • Trực quan hóa xu hướng sử dụng các mô hình và tác vụ (Task) được hỗ trợ công khai trên Workers AI dựa trên dữ liệu chia sẻ
    • Cung cấp riêng độ phổ biến của mô hình/độ phổ biến của tác vụ dưới dạng chuỗi thời gian và tóm tắt
    • Trong Data Explorer, có thể phân tích mức tăng giảm so với tháng trước bằng tính năng so sánh theo giai đoạn (timeCompare)
  • Ví dụ mô hình: tạo văn bản, tạo ảnh, nhận dạng giọng nói, phân loại ảnh cùng nhiều tác vụ đa dạng khác
    • Khi các mô hình mới mạnh hơn được phát hành, có thể tận dụng khả năng hiển thị sớm để ứng phó chủ động

Kết luận và hàm ý

  • Hệ sinh thái AI cho thấy mức biến động rất lớn, với nhiều trường hợp dịch vụ mới tăng trưởng bùng nổ trong thời gian ngắn
    • Cùng với sự lan rộng của dịch vụ tạo sinh, các vấn đề về scraping nội dung, bản quyền và kiểm soát truy cập tiếp tục ở trong trạng thái căng thẳng kéo dài
  • Trang AI Insights cung cấp tích hợp lưu lượng, độ phổ biến, kiểm soát truy cập và sử dụng mô hình, hữu ích cho người theo dõi ngành và người làm thực tế trong việc nắm bắt xu hướng theo thời điểm
    • Nhà vận hành có thể xây dựng hệ thống giám sát và báo cáo tự động thông qua Radar API và Data Explorer
    • Có thể tinh chỉnh cách ứng phó với bot AI bằng cách liên kết chiến lược chỉ thị robots.txt với chính sách CDN/bảo mật

1 bình luận

 
GN⁺ 2025-09-02
Ý kiến Hacker News
  • OpenAI đã xác nhận trạng thái xác thực là "In Progress" thông qua WebBotAuth; có vẻ Cloudflare đang muốn trở thành người gác cổng cho các "bot tốt". Việc tồn tại trạng thái "In Progress" tự nó đã có ý nghĩa; với các công ty khác thì chỉ là "No", còn với OpenAI thì là "chưa phải bây giờ, nhưng đã thông báo kế hoạch cho CF".
    • Có vẻ Cloudflare đang nhắm tới việc kiếm tiền hai lần: thu phí người dùng CDN, và giờ lại tiếp tục thu tiền để cấp quyền truy cập vào nội dung của chính những người dùng đó. Nhìn OpenAI bị như vậy cũng khá hả hê, nhưng có lẽ chuyện sẽ không dừng ở đây. Tôi tự hỏi liệu Kagi hay các công cụ tìm kiếm khác có thể tiếp tục rẻ và hữu ích hay không, và các dịch vụ như Internet Archive sẽ vận hành thế nào trong tình huống này.
    • Tôi không hiểu vì sao việc Cloudflare chặn lưu lượng truy cập không mong muốn tới website lại khiến nhiều người ngạc nhiên đến vậy; đó vốn dĩ là mô hình kinh doanh của họ.
    • Thực ra từ rất lâu rồi đã cần một cách hợp lý hơn để xác thực bot, và chuyện này không chỉ giới hạn ở bot AI.
    • Có thể xem như Cloudflare giờ đã gia nhập hàng ngũ những kẻ gác cổng Internet. Hiện tại chỉ OpenAI đang cố nhận kiểu xác thực này, và có vẻ Amazon cũng phần nào làm theo. Mong là các công ty khác sẽ chống lại những yêu cầu như vậy.
    • Eastdakota (CEO Cloudflare) nói kiểu như: "Dạo này ai cũng đang tất bật lao vào cuộc chơi để giành vị trí trong kỷ nguyên tiếp theo, tôi có thể sắp xếp lại chỗ ngồi cho anh." Sam (có lẽ phía OpenAI) đáp: "Tôi đâu biết là mình đã bị mất chỗ." Eastdakota thì trả lời theo kiểu: "Chưa hẳn là bị đẩy hẳn ra ngoài, nhưng tình hình đã đến mức phải hối tiếc rồi."
  • Dữ liệu thật sự đáng kinh ngạc. Trong biểu đồ "Generative AI services popularity", việc ChatGPT đứng số 1 là điều dễ hiểu, nhưng Character.AI vượt qua Anthropic, Perplexity và xAI để đứng thứ 2 thì khá bất ngờ. Tôi nghĩ dữ liệu này có thể bị ảnh hưởng lớn bởi chiến lược cache DNS của từng dịch vụ. Một biểu đồ thú vị khác là "Workers AI model popularity": llama-3-8b-instruct đã giữ vị trí số 1 với thị phần 30~40% từ tháng 4 tới nay. Loại LLM nhỏ mà lại phổ biến đến vậy là khá hiếm; ban đầu tôi nghĩ Meta m2m100-1.2b hoặc Gemma 3 270M của Alphabet sẽ được dùng nhiều hơn. Có lẽ là vì mọi người dùng mô hình mạnh nhất có thể chạy trên CF worker. Ai muốn xem thêm các phân tích mức độ phổ biến đa dạng hơn thì tham khảo bài blog "LLM Assistant Census" của tôi.
    Xem xếp hạng dịch vụ Generative AI
    Xem xếp hạng mô hình Workers AI
    LLM Assistant Census
    • Tôi thắc mắc vì sao cache DNS lại làm sai lệch kết quả. Khi Cloudflare proxy website thì họ có thể thấy toàn bộ request HTTP, nên khó tin là họ chỉ tổng hợp thống kê bằng truy vấn DNS. Tôi thấy bình luận khác cũng nhắc đến DNS, nên tự hỏi liệu có thiếu thông tin nào về cách họ tính thống kê hay không.
    • Character.AI cực kỳ phổ biến trong nhóm người dùng trẻ, nên việc nó đứng thứ 2 cũng không quá bất ngờ.
  • Gần đây tôi thử tìm hiểu xem từng công ty crawl web sâu đến mức nào, và kết quả là bot của OpenAI là kỹ lưỡng nhất. Nó đã lần theo 405 liên kết.
    Xem chi tiết dữ liệu crawl
    • Thống kê thú vị đấy. Trong honeypot của tôi, GPTBot từng đi sâu tới tối đa 92 cấp; chắc là vì site của tôi kém hấp dẫn hơn.
  • Cloudflare tự quyết định cách định nghĩa AI Bot trong việc phân loại bot. Ví dụ, CCBot của Common Crawl được dùng cho nhiều mục đích khác nhau (được trích dẫn trong hơn 10.000 bài nghiên cứu), nhưng Cloudflare vẫn coi CCBot đơn giản là một "AI Bot". Trong khi đó, phần lớn quản trị viên website có lẽ không thực sự biết bot nào là AI Bot, hay danh sách đó được chọn theo tiêu chí gì.
  • Việc Firefox chỉ có 3,8% thị phần trong "Top Browser & user agents" thật buồn.
    Thống kê trình duyệt của Cloudflare
    • Theo tôi thấy, Firefox là trình duyệt duy nhất trong top 5 không được cài sẵn làm mặc định. Phần lớn mọi người không thấy khó chịu tới mức phải rời khỏi lựa chọn mặc định, nên hơn 90% sẽ không bao giờ đi tìm một trình duyệt thay thế như Firefox.
    • Hồi đầu Firefox là trình duyệt tốt hơn, và đã giành được thị phần nhờ những tính năng thật sự mà các trình duyệt cũ không có. Firefox bây giờ chỉ còn là một bản sao Chrome không có điểm khác biệt. Người dùng phổ thông không biết đến addon thì chẳng có lý do gì để chọn Firefox. Nếu Firefox có các tính năng thật sự hữu ích (ví dụ chặn quảng cáo/yếu tố gây phiền ngay trong trình duyệt) thì có thể giành lại thị trường, nhưng có vẻ họ không hề định làm vậy.
    • Tôi không hiểu sao người ta lại tự nguyện dùng trình duyệt do một công ty quảng cáo tạo ra. Đúng là phần lớn người dùng Chrome không biết điều đó, nhưng ngay cả trong số những người đọc bài này cũng chắc có nhiều người vẫn dùng dù hiểu rất rõ bản chất của Google và Chrome.
    • Tôi tự hỏi việc Firefox bị Cloudflare tự động phân loại thành bot rồi bị loại khỏi thống kê thị phần ảnh hưởng đến con số này tới mức nào.
    • Firefox không cung cấp thông tin user agent một cách đầy đủ (có thể mặc định đã vậy), nên thị phần này có thể còn bị báo thấp hơn thực tế.
  • Dữ liệu xếp hạng AI dựa trên DNS request khá thú vị. Khi nhìn theo từng giai đoạn 4 tuần, Character.AI luôn giữ hạng 2 vào cuối tuần, còn Claude hạng 3; đến ngày thường thì hai bên lại đổi chỗ. Nhưng đồ thị tổng hợp lại cho thấy việc đổi hạng diễn ra ở đoạn Chủ nhật~Thứ hai, có lẽ do chênh lệch giữa múi giờ Mỹ và UTC.
  • Dữ liệu này có giá trị cực lớn cho cả các công ty AI lẫn publisher. Cloudflare có được mức độ quan sát chưa từng có về việc ai đang crawl cái gì, lúc nào và bao nhiêu. Tôi nghĩ chẳng bao lâu nữa điều này có thể được tung ra thành sản phẩm trả phí cao cấp, như dịch vụ xác thực bot ưu tiên hay phân tích crawl chi tiết.
    • Đây sẽ là một đòn bẩy rất lớn cho tăng trưởng của Cloudflare. Họ định rút tối đa doanh thu có thể từ các công ty lớn như OpenAI.
  • Nếu sau khi tìm kiếm bằng Anthropic API mà lưu lượng người dùng được chuyển nguyên liên kết sang site đích, thì Cloudflare sẽ không thể ghép lượt tìm kiếm đó với phía Anthropic. Vì vậy tỷ lệ giữa crawl và lưu lượng truy cập được giới thiệu có thể khác thực tế.
  • Tôi đoán các thống kê kiểu này có lẽ không bao gồm những crawler độc hại dùng residential proxy hoặc cách khác để che giấu danh tính.
  • Tôi thật lòng mong sẽ không ai khuất phục trước việc xác thực WebBotAuth của Cloudflare và nỗ lực này sẽ thất bại.