Nền tảng AI của Cloudflare: lớp suy luận cho các agent

(blog.cloudflare.com)

2 điểm bởi GN⁺ 7 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

Xây dựng lớp suy luận hợp nhất nhằm giảm độ phức tạp của các ứng dụng dạng agent bằng cách tích hợp nhiều mô hình và nhà cung cấp
Thông qua AI Gateway và Workers AI, có thể gọi hơn 70 mô hình và hơn 12 nhà cung cấp bằng một API duy nhất, đồng thời quản lý chi phí và mức sử dụng một cách tập trung
Hỗ trợ chạy mô hình trên nền tảng container bằng công nghệ Cog của Replicate để có thể trực tiếp triển khai mô hình tùy chỉnh
Tận dụng hạ tầng tại 330 thành phố trên toàn thế giới để giảm thiểu độ trễ, đồng thời đảm bảo suy luận ổn định bằng định tuyến tự động khi xảy ra sự cố
Đội ngũ Replicate đã gia nhập Cloudflare để tích hợp hoàn toàn việc lưu trữ và triển khai mô hình, đồng thời mở rộng thành nền tảng hợp nhất cho phát triển agent

Tổng quan về Cloudflare AI Platform

Do mô hình AI thay đổi nhanh và sự khác biệt giữa các nhà cung cấp, độ phức tạp của các ứng dụng dạng agent sử dụng kết hợp nhiều mô hình đang tăng lên
- Ví dụ, một agent hỗ trợ khách hàng có thể dùng mô hình nhanh để phân loại tin nhắn, mô hình lớn để lập kế hoạch và mô hình gọn nhẹ để thực thi
- Cần quản lý tập trung chi phí, độ tin cậy và độ trễ mà không bị phụ thuộc vào một nhà cung cấp duy nhất
Dựa trên AI Gateway và Workers AI, Cloudflare đã xây dựng lớp suy luận hợp nhất cho phép gọi mọi mô hình bằng một API duy nhất
- Gần đây đã bổ sung cải tiến dashboard, thiết lập gateway mặc định tự động, tự động thử lại khi upstream gặp sự cố và khả năng kiểm soát logging chi tiết hơn

Một danh mục, một endpoint hợp nhất

Thông qua binding AI.run(), có thể gọi trực tiếp các mô hình bên thứ ba như OpenAI, Anthropic từ Cloudflare Workers
- Khi chuyển từ mô hình do Cloudflare lưu trữ sang mô hình bên thứ ba, chỉ cần sửa một dòng mã
- Hỗ trợ REST API cũng sẽ sớm được cung cấp, cho phép truy cập toàn bộ danh mục mô hình trong mọi môi trường
Có thể sử dụng hơn 70 mô hình và hơn 12 nhà cung cấp thông qua một API và một đơn vị thanh toán duy nhất
- Các nhà cung cấp chính gồm: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Có thể xây dựng ứng dụng đa phương thức với các mô hình hình ảnh, video và giọng nói
Mọi lệnh gọi mô hình được hợp nhất qua một API, cho phép quản lý tập trung mức sử dụng AI và chi phí
- Trung bình, doanh nghiệp đang gọi 3,5 mô hình từ nhiều nhà cung cấp, nhưng AI Gateway cho phép theo dõi toàn bộ trong một dashboard duy nhất
- Có thể đưa vào metadata tùy chỉnh trong từng yêu cầu để phân tích chi phí theo khách hàng hoặc theo workflow

Tự triển khai mô hình của riêng mình (Bring Your Own Model)

AI Gateway hợp nhất các mô hình từ mọi nhà cung cấp, đồng thời đang chuẩn bị để người dùng có thể trực tiếp triển khai mô hình được fine-tune bằng dữ liệu riêng
- Hiện tại, khách hàng enterprise đang chạy mô hình tùy chỉnh trên các instance chuyên dụng và kế hoạch là mở rộng cho người dùng phổ thông
Cloudflare sử dụng công nghệ Cog của Replicate để container hóa các mô hình machine learning
- Khai báo dependency trong file cog.yaml và viết mã suy luận trong file predict.py thì quá trình đóng gói sẽ được thực hiện tự động
- Cog trừu tượng hóa các thiết lập phức tạp như CUDA, phiên bản Python và tải trọng số
Sau khi build image container bằng lệnh cog build và tải lên Workers AI, Cloudflare sẽ thực hiện triển khai và cung cấp dịch vụ
- Trong tương lai sẽ cung cấp lệnh wrangler, khởi động nguội nhanh dựa trên GPU snapshot và API cho khách hàng
- Hiện đang thử nghiệm với khách hàng nội bộ và một số khách hàng bên ngoài, đồng thời có kế hoạch mở rộng để bất kỳ ai cũng có thể dùng mô hình riêng trên Workers AI

Tối ưu tốc độ đến token đầu tiên

Tổ hợp AI Gateway + Workers AI đặc biệt phù hợp với agent hoạt động thời gian thực, nơi phản hồi nhanh là rất quan trọng
- Dù tổng thời gian suy luận là 3 giây, nếu token đầu tiên đến sớm hơn 50ms thì tốc độ cảm nhận của người dùng vẫn được cải thiện
Cloudflare giảm thiểu độ trễ mạng giữa người dùng và endpoint suy luận thông qua các trung tâm dữ liệu tại 330 thành phố trên toàn thế giới
Workers AI lưu trữ các mô hình mã nguồn mở tối ưu cho agent như Kimi K2.5 và các mô hình giọng nói thời gian thực
- Khi gọi qua AI Gateway, mã và suy luận chạy trong cùng một mạng, giúp đạt độ trễ thấp nhất

Độ tin cậy dựa trên cơ chế tự động chuyển đổi dự phòng

Workflow của agent có mức độ phụ thuộc cao giữa các bước, nên độ ổn định của suy luận là yếu tố cốt lõi
- Nếu cùng một mô hình có trên nhiều nhà cung cấp, AI Gateway sẽ tự động định tuyến sang nhà cung cấp khác khi một bên gặp sự cố
- Nhà phát triển không cần tự viết logic xử lý lỗi riêng
Với các agent chạy dài hạn sử dụng Agents SDK, suy luận streaming có thể được khôi phục ngay cả khi kết nối bị gián đoạn
- AI Gateway đệm phản hồi streaming một cách độc lập, nên khi bị gián đoạn có thể kết nối lại và tái sử dụng cùng phản hồi đó
- Có thể khôi phục cùng token mà không bị tính phí trùng lặp, và khi kết hợp với tính năng checkpoint của SDK thì người dùng sẽ không nhận ra sự gián đoạn

Tích hợp Replicate

Đội ngũ Replicate đã gia nhập đội Cloudflare AI Platform và đang tiến hành tích hợp hoàn toàn
- Toàn bộ mô hình của Replicate sẽ được chuyển sang AI Gateway, còn các mô hình được host sẽ được tái nền tảng hóa trên hạ tầng Cloudflare
- Người dùng có thể gọi các mô hình Replicate hiện có từ AI Gateway hoặc lưu trữ các mô hình đã triển khai trên Replicate bằng Workers AI

Bắt đầu

Nhà phát triển có thể bắt đầu từ tài liệu AI Gateway hoặc tài liệu Workers AI
Có thể xây dựng agent trên Cloudflare thông qua Agents SDK

Vai trò của Cloudflare

Cloudflare là connectivity cloud giúp bảo vệ mạng doanh nghiệp, xây dựng ứng dụng quy mô lớn, tăng tốc hiệu năng web, đồng thời hỗ trợ phòng chống DDoS và bảo mật Zero Trust
Với ứng dụng miễn phí 1.1.1.1, người dùng có thể truy cập Internet nhanh hơn và an toàn hơn
Sứ mệnh của Cloudflare là xây dựng một Internet tốt hơn, và có thể xem thêm thông tin cũng như cơ hội tuyển dụng trên website chính thức

1 bình luận

GN⁺ 7 ngày trước

Ý kiến trên Hacker News

Rốt cuộc thì cái này trông như openrouter gắn thêm Cloudflare Argo networking
Có vẻ họ có thể làm được thứ thú vị hơn nữa bằng cách tận dụng thương vụ mua lại Replicate
RL theo từng ứng dụng đang ngày càng tốt hơn, nhưng lại thiếu cách triển khai ở quy mô lớn
Những bên như Fireworks cũng nói là có triển khai mở rộng LORA, nhưng thực tế không ổn lắm
Vì vậy hiện tại tôi đang tự host tải cơ bản của app mình bằng vài chiếc 3090 đặt trong gara. Nghe buồn cười thật nhưng như vậy tiết kiệm được 1.000 USD mỗi tháng
- Tôi tò mò bạn đang chạy những model nào, và nếu mở rộng quy mô thì cần bao nhiêu chiếc 3090
Cái này trông khá hữu ích. Cloudflare đang gom được nhiều công cụ tốt
Đặc biệt D2 gần như là sqlite-as-a-service duy nhất, độ ổn định cũng tốt và hạn mức gói miễn phí khá rộng rãi
- Tài liệu và marketing thì nhấn mạnh các trường hợp dùng như “DB theo từng người dùng, từng tenant”, nhưng trên thực tế rất khó dùng cùng Workers
  Muốn bind DB mới thì phải triển khai lại Worker, nên gần như là bất khả thi
- Theo trải nghiệm của chúng tôi thì độ ổn định của D1 không tốt
  Query bị kẹt ở lớp mạng nội bộ trong vài giây, nặng thì đến hàng chục giây
  Một số query thậm chí còn không hiện trên dashboard observability, nên nếu không tự thêm phát hiện timeout thì sẽ không biết có vấn đề
  Nó cũng không hỗ trợ transaction, và trong chuỗi issue thì PM nói không có kế hoạch triển khai
  Muốn đảm bảo tính nhất quán dữ liệu thì phải dùng Durable Object, mà như vậy lại có thêm chi phí và trade-off khác
  Ý tưởng thì hay nhưng khó tin cậy cho production, còn dự án cá nhân thì ổn
- Tôi ước gì Cloudflare cung cấp sẵn hệ thống backup D1-R2
  Hiện giờ chỉ làm được bằng code tùy chỉnh trong Worker
- Giới hạn 10GB của D1 là quá nhỏ. Ngoài các dự án mức đồ chơi ra thì khó dùng
- Họ nói sắp ra REST API, nhưng cấu trúc này có vẻ như đang đẩy Cloudflare lock-in
  Bảo là đang làm OpenRouter nhưng lại chỉ hỗ trợ runtime binding riêng thì khó mà hiểu nổi
Danh sách model Workers AI và
catalog model AI có tập model khác nhau
Namespace “workers-ai/*” có ít model hơn hẳn. Không rõ đây có phải chủ đích không
- Ví dụ như các model “workers-ai/@cf/google/gemma-4-26b-a4b-it” hoặc
  “workers-ai/@cf/nvidia/nemotron-3-120b-a12b”
  không có trong endpoint /models của gateway.ai.cloudflare.com. Nhưng chúng lại tồn tại dưới dạng hosted model
Tôi đang dùng openrouter rất ổn trên Cloudflare Workers
Khi model bị offline thì tính năng cascading và waterfalling cũng tốt hơn nhiều
Có vẻ ở V1 thì vẫn chưa làm được điều đó
Tôi thích gần như mọi thứ ở openrouter, đến mức gần như là fan luôn
Vấn đề về lớp suy luận (inference) đang được giải quyết rất nhanh
Phần khó tiếp theo là lớp governance, tức là agent có thể làm gì và cách chứng minh điều đó
Không biết Cloudflare có đang suy nghĩ về phần này không
- Sẽ rất hay nếu có hệ thống xác thực tự động dựa trên zero-trust
  Tôi hình dung mỗi agent sẽ nộp thông tin xác thực RBAC để nhận quyền
Thật vui khi thấy thương vụ mua lại Replicate cuối cùng cũng bắt đầu cho ra kết quả
Trên trang model không thấy thông tin giá
Tôi tò mò nó đắt hơn bao nhiêu so với trả tiền trực tiếp cho nhà cung cấp
Cloudflare có đang cung cấp theo giá gốc không?
Ngoài ra zero data retention không phải mặc định, và với một số nhà cung cấp thì hoàn toàn không được hỗ trợ
Sẽ tốt hơn nếu có thể trả về đầy đủ completions theo cả kiểu OpenAI lẫn Anthropic
- Tôi là kỹ sư Cloudflare. Chúng tôi sẽ sớm thêm thông tin giá vào tài liệu và dashboard
  Hiện tại giá bằng với giá của nhà cung cấp, kèm một khoản phí xử lý nhỏ thông qua unified billing credits
  Hỗ trợ completions kiểu OpenAI/Anthropic cũng sẽ sớm có
  liên kết giải thích unified billing
- Thông tin giá của Workers AI có ở đây
Rốt cuộc thì cái này có vẻ là dịch vụ tương tự openrouter
- Đúng vậy. Chỉ là độ rộng lựa chọn model hẹp hơn, trừ khi bạn tự mang model vào
- Và được cộng thêm Argo networking
Đây là một công bố khá lớn. Có vẻ đủ sức cạnh tranh như phương án thay thế AWS Bedrock
Khả năng cao uptime còn tốt hơn Anthropic hoặc AWS

Nền tảng AI của Cloudflare: lớp suy luận cho các agent

Tổng quan về Cloudflare AI Platform

Một danh mục, một endpoint hợp nhất

Tự triển khai mô hình của riêng mình (Bring Your Own Model)

Tối ưu tốc độ đến token đầu tiên

Độ tin cậy dựa trên cơ chế tự động chuyển đổi dự phòng

Tích hợp Replicate

Bắt đầu

Vai trò của Cloudflare

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News