- Xây dựng lớp suy luận hợp nhất nhằm giảm độ phức tạp của các ứng dụng dạng agent bằng cách tích hợp nhiều mô hình và nhà cung cấp
- Thông qua AI Gateway và Workers AI, có thể gọi hơn 70 mô hình và hơn 12 nhà cung cấp bằng một API duy nhất, đồng thời quản lý chi phí và mức sử dụng một cách tập trung
- Hỗ trợ chạy mô hình trên nền tảng container bằng công nghệ Cog của Replicate để có thể trực tiếp triển khai mô hình tùy chỉnh
- Tận dụng hạ tầng tại 330 thành phố trên toàn thế giới để giảm thiểu độ trễ, đồng thời đảm bảo suy luận ổn định bằng định tuyến tự động khi xảy ra sự cố
- Đội ngũ Replicate đã gia nhập Cloudflare để tích hợp hoàn toàn việc lưu trữ và triển khai mô hình, đồng thời mở rộng thành nền tảng hợp nhất cho phát triển agent
Tổng quan về Cloudflare AI Platform
- Do mô hình AI thay đổi nhanh và sự khác biệt giữa các nhà cung cấp, độ phức tạp của các ứng dụng dạng agent sử dụng kết hợp nhiều mô hình đang tăng lên
- Ví dụ, một agent hỗ trợ khách hàng có thể dùng mô hình nhanh để phân loại tin nhắn, mô hình lớn để lập kế hoạch và mô hình gọn nhẹ để thực thi
- Cần quản lý tập trung chi phí, độ tin cậy và độ trễ mà không bị phụ thuộc vào một nhà cung cấp duy nhất
- Dựa trên AI Gateway và Workers AI, Cloudflare đã xây dựng lớp suy luận hợp nhất cho phép gọi mọi mô hình bằng một API duy nhất
- Gần đây đã bổ sung cải tiến dashboard, thiết lập gateway mặc định tự động, tự động thử lại khi upstream gặp sự cố và khả năng kiểm soát logging chi tiết hơn
Một danh mục, một endpoint hợp nhất
- Thông qua binding AI.run(), có thể gọi trực tiếp các mô hình bên thứ ba như OpenAI, Anthropic từ Cloudflare Workers
- Khi chuyển từ mô hình do Cloudflare lưu trữ sang mô hình bên thứ ba, chỉ cần sửa một dòng mã
- Hỗ trợ REST API cũng sẽ sớm được cung cấp, cho phép truy cập toàn bộ danh mục mô hình trong mọi môi trường
- Có thể sử dụng hơn 70 mô hình và hơn 12 nhà cung cấp thông qua một API và một đơn vị thanh toán duy nhất
- Các nhà cung cấp chính gồm: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Có thể xây dựng ứng dụng đa phương thức với các mô hình hình ảnh, video và giọng nói
- Mọi lệnh gọi mô hình được hợp nhất qua một API, cho phép quản lý tập trung mức sử dụng AI và chi phí
- Trung bình, doanh nghiệp đang gọi 3,5 mô hình từ nhiều nhà cung cấp, nhưng AI Gateway cho phép theo dõi toàn bộ trong một dashboard duy nhất
- Có thể đưa vào metadata tùy chỉnh trong từng yêu cầu để phân tích chi phí theo khách hàng hoặc theo workflow
Tự triển khai mô hình của riêng mình (Bring Your Own Model)
- AI Gateway hợp nhất các mô hình từ mọi nhà cung cấp, đồng thời đang chuẩn bị để người dùng có thể trực tiếp triển khai mô hình được fine-tune bằng dữ liệu riêng
- Hiện tại, khách hàng enterprise đang chạy mô hình tùy chỉnh trên các instance chuyên dụng và kế hoạch là mở rộng cho người dùng phổ thông
- Cloudflare sử dụng công nghệ Cog của Replicate để container hóa các mô hình machine learning
- Khai báo dependency trong file
cog.yaml và viết mã suy luận trong file predict.py thì quá trình đóng gói sẽ được thực hiện tự động
- Cog trừu tượng hóa các thiết lập phức tạp như CUDA, phiên bản Python và tải trọng số
- Sau khi build image container bằng lệnh
cog build và tải lên Workers AI, Cloudflare sẽ thực hiện triển khai và cung cấp dịch vụ
- Trong tương lai sẽ cung cấp lệnh wrangler, khởi động nguội nhanh dựa trên GPU snapshot và API cho khách hàng
- Hiện đang thử nghiệm với khách hàng nội bộ và một số khách hàng bên ngoài, đồng thời có kế hoạch mở rộng để bất kỳ ai cũng có thể dùng mô hình riêng trên Workers AI
Tối ưu tốc độ đến token đầu tiên
- Tổ hợp AI Gateway + Workers AI đặc biệt phù hợp với agent hoạt động thời gian thực, nơi phản hồi nhanh là rất quan trọng
- Dù tổng thời gian suy luận là 3 giây, nếu token đầu tiên đến sớm hơn 50ms thì tốc độ cảm nhận của người dùng vẫn được cải thiện
- Cloudflare giảm thiểu độ trễ mạng giữa người dùng và endpoint suy luận thông qua các trung tâm dữ liệu tại 330 thành phố trên toàn thế giới
- Workers AI lưu trữ các mô hình mã nguồn mở tối ưu cho agent như Kimi K2.5 và các mô hình giọng nói thời gian thực
- Khi gọi qua AI Gateway, mã và suy luận chạy trong cùng một mạng, giúp đạt độ trễ thấp nhất
Độ tin cậy dựa trên cơ chế tự động chuyển đổi dự phòng
- Workflow của agent có mức độ phụ thuộc cao giữa các bước, nên độ ổn định của suy luận là yếu tố cốt lõi
- Nếu cùng một mô hình có trên nhiều nhà cung cấp, AI Gateway sẽ tự động định tuyến sang nhà cung cấp khác khi một bên gặp sự cố
- Nhà phát triển không cần tự viết logic xử lý lỗi riêng
- Với các agent chạy dài hạn sử dụng Agents SDK, suy luận streaming có thể được khôi phục ngay cả khi kết nối bị gián đoạn
- AI Gateway đệm phản hồi streaming một cách độc lập, nên khi bị gián đoạn có thể kết nối lại và tái sử dụng cùng phản hồi đó
- Có thể khôi phục cùng token mà không bị tính phí trùng lặp, và khi kết hợp với tính năng checkpoint của SDK thì người dùng sẽ không nhận ra sự gián đoạn
Tích hợp Replicate
- Đội ngũ Replicate đã gia nhập đội Cloudflare AI Platform và đang tiến hành tích hợp hoàn toàn
- Toàn bộ mô hình của Replicate sẽ được chuyển sang AI Gateway, còn các mô hình được host sẽ được tái nền tảng hóa trên hạ tầng Cloudflare
- Người dùng có thể gọi các mô hình Replicate hiện có từ AI Gateway hoặc lưu trữ các mô hình đã triển khai trên Replicate bằng Workers AI
Bắt đầu
Vai trò của Cloudflare
- Cloudflare là connectivity cloud giúp bảo vệ mạng doanh nghiệp, xây dựng ứng dụng quy mô lớn, tăng tốc hiệu năng web, đồng thời hỗ trợ phòng chống DDoS và bảo mật Zero Trust
- Với ứng dụng miễn phí 1.1.1.1, người dùng có thể truy cập Internet nhanh hơn và an toàn hơn
- Sứ mệnh của Cloudflare là xây dựng một Internet tốt hơn, và có thể xem thêm thông tin cũng như cơ hội tuyển dụng trên website chính thức
1 bình luận
Ý kiến trên Hacker News
Rốt cuộc thì cái này trông như openrouter gắn thêm Cloudflare Argo networking
Có vẻ họ có thể làm được thứ thú vị hơn nữa bằng cách tận dụng thương vụ mua lại Replicate
RL theo từng ứng dụng đang ngày càng tốt hơn, nhưng lại thiếu cách triển khai ở quy mô lớn
Những bên như Fireworks cũng nói là có triển khai mở rộng LORA, nhưng thực tế không ổn lắm
Vì vậy hiện tại tôi đang tự host tải cơ bản của app mình bằng vài chiếc 3090 đặt trong gara. Nghe buồn cười thật nhưng như vậy tiết kiệm được 1.000 USD mỗi tháng
Cái này trông khá hữu ích. Cloudflare đang gom được nhiều công cụ tốt
Đặc biệt D2 gần như là sqlite-as-a-service duy nhất, độ ổn định cũng tốt và hạn mức gói miễn phí khá rộng rãi
Muốn bind DB mới thì phải triển khai lại Worker, nên gần như là bất khả thi
Query bị kẹt ở lớp mạng nội bộ trong vài giây, nặng thì đến hàng chục giây
Một số query thậm chí còn không hiện trên dashboard observability, nên nếu không tự thêm phát hiện timeout thì sẽ không biết có vấn đề
Nó cũng không hỗ trợ transaction, và trong chuỗi issue thì PM nói không có kế hoạch triển khai
Muốn đảm bảo tính nhất quán dữ liệu thì phải dùng Durable Object, mà như vậy lại có thêm chi phí và trade-off khác
Ý tưởng thì hay nhưng khó tin cậy cho production, còn dự án cá nhân thì ổn
Hiện giờ chỉ làm được bằng code tùy chỉnh trong Worker
Bảo là đang làm OpenRouter nhưng lại chỉ hỗ trợ runtime binding riêng thì khó mà hiểu nổi
Danh sách model Workers AI và
catalog model AI có tập model khác nhau
Namespace “workers-ai/*” có ít model hơn hẳn. Không rõ đây có phải chủ đích không
“workers-ai/@cf/nvidia/nemotron-3-120b-a12b”
không có trong endpoint /models của gateway.ai.cloudflare.com. Nhưng chúng lại tồn tại dưới dạng hosted model
Tôi đang dùng openrouter rất ổn trên Cloudflare Workers
Khi model bị offline thì tính năng cascading và waterfalling cũng tốt hơn nhiều
Có vẻ ở V1 thì vẫn chưa làm được điều đó
Tôi thích gần như mọi thứ ở openrouter, đến mức gần như là fan luôn
Vấn đề về lớp suy luận (inference) đang được giải quyết rất nhanh
Phần khó tiếp theo là lớp governance, tức là agent có thể làm gì và cách chứng minh điều đó
Không biết Cloudflare có đang suy nghĩ về phần này không
Tôi hình dung mỗi agent sẽ nộp thông tin xác thực RBAC để nhận quyền
Thật vui khi thấy thương vụ mua lại Replicate cuối cùng cũng bắt đầu cho ra kết quả
Trên trang model không thấy thông tin giá
Tôi tò mò nó đắt hơn bao nhiêu so với trả tiền trực tiếp cho nhà cung cấp
Cloudflare có đang cung cấp theo giá gốc không?
Ngoài ra zero data retention không phải mặc định, và với một số nhà cung cấp thì hoàn toàn không được hỗ trợ
Sẽ tốt hơn nếu có thể trả về đầy đủ completions theo cả kiểu OpenAI lẫn Anthropic
Hiện tại giá bằng với giá của nhà cung cấp, kèm một khoản phí xử lý nhỏ thông qua unified billing credits
Hỗ trợ completions kiểu OpenAI/Anthropic cũng sẽ sớm có
liên kết giải thích unified billing
Rốt cuộc thì cái này có vẻ là dịch vụ tương tự openrouter
Đây là một công bố khá lớn. Có vẻ đủ sức cạnh tranh như phương án thay thế AWS Bedrock
Khả năng cao uptime còn tốt hơn Anthropic hoặc AWS