Benchmark độ trễ Vertex AI Context Caching + Priority PayGo (400 lần, Gemini 3 Flash)

(cloudturing.com)

1 điểm bởi calmlake79 2026-02-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Dựa trên tiêu chí prompt hệ thống (đầu vào) khoảng 7.500 token và phản hồi (đầu ra) khoảng 100 token được dùng trong dịch vụ chatbot AI, bài viết benchmark hiệu quả cải thiện độ trễ của Context Caching trên Vertex AI và Priority PayGo mới ra mắt lần này.

4 kịch bản (Standard/Priority × có cache/không cache), mỗi kịch bản 100 lần, tổng cộng 400 yêu cầu
Mô hình: gemini-3-flash-preview
Cách gửi yêu cầu: staggered start với khoảng cách 1 giây

Kết quả chính:

Context Caching: thời gian phản hồi trung bình gần như giống nhau bất kể có cache hay không (~3 giây)
Priority PayGo: trong khung giờ ít tắc nghẽn, ngược lại còn chậm hơn 3~7%
Xác nhận rằng ngay cả trong kịch bản không cache, Vertex AI vẫn nội bộ thực hiện Implicit Caching
Khác biệt độ trễ theo Thinking Level là áp đảo: DEFAULT 7,4 giây → LOW 3 giây → MINIMAL 2,6 giây

Kết luận: so với việc dùng cache hay thiết lập ưu tiên, thay đổi chính cấu trúc yêu cầu mới hiệu quả hơn trong việc tối ưu độ trễ

Benchmark độ trễ Vertex AI Context Caching + Priority PayGo (400 lần, Gemini 3 Flash)

Bài viết liên quan

Chưa có bình luận nào.