Benchmark độ trễ Vertex AI Context Caching + Priority PayGo (400 lần, Gemini 3 Flash)
(cloudturing.com)Dựa trên tiêu chí prompt hệ thống (đầu vào) khoảng 7.500 token và phản hồi (đầu ra) khoảng 100 token được dùng trong dịch vụ chatbot AI, bài viết benchmark hiệu quả cải thiện độ trễ của Context Caching trên Vertex AI và Priority PayGo mới ra mắt lần này.
- 4 kịch bản (Standard/Priority × có cache/không cache), mỗi kịch bản 100 lần, tổng cộng 400 yêu cầu
- Mô hình: gemini-3-flash-preview
- Cách gửi yêu cầu: staggered start với khoảng cách 1 giây
Kết quả chính:
- Context Caching: thời gian phản hồi trung bình gần như giống nhau bất kể có cache hay không (~3 giây)
- Priority PayGo: trong khung giờ ít tắc nghẽn, ngược lại còn chậm hơn 3~7%
- Xác nhận rằng ngay cả trong kịch bản không cache, Vertex AI vẫn nội bộ thực hiện Implicit Caching
- Khác biệt độ trễ theo Thinking Level là áp đảo: DEFAULT 7,4 giây → LOW 3 giây → MINIMAL 2,6 giây
Kết luận: so với việc dùng cache hay thiết lập ưu tiên, thay đổi chính cấu trúc yêu cầu mới hiệu quả hơn trong việc tối ưu độ trễ
Chưa có bình luận nào.