1 điểm bởi calmlake79 2026-02-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Dựa trên tiêu chí prompt hệ thống (đầu vào) khoảng 7.500 token và phản hồi (đầu ra) khoảng 100 token được dùng trong dịch vụ chatbot AI, bài viết benchmark hiệu quả cải thiện độ trễ của Context Caching trên Vertex AI và Priority PayGo mới ra mắt lần này.

  • 4 kịch bản (Standard/Priority × có cache/không cache), mỗi kịch bản 100 lần, tổng cộng 400 yêu cầu
  • Mô hình: gemini-3-flash-preview
  • Cách gửi yêu cầu: staggered start với khoảng cách 1 giây

Kết quả chính:

  • Context Caching: thời gian phản hồi trung bình gần như giống nhau bất kể có cache hay không (~3 giây)
  • Priority PayGo: trong khung giờ ít tắc nghẽn, ngược lại còn chậm hơn 3~7%
  • Xác nhận rằng ngay cả trong kịch bản không cache, Vertex AI vẫn nội bộ thực hiện Implicit Caching
  • Khác biệt độ trễ theo Thinking Level là áp đảo: DEFAULT 7,4 giây → LOW 3 giây → MINIMAL 2,6 giây

Kết luận: so với việc dùng cache hay thiết lập ưu tiên, thay đổi chính cấu trúc yêu cầu mới hiệu quả hơn trong việc tối ưu độ trễ

Chưa có bình luận nào.

Chưa có bình luận nào.