- Prompt Caching tối ưu hóa việc sử dụng API, cho phép tiếp tục tác vụ từ một tiền tố cụ thể của prompt
- Tái sử dụng các prompt lớn qua nhiều lần gọi API mà không cần xử lý lại, giúp giảm đáng kể thời gian xử lý và chi phí trong các tác vụ lặp lại
- Cách hoạt động
- Cache tiền tố prompt: Hệ thống kiểm tra xem tiền tố prompt đã được cache từ truy vấn gần đây hay chưa. Nếu có, hệ thống dùng phiên bản đã cache để giảm thời gian xử lý và chi phí. Nếu không, hệ thống sẽ xử lý toàn bộ prompt và cache tiền tố đó.
- Trường hợp sử dụng: Hữu ích cho các prompt chứa nhiều ví dụ, lượng lớn ngữ cảnh hoặc thông tin nền, các tác vụ lặp lại có hướng dẫn nhất quán, và các cuộc hội thoại nhiều lượt dài
- Thời gian sống của cache: Cache có hiệu lực trong 5 phút và được làm mới mỗi khi nội dung đã cache được sử dụng
- Nội dung prompt được cache
- Tham chiếu toàn bộ prompt bao gồm công cụ, hệ thống và tin nhắn (theo đúng thứ tự đó). Bao gồm cả các khối được chỉ định bằng
cache_control
- Giá
- Claude 3.5 Sonnet: token đầu vào cơ bản $3 / MTok, ghi cache $3.75 / MTok, truy xuất cache $0.30 / MTok, token đầu ra $15 / MTok
- Claude 3 Haiku: token đầu vào cơ bản $0.25 / MTok, ghi cache $0.30 / MTok, truy xuất cache $0.03 / MTok, token đầu ra $1.25 / MTok
- Claude 3 Opus (sắp ra mắt): token đầu vào cơ bản $15 / MTok, ghi cache $18.75 / MTok, truy xuất cache $1.50 / MTok, token đầu ra $75 / MTok
- Điểm chính
- Token ghi cache đắt hơn 25% so với token đầu vào cơ bản
- Token truy xuất cache rẻ hơn 90% so với token đầu vào cơ bản
- Giới hạn của cache
- Độ dài prompt tối thiểu có thể cache:
- Claude 3.5 Sonnet và Claude 3 Opus: 1024 token
- Claude 3 Haiku: 2048 token
- Cache có TTL 5 phút và hiện tại "ephemeral" là loại cache được hỗ trợ duy nhất tương ứng với thời hạn 5 phút này
- Nhiều trường hợp sử dụng khác nhau
- Tác nhân hội thoại: Có thể giảm chi phí và độ trễ trong các cuộc trò chuyện có hướng dẫn dài hoặc tài liệu được tải lên
- Trợ lý lập trình: Giữ các phần liên quan hoặc phiên bản tóm tắt của codebase trong prompt để cải thiện hiệu năng tự động hoàn thành và hỏi đáp về codebase
- Xử lý tài liệu lớn: Có thể đưa tài liệu dài kèm hình ảnh vào prompt mà vẫn xử lý không bị trễ phản hồi
- Bộ hướng dẫn chi tiết: Tinh chỉnh phản hồi của Claude kỹ hơn bằng cách đưa vào hơn 20 ví dụ trả lời chất lượng cao và đa dạng
- Sử dụng công cụ tác nhân: Có thể cải thiện hiệu năng trong các kịch bản có nhiều lần gọi công cụ và thay đổi mã lặp đi lặp lại
- Hội thoại với sách, bài báo, tài liệu, bản chép lời podcast và các nội dung dài khác: Cho phép đưa toàn bộ tài liệu vào prompt để người dùng đặt câu hỏi
Chưa có bình luận nào.