2 điểm bởi johnonlee 2 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Trong lúc dùng OpenCode Go, tôi phát hiện một điều kỳ lạ trên dashboard. Cùng một mô hình, lượng token đầu vào tương tự (300K vs 257K) nhưng chi phí lại là $0.0096 vs $0.4455 — chênh lệch tới 46 lần. Nguyên nhân là do prompt caching.

LLM tái sử dụng phép tính trước đó khi cùng một prefix được lặp lại, và đa số tác nhân lập trình gửi nguyên vẹn toàn bộ lịch sử hội thoại (transcript) ở mỗi lượt. Trước mắt thì nhờ cache nên chi phí rẻ, nhưng khi context window đầy và xảy ra compaction, prefix sẽ bị phá vỡ và cache bị vô hiệu hóa.

Bài viết này phân tích chi phí ẩn của cách làm dựa trên transcript, cùng với cách tiếp cận thay thế là chỉ gửi structured state, dựa trên dữ liệu thực tế từ một phiên debug 44 lượt (giảm 80.4% số token). Vấn đề không chỉ là có cache hay không, mà là sự khác biệt giữa một cấu trúc "không biết cache sẽ vỡ lúc nào" và một cấu trúc "không phụ thuộc vào cache".

Chưa có bình luận nào.

Chưa có bình luận nào.