Anthropic rút ngắn cache TTL từ 1 giờ xuống 5 phút vào ngày 6/3/2026
(github.com/anthropics)- Đầu tháng 3/2026, cache TTL của Claude Code đã được thay đổi từ 1 giờ xuống 5 phút, cho thấy đây là thay đổi do cấu hình phía máy chủ ngay cả với cùng kiểu sử dụng
- Việc rút ngắn TTL khiến chi phí tái tạo cache tăng 20~32% và mức tiêu hao quota tăng vọt trong các phiên làm việc dài
- Phân tích cho thấy phát sinh khoảng 17% chi phí bổ sung tùy theo từng model, và một số người dùng bắt đầu chạm giới hạn quota 5 giờ
- Anthropic giải thích rằng thay đổi ngày 6/3 là chủ đích, nhằm giảm tổng chi phí bằng cách áp dụng TTL khác nhau theo từng request
- Cộng đồng chỉ trích chi phí tăng, thiếu minh bạch và không thông báo trước, đồng thời yêu cầu đảm bảo quyền lựa chọn cài đặt TTL cho người dùng
Báo cáo vấn đề chi phí và quota do thay đổi Cache TTL
- Phân tích cho thấy giá trị mặc định cache TTL của Claude Code của Anthropic đã được đổi từ 1 giờ xuống 5 phút vào đầu tháng 3/2026
- Phân tích dựa trên 119.866 lượt gọi API từ ngày 11/1/2026 đến 11/4/2026
- TTL 5 phút xuất hiện trở lại trong giai đoạn 6/3~8/3, trong khi TTL 1 giờ dần biến mất
- Xảy ra với cùng phiên bản client và cùng kiểu sử dụng, nên được xác nhận là thay đổi cấu hình phía máy chủ
- Việc đổi TTL khiến chi phí tạo cache tăng 20~32%, đồng thời quan sát thấy mức tiêu hao quota tăng mạnh ở người dùng thuê bao
- Với TTL 5 phút, nếu phiên bị dừng hơn 5 phút thì cache sẽ hết hạn và toàn bộ ngữ cảnh phải được tải lên lại
- Việc tái tạo cache đắt hơn tối đa 12,5 lần so với đọc cache, nên chi phí tích lũy càng lớn trong các phiên code kéo dài
- Tỷ lệ lãng phí là 1,1% trong tháng 2 khi vẫn giữ TTL 1 giờ, nhưng sau tháng 3 đã tăng vọt lên 15~53%
-
Kết quả phân tích chi phí
- Model
claude-sonnet-4-6: tổng chi phí $5,561.17 → $4,612.09 nếu tính theo TTL 1 giờ (chi vượt khoảng 17,1%) - Model
claude-opus-4-6: tổng chi phí $9,268.97 → $7,687.17 nếu tính theo TTL 1 giờ (chi vượt khoảng 17,1%) - Mức lãng phí với cùng tỷ lệ xuất hiện nhất quán giữa các model
- Model
-
Tác động đến quota
- Token tạo cache được tính toàn bộ vào quota, còn token đọc cache được tính với trọng số thấp hơn
- Từ sau tháng 3, người dùng thuê bao lần đầu tiên bắt đầu chạm giới hạn quota 5 giờ
Phản hồi chính thức từ Anthropic
- Thừa nhận thay đổi: thay đổi ngày 6/3 là biện pháp có chủ đích, được thực hiện như một phần của quá trình tối ưu hóa cache
- Hệ thống được thiết kế để áp dụng TTL khác nhau theo từng loại request, không tồn tại một giá trị mặc định toàn cục duy nhất
- Nếu áp dụng TTL 1 giờ cho mọi request thì ngược lại có thể làm tăng chi phí
- TTL 5 phút hiệu quả hơn với các request không được tái sử dụng, và trên tổng thể các loại request thì giúp giảm tổng chi phí
- Sửa lỗi: trong v2.1.90, đã sửa lỗi client khiến các phiên đã dùng hết toàn bộ quota thuê bao bị cố định ở TTL 5 phút cho đến khi phiên kết thúc
- Trả lời các yêu cầu
- Thay đổi có xảy ra và được triển khai có chủ đích vào ngày 6/3
- TTL được chọn động theo từng request, không có giá trị mặc định toàn cục
- Không có kế hoạch khôi phục TTL 1 giờ làm mặc định hoặc cung cấp tùy chọn cài đặt
- Cách tính token đọc cache vào quota sẽ được hướng dẫn tiếp trong một issue riêng
Phản ứng của cộng đồng
-
Nhiều người dùng bày tỏ bất mãn, cho rằng chi phí tăng và trải nghiệm sử dụng giảm sút
- Nhiều ý kiến cho rằng “TTL 5 phút về thực chất khiến phiên làm việc bị khởi động lại mỗi 5 phút, làm giảm năng suất”
- Có ý kiến chỉ ra rằng “người dùng thuê bao đã trả tiền trước, nhưng thay đổi TTL khiến thời gian sử dụng thực tế bị rút ngắn”
- Các yêu cầu tiếp tục xuất hiện rằng “những thay đổi ảnh hưởng tới chi phí người dùng như thế này bắt buộc phải được thông báo trước”
-
Một số người dùng cho rằng đây là thay đổi tích cực với người dùng API, nhưng những người khác phản bác rằng “API vốn đã mặc định TTL 5 phút”
-
Chỉ trích tập trung vào sự thiếu minh bạch
- “Các thay đổi hạ tầng liên quan đến chi phí cần được thông báo trước, thay vì chỉ giải thích sau khi sự việc xảy ra”
- “Kiểu ‘thay đổi âm thầm’ như vậy làm xói mòn niềm tin và buộc người dùng phải tự lần theo nguyên nhân của vấn đề”
-
Theo tài liệu, cache mặc định có TTL 5 phút, còn TTL 1 giờ được cung cấp như một tùy chọn phát sinh thêm chi phí
- Tài liệu chính thức tính đến tháng 1/2026 cũng xác nhận mô tả tương tự
Kết luận
- Ngày 6/3/2026, Anthropic đã thay đổi chính sách cache TTL của Claude Code từ 1 giờ xuống 5 phút
- Công ty giải thích đây là điều chỉnh có chủ đích nhằm tối ưu chi phí, nhưng người dùng chỉ ra các vấn đề về chi phí tăng, cạn quota và thiếu minh bạch
- Cộng đồng hiện đang yêu cầu đảm bảo quyền lựa chọn cài đặt TTL cho người dùng và thông báo trước về các thay đổi chính sách trong tương lai
1 bình luận
Ý kiến trên Hacker News
Trong vài tháng gần đây, cảm giác không khí của giới kỹ sư đối với Claude/Codex đã thay đổi rõ rệt
Đặc biệt khi các thay đổi không công khai ngày càng nhiều, cảm giác bất an của mọi người cũng tăng lên vì họ không còn chắc sản phẩm mình đã trả tiền ban đầu có còn y nguyên hay không
Dạo này cứ nhắc đến Anthropic là phần lớn đều trong bối cảnh tiêu cực
Đã có lúc mức sử dụng tăng đột ngột gấp 21 lần, và nhìn chung có vẻ là một nỗ lực cắt giảm chi phí
Tôi vẫn thích Claude, nhưng ngày càng khó để giới thiệu cho bạn bè
EVP cho xem hai bản demo làm trong cuối tuần và bảo cứ làm theo, nhưng chỉ sau một tuần đã có thông báo ngừng dùng vì tiêu tốn token quá mức
Từ đó đến nay mỗi tuần đều có cảm giác mô hình yếu đi, nên tôi cũng tò mò không biết EVP giờ đang thấy thế nào
Tôi thử chuyển sang Codex thì thấy ổn định hơn hẳn
Tôi đoán chiến lược là lúc mới phát hành thì giữ thật mạnh, rồi theo thời gian dần giảm hiệu năng để tăng kỳ vọng cho bản phát hành tiếp theo
Tôi đã đổi nhiều thiết lập và dùng script để sửa system prompt, nhưng vẫn thường xuyên rơi vào vòng lặp logic
Rất khó phân biệt đây là bug, là cố ý làm yếu đi, hay chỉ là cảm giác chủ quan
Có lẽ vì tôi dùng Claude theo kiểu bắt nó refactor từng bước một
Trước đây khi hỏi về cấu hình Grafana, Claude từng trả lời rằng nó “chỉ đoán thôi”, rồi cuối cùng tiêu tốn 35k token chỉ để chỉ ra một checkbox đơn giản
Đồng nghiệp của tôi cảm thấy hiệu năng đi xuống và đang chuyển sang Cursor, nhưng tôi vẫn tiếp tục dùng vì vẫn thích luồng hội thoại của Claude
Dạo này Claude Code và dịch vụ thuê bao kém hữu ích hơn trước rất nhiều
Nhiều vấn đề đang chồng chất như bug, tốc độ đốt quota, hiệu năng mô hình suy giảm, vấn đề vô hiệu hóa cache, nghi vấn lượng tử hóa
Trước đây có thể triển khai prototype trong một lần, còn bây giờ ngay cả khi có đặc tả chi tiết thì cũng gần như bất khả thi
ChatGPT cũng đang yếu đi theo cách tương tự
Có vẻ cả Anthropic lẫn OpenAI đều không phải giải pháp căn bản
Vài tháng trước còn có nhiều lời bảo Cursor đã chết, nhưng giờ ngược lại lại đang dùng tốt
Giới hạn quota theo phiên quá ngặt khiến UX rơi vào vòng xoáy xấu
Khi cache một giờ hết hạn, việc bắt đầu lại tốn nhiều chi phí hơn, và kết quả là phiên tiếp theo cũng bị tiêu hao nhanh hơn
Giữa tháng 3, ngay cả gói Pro cũng kết thúc phiên trong chưa đầy một giờ, gần như không thể sử dụng được
Cách ghi tiêu đề bị sai nên gây hiểu nhầm
Phải dùng “min” thay vì “M”, nếu không sẽ trông như TTL tăng từ 1 giờ lên 5 tháng
Dạo này Claude thường trả lời sai cả câu hỏi car wash
Nó có xu hướng phóng đại độ khó của việc giải quyết vấn đề, hoặc chọn đường dễ với lý do “sẽ mất quá nhiều thời gian”
Nếu xem log JSON sẽ thấy lặp đi lặp lại những câu như “cái này quá phức tạp nên hãy xử lý bằng hardcode”
Có vẻ Anthropic đang cố tìm điểm cân bằng giữa thiếu hụt tài nguyên tính toán và lượng người dùng mới tăng vọt
Đây là một kiểu phương pháp tạo động lực cho LLM khá hung hăng nhưng hiệu quả
Anthropic đã để lại phản hồi chính thức trong GitHub issue
Tôi tự làm một công cụ chat dựa trên API và gắn thêm cache
Với cache 5 phút thì nhịp hội thoại không khớp nên hay hết hạn, nhưng với các công cụ có prefix chung thì hiệu quả tiết kiệm khá lớn
Nếu tận dụng cache tốt thì có thể giảm chi phí đáng kể
Vì chính sách hết hạn cache không khớp với phiên 5 giờ, tôi đang cân nhắc cách giữ cache bằng script tiêu thụ số token tối thiểu mỗi 4 phút 50 giây khi mức dùng phiên chạm khoảng 97%
Tôi có nghe trong podcast Dwarkesh rằng Anthropic thận trọng trong việc mở rộng tài nguyên tính toán
Khi nhu cầu tăng vọt thì việc cố giảm lượng tính toán là điều khó tránh
Đây không phải vấn đề có thể giải quyết trong ngắn hạn chỉ bằng cách đổ thêm tiền
Tách biệt với những thay đổi kỳ lạ của Anthropic/Claude, khi nhìn vào dữ liệu bảng trong bài đăng này thì tôi thấy khá rối vì chi phí và số lần gọi của tháng 2 và tháng 4 gần như giống hệt nhau
Tôi không rõ mình đã bỏ sót điều gì