1 điểm bởi GN⁺ 11 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Đầu tháng 3/2026, cache TTL của Claude Code đã được thay đổi từ 1 giờ xuống 5 phút, cho thấy đây là thay đổi do cấu hình phía máy chủ ngay cả với cùng kiểu sử dụng
  • Việc rút ngắn TTL khiến chi phí tái tạo cache tăng 20~32%mức tiêu hao quota tăng vọt trong các phiên làm việc dài
  • Phân tích cho thấy phát sinh khoảng 17% chi phí bổ sung tùy theo từng model, và một số người dùng bắt đầu chạm giới hạn quota 5 giờ
  • Anthropic giải thích rằng thay đổi ngày 6/3 là chủ đích, nhằm giảm tổng chi phí bằng cách áp dụng TTL khác nhau theo từng request
  • Cộng đồng chỉ trích chi phí tăng, thiếu minh bạch và không thông báo trước, đồng thời yêu cầu đảm bảo quyền lựa chọn cài đặt TTL cho người dùng

Báo cáo vấn đề chi phí và quota do thay đổi Cache TTL

  • Phân tích cho thấy giá trị mặc định cache TTL của Claude Code của Anthropic đã được đổi từ 1 giờ xuống 5 phút vào đầu tháng 3/2026
    • Phân tích dựa trên 119.866 lượt gọi API từ ngày 11/1/2026 đến 11/4/2026
    • TTL 5 phút xuất hiện trở lại trong giai đoạn 6/3~8/3, trong khi TTL 1 giờ dần biến mất
    • Xảy ra với cùng phiên bản client và cùng kiểu sử dụng, nên được xác nhận là thay đổi cấu hình phía máy chủ
  • Việc đổi TTL khiến chi phí tạo cache tăng 20~32%, đồng thời quan sát thấy mức tiêu hao quota tăng mạnh ở người dùng thuê bao
    • Với TTL 5 phút, nếu phiên bị dừng hơn 5 phút thì cache sẽ hết hạn và toàn bộ ngữ cảnh phải được tải lên lại
    • Việc tái tạo cache đắt hơn tối đa 12,5 lần so với đọc cache, nên chi phí tích lũy càng lớn trong các phiên code kéo dài
    • Tỷ lệ lãng phí là 1,1% trong tháng 2 khi vẫn giữ TTL 1 giờ, nhưng sau tháng 3 đã tăng vọt lên 15~53%
  • Kết quả phân tích chi phí

    • Model claude-sonnet-4-6: tổng chi phí $5,561.17 → $4,612.09 nếu tính theo TTL 1 giờ (chi vượt khoảng 17,1%)
    • Model claude-opus-4-6: tổng chi phí $9,268.97 → $7,687.17 nếu tính theo TTL 1 giờ (chi vượt khoảng 17,1%)
    • Mức lãng phí với cùng tỷ lệ xuất hiện nhất quán giữa các model
  • Tác động đến quota

    • Token tạo cache được tính toàn bộ vào quota, còn token đọc cache được tính với trọng số thấp hơn
    • Từ sau tháng 3, người dùng thuê bao lần đầu tiên bắt đầu chạm giới hạn quota 5 giờ

Phản hồi chính thức từ Anthropic

  • Thừa nhận thay đổi: thay đổi ngày 6/3 là biện pháp có chủ đích, được thực hiện như một phần của quá trình tối ưu hóa cache
    • Hệ thống được thiết kế để áp dụng TTL khác nhau theo từng loại request, không tồn tại một giá trị mặc định toàn cục duy nhất
    • Nếu áp dụng TTL 1 giờ cho mọi request thì ngược lại có thể làm tăng chi phí
    • TTL 5 phút hiệu quả hơn với các request không được tái sử dụng, và trên tổng thể các loại request thì giúp giảm tổng chi phí
  • Sửa lỗi: trong v2.1.90, đã sửa lỗi client khiến các phiên đã dùng hết toàn bộ quota thuê bao bị cố định ở TTL 5 phút cho đến khi phiên kết thúc
  • Trả lời các yêu cầu
    1. Thay đổi có xảy ra và được triển khai có chủ đích vào ngày 6/3
    2. TTL được chọn động theo từng request, không có giá trị mặc định toàn cục
    3. Không có kế hoạch khôi phục TTL 1 giờ làm mặc định hoặc cung cấp tùy chọn cài đặt
    4. Cách tính token đọc cache vào quota sẽ được hướng dẫn tiếp trong một issue riêng

Phản ứng của cộng đồng

  • Nhiều người dùng bày tỏ bất mãn, cho rằng chi phí tăng và trải nghiệm sử dụng giảm sút

    • Nhiều ý kiến cho rằng “TTL 5 phút về thực chất khiến phiên làm việc bị khởi động lại mỗi 5 phút, làm giảm năng suất”
    • Có ý kiến chỉ ra rằng “người dùng thuê bao đã trả tiền trước, nhưng thay đổi TTL khiến thời gian sử dụng thực tế bị rút ngắn”
    • Các yêu cầu tiếp tục xuất hiện rằng “những thay đổi ảnh hưởng tới chi phí người dùng như thế này bắt buộc phải được thông báo trước”
  • Một số người dùng cho rằng đây là thay đổi tích cực với người dùng API, nhưng những người khác phản bác rằng “API vốn đã mặc định TTL 5 phút”

  • Chỉ trích tập trung vào sự thiếu minh bạch

    • “Các thay đổi hạ tầng liên quan đến chi phí cần được thông báo trước, thay vì chỉ giải thích sau khi sự việc xảy ra”
    • “Kiểu ‘thay đổi âm thầm’ như vậy làm xói mòn niềm tin và buộc người dùng phải tự lần theo nguyên nhân của vấn đề”
  • Theo tài liệu, cache mặc định có TTL 5 phút, còn TTL 1 giờ được cung cấp như một tùy chọn phát sinh thêm chi phí

    • Tài liệu chính thức tính đến tháng 1/2026 cũng xác nhận mô tả tương tự

Kết luận

  • Ngày 6/3/2026, Anthropic đã thay đổi chính sách cache TTL của Claude Code từ 1 giờ xuống 5 phút
  • Công ty giải thích đây là điều chỉnh có chủ đích nhằm tối ưu chi phí, nhưng người dùng chỉ ra các vấn đề về chi phí tăng, cạn quota và thiếu minh bạch
  • Cộng đồng hiện đang yêu cầu đảm bảo quyền lựa chọn cài đặt TTL cho người dùngthông báo trước về các thay đổi chính sách trong tương lai

1 bình luận

 
Ý kiến trên Hacker News
  • Trong vài tháng gần đây, cảm giác không khí của giới kỹ sư đối với Claude/Codex đã thay đổi rõ rệt
    Đặc biệt khi các thay đổi không công khai ngày càng nhiều, cảm giác bất an của mọi người cũng tăng lên vì họ không còn chắc sản phẩm mình đã trả tiền ban đầu có còn y nguyên hay không
    Dạo này cứ nhắc đến Anthropic là phần lớn đều trong bối cảnh tiêu cực

    • Gần đây Anthropic đã thực hiện nhiều biện pháp như chặn người dùng OpenClaw, cấm harness bên thứ ba, giảm cường độ suy luận, rút ngắn độ dài phản hồi
      Đã có lúc mức sử dụng tăng đột ngột gấp 21 lần, và nhìn chung có vẻ là một nỗ lực cắt giảm chi phí
      Tôi vẫn thích Claude, nhưng ngày càng khó để giới thiệu cho bạn bè
    • Công ty tôi (hơn 400 kỹ sư) đã hủy toàn bộ đăng ký IDE (Visual Studio, JetBrains, v.v.) từ một tháng trước và chuyển sang Claude Code
      EVP cho xem hai bản demo làm trong cuối tuần và bảo cứ làm theo, nhưng chỉ sau một tuần đã có thông báo ngừng dùng vì tiêu tốn token quá mức
      Từ đó đến nay mỗi tuần đều có cảm giác mô hình yếu đi, nên tôi cũng tò mò không biết EVP giờ đang thấy thế nào
    • Mới vài tháng trước Claude Code còn rất tuyệt, nhưng dạo này có quá nhiều lỗi và hiểu sai, đến mức gần như không dùng nổi
      Tôi thử chuyển sang Codex thì thấy ổn định hơn hẳn
      Tôi đoán chiến lược là lúc mới phát hành thì giữ thật mạnh, rồi theo thời gian dần giảm hiệu năng để tăng kỳ vọng cho bản phát hành tiếp theo
    • Sau khi đăng ký, tôi cảm nhận rất rõ khả năng suy luận bị giảm
      Tôi đã đổi nhiều thiết lập và dùng script để sửa system prompt, nhưng vẫn thường xuyên rơi vào vòng lặp logic
      Rất khó phân biệt đây là bug, là cố ý làm yếu đi, hay chỉ là cảm giác chủ quan
    • Tôi thì không cảm thấy có vấn đề lớn
      Có lẽ vì tôi dùng Claude theo kiểu bắt nó refactor từng bước một
      Trước đây khi hỏi về cấu hình Grafana, Claude từng trả lời rằng nó “chỉ đoán thôi”, rồi cuối cùng tiêu tốn 35k token chỉ để chỉ ra một checkbox đơn giản
      Đồng nghiệp của tôi cảm thấy hiệu năng đi xuống và đang chuyển sang Cursor, nhưng tôi vẫn tiếp tục dùng vì vẫn thích luồng hội thoại của Claude
  • Dạo này Claude Code và dịch vụ thuê bao kém hữu ích hơn trước rất nhiều
    Nhiều vấn đề đang chồng chất như bug, tốc độ đốt quota, hiệu năng mô hình suy giảm, vấn đề vô hiệu hóa cache, nghi vấn lượng tử hóa
    Trước đây có thể triển khai prototype trong một lần, còn bây giờ ngay cả khi có đặc tả chi tiết thì cũng gần như bất khả thi
    ChatGPT cũng đang yếu đi theo cách tương tự
    Có vẻ cả Anthropic lẫn OpenAI đều không phải giải pháp căn bản

    • Một người bạn của tôi đang dùng tính năng đa mô hình của Cursor và khá hài lòng
      Vài tháng trước còn có nhiều lời bảo Cursor đã chết, nhưng giờ ngược lại lại đang dùng tốt
    • Có vẻ do nhu cầu bùng nổ nên phần lớn người dùng đang bị cung cấp mô hình lượng tử hóa cao mà không được thông báo
    • Phần lớn các dịch vụ AI kiểu này đều là mô hình trợ giá đang lỗ, nên theo thời gian chất lượng giảm và giá tăng là diễn biến tất nhiên
  • Giới hạn quota theo phiên quá ngặt khiến UX rơi vào vòng xoáy xấu
    Khi cache một giờ hết hạn, việc bắt đầu lại tốn nhiều chi phí hơn, và kết quả là phiên tiếp theo cũng bị tiêu hao nhanh hơn
    Giữa tháng 3, ngay cả gói Pro cũng kết thúc phiên trong chưa đầy một giờ, gần như không thể sử dụng được

  • Cách ghi tiêu đề bị sai nên gây hiểu nhầm
    Phải dùng “min” thay vì “M”, nếu không sẽ trông như TTL tăng từ 1 giờ lên 5 tháng

    • Thật đáng tiếc vì việc đổi tiêu đề tạo cảm giác như đang che giấu quy mô của vấn đề
    • Lúc đầu tôi cũng hoang mang kiểu “M là gì vậy?”
  • Dạo này Claude thường trả lời sai cả câu hỏi car wash
    Nó có xu hướng phóng đại độ khó của việc giải quyết vấn đề, hoặc chọn đường dễ với lý do “sẽ mất quá nhiều thời gian”

    • Trong vài tuần gần đây, tôi có cảm giác system prompt đang giới hạn mức độ nỗ lực của mô hình
      Nếu xem log JSON sẽ thấy lặp đi lặp lại những câu như “cái này quá phức tạp nên hãy xử lý bằng hardcode”
      Có vẻ Anthropic đang cố tìm điểm cân bằng giữa thiếu hụt tài nguyên tính toánlượng người dùng mới tăng vọt
    • Tôi cũng nghe một trường hợp Claude từng từ chối một việc vì nói “cái này mất vài tuần”, nhưng sau khi thuyết phục thì lại hoàn thành trong 30 giây
    • Trông đúng như chuỗi điển hình “bán lỗ → hoảng loạn → phá hỏng sản phẩm”
    • Tốc độ tiêu token cũng nhanh hơn, trước đây còn chạy song song được 3~5 dự án, giờ thì ngay cả một cái cũng khó xong
    • Nếu dùng prompt mạnh kiểu “đừng quan tâm rủi ro, cứ làm đi!” thì mô hình lại hành động tích cực hơn
      Đây là một kiểu phương pháp tạo động lực cho LLM khá hung hăng nhưng hiệu quả
  • Anthropic đã để lại phản hồi chính thức trong GitHub issue

    • Đọc thread đó có cảm giác như Claude đang nói chuyện với những Claude khác
    • Việc họ thừa nhận thay đổi ngày 6 tháng 3 là điều khá thú vị. Xin vỗ tay cho những người đã phát hiện ra điều này qua phân tích prompt
    • Phần giải thích của công ty có logic, nhưng các thuật ngữ như “cache read likelihood” nghe giống màu mè quá mức, nên có vẻ cộng đồng không tiếp nhận tốt
  • Tôi tự làm một công cụ chat dựa trên API và gắn thêm cache
    Với cache 5 phút thì nhịp hội thoại không khớp nên hay hết hạn, nhưng với các công cụ có prefix chung thì hiệu quả tiết kiệm khá lớn
    Nếu tận dụng cache tốt thì có thể giảm chi phí đáng kể

  • Vì chính sách hết hạn cache không khớp với phiên 5 giờ, tôi đang cân nhắc cách giữ cache bằng script tiêu thụ số token tối thiểu mỗi 4 phút 50 giây khi mức dùng phiên chạm khoảng 97%

  • Tôi có nghe trong podcast Dwarkesh rằng Anthropic thận trọng trong việc mở rộng tài nguyên tính toán
    Khi nhu cầu tăng vọt thì việc cố giảm lượng tính toán là điều khó tránh
    Đây không phải vấn đề có thể giải quyết trong ngắn hạn chỉ bằng cách đổ thêm tiền

    • Hiện tượng này thường xuất hiện ở giai đoạn tiền huấn luyện mô hình mới. Thời 3.x cũng từng như vậy
  • Tách biệt với những thay đổi kỳ lạ của Anthropic/Claude, khi nhìn vào dữ liệu bảng trong bài đăng này thì tôi thấy khá rối vì chi phí và số lần gọi của tháng 2 và tháng 4 gần như giống hệt nhau
    Tôi không rõ mình đã bỏ sót điều gì