Giới hạn mức sử dụng hàng tuần của Claude Code

(news.ycombinator.com)

1 điểm bởi GN⁺ 2025-07-29 | 1 bình luận | Chia sẻ qua WhatsApp

Dịch vụ Claude Code của Anthropic đã được áp dụng giới hạn mức sử dụng hàng tuần
Áp dụng cho cả người dùng miễn phí và trả phí
Người dùng bị giới hạn về số lượng truy vấn tối đa hoặc lượng token được xử lý trong một tuần
Việc áp dụng giới hạn nhằm ngăn chặn lạm dụng dịch vụ và đảm bảo tính ổn định của tài nguyên hệ thống
Các nhà phát triển và startup cần chú ý thêm đến quản lý tài nguyên khi sử dụng API

Tổng quan về việc áp dụng giới hạn mức sử dụng hàng tuần cho Claude Code

Dịch vụ Claude Code do Anthropic cung cấp được áp dụng chính sách giới hạn mức sử dụng hàng tuần mới

Toàn bộ người dùng (miễn phí và trả phí) được đặt hạn mức nhất định về số lượng truy vấn hoặc mức sử dụng token
Hạn mức này được đưa ra để ngăn chặn lạm dụng dịch vụ, cung cấp dịch vụ công bằng và đảm bảo tính ổn định của tài nguyên hạ tầng
Hạn mức được đặt lại mỗi tuần, và nếu vượt quá giới hạn thì sẽ không thể sử dụng thêm trong tuần đó

Ảnh hưởng chính đối với nhà phát triển và startup

Khi sử dụng Claude Code trong phát triển sản phẩm, nhu cầu lập kế hoạch mức sử dụng tăng lên
Các dịch vụ tích hợp API phát sinh nhu cầu triển khai logic quản lý tự động hoặc cảnh báo khi vượt giới hạn
Khi thực hiện tạo mã số lượng lớn, phân tích hoặc gọi lặp lại, tầm quan trọng của tối ưu hóa việc sử dụng tài nguyên tăng cao

Kết luận

Việc áp dụng chính sách giới hạn mức sử dụng hàng tuần của Claude Code nhằm hướng tới tính bền vững và nâng cao chất lượng dịch vụ
Các startup và chuyên gia IT cần kiểm tra giới hạn hàng tuần và lập kế hoạch sử dụng khi tích hợp với hệ thống hiện có cũng như thiết kế dịch vụ

1 bình luận

GN⁺ 2025-07-29

Ý kiến trên Hacker News

Có lẽ tôi sẽ không chạm trần giới hạn theo tuần, nhưng việc giới hạn tính theo tuần thay vì kiểu cửa sổ 36 giờ khiến tôi thấy bất an
Nếu chạm trần thì sẽ không dùng được trong phần còn lại của tuần đó
Không thể dùng một công cụ đã quen tay lâu như vậy thì khá bất tiện
Có người có thể nói tôi phụ thuộc Claude quá nhiều, nhưng với các công cụ khác như ripgrep cũng vậy thôi
Không dùng vài ngày thì còn ổn, chứ cả tuần thì quá dài
Và việc họ nói chỉ “dưới 5% người dùng” bị ảnh hưởng cũng khá đáng chú ý
Thường các thông báo kiểu này sẽ nói là dưới 1% bị ảnh hưởng, còn Anthropic đang nói rằng 1 trong 20 người sẽ vượt giới hạn
- Với gói ChatGPT Plus, giới hạn 100 lần/tuần cho o3 đúng là mang lại cảm giác y như vậy
  Không biết mình đã dùng bao nhiêu, nên theo bản năng cứ phải dè sẻn vì đó là tài nguyên quan trọng
  Cuối cùng không tận dụng được đúng nghĩa gói mình trả tiền và lại quay sang các model như o4-mini
  Thà giới hạn theo ngày còn hơn
  Nhưng cũng có thể mục đích của giới hạn theo tuần chính là khiến người dùng tự tiết kiệm vì sợ chạm trần
- Thật buồn khi các lập trình viên đang dần phụ thuộc vào các dịch vụ trực tuyến độc quyền
  Ngày trước có thể làm mọi thứ bằng công cụ FOSS, không cần lệ thuộc vào một công ty hay dịch vụ cụ thể bằng khoản phí thuê bao hàng tháng
  Giờ thì một số người giống như nông dân phụ thuộc Monsanto, phải trả tiền hàng tháng để dùng công cụ đến mức quên cả cách làm việc nếu không có nó
- Tôi thường chạm giới hạn Pro với sonnet khoảng 3 lần mỗi ngày
  Dùng cả Claude code lẫn claude cùng lúc thì chỉ 30 phút là hết
  Tôi cũng không chạy multi-agent 24/7 hay mở nhiều cửa sổ mà vẫn vậy
  Tôi không nghĩ mình thuộc top 5% người dùng, nhưng việc hết giới hạn từ thứ Tư thì cũng không có gì lạ
  Tôi đang định bắt đầu tận dụng Claude chat nhiều hơn, nhưng nếu vài ngày liền không thể tin tưởng mà dùng thì vô nghĩa
- Anthropic nói 1 trong 20 người sẽ vướng giới hạn, nhưng tôi không nghĩ lại có nhiều người chia sẻ tài khoản hay dùng tự động hóa 24/7 đến thế
- Nếu chạm giới hạn thì không phải là không dùng được suốt cả tuần còn lại, mà chỉ không dùng được trong khoảng thời gian còn lại tương ứng
  Chính bạn cũng nói có lẽ mình ít khi chạm ngưỡng, nên nếu có chạm thì nhiều khả năng là vào khoảng 36 giờ cuối của tuần
  Ngoài ra vẫn có thể trả tiền để dùng qua API
Về lâu dài sẽ ra sao thì tôi không biết, nhưng tôi không thích cảm giác mỗi lần dùng LLM đều phải nghĩ đó là một tài nguyên hữu hạn
Mọi người đã quen với các gói không giới hạn
Mô hình tính phí hiện tại mang cảm giác gượng ép nên khá khó chịu
- “Không giới hạn” phù hợp với mọi dịch vụ có chi phí “rẻ đến mức không đáng để đo đếm”
  Internet, tin nhắn văn bản và các dịch vụ tương tự có thể làm vậy vì chi phí trực tiếp rất thấp
  Còn LLM thì hiện tại mỗi lần chạy vẫn có chi phí trực tiếp khá lớn
- Tôi không đồng ý với cấu trúc giả định mức sử dụng sẽ đều đặn suốt cả tháng
  Thường tôi dùng lai rai cả tháng rồi có vài ngày lại dồn 11 tiếng liên tục, và chính lúc đó là lúc dễ bị chặn bởi giới hạn nhất
  Vì vậy dùng API trực tiếp lại thấy tốt hơn, vì giới hạn sẽ khớp với độ dày ví tiền của mình
  Dùng thứ như OpenRouter cũng giúp tránh các giới hạn của mô hình thuê bao
  Dạo này Gemini 2.5 Pro hợp với công việc code của tôi hơn Claude
  Ngoài ra tôi cũng tò mò còn những lựa chọn nào có tính cạnh tranh về chi phí
  https://docs.anthropic.com/en/api/rate-limits#rate-limits
- Quan điểm của tôi là các công cụ kiểu này nên bỏ hẳn cách bán quyền truy cập với các mức như “20 USD/tháng”, “200 USD/tháng” rồi khiến việc tính giới hạn trở nên khó hiểu
  Cần chuyển hoàn toàn sang mô hình tính theo mức sử dụng thì mới thực sự thân thiện với người dùng
  Có thể cho free tier kiểu 20 lượt miễn phí để dùng thử ban đầu, hoặc dùng biểu phí bậc thang để tăng dần theo mức sử dụng, còn người dùng cực nặng thì trả theo sát chi phí thực tế
  Như vậy người dùng ít sẽ được dùng rẻ, đồng thời vẫn giành được thị phần
  Nếu giá tốt hơn OpenRouter thì người ta sẽ ở lại hệ sinh thái này thay vì sang công cụ bên thứ ba
  Nếu công cụ thực sự tốt, người dùng vẫn sẽ ở lại ngay cả khi tính phí theo mức sử dụng
  Vấn đề là các nhà cung cấp vừa muốn trợ giá cho người dùng để chiếm thị phần, vừa muốn chặn các trường hợp lạm dụng hay sử dụng cực đoan
  Giải pháp triệt để 100% là tính phí hoàn toàn theo mức sử dụng, không có phí vào cửa
  Nhưng nếu làm vậy thì những người chỉ đăng ký rồi dùng rất ít có thể lại thiệt, nên chắc đội kinh doanh sẽ phản đối
  Ngoài ra như vậy cũng khiến người ta dễ so sánh giá và chuyển đi nơi khác hơn, không còn cảm giác bị giữ chân 1-2 tháng nữa
- Về dài hạn, tôi nghĩ local LLM sẽ vượt các cloud LLM tốt nhất của năm 2025, để rồi 99% công việc hằng ngày có thể xử lý không giới hạn tại chỗ
  Chỉ các bài toán thực sự phức tạp mới cần kết nối lên đám mây
  LLM sẽ tiếp tục phát triển theo hướng hiệu quả hơn, còn chi phí GPU, bộ nhớ và lưu trữ cũng sẽ ngày càng rẻ và dễ tiếp cận hơn
  Hiện giờ chỉ là giai đoạn chuyển tiếp nên mới trông hơi khó chịu vậy thôi
- Dù là tài nguyên hữu hạn thì tôi vẫn thấy ổn nếu biết mình đã dùng bao nhiêu
  Việc không thể xem tiến độ mới là điều khó chịu
Tôi thấy rối về khác biệt giữa Max 5x và Max 20x
Trong email của tôi ghi rằng “đa số người dùng Max 20x có thể dùng Sonnet 4 khoảng 240~480 giờ mỗi tuần, Opus 4 khoảng 24~40 giờ”
Còn thông báo chính thức lại nói “đa số người dùng Max 5x có thể dùng Sonnet 4 khoảng 140~280 giờ mỗi tuần, Opus 4 khoảng 15~35 giờ”
Ít nhất thì tôi cũng mong giới hạn tăng hơn gấp đôi theo giá, nhưng với Opus 4 thì chênh có 5~9 giờ
Ít nhất cũng phải gấp đôi chứ? Giá thì gấp đôi mà
- Nếu đúng là như vậy thì tôi sẽ hạ ngay từ Max 20x xuống gói thấp hơn
  Ở Úc tôi đang trả 350 USD mỗi tháng
- Tôi nâng lên 20x vì cứ liên tục chạm trần Opus, nhưng giờ nhìn lại thì thấy 20x với 5x gần như chẳng khác gì nhau
- Vì thế tôi đã ngừng dùng MAX và hạ xuống Pro, rồi dùng o3 và các model khác qua API
  Ban đầu tôi không cần quá nhiều thời gian như vậy, nên khoảng 10 USD mỗi dự án là có thể dùng cả o3, Gemini, Opus
  Mấy ngày lại có model mới ra, tôi không muốn bị trói vào chỉ một nhà cung cấp
- Trên thực tế, đây không phải là vì mức sử dụng được gấp đôi mà chỉ là được ưu tiên cao hơn khi lưu lượng tăng đột biến
- Nếu tài liệu marketing khác với thực tế, tôi mong có ai đó điều tra bằng dữ liệu thật rồi khởi kiện tập thể
Tôi hiểu rằng ngay cả trả 200 USD mỗi tháng cũng vẫn không đủ
Vậy thì họ nên tạo ra một gói đủ lớn để có thể dùng mà không phải lo giới hạn
Không gì phá dòng làm việc bằng thông báo kiểu “hết giờ rồi!”
Ít nhất nếu là kiểu credit thì còn biết mình đã dùng bao nhiêu và có thể nạp thêm tiền
Khái niệm “đợi GPU hạ nhiệt” chẳng giúp ích gì cho năng suất
Nếu chạy nhiều agent thì “35 giờ” là hoàn toàn không đủ
Cũng lạ là chính công cụ lại được thiết kế để hỗ trợ kiểu dùng như vậy
- Muốn chuyển sang một gói vừa đủ cho tất cả mà vẫn có lãi thì ngược lại rất có thể mọi người sẽ chạy sang đối thủ
  Khiến người dùng phụ thuộc vào công cụ rồi từ từ tăng giá đôi khi lại là chiến lược hợp lý hơn
- “Chạy nhiều agent” không phải là trường hợp sử dụng phổ biến với gói cá nhân
  Từ trước đến nay, trong các tình huống như vậy người ta luôn phải trả theo mức dùng trực tiếp qua API
  Việc gói cố định cho phép điều đó vốn đã là sự hào phóng của dịch vụ, và ngay từ đầu họ cũng chỉ quảng cáo là “giới hạn cao hơn” chứ không phải “không giới hạn”
- API có giới hạn thoải mái hơn rất nhiều, trên thực tế gần như không bị bó buộc
  Claude cũng dùng được trên Aws và gcp, nơi giới hạn và credit cũng khác nhau, cùng với biểu giá khác nhau
- Chính sách nên được tối ưu theo “người dùng tốt” chứ không nên thiết kế dựa trên “người dùng xấu”
- Cứ dùng API thôi
Nhìn tổng thể thì tôi cho rằng đây là một thay đổi tích cực vì nó bảo vệ hệ thống khỏi một số người dùng chạy rất nhiều agent 24/7, từ đó giúp nhiều người dùng hơn có thể tiếp tục sử dụng ổn định
Tuy vậy, việc không hiển thị “còn lại bao nhiêu mức sử dụng” vẫn gây khó chịu
Không cần biết là bao nhiêu phần trăm chính xác, ít nhất nếu có thông báo giữa chừng, ví dụ lúc dùng hết một nửa, thì sẽ dễ lên kế hoạch hơn
Việc họ không cung cấp điều đó khiến người ta có cảm giác “chẳng lẽ họ không muốn chúng ta đo được?”
Không phải tôi muốn đo cực kỳ chi li, chỉ là muốn biết đại khái mình đang ở đâu
Theo tài khoản Reddit của Anthropic
đã có một người dùng tiêu thụ lượng LLM trị giá hàng chục nghìn USD chỉ với gói 200 USD
Phía công ty nói đang phát triển giải pháp riêng cho nhóm người dùng nâng cao
nhưng các giới hạn mới hiện nay nhằm mang lại trải nghiệm công bằng hơn và ngăn việc chia sẻ tài khoản hay bán lại
Và vì thế mà chúng ta không có được “dịch vụ tốt”
- Startup cũ nơi tôi từng làm cũng từng cung cấp tùy chọn không giới hạn
  Ban đầu ai cũng nghĩ không ai có thể dùng nhiều đến thế, nhưng thực tế là có quá nhiều người sáng tạo ra cách bán khai thác giới hạn của dịch vụ
  Các tài khoản được gắn vào các dịch vụ 24/7 và liên tục đẩy yêu cầu lên tới 95% ngưỡng giới hạn
  Họ còn dùng nhiều IP khác nhau, thậm chí tạo ra những mẫu hành vi trông không giống con người
  Ban đầu thì chấp nhận như vài trường hợp ngoại lệ, nhưng khi số tài khoản kiểu này tăng theo cấp số nhân
  thì thực chất là nhiều bên đang tạo nhiều tài khoản để cân bằng tải
  Nếu nhìn biểu đồ lãi/lỗ trung bình theo từng người dùng thì các tài khoản đó chỉ mang lại khoản lỗ khổng lồ và sử dụng tài nguyên ở mức tối đa, cuối cùng buộc chính sách phải thay đổi
  Mất những “khách hàng” như vậy, nhưng đa số người dùng bình thường không bị ảnh hưởng
  Ngược lại toàn bộ dịch vụ còn vận hành dễ chịu hơn
  Đây là điều mà mọi startup có mức sử dụng cao đều sẽ trải qua
- Thực tế có thể là công ty đang bán dịch vụ trong tình trạng lỗ
- Với giới hạn hiện tại mà vẫn không chặn được kiểu lạm dụng này sao? Tôi không hiểu lắm
- Hôm qua có người khoe chuyện này trên Twitter
  Họ dùng tài khoản 200 USD mà tiêu thụ tới 13.200 USD, chạy 4-5 agent chỉ dùng Opus 24/7 và còn để chúng gọi đệ quy lẫn nhau
  Rõ ràng đây là lạm dụng và đáng bị nhắm tới
  Nhưng tôi cũng không biết một nhà cung cấp inference phải ngăn chuyện này bằng cách nào
  Cursor vốn đã cộng thêm premium cao hơn so với Anthropc/OpenAI nên còn khó hơn
  Anthropic cũng ở tình thế tương tự nhưng ở đây lại không có lựa chọn premium
  Nếu với 20 USD mà mỗi tháng cho dùng tới chi phí thực tế 500 USD thì tức là đang giảm giá 95%, kiểu cấu trúc này chắc chắn không thể bền vững
  Càng trợ giá như vậy càng dễ tạo ra cảm giác “đòi quyền lợi” trong cộng đồng
  Cảm giác như bị lấy mất thứ đã quen dùng, nhưng thực ra chỉ riêng cap/opex đã không gánh nổi, chưa kể chi phí R&D thì việc duy trì model cũng đã khó
  Thành ra thứ thực tế có thể làm chỉ là “liên tục thay đổi cấu trúc giá và để người dùng chuyển sang công ty khác đang trợ giá hào phóng hơn ở thời điểm kế tiếp”
  Thà ngay từ đầu công bố đây là chính sách thử nghiệm và minh bạch về mức trợ giá còn hơn
  Mọi người sẽ được trải nghiệm model, một phần sẽ ở lại, và dù có một số người rời đi thì mức độ bất mãn cũng sẽ thấp hơn
  Nếu thực sự công khai minh bạch cấu trúc cap/chi phí vận hành/chi phí phát triển
  thì mọi người cũng sẽ hiểu rằng mức đó thực chất tương đương thuê một senior engineer làm việc không biết mệt
Sẽ hữu ích hơn rất nhiều nếu email này có thêm thông tin kiểu “bạn đã chạm giới hạn vào những tháng nào” (Aug 2024, Jan 2025, May 2025, v.v.)
Tôi hoàn toàn không biết mình có thuộc top 5% hay không
Thực ra giới hạn top 1% thì tôi còn thấy hợp lý, nhưng trong ngành SaaS thì 5% gần như đã là phần lớn người dùng thực tế rồi
Những dịch vụ kiểu này cần biểu phí theo mức sử dụng
Mọi công ty AI đều đang đụng phải cùng một vấn đề
Mô hình thuê bao phí cố định dựa trên giả định người dùng không muốn bận tâm tới chi phí
Nhưng một số rất ít power user lại đẩy mức dùng tới tận cùng giới hạn thuê bao
Các dịch vụ như Terragon còn được phát triển riêng để tối ưu hóa kiểu sử dụng đó
Vì vậy công ty cứ phải hạ giới hạn xuống, còn người dùng thì lại càng phải để ý chi phí nhiều hơn
Cursor cũng đã điều chỉnh giới hạn nhiều lần, và giờ Anthropic cũng đang đi theo hướng đó
Rốt cuộc chỉ là họ không còn muốn trợ giá cho top 10% người dùng cực nặng nữa
Tôi ước gì có một gói web tính phí theo mức sử dụng ngay trong giao diện
- API đã tồn tại, bạn có thể tự tạo token và dùng Claude Code ngay mà không cần một gói riêng
- Điều này làm tôi nhớ tới thời shared hosting những năm 1990
- Nếu cung cấp gói web tính phí theo mức sử dụng thì họ sẽ buộc phải công khai việc hỗ trợ inference thực sự đắt đến mức nào
  Ở mức dùng thực tế có năng suất cao, chạy AI hiện tại vẫn là một việc cực kỳ tốn kém
Chính “mẫu sử dụng nâng cao kiểu chạy Claude 24/7 dưới nền” khiến chúng ta không được hưởng dịch vụ tốt
- Nhưng các dịch vụ AI lại quảng cáo rằng “AI sẽ tự xử lý công việc, lập trình viên có thể uống cà phê hoặc đi ngủ trong lúc nó làm” nên rõ ràng cũng có những lập trình viên dùng dịch vụ đúng như cách đó
  Giờ quay sang trách những người dùng như vậy là vấn đề thì thấy hơi lạ
- Đọc đoạn đó tôi phải bật cười
  Cảm giác như một “kẻ hủy diệt thế giới với thiện ý” đang cố đẩy nhanh thêm cái chết nhiệt của vũ trụ vậy
- Tôi nghĩ chuyện này hiển nhiên đã được dự đoán từ trước
  Khi quyết định cấu trúc giá ban đầu hẳn họ đã cân nhắc kỹ rồi
  Chỉ là họ không muốn trì hoãn ra mắt nên việc áp dụng bị chậm lại, và giờ mới bắt đầu thực thi cho phù hợp với thực tế
- Dù định giá theo kiểu nào thì người dùng cũng sẽ cố tận dụng 100% gói của mình
  Tôi là người đăng ký Max mà vẫn thường xuyên chạm giới hạn
  Tôi chạy đúng bằng số mình đã trả tiền mà lại vẫn bị áp giới hạn, điều đó thật kỳ lạ
- Đây chính là mô hình thử nghiệm giá
  Khi kiểm soát lỏng lẻo, sớm muộn cũng sẽ có những người dùng cực đoan xuất hiện, còn công ty thì tô vẽ một thứ không bền vững như thể nó khả thi, rồi sau đó lại rút đi “phần thưởng” ấy
Có thể đây là một đề xuất hơi lạ, nhưng tôi từng nghĩ tới giới hạn thích ứng
Phương án 1: ban đầu cho phép bùng nổ trong thời gian ngắn rồi giảm dần tốc độ, sau thời gian cooldown lại có thể bùng tiếp
Như vậy người dùng có thể đạt năng suất tối đa trong các đợt ngắn, còn máy chủ cũng có thời gian nghỉ
Phương án 2: như dữ liệu di động, lượng request đầu tiên có thể chạy nhanh, sau đó bị bóp tốc độ và nếu cần thêm thì trả tiền mua thêm
Mô hình này cũng tạo thêm doanh thu
Phương án 3: phân bổ tài nguyên thích ứng ở tầng hạ tầng và mạng
Các tác vụ không dùng GPU thì hạ ưu tiên, hoặc xử lý request mạng chậm hơn, hay trong k8s thì phân phối tác vụ sang các máy chủ khác nhau theo mức sử dụng
Ngoài chuyện bàn về giới hạn, cũng nên theo dõi xem loại request nào mới thực sự ngốn chi phí, rồi tối ưu các đường code hoặc cấu trúc hạ tầng kém hiệu quả để tạo thêm dư địa
Tôi muốn nhấn mạnh rằng chỉ một tối ưu mã nhỏ cũng có thể tạo ra khác biệt rất lớn cho toàn hệ thống