Giới hạn mức sử dụng hàng tuần của Claude Code
(news.ycombinator.com)- Dịch vụ Claude Code của Anthropic đã được áp dụng giới hạn mức sử dụng hàng tuần
- Áp dụng cho cả người dùng miễn phí và trả phí
- Người dùng bị giới hạn về số lượng truy vấn tối đa hoặc lượng token được xử lý trong một tuần
- Việc áp dụng giới hạn nhằm ngăn chặn lạm dụng dịch vụ và đảm bảo tính ổn định của tài nguyên hệ thống
- Các nhà phát triển và startup cần chú ý thêm đến quản lý tài nguyên khi sử dụng API
Tổng quan về việc áp dụng giới hạn mức sử dụng hàng tuần cho Claude Code
Dịch vụ Claude Code do Anthropic cung cấp được áp dụng chính sách giới hạn mức sử dụng hàng tuần mới
- Toàn bộ người dùng (miễn phí và trả phí) được đặt hạn mức nhất định về số lượng truy vấn hoặc mức sử dụng token
- Hạn mức này được đưa ra để ngăn chặn lạm dụng dịch vụ, cung cấp dịch vụ công bằng và đảm bảo tính ổn định của tài nguyên hạ tầng
- Hạn mức được đặt lại mỗi tuần, và nếu vượt quá giới hạn thì sẽ không thể sử dụng thêm trong tuần đó
Ảnh hưởng chính đối với nhà phát triển và startup
- Khi sử dụng Claude Code trong phát triển sản phẩm, nhu cầu lập kế hoạch mức sử dụng tăng lên
- Các dịch vụ tích hợp API phát sinh nhu cầu triển khai logic quản lý tự động hoặc cảnh báo khi vượt giới hạn
- Khi thực hiện tạo mã số lượng lớn, phân tích hoặc gọi lặp lại, tầm quan trọng của tối ưu hóa việc sử dụng tài nguyên tăng cao
Kết luận
- Việc áp dụng chính sách giới hạn mức sử dụng hàng tuần của Claude Code nhằm hướng tới tính bền vững và nâng cao chất lượng dịch vụ
- Các startup và chuyên gia IT cần kiểm tra giới hạn hàng tuần và lập kế hoạch sử dụng khi tích hợp với hệ thống hiện có cũng như thiết kế dịch vụ
1 bình luận
Ý kiến trên Hacker News
Có lẽ tôi sẽ không chạm trần giới hạn theo tuần, nhưng việc giới hạn tính theo tuần thay vì kiểu cửa sổ 36 giờ khiến tôi thấy bất an
Nếu chạm trần thì sẽ không dùng được trong phần còn lại của tuần đó
Không thể dùng một công cụ đã quen tay lâu như vậy thì khá bất tiện
Có người có thể nói tôi phụ thuộc Claude quá nhiều, nhưng với các công cụ khác như
ripgrepcũng vậy thôiKhông dùng vài ngày thì còn ổn, chứ cả tuần thì quá dài
Và việc họ nói chỉ “dưới 5% người dùng” bị ảnh hưởng cũng khá đáng chú ý
Thường các thông báo kiểu này sẽ nói là dưới 1% bị ảnh hưởng, còn Anthropic đang nói rằng 1 trong 20 người sẽ vượt giới hạn
Với gói ChatGPT Plus, giới hạn 100 lần/tuần cho o3 đúng là mang lại cảm giác y như vậy
Không biết mình đã dùng bao nhiêu, nên theo bản năng cứ phải dè sẻn vì đó là tài nguyên quan trọng
Cuối cùng không tận dụng được đúng nghĩa gói mình trả tiền và lại quay sang các model như o4-mini
Thà giới hạn theo ngày còn hơn
Nhưng cũng có thể mục đích của giới hạn theo tuần chính là khiến người dùng tự tiết kiệm vì sợ chạm trần
Thật buồn khi các lập trình viên đang dần phụ thuộc vào các dịch vụ trực tuyến độc quyền
Ngày trước có thể làm mọi thứ bằng công cụ FOSS, không cần lệ thuộc vào một công ty hay dịch vụ cụ thể bằng khoản phí thuê bao hàng tháng
Giờ thì một số người giống như nông dân phụ thuộc Monsanto, phải trả tiền hàng tháng để dùng công cụ đến mức quên cả cách làm việc nếu không có nó
Tôi thường chạm giới hạn Pro với sonnet khoảng 3 lần mỗi ngày
Dùng cả Claude code lẫn claude cùng lúc thì chỉ 30 phút là hết
Tôi cũng không chạy multi-agent 24/7 hay mở nhiều cửa sổ mà vẫn vậy
Tôi không nghĩ mình thuộc top 5% người dùng, nhưng việc hết giới hạn từ thứ Tư thì cũng không có gì lạ
Tôi đang định bắt đầu tận dụng Claude chat nhiều hơn, nhưng nếu vài ngày liền không thể tin tưởng mà dùng thì vô nghĩa
Anthropic nói 1 trong 20 người sẽ vướng giới hạn, nhưng tôi không nghĩ lại có nhiều người chia sẻ tài khoản hay dùng tự động hóa 24/7 đến thế
Nếu chạm giới hạn thì không phải là không dùng được suốt cả tuần còn lại, mà chỉ không dùng được trong khoảng thời gian còn lại tương ứng
Chính bạn cũng nói có lẽ mình ít khi chạm ngưỡng, nên nếu có chạm thì nhiều khả năng là vào khoảng 36 giờ cuối của tuần
Ngoài ra vẫn có thể trả tiền để dùng qua API
Về lâu dài sẽ ra sao thì tôi không biết, nhưng tôi không thích cảm giác mỗi lần dùng LLM đều phải nghĩ đó là một tài nguyên hữu hạn
Mọi người đã quen với các gói không giới hạn
Mô hình tính phí hiện tại mang cảm giác gượng ép nên khá khó chịu
“Không giới hạn” phù hợp với mọi dịch vụ có chi phí “rẻ đến mức không đáng để đo đếm”
Internet, tin nhắn văn bản và các dịch vụ tương tự có thể làm vậy vì chi phí trực tiếp rất thấp
Còn LLM thì hiện tại mỗi lần chạy vẫn có chi phí trực tiếp khá lớn
Tôi không đồng ý với cấu trúc giả định mức sử dụng sẽ đều đặn suốt cả tháng
Thường tôi dùng lai rai cả tháng rồi có vài ngày lại dồn 11 tiếng liên tục, và chính lúc đó là lúc dễ bị chặn bởi giới hạn nhất
Vì vậy dùng API trực tiếp lại thấy tốt hơn, vì giới hạn sẽ khớp với độ dày ví tiền của mình
Dùng thứ như OpenRouter cũng giúp tránh các giới hạn của mô hình thuê bao
Dạo này Gemini 2.5 Pro hợp với công việc code của tôi hơn Claude
Ngoài ra tôi cũng tò mò còn những lựa chọn nào có tính cạnh tranh về chi phí
https://docs.anthropic.com/en/api/rate-limits#rate-limits
Quan điểm của tôi là các công cụ kiểu này nên bỏ hẳn cách bán quyền truy cập với các mức như “20 USD/tháng”, “200 USD/tháng” rồi khiến việc tính giới hạn trở nên khó hiểu
Cần chuyển hoàn toàn sang mô hình tính theo mức sử dụng thì mới thực sự thân thiện với người dùng
Có thể cho free tier kiểu 20 lượt miễn phí để dùng thử ban đầu, hoặc dùng biểu phí bậc thang để tăng dần theo mức sử dụng, còn người dùng cực nặng thì trả theo sát chi phí thực tế
Như vậy người dùng ít sẽ được dùng rẻ, đồng thời vẫn giành được thị phần
Nếu giá tốt hơn OpenRouter thì người ta sẽ ở lại hệ sinh thái này thay vì sang công cụ bên thứ ba
Nếu công cụ thực sự tốt, người dùng vẫn sẽ ở lại ngay cả khi tính phí theo mức sử dụng
Vấn đề là các nhà cung cấp vừa muốn trợ giá cho người dùng để chiếm thị phần, vừa muốn chặn các trường hợp lạm dụng hay sử dụng cực đoan
Giải pháp triệt để 100% là tính phí hoàn toàn theo mức sử dụng, không có phí vào cửa
Nhưng nếu làm vậy thì những người chỉ đăng ký rồi dùng rất ít có thể lại thiệt, nên chắc đội kinh doanh sẽ phản đối
Ngoài ra như vậy cũng khiến người ta dễ so sánh giá và chuyển đi nơi khác hơn, không còn cảm giác bị giữ chân 1-2 tháng nữa
Về dài hạn, tôi nghĩ local LLM sẽ vượt các cloud LLM tốt nhất của năm 2025, để rồi 99% công việc hằng ngày có thể xử lý không giới hạn tại chỗ
Chỉ các bài toán thực sự phức tạp mới cần kết nối lên đám mây
LLM sẽ tiếp tục phát triển theo hướng hiệu quả hơn, còn chi phí GPU, bộ nhớ và lưu trữ cũng sẽ ngày càng rẻ và dễ tiếp cận hơn
Hiện giờ chỉ là giai đoạn chuyển tiếp nên mới trông hơi khó chịu vậy thôi
Dù là tài nguyên hữu hạn thì tôi vẫn thấy ổn nếu biết mình đã dùng bao nhiêu
Việc không thể xem tiến độ mới là điều khó chịu
Tôi thấy rối về khác biệt giữa Max 5x và Max 20x
Trong email của tôi ghi rằng “đa số người dùng Max 20x có thể dùng Sonnet 4 khoảng 240~480 giờ mỗi tuần, Opus 4 khoảng 24~40 giờ”
Còn thông báo chính thức lại nói “đa số người dùng Max 5x có thể dùng Sonnet 4 khoảng 140~280 giờ mỗi tuần, Opus 4 khoảng 15~35 giờ”
Ít nhất thì tôi cũng mong giới hạn tăng hơn gấp đôi theo giá, nhưng với Opus 4 thì chênh có 5~9 giờ
Ít nhất cũng phải gấp đôi chứ? Giá thì gấp đôi mà
Nếu đúng là như vậy thì tôi sẽ hạ ngay từ Max 20x xuống gói thấp hơn
Ở Úc tôi đang trả 350 USD mỗi tháng
Tôi nâng lên 20x vì cứ liên tục chạm trần Opus, nhưng giờ nhìn lại thì thấy 20x với 5x gần như chẳng khác gì nhau
Vì thế tôi đã ngừng dùng MAX và hạ xuống Pro, rồi dùng o3 và các model khác qua API
Ban đầu tôi không cần quá nhiều thời gian như vậy, nên khoảng 10 USD mỗi dự án là có thể dùng cả o3, Gemini, Opus
Mấy ngày lại có model mới ra, tôi không muốn bị trói vào chỉ một nhà cung cấp
Trên thực tế, đây không phải là vì mức sử dụng được gấp đôi mà chỉ là được ưu tiên cao hơn khi lưu lượng tăng đột biến
Nếu tài liệu marketing khác với thực tế, tôi mong có ai đó điều tra bằng dữ liệu thật rồi khởi kiện tập thể
Tôi hiểu rằng ngay cả trả 200 USD mỗi tháng cũng vẫn không đủ
Vậy thì họ nên tạo ra một gói đủ lớn để có thể dùng mà không phải lo giới hạn
Không gì phá dòng làm việc bằng thông báo kiểu “hết giờ rồi!”
Ít nhất nếu là kiểu credit thì còn biết mình đã dùng bao nhiêu và có thể nạp thêm tiền
Khái niệm “đợi GPU hạ nhiệt” chẳng giúp ích gì cho năng suất
Nếu chạy nhiều agent thì “35 giờ” là hoàn toàn không đủ
Cũng lạ là chính công cụ lại được thiết kế để hỗ trợ kiểu dùng như vậy
Muốn chuyển sang một gói vừa đủ cho tất cả mà vẫn có lãi thì ngược lại rất có thể mọi người sẽ chạy sang đối thủ
Khiến người dùng phụ thuộc vào công cụ rồi từ từ tăng giá đôi khi lại là chiến lược hợp lý hơn
“Chạy nhiều agent” không phải là trường hợp sử dụng phổ biến với gói cá nhân
Từ trước đến nay, trong các tình huống như vậy người ta luôn phải trả theo mức dùng trực tiếp qua API
Việc gói cố định cho phép điều đó vốn đã là sự hào phóng của dịch vụ, và ngay từ đầu họ cũng chỉ quảng cáo là “giới hạn cao hơn” chứ không phải “không giới hạn”
API có giới hạn thoải mái hơn rất nhiều, trên thực tế gần như không bị bó buộc
Claude cũng dùng được trên Aws và gcp, nơi giới hạn và credit cũng khác nhau, cùng với biểu giá khác nhau
Chính sách nên được tối ưu theo “người dùng tốt” chứ không nên thiết kế dựa trên “người dùng xấu”
Cứ dùng API thôi
Nhìn tổng thể thì tôi cho rằng đây là một thay đổi tích cực vì nó bảo vệ hệ thống khỏi một số người dùng chạy rất nhiều agent 24/7, từ đó giúp nhiều người dùng hơn có thể tiếp tục sử dụng ổn định
Tuy vậy, việc không hiển thị “còn lại bao nhiêu mức sử dụng” vẫn gây khó chịu
Không cần biết là bao nhiêu phần trăm chính xác, ít nhất nếu có thông báo giữa chừng, ví dụ lúc dùng hết một nửa, thì sẽ dễ lên kế hoạch hơn
Việc họ không cung cấp điều đó khiến người ta có cảm giác “chẳng lẽ họ không muốn chúng ta đo được?”
Không phải tôi muốn đo cực kỳ chi li, chỉ là muốn biết đại khái mình đang ở đâu
Theo tài khoản Reddit của Anthropic
đã có một người dùng tiêu thụ lượng LLM trị giá hàng chục nghìn USD chỉ với gói 200 USD
Phía công ty nói đang phát triển giải pháp riêng cho nhóm người dùng nâng cao
nhưng các giới hạn mới hiện nay nhằm mang lại trải nghiệm công bằng hơn và ngăn việc chia sẻ tài khoản hay bán lại
Và vì thế mà chúng ta không có được “dịch vụ tốt”
Startup cũ nơi tôi từng làm cũng từng cung cấp tùy chọn không giới hạn
Ban đầu ai cũng nghĩ không ai có thể dùng nhiều đến thế, nhưng thực tế là có quá nhiều người sáng tạo ra cách bán khai thác giới hạn của dịch vụ
Các tài khoản được gắn vào các dịch vụ 24/7 và liên tục đẩy yêu cầu lên tới 95% ngưỡng giới hạn
Họ còn dùng nhiều IP khác nhau, thậm chí tạo ra những mẫu hành vi trông không giống con người
Ban đầu thì chấp nhận như vài trường hợp ngoại lệ, nhưng khi số tài khoản kiểu này tăng theo cấp số nhân
thì thực chất là nhiều bên đang tạo nhiều tài khoản để cân bằng tải
Nếu nhìn biểu đồ lãi/lỗ trung bình theo từng người dùng thì các tài khoản đó chỉ mang lại khoản lỗ khổng lồ và sử dụng tài nguyên ở mức tối đa, cuối cùng buộc chính sách phải thay đổi
Mất những “khách hàng” như vậy, nhưng đa số người dùng bình thường không bị ảnh hưởng
Ngược lại toàn bộ dịch vụ còn vận hành dễ chịu hơn
Đây là điều mà mọi startup có mức sử dụng cao đều sẽ trải qua
Thực tế có thể là công ty đang bán dịch vụ trong tình trạng lỗ
Với giới hạn hiện tại mà vẫn không chặn được kiểu lạm dụng này sao? Tôi không hiểu lắm
Hôm qua có người khoe chuyện này trên Twitter
Họ dùng tài khoản 200 USD mà tiêu thụ tới 13.200 USD, chạy 4-5 agent chỉ dùng Opus 24/7 và còn để chúng gọi đệ quy lẫn nhau
Rõ ràng đây là lạm dụng và đáng bị nhắm tới
Nhưng tôi cũng không biết một nhà cung cấp inference phải ngăn chuyện này bằng cách nào
Cursor vốn đã cộng thêm premium cao hơn so với Anthropc/OpenAI nên còn khó hơn
Anthropic cũng ở tình thế tương tự nhưng ở đây lại không có lựa chọn premium
Nếu với 20 USD mà mỗi tháng cho dùng tới chi phí thực tế 500 USD thì tức là đang giảm giá 95%, kiểu cấu trúc này chắc chắn không thể bền vững
Càng trợ giá như vậy càng dễ tạo ra cảm giác “đòi quyền lợi” trong cộng đồng
Cảm giác như bị lấy mất thứ đã quen dùng, nhưng thực ra chỉ riêng cap/opex đã không gánh nổi, chưa kể chi phí R&D thì việc duy trì model cũng đã khó
Thành ra thứ thực tế có thể làm chỉ là “liên tục thay đổi cấu trúc giá và để người dùng chuyển sang công ty khác đang trợ giá hào phóng hơn ở thời điểm kế tiếp”
Thà ngay từ đầu công bố đây là chính sách thử nghiệm và minh bạch về mức trợ giá còn hơn
Mọi người sẽ được trải nghiệm model, một phần sẽ ở lại, và dù có một số người rời đi thì mức độ bất mãn cũng sẽ thấp hơn
Nếu thực sự công khai minh bạch cấu trúc cap/chi phí vận hành/chi phí phát triển
thì mọi người cũng sẽ hiểu rằng mức đó thực chất tương đương thuê một senior engineer làm việc không biết mệt
Sẽ hữu ích hơn rất nhiều nếu email này có thêm thông tin kiểu “bạn đã chạm giới hạn vào những tháng nào” (Aug 2024, Jan 2025, May 2025, v.v.)
Tôi hoàn toàn không biết mình có thuộc top 5% hay không
Thực ra giới hạn top 1% thì tôi còn thấy hợp lý, nhưng trong ngành SaaS thì 5% gần như đã là phần lớn người dùng thực tế rồi
Những dịch vụ kiểu này cần biểu phí theo mức sử dụng
Mọi công ty AI đều đang đụng phải cùng một vấn đề
Mô hình thuê bao phí cố định dựa trên giả định người dùng không muốn bận tâm tới chi phí
Nhưng một số rất ít power user lại đẩy mức dùng tới tận cùng giới hạn thuê bao
Các dịch vụ như Terragon còn được phát triển riêng để tối ưu hóa kiểu sử dụng đó
Vì vậy công ty cứ phải hạ giới hạn xuống, còn người dùng thì lại càng phải để ý chi phí nhiều hơn
Cursor cũng đã điều chỉnh giới hạn nhiều lần, và giờ Anthropic cũng đang đi theo hướng đó
Rốt cuộc chỉ là họ không còn muốn trợ giá cho top 10% người dùng cực nặng nữa
Tôi ước gì có một gói web tính phí theo mức sử dụng ngay trong giao diện
API đã tồn tại, bạn có thể tự tạo token và dùng Claude Code ngay mà không cần một gói riêng
Điều này làm tôi nhớ tới thời shared hosting những năm 1990
Nếu cung cấp gói web tính phí theo mức sử dụng thì họ sẽ buộc phải công khai việc hỗ trợ inference thực sự đắt đến mức nào
Ở mức dùng thực tế có năng suất cao, chạy AI hiện tại vẫn là một việc cực kỳ tốn kém
Chính “mẫu sử dụng nâng cao kiểu chạy Claude 24/7 dưới nền” khiến chúng ta không được hưởng dịch vụ tốt
Nhưng các dịch vụ AI lại quảng cáo rằng “AI sẽ tự xử lý công việc, lập trình viên có thể uống cà phê hoặc đi ngủ trong lúc nó làm” nên rõ ràng cũng có những lập trình viên dùng dịch vụ đúng như cách đó
Giờ quay sang trách những người dùng như vậy là vấn đề thì thấy hơi lạ
Đọc đoạn đó tôi phải bật cười
Cảm giác như một “kẻ hủy diệt thế giới với thiện ý” đang cố đẩy nhanh thêm cái chết nhiệt của vũ trụ vậy
Tôi nghĩ chuyện này hiển nhiên đã được dự đoán từ trước
Khi quyết định cấu trúc giá ban đầu hẳn họ đã cân nhắc kỹ rồi
Chỉ là họ không muốn trì hoãn ra mắt nên việc áp dụng bị chậm lại, và giờ mới bắt đầu thực thi cho phù hợp với thực tế
Dù định giá theo kiểu nào thì người dùng cũng sẽ cố tận dụng 100% gói của mình
Tôi là người đăng ký Max mà vẫn thường xuyên chạm giới hạn
Tôi chạy đúng bằng số mình đã trả tiền mà lại vẫn bị áp giới hạn, điều đó thật kỳ lạ
Đây chính là mô hình thử nghiệm giá
Khi kiểm soát lỏng lẻo, sớm muộn cũng sẽ có những người dùng cực đoan xuất hiện, còn công ty thì tô vẽ một thứ không bền vững như thể nó khả thi, rồi sau đó lại rút đi “phần thưởng” ấy
Có thể đây là một đề xuất hơi lạ, nhưng tôi từng nghĩ tới giới hạn thích ứng
Phương án 1: ban đầu cho phép bùng nổ trong thời gian ngắn rồi giảm dần tốc độ, sau thời gian cooldown lại có thể bùng tiếp
Như vậy người dùng có thể đạt năng suất tối đa trong các đợt ngắn, còn máy chủ cũng có thời gian nghỉ
Phương án 2: như dữ liệu di động, lượng request đầu tiên có thể chạy nhanh, sau đó bị bóp tốc độ và nếu cần thêm thì trả tiền mua thêm
Mô hình này cũng tạo thêm doanh thu
Phương án 3: phân bổ tài nguyên thích ứng ở tầng hạ tầng và mạng
Các tác vụ không dùng GPU thì hạ ưu tiên, hoặc xử lý request mạng chậm hơn, hay trong
k8sthì phân phối tác vụ sang các máy chủ khác nhau theo mức sử dụngNgoài chuyện bàn về giới hạn, cũng nên theo dõi xem loại request nào mới thực sự ngốn chi phí, rồi tối ưu các đường code hoặc cấu trúc hạ tầng kém hiệu quả để tạo thêm dư địa
Tôi muốn nhấn mạnh rằng chỉ một tối ưu mã nhỏ cũng có thể tạo ra khác biệt rất lớn cho toàn hệ thống