1 điểm bởi GN⁺ 2025-07-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dịch vụ Claude Code của Anthropic đã được áp dụng giới hạn mức sử dụng hàng tuần
  • Áp dụng cho cả người dùng miễn phí và trả phí
  • Người dùng bị giới hạn về số lượng truy vấn tối đa hoặc lượng token được xử lý trong một tuần
  • Việc áp dụng giới hạn nhằm ngăn chặn lạm dụng dịch vụ và đảm bảo tính ổn định của tài nguyên hệ thống
  • Các nhà phát triển và startup cần chú ý thêm đến quản lý tài nguyên khi sử dụng API

Tổng quan về việc áp dụng giới hạn mức sử dụng hàng tuần cho Claude Code

Dịch vụ Claude Code do Anthropic cung cấp được áp dụng chính sách giới hạn mức sử dụng hàng tuần mới

  • Toàn bộ người dùng (miễn phí và trả phí) được đặt hạn mức nhất định về số lượng truy vấn hoặc mức sử dụng token
  • Hạn mức này được đưa ra để ngăn chặn lạm dụng dịch vụ, cung cấp dịch vụ công bằng và đảm bảo tính ổn định của tài nguyên hạ tầng
  • Hạn mức được đặt lại mỗi tuần, và nếu vượt quá giới hạn thì sẽ không thể sử dụng thêm trong tuần đó

Ảnh hưởng chính đối với nhà phát triển và startup

  • Khi sử dụng Claude Code trong phát triển sản phẩm, nhu cầu lập kế hoạch mức sử dụng tăng lên
  • Các dịch vụ tích hợp API phát sinh nhu cầu triển khai logic quản lý tự động hoặc cảnh báo khi vượt giới hạn
  • Khi thực hiện tạo mã số lượng lớn, phân tích hoặc gọi lặp lại, tầm quan trọng của tối ưu hóa việc sử dụng tài nguyên tăng cao

Kết luận

  • Việc áp dụng chính sách giới hạn mức sử dụng hàng tuần của Claude Code nhằm hướng tới tính bền vững và nâng cao chất lượng dịch vụ
  • Các startup và chuyên gia IT cần kiểm tra giới hạn hàng tuần và lập kế hoạch sử dụng khi tích hợp với hệ thống hiện có cũng như thiết kế dịch vụ

1 bình luận

 
GN⁺ 2025-07-29
Ý kiến trên Hacker News
  • Có lẽ tôi sẽ không chạm trần giới hạn theo tuần, nhưng việc giới hạn tính theo tuần thay vì kiểu cửa sổ 36 giờ khiến tôi thấy bất an
    Nếu chạm trần thì sẽ không dùng được trong phần còn lại của tuần đó
    Không thể dùng một công cụ đã quen tay lâu như vậy thì khá bất tiện
    Có người có thể nói tôi phụ thuộc Claude quá nhiều, nhưng với các công cụ khác như ripgrep cũng vậy thôi
    Không dùng vài ngày thì còn ổn, chứ cả tuần thì quá dài
    Và việc họ nói chỉ “dưới 5% người dùng” bị ảnh hưởng cũng khá đáng chú ý
    Thường các thông báo kiểu này sẽ nói là dưới 1% bị ảnh hưởng, còn Anthropic đang nói rằng 1 trong 20 người sẽ vượt giới hạn

    • Với gói ChatGPT Plus, giới hạn 100 lần/tuần cho o3 đúng là mang lại cảm giác y như vậy
      Không biết mình đã dùng bao nhiêu, nên theo bản năng cứ phải dè sẻn vì đó là tài nguyên quan trọng
      Cuối cùng không tận dụng được đúng nghĩa gói mình trả tiền và lại quay sang các model như o4-mini
      Thà giới hạn theo ngày còn hơn
      Nhưng cũng có thể mục đích của giới hạn theo tuần chính là khiến người dùng tự tiết kiệm vì sợ chạm trần

    • Thật buồn khi các lập trình viên đang dần phụ thuộc vào các dịch vụ trực tuyến độc quyền
      Ngày trước có thể làm mọi thứ bằng công cụ FOSS, không cần lệ thuộc vào một công ty hay dịch vụ cụ thể bằng khoản phí thuê bao hàng tháng
      Giờ thì một số người giống như nông dân phụ thuộc Monsanto, phải trả tiền hàng tháng để dùng công cụ đến mức quên cả cách làm việc nếu không có nó

    • Tôi thường chạm giới hạn Pro với sonnet khoảng 3 lần mỗi ngày
      Dùng cả Claude code lẫn claude cùng lúc thì chỉ 30 phút là hết
      Tôi cũng không chạy multi-agent 24/7 hay mở nhiều cửa sổ mà vẫn vậy
      Tôi không nghĩ mình thuộc top 5% người dùng, nhưng việc hết giới hạn từ thứ Tư thì cũng không có gì lạ
      Tôi đang định bắt đầu tận dụng Claude chat nhiều hơn, nhưng nếu vài ngày liền không thể tin tưởng mà dùng thì vô nghĩa

    • Anthropic nói 1 trong 20 người sẽ vướng giới hạn, nhưng tôi không nghĩ lại có nhiều người chia sẻ tài khoản hay dùng tự động hóa 24/7 đến thế

    • Nếu chạm giới hạn thì không phải là không dùng được suốt cả tuần còn lại, mà chỉ không dùng được trong khoảng thời gian còn lại tương ứng
      Chính bạn cũng nói có lẽ mình ít khi chạm ngưỡng, nên nếu có chạm thì nhiều khả năng là vào khoảng 36 giờ cuối của tuần
      Ngoài ra vẫn có thể trả tiền để dùng qua API

  • Về lâu dài sẽ ra sao thì tôi không biết, nhưng tôi không thích cảm giác mỗi lần dùng LLM đều phải nghĩ đó là một tài nguyên hữu hạn
    Mọi người đã quen với các gói không giới hạn
    Mô hình tính phí hiện tại mang cảm giác gượng ép nên khá khó chịu

    • “Không giới hạn” phù hợp với mọi dịch vụ có chi phí “rẻ đến mức không đáng để đo đếm”
      Internet, tin nhắn văn bản và các dịch vụ tương tự có thể làm vậy vì chi phí trực tiếp rất thấp
      Còn LLM thì hiện tại mỗi lần chạy vẫn có chi phí trực tiếp khá lớn

    • Tôi không đồng ý với cấu trúc giả định mức sử dụng sẽ đều đặn suốt cả tháng
      Thường tôi dùng lai rai cả tháng rồi có vài ngày lại dồn 11 tiếng liên tục, và chính lúc đó là lúc dễ bị chặn bởi giới hạn nhất
      Vì vậy dùng API trực tiếp lại thấy tốt hơn, vì giới hạn sẽ khớp với độ dày ví tiền của mình
      Dùng thứ như OpenRouter cũng giúp tránh các giới hạn của mô hình thuê bao
      Dạo này Gemini 2.5 Pro hợp với công việc code của tôi hơn Claude
      Ngoài ra tôi cũng tò mò còn những lựa chọn nào có tính cạnh tranh về chi phí
      https://docs.anthropic.com/en/api/rate-limits#rate-limits

    • Quan điểm của tôi là các công cụ kiểu này nên bỏ hẳn cách bán quyền truy cập với các mức như “20 USD/tháng”, “200 USD/tháng” rồi khiến việc tính giới hạn trở nên khó hiểu
      Cần chuyển hoàn toàn sang mô hình tính theo mức sử dụng thì mới thực sự thân thiện với người dùng
      Có thể cho free tier kiểu 20 lượt miễn phí để dùng thử ban đầu, hoặc dùng biểu phí bậc thang để tăng dần theo mức sử dụng, còn người dùng cực nặng thì trả theo sát chi phí thực tế
      Như vậy người dùng ít sẽ được dùng rẻ, đồng thời vẫn giành được thị phần
      Nếu giá tốt hơn OpenRouter thì người ta sẽ ở lại hệ sinh thái này thay vì sang công cụ bên thứ ba
      Nếu công cụ thực sự tốt, người dùng vẫn sẽ ở lại ngay cả khi tính phí theo mức sử dụng
      Vấn đề là các nhà cung cấp vừa muốn trợ giá cho người dùng để chiếm thị phần, vừa muốn chặn các trường hợp lạm dụng hay sử dụng cực đoan
      Giải pháp triệt để 100% là tính phí hoàn toàn theo mức sử dụng, không có phí vào cửa
      Nhưng nếu làm vậy thì những người chỉ đăng ký rồi dùng rất ít có thể lại thiệt, nên chắc đội kinh doanh sẽ phản đối
      Ngoài ra như vậy cũng khiến người ta dễ so sánh giá và chuyển đi nơi khác hơn, không còn cảm giác bị giữ chân 1-2 tháng nữa

    • Về dài hạn, tôi nghĩ local LLM sẽ vượt các cloud LLM tốt nhất của năm 2025, để rồi 99% công việc hằng ngày có thể xử lý không giới hạn tại chỗ
      Chỉ các bài toán thực sự phức tạp mới cần kết nối lên đám mây
      LLM sẽ tiếp tục phát triển theo hướng hiệu quả hơn, còn chi phí GPU, bộ nhớ và lưu trữ cũng sẽ ngày càng rẻ và dễ tiếp cận hơn
      Hiện giờ chỉ là giai đoạn chuyển tiếp nên mới trông hơi khó chịu vậy thôi

    • Dù là tài nguyên hữu hạn thì tôi vẫn thấy ổn nếu biết mình đã dùng bao nhiêu
      Việc không thể xem tiến độ mới là điều khó chịu

  • Tôi thấy rối về khác biệt giữa Max 5x và Max 20x
    Trong email của tôi ghi rằng “đa số người dùng Max 20x có thể dùng Sonnet 4 khoảng 240~480 giờ mỗi tuần, Opus 4 khoảng 24~40 giờ”
    Còn thông báo chính thức lại nói “đa số người dùng Max 5x có thể dùng Sonnet 4 khoảng 140~280 giờ mỗi tuần, Opus 4 khoảng 15~35 giờ”
    Ít nhất thì tôi cũng mong giới hạn tăng hơn gấp đôi theo giá, nhưng với Opus 4 thì chênh có 5~9 giờ
    Ít nhất cũng phải gấp đôi chứ? Giá thì gấp đôi mà

    • Nếu đúng là như vậy thì tôi sẽ hạ ngay từ Max 20x xuống gói thấp hơn
      Ở Úc tôi đang trả 350 USD mỗi tháng

    • Tôi nâng lên 20x vì cứ liên tục chạm trần Opus, nhưng giờ nhìn lại thì thấy 20x với 5x gần như chẳng khác gì nhau

    • Vì thế tôi đã ngừng dùng MAX và hạ xuống Pro, rồi dùng o3 và các model khác qua API
      Ban đầu tôi không cần quá nhiều thời gian như vậy, nên khoảng 10 USD mỗi dự án là có thể dùng cả o3, Gemini, Opus
      Mấy ngày lại có model mới ra, tôi không muốn bị trói vào chỉ một nhà cung cấp

    • Trên thực tế, đây không phải là vì mức sử dụng được gấp đôi mà chỉ là được ưu tiên cao hơn khi lưu lượng tăng đột biến

    • Nếu tài liệu marketing khác với thực tế, tôi mong có ai đó điều tra bằng dữ liệu thật rồi khởi kiện tập thể

  • Tôi hiểu rằng ngay cả trả 200 USD mỗi tháng cũng vẫn không đủ
    Vậy thì họ nên tạo ra một gói đủ lớn để có thể dùng mà không phải lo giới hạn
    Không gì phá dòng làm việc bằng thông báo kiểu “hết giờ rồi!”
    Ít nhất nếu là kiểu credit thì còn biết mình đã dùng bao nhiêu và có thể nạp thêm tiền
    Khái niệm “đợi GPU hạ nhiệt” chẳng giúp ích gì cho năng suất
    Nếu chạy nhiều agent thì “35 giờ” là hoàn toàn không đủ
    Cũng lạ là chính công cụ lại được thiết kế để hỗ trợ kiểu dùng như vậy

    • Muốn chuyển sang một gói vừa đủ cho tất cả mà vẫn có lãi thì ngược lại rất có thể mọi người sẽ chạy sang đối thủ
      Khiến người dùng phụ thuộc vào công cụ rồi từ từ tăng giá đôi khi lại là chiến lược hợp lý hơn

    • “Chạy nhiều agent” không phải là trường hợp sử dụng phổ biến với gói cá nhân
      Từ trước đến nay, trong các tình huống như vậy người ta luôn phải trả theo mức dùng trực tiếp qua API
      Việc gói cố định cho phép điều đó vốn đã là sự hào phóng của dịch vụ, và ngay từ đầu họ cũng chỉ quảng cáo là “giới hạn cao hơn” chứ không phải “không giới hạn”

    • API có giới hạn thoải mái hơn rất nhiều, trên thực tế gần như không bị bó buộc
      Claude cũng dùng được trên Aws và gcp, nơi giới hạn và credit cũng khác nhau, cùng với biểu giá khác nhau

    • Chính sách nên được tối ưu theo “người dùng tốt” chứ không nên thiết kế dựa trên “người dùng xấu”

    • Cứ dùng API thôi

  • Nhìn tổng thể thì tôi cho rằng đây là một thay đổi tích cực vì nó bảo vệ hệ thống khỏi một số người dùng chạy rất nhiều agent 24/7, từ đó giúp nhiều người dùng hơn có thể tiếp tục sử dụng ổn định
    Tuy vậy, việc không hiển thị “còn lại bao nhiêu mức sử dụng” vẫn gây khó chịu
    Không cần biết là bao nhiêu phần trăm chính xác, ít nhất nếu có thông báo giữa chừng, ví dụ lúc dùng hết một nửa, thì sẽ dễ lên kế hoạch hơn
    Việc họ không cung cấp điều đó khiến người ta có cảm giác “chẳng lẽ họ không muốn chúng ta đo được?”
    Không phải tôi muốn đo cực kỳ chi li, chỉ là muốn biết đại khái mình đang ở đâu

  • Theo tài khoản Reddit của Anthropic
    đã có một người dùng tiêu thụ lượng LLM trị giá hàng chục nghìn USD chỉ với gói 200 USD
    Phía công ty nói đang phát triển giải pháp riêng cho nhóm người dùng nâng cao
    nhưng các giới hạn mới hiện nay nhằm mang lại trải nghiệm công bằng hơn và ngăn việc chia sẻ tài khoản hay bán lại
    Và vì thế mà chúng ta không có được “dịch vụ tốt”

    • Startup cũ nơi tôi từng làm cũng từng cung cấp tùy chọn không giới hạn
      Ban đầu ai cũng nghĩ không ai có thể dùng nhiều đến thế, nhưng thực tế là có quá nhiều người sáng tạo ra cách bán khai thác giới hạn của dịch vụ
      Các tài khoản được gắn vào các dịch vụ 24/7 và liên tục đẩy yêu cầu lên tới 95% ngưỡng giới hạn
      Họ còn dùng nhiều IP khác nhau, thậm chí tạo ra những mẫu hành vi trông không giống con người
      Ban đầu thì chấp nhận như vài trường hợp ngoại lệ, nhưng khi số tài khoản kiểu này tăng theo cấp số nhân
      thì thực chất là nhiều bên đang tạo nhiều tài khoản để cân bằng tải
      Nếu nhìn biểu đồ lãi/lỗ trung bình theo từng người dùng thì các tài khoản đó chỉ mang lại khoản lỗ khổng lồ và sử dụng tài nguyên ở mức tối đa, cuối cùng buộc chính sách phải thay đổi
      Mất những “khách hàng” như vậy, nhưng đa số người dùng bình thường không bị ảnh hưởng
      Ngược lại toàn bộ dịch vụ còn vận hành dễ chịu hơn
      Đây là điều mà mọi startup có mức sử dụng cao đều sẽ trải qua

    • Thực tế có thể là công ty đang bán dịch vụ trong tình trạng lỗ

    • Với giới hạn hiện tại mà vẫn không chặn được kiểu lạm dụng này sao? Tôi không hiểu lắm

    • Hôm qua có người khoe chuyện này trên Twitter
      Họ dùng tài khoản 200 USD mà tiêu thụ tới 13.200 USD, chạy 4-5 agent chỉ dùng Opus 24/7 và còn để chúng gọi đệ quy lẫn nhau
      Rõ ràng đây là lạm dụng và đáng bị nhắm tới
      Nhưng tôi cũng không biết một nhà cung cấp inference phải ngăn chuyện này bằng cách nào
      Cursor vốn đã cộng thêm premium cao hơn so với Anthropc/OpenAI nên còn khó hơn
      Anthropic cũng ở tình thế tương tự nhưng ở đây lại không có lựa chọn premium
      Nếu với 20 USD mà mỗi tháng cho dùng tới chi phí thực tế 500 USD thì tức là đang giảm giá 95%, kiểu cấu trúc này chắc chắn không thể bền vững
      Càng trợ giá như vậy càng dễ tạo ra cảm giác “đòi quyền lợi” trong cộng đồng
      Cảm giác như bị lấy mất thứ đã quen dùng, nhưng thực ra chỉ riêng cap/opex đã không gánh nổi, chưa kể chi phí R&D thì việc duy trì model cũng đã khó
      Thành ra thứ thực tế có thể làm chỉ là “liên tục thay đổi cấu trúc giá và để người dùng chuyển sang công ty khác đang trợ giá hào phóng hơn ở thời điểm kế tiếp”
      Thà ngay từ đầu công bố đây là chính sách thử nghiệm và minh bạch về mức trợ giá còn hơn
      Mọi người sẽ được trải nghiệm model, một phần sẽ ở lại, và dù có một số người rời đi thì mức độ bất mãn cũng sẽ thấp hơn
      Nếu thực sự công khai minh bạch cấu trúc cap/chi phí vận hành/chi phí phát triển
      thì mọi người cũng sẽ hiểu rằng mức đó thực chất tương đương thuê một senior engineer làm việc không biết mệt

  • Sẽ hữu ích hơn rất nhiều nếu email này có thêm thông tin kiểu “bạn đã chạm giới hạn vào những tháng nào” (Aug 2024, Jan 2025, May 2025, v.v.)
    Tôi hoàn toàn không biết mình có thuộc top 5% hay không
    Thực ra giới hạn top 1% thì tôi còn thấy hợp lý, nhưng trong ngành SaaS thì 5% gần như đã là phần lớn người dùng thực tế rồi

  • Những dịch vụ kiểu này cần biểu phí theo mức sử dụng
    Mọi công ty AI đều đang đụng phải cùng một vấn đề
    Mô hình thuê bao phí cố định dựa trên giả định người dùng không muốn bận tâm tới chi phí
    Nhưng một số rất ít power user lại đẩy mức dùng tới tận cùng giới hạn thuê bao
    Các dịch vụ như Terragon còn được phát triển riêng để tối ưu hóa kiểu sử dụng đó
    Vì vậy công ty cứ phải hạ giới hạn xuống, còn người dùng thì lại càng phải để ý chi phí nhiều hơn
    Cursor cũng đã điều chỉnh giới hạn nhiều lần, và giờ Anthropic cũng đang đi theo hướng đó
    Rốt cuộc chỉ là họ không còn muốn trợ giá cho top 10% người dùng cực nặng nữa
    Tôi ước gì có một gói web tính phí theo mức sử dụng ngay trong giao diện

    • API đã tồn tại, bạn có thể tự tạo token và dùng Claude Code ngay mà không cần một gói riêng

    • Điều này làm tôi nhớ tới thời shared hosting những năm 1990

    • Nếu cung cấp gói web tính phí theo mức sử dụng thì họ sẽ buộc phải công khai việc hỗ trợ inference thực sự đắt đến mức nào
      Ở mức dùng thực tế có năng suất cao, chạy AI hiện tại vẫn là một việc cực kỳ tốn kém

  • Chính “mẫu sử dụng nâng cao kiểu chạy Claude 24/7 dưới nền” khiến chúng ta không được hưởng dịch vụ tốt

    • Nhưng các dịch vụ AI lại quảng cáo rằng “AI sẽ tự xử lý công việc, lập trình viên có thể uống cà phê hoặc đi ngủ trong lúc nó làm” nên rõ ràng cũng có những lập trình viên dùng dịch vụ đúng như cách đó
      Giờ quay sang trách những người dùng như vậy là vấn đề thì thấy hơi lạ

    • Đọc đoạn đó tôi phải bật cười
      Cảm giác như một “kẻ hủy diệt thế giới với thiện ý” đang cố đẩy nhanh thêm cái chết nhiệt của vũ trụ vậy

    • Tôi nghĩ chuyện này hiển nhiên đã được dự đoán từ trước
      Khi quyết định cấu trúc giá ban đầu hẳn họ đã cân nhắc kỹ rồi
      Chỉ là họ không muốn trì hoãn ra mắt nên việc áp dụng bị chậm lại, và giờ mới bắt đầu thực thi cho phù hợp với thực tế

    • Dù định giá theo kiểu nào thì người dùng cũng sẽ cố tận dụng 100% gói của mình
      Tôi là người đăng ký Max mà vẫn thường xuyên chạm giới hạn
      Tôi chạy đúng bằng số mình đã trả tiền mà lại vẫn bị áp giới hạn, điều đó thật kỳ lạ

    • Đây chính là mô hình thử nghiệm giá
      Khi kiểm soát lỏng lẻo, sớm muộn cũng sẽ có những người dùng cực đoan xuất hiện, còn công ty thì tô vẽ một thứ không bền vững như thể nó khả thi, rồi sau đó lại rút đi “phần thưởng” ấy

  • Có thể đây là một đề xuất hơi lạ, nhưng tôi từng nghĩ tới giới hạn thích ứng
    Phương án 1: ban đầu cho phép bùng nổ trong thời gian ngắn rồi giảm dần tốc độ, sau thời gian cooldown lại có thể bùng tiếp
    Như vậy người dùng có thể đạt năng suất tối đa trong các đợt ngắn, còn máy chủ cũng có thời gian nghỉ
    Phương án 2: như dữ liệu di động, lượng request đầu tiên có thể chạy nhanh, sau đó bị bóp tốc độ và nếu cần thêm thì trả tiền mua thêm
    Mô hình này cũng tạo thêm doanh thu
    Phương án 3: phân bổ tài nguyên thích ứng ở tầng hạ tầng và mạng
    Các tác vụ không dùng GPU thì hạ ưu tiên, hoặc xử lý request mạng chậm hơn, hay trong k8s thì phân phối tác vụ sang các máy chủ khác nhau theo mức sử dụng
    Ngoài chuyện bàn về giới hạn, cũng nên theo dõi xem loại request nào mới thực sự ngốn chi phí, rồi tối ưu các đường code hoặc cấu trúc hạ tầng kém hiệu quả để tạo thêm dư địa
    Tôi muốn nhấn mạnh rằng chỉ một tối ưu mã nhỏ cũng có thể tạo ra khác biệt rất lớn cho toàn hệ thống