Giới hạn AI 1.500 USD mỗi tháng của Uber là một tín hiệu hữu ích cho việc định giá công cụ AI
(simonwillison.net)- Uber giới hạn chi tiêu token hằng tháng ở mức 1.500 USD cho mỗi công cụ lập trình AI đối với mọi nhân viên, nhằm ứng phó với chi phí gia tăng của các công cụ lập trình dạng tác nhân
- Giới hạn này chỉ áp dụng cho phần mềm lập trình dạng tác nhân như Cursor hoặc Claude Code, và mức chi cho một công cụ không ảnh hưởng đến ngân sách của công cụ khác
- Uber đã lập ngân sách AI cho năm 2026 từ năm 2025, nhưng sau đó các tác nhân lập trình tiêu thụ nhiều token đã trở nên phổ biến nhanh hơn dự kiến, khiến ngân sách năm 2026 bị dùng hết chỉ sau 4 tháng
- Nếu giả định sử dụng tích cực 2 công cụ, giới hạn hằng năm cho mỗi kỹ sư là 36.000 USD, tương đương khoảng 11% mức thu nhập trung vị 330.000 USD của kỹ sư phần mềm Uber tại Mỹ theo Levels.fyi
- Giá công cụ AI ngày càng chênh lệch lớn giữa các gói trợ giá cho người dùng cá nhân và mức giá API mà các doanh nghiệp lớn thực sự phải trả, và giới hạn của Uber cho thấy ngưỡng chi phí mà doanh nghiệp có thể chấp nhận
Giới hạn chi tiêu cho công cụ lập trình AI của Uber
- Uber giới hạn chi tiêu token hằng tháng ở mức 1.500 USD cho mỗi công cụ lập trình AI đối với mọi nhân viên
- Giới hạn này được đưa vào trong vài tháng gần đây và chỉ áp dụng cho phần mềm lập trình dạng tác nhân như Cursor hoặc Claude Code của Anthropic
- Đây là giới hạn theo từng công cụ, nên chi phí dùng ở một công cụ sẽ không làm giảm ngân sách của công cụ khác
- Mức 1.500 USD mỗi tháng được xem là cách hợp lý để đối phó với tình trạng chi tiêu quá mức, và được đánh giá là hợp lý hơn so với bảng xếp hạng tokenmaxxing vốn khuyến khích nhân viên cạnh tranh về mức sử dụng AI
Tín hiệu giá và cách tính chi phí
- Việc Uber dùng hết ngân sách AI năm 2026 chỉ trong 4 tháng có liên hệ với bối cảnh là khi lập ngân sách vào năm 2025, rất khó dự đoán mức độ phổ biến của các tác nhân lập trình tiêu thụ nhiều token
- Nếu giả định một kỹ sư tích cực sử dụng 2 công cụ, mức trần sẽ là 3.000 USD mỗi tháng và 36.000 USD mỗi năm
- Gói đãi ngộ thường niên trung vị của kỹ sư phần mềm Uber tại Mỹ theo Levels.fyi là 330.000 USD, và giới hạn 36.000 USD mỗi năm tương đương khoảng 11% con số đó
- Xét theo mức sử dụng cá nhân, ngay cả khi dùng lượng token trị giá 1.000 USD mỗi tháng cho cả Anthropic và OpenAI, chi phí hiện tại vẫn chỉ ở mức khoảng 100 USD cho mỗi nhà cung cấp nhờ các gói trợ giá dành cho người dùng cá nhân
- Các gói trợ giá cá nhân đó không còn được cung cấp cho các doanh nghiệp lớn như Uber nữa, và với mô hình sử dụng hiện tại thì ngay cả trong giới hạn của Uber, mỗi công cụ vẫn còn dư 500 USD mỗi tháng
1 bình luận
Ý kiến trên Hacker News
Tò mò không biết các công ty AI có tiếp tục giữ mức giá theo token hiện nay hay cuối cùng sẽ phải hạ xuống vì cạnh tranh từ Trung Quốc
Những cá nhân không có nhiều ngân sách đã bắt đầu chuyển sang các mô hình trọng số mở của Trung Quốc như DeepSeek
Cũng không rõ liệu Trung Quốc có thực sự đang trợ cấp cho các công ty này, hay chi phí suy luận thực tế vốn đã thấp hơn rất nhiều và Anthropic/OpenAI chỉ đang thu tối đa có thể trước các đợt IPO trong tương lai
Có lẽ các phòng thí nghiệm dẫn đầu sẽ phải hạ mức giá token cao của mình, ít nhất là với các mô hình giá rẻ và tầm trung. Lý do là các mô hình Trung Quốc như Qwen, DeepSeek, Kimi, GLM đã “đủ gần” để trở thành lựa chọn thay thế hiệu quả về chi phí nếu được đặt trong môi trường vận hành phù hợp
Dù vậy, cũng có những mô hình cần nhiều công việc hơn để giải cùng một bài toán, nên có thể chưa cần lấp đầy hoàn toàn khoảng cách ngay lúc này
Dù sao thì giá có lẽ cũng sẽ giảm theo cách này hay cách khác, đồng thời khả năng cao là các gói đăng ký của những mô hình Trung Quốc giá rẻ cũng đang có yếu tố trợ cấp, nên theo thời gian sẽ bớt hào phóng hơn
Giá theo token giảm dần theo thời gian do áp lực cạnh tranh hoặc vì khách hàng có động lực dùng các mô hình cũ, rẻ hơn, trong khi các trung tâm dữ liệu lại được tài trợ bằng nợ dựa trên giả định rằng doanh thu sẽ tăng theo thời gian
Mượn cách diễn đạt của ông ấy, “[các công ty AI] đang dùng hàng hóa mất giá để trả chi phí cố định”
Một bên là doanh thu token đi xuống, bên kia là chi phí huấn luyện các mô hình frontier thế hệ tiếp theo tăng lên, trong khi họ vẫn phải trả khoản nợ 10 năm
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
“Điều làm vấn đề nghiêm trọng hơn là các phòng thí nghiệm Trung Quốc thường phát hành các mô hình có khả năng lưỡng dụng dưới dạng trọng số mở. Khi mô hình ở dạng trọng số mở, các biện pháp an toàn hiện có cũng có thể bị gỡ bỏ, cho phép các tác nhân nhà nước và phi nhà nước với mục đích xấu sử dụng, bao gồm cả các hành vi lạm dụng mạng và CBRN mà những biện pháp an toàn đó vốn nhằm ngăn chặn”
https://www.anthropic.com/research/2028-ai-leadership
Tò mò không biết đến bao giờ các tập đoàn lớn mới nhận ra rằng ngay cả mô hình flash cũng đã đủ tốt nếu đáp ứng các điều kiện sau
Ngay cả mô hình lớn vẫn rất kém với các thay đổi lớn, vẫn tạo ra những kiến trúc đáng ngờ, và nếu là dự án nghiêm túc thì dù sao bạn cũng phải review code
Bất kể là mô hình nào, nếu không chú ý đủ thì codebase sẽ nhanh chóng thành mớ hỗn độn
Trong các tình huống lặp đi lặp lại có đưa chỉ dẫn, mô hình flash rẻ hơn 10 lần và nhanh hơn nhiều, nên khó thấy lý do phải dùng mô hình lớn. Mô hình lớn có thể dành cho kiểm toán bảo mật và bug, còn với các thay đổi dưới 300 dòng, nếu chỉ định rõ hình dạng mã nguồn mong muốn thì mô hình flash cũng hoạt động gần như tương tự
Nếu con số này tăng đáng kể, thì như bạn đề xuất, các công ty có lẽ sẽ bắt đầu xem xét nghiêm túc hơn các mô hình flash
Nhưng như vậy sẽ bỏ lỡ phần quan trọng khác ở đây là môi trường vận hành (harness). Bạn vận hành một pipeline tự động dùng bộ điều phối tự xây để làm kế hoạch/thiết kế/code/build/test, và dùng agent ở nhiều giai đoạn
Mỗi giai đoạn sẽ có mô hình phù hợp hơn, và bạn dùng LLM để đánh giá đầu ra giữa các bước. Không phải mọi tác vụ đều cần Opus 4.8
Môi trường vận hành cung cấp nền tảng để căn chỉnh những gì cần đưa vào và lấy ra khỏi mô hình, đồng thời cho phép chỉ định mô hình nào làm việc gì
Thứ tạo ra chất lượng trong một ngân sách token nhất định không phải là mô hình mà là pipeline
Hoặc có thể mô hình lớn sẽ học cách phân biệt câu hỏi dễ và khó rồi tính phí tương ứng. Nếu đo được độ phức tạp thì thậm chí còn có thể báo giá trước
Mô hình nhỏ là đủ cho các tác vụ code nhỏ, nhưng tôi không rõ vì sao ngay cả mô hình lớn cũng không thể chia nhỏ công việc trong phần lớn trường hợp
Nó đã trở thành vấn đề của kỹ thuật, và bị đẩy sang cho kỹ sư tự giải quyết
Tôi không hiểu vì sao vẫn còn nhiều người tin rằng AI coding rồi sẽ chỉ là một trào lưu nhất thời
Mới bắt đầu chưa đến 2 năm mà các công ty đã trả hàng nghìn đô la cho mỗi ghế, thậm chí tôi còn biết nơi trả 5.000 đô la mỗi tháng
Khó nghĩ ra công cụ nào từ chỗ không có gì mà lại được chấp nhận nhanh đến vậy
Những pull request AI LLM mà ta thấy hiện giờ chỉ đang tạo thêm việc cho người khác, còn các “builder” thì chỉ trông có vẻ hay ho nhờ dashboard mới và các tính năng để demo
Nhưng không thể trao đổi về luồng code, cũng không thể hỏi quá trình suy nghĩ vì sao thứ gì đó lại thành ra như vậy
Nó không được xây từ nền tảng với kinh nghiệm của nhiều người tích lũy lại, mà xuất hiện như thể tự vật chất hóa từ hư vô, không có cả sự phân tách cơ bản và hầu như không có trừu tượng hóa
Không ai muốn đụng vào. Pull request thì quá lớn, còn những “tác giả” đó cũng chẳng trực on-call cùng chúng tôi
Họ lấy hết hào quang nhưng không làm công việc thực sự
Nó giống như vẽ xong bản thiết kế ngôi nhà rồi gửi cho kiến trúc sư và kỹ sư bảo “hãy làm cho cái này chạy được” vậy
Có nhiều cách giải thích hợp lý hơn rất nhiều cho việc các công ty hành xử như vậy, hơn là “vì AI coding không phải trào lưu”
Pull request thì quá lớn và không ai có thể review nổi cái mớ hỗn độn đó, mà nếu đã deploy thì nên chuẩn bị tinh thần on-call
Nó có thể sẽ tốt lên, cũng có thể không, hiện giờ thì vẫn chưa biết
Nó quá lớn và quá nhanh nên không tạo cảm giác bền vững. Có thể duy trì được mức này, có thể còn tăng nữa, hoặc cũng có thể giảm về mức sử dụng và ngân sách bình thường hơn
Tôi dùng gói đăng ký 100 đô la mỗi tháng, nhưng chi phí API trong 30 ngày gần đây vào khoảng 1.700 đô la/tháng
Nó khác biệt rất lớn tùy cách dùng. Nếu tạo thiết kế chi tiết bằng prompt, chia nó thành danh sách công việc rồi đưa vào nhiều agent, thì đốt vài nghìn đô là chuyện rất dễ
Nếu dùng cẩn thận hơn, chỉ chạy tương tác vài agent mỗi lần và dùng cho review pull request / xử lý issue / dọn dẹp tự động / tối ưu hiệu năng thì có thể vào khoảng 1.500 đô la
Nếu chỉ dùng để hỏi mấy câu lẻ tẻ như một Stack Overflow tốt hơn thì còn thấp hơn nhiều so với 100 đô la
Dạo này tôi đang mê
/goal, vì tìm một mục tiêu có thể kiểm chứng được rồi để nó chạy qua đêm, sáng hôm sau xem nó đã đi được đến đâu giống như sáng Giáng Sinh vậy1.500 đô la mỗi tháng tức là 18.000 đô la mỗi năm cho mỗi ghế
Có khi Microsoft và Nvidia đang nhìn thấy điều gì đó
Ngay cả một máy 128GB có thể chạy LLM cục bộ giá 5.000~8.000 đô la cũng nghe có vẻ rẻ. Số token mỗi giây vẫn chưa đủ, nhưng có lẽ vẫn ổn
Nút thắt thực sự không hẳn là code, mà là Uber rốt cuộc đã tạo ra cái gì với từng ấy tiền, và nó có tác động tích cực có ý nghĩa nào đến doanh thu hay không
Cá nhân tôi thấy dưới 50 tok/s là hoàn toàn không dùng nổi
Dù sao đây cũng là so táo với cam. Suy luận trên mô hình open-weight khá rẻ, và chỉ là Claude cùng OpenAI có thể đang ăn biên lợi nhuận rất cao so với DeepSeek hay nhiều nhà cung cấp trên OpenRouter. Vì mô hình mở là hàng hóa phổ thông
Laptop là tài sản khấu hao, không có kinh tế theo quy mô, cấu hình cố định, và sẽ tạo ra một đội thiết bị phân mảnh mà bạn phải giữ mô hình luôn cập nhật
Nghĩ tới cả điện năng tiêu thụ và làm mát thì tôi thực sự không hiểu vì sao các công ty lại đi theo hướng đó
Phần cứng cục bộ trở nên đắt đỏ khi phải chạy một stack phần mềm phức tạp có thể hỏng theo 10.000 cách khác nhau
Các máy chủ AI cục bộ trong tương lai có lẽ sẽ chỉ giao tiếp bằng một giao thức nào đó dành cho AI rồi nằm ở một góc, và chẳng ai phải bận tâm đến nó
Dù vậy, có thể vẫn cần quyền truy cập vào nhiều hệ thống, nên cũng khó nói, nhưng rốt cuộc có lẽ sẽ có ai đó cung cấp “AI trong hộp” với kiểu mô hình mở mới nhất được cài sẵn
Nó tương đương với việc tạo ít nhất 20 tok/s suốt 24/7/365, mà trên thực tế có thể còn lớn hơn nhiều
Mô hình open-weight rẻ hơn rất nhiều so với mô hình độc quyền, ngay cả khi được cung cấp qua một nhà cung cấp phương Tây có uy tín, nên để đạt cùng mức chi tiêu có thể cần hơn 100 tok/s, tức là bước vào lãnh địa phần cứng datacenter
Trên nền tảng prosumer có thể chạm được con số đầu tiên, nhưng chỉ với khối lượng công việc rất đặc thù. Nếu dành nhiều thời gian cho prefill, điều thường gặp ở khối lượng công việc dạng agent, thì triển vọng còn tệ hơn. Với AI on-premise, đó là một ràng buộc lớn
Nếu kỹ sư dùng đúng cách các công cụ AI, họ có thể tăng năng suất đáng kể, và có thể dùng LLM như một kỹ sư junior hoặc associate
1.500 đô la mỗi tháng rẻ hơn rất nhiều so với mức năng suất kiểu đó, và để thuê một kỹ sư con người thì đã phải trả nhiều hơn rất nhiều
Tôi ngày càng lo về hiệu ứng khóa chặt và chi phí chuyển đổi
Tôi đã dùng Claude khoảng một năm và đã tích lũy khá nhiều “tri thức” trong đó
Nếu sau này hiệu năng trên giá thành của Claude trở nên bất lợi thì chắc tôi sẽ lo
Tôi đã bắt đầu nghĩ đến các giải pháp phân tán tách riêng lưu trữ khỏi suy luận, nhưng ở thời điểm hiện tại Claude vẫn là lựa chọn. Không biết có ai cũng lo giống vậy không
Tri thức được lưu ở đâu vậy?
Tri thức của tôi thường được lưu trong các tài liệu kế hoạch bên ngoài agent
Và dù sao thì mỗi cửa sổ agent tôi cũng lưu trữ định kỳ
Nếu nhân viên không tiêu hết ngân sách AI/LLM của mình thì có được tăng lương không?
Tôi không hiểu vì sao việc tự host để chạy các mô hình open-weight trong doanh nghiệp lớn, hoặc dù không nhất thiết phải on-premise thì thuê máy chủ GPU hay host qua những nơi như Together AI, lại không phổ biến hơn
Tôi đã dùng cả mô hình open-weight lẫn các mô hình cao cấp như Opus, Gemini Pro; nhóm sau có tốt hơn một chút thật, nhưng hoàn toàn không đến mức đủ để biện minh cho chênh lệch giá
Với các trường hợp sử dụng của tôi, khác biệt đó phần lớn không quan trọng, và tôi nghĩ nhiều người dùng khác cũng có nhu cầu tương tự
Một chuyện là giao cho các lập trình viên/hacker giỏi một máy chủ GPU mạnh để họ tự do chạy mô hình mình muốn, còn một chuyện hoàn toàn khác là duy trì một nền tảng như vậy cho cả công ty
Bạn phải lo nhân sự hiểu và bảo trì các mô hình đó, backend, tính sẵn sàng, v.v., và nhóm nhân sự đó thường có thể còn đắt hơn rất nhiều so với mức lương kỹ sư phần mềm thông thường
Chính vì phiền phức bổ sung đó, việc trả tiền cho các phòng nghiên cứu bên ngoài hàng đầu và đặt một hạn mức chi tiêu hợp lý cho mọi người sẽ dễ hơn
Mức sử dụng của cả đống rack khổng lồ như vậy sẽ không phải 24/7/365, và đa số tổ chức cũng không đủ tập trung vào GPU để tận dụng phần năng lực dư ra vào việc huấn luyện mô hình
Nếu giá là hơn 100.000~200.000 USD và tuổi thọ chỉ khoảng 2 năm, thì rất khó biện minh về mặt tài chính
Ngay cả tự host, nếu khấu hao cho nhiều lập trình viên thì cũng dễ lên khoảng 1.000 USD/tháng, và giờ cao điểm sẽ có giới hạn tốc độ rất gắt
Lấy 1.000 USD trừ khỏi 1.500 USD/tháng thì còn 500 USD; liệu khoản đó có đủ để biện minh cho việc năng suất AI giảm 10% không? Tôi nghĩ đa số trường hợp là không
Trong ngắn hạn, nếu không có lý do thật sự thuyết phục buộc phải tự host mô hình hỗ trợ lập trình, thì 2~3 nhà cung cấp hỗ trợ lập trình hàng đầu vẫn là lựa chọn tốt hơn
Chưa ai bị sa thải chỉ vì mua giấy phép Claude Code cả
Chỉ riêng việc gom GPU để phục vụ nhiều người dùng, đồng thời giữ các kiểm soát bảo mật và kết nối vào tài liệu cùng data lake, đã là việc không hề đơn giản
Cuối cùng bạn vẫn sẽ phải trả tiền cho một đội ngũ để quản lý tất cả chuyện đó
Bạn cần phần cứng chuyên dụng trong trung tâm dữ liệu và các chuyên gia để vận hành nó
Công ty còn phải tìm cách quản lý mua sắm, tài sản, chi phí và thêm cả 1.000 thứ khác ngoài công việc kinh doanh chính
Ai là bên đã giải quyết sẵn toàn bộ chuyện đó? AWS/Azure/OpenAI và các bên tương tự
Việc bảo trì phần cứng và thuê chuyên gia vận hành dịch vụ đều tốn tiền
Với một thứ phổ biến như mô hình LLM, trừ khi công ty cực kỳ nhạy cảm với việc gửi byte lên AWS, còn không thì hoàn toàn không có lý do gì phải cung cấp mô hình bằng phần cứng tự có
So với con số hạn mức 1.500 USD/tháng, điều thú vị hơn là việc họ đã đặt ra một hạn mức nào đó
Hầu hết các đội kỹ thuật mà tôi nói chuyện cùng đều không biết chi tiêu AI trên mỗi lập trình viên là bao nhiêu, vì nó bị chìm trong hóa đơn cloud tổng hợp
Một hard cap buộc phải có hai cuộc trao đổi hữu ích: workflow nào thật sự xứng đáng với các lệnh gọi API và workflow nào chỉ cần suy luận cục bộ; và liệu đầu ra có đang được đối chiếu với các chỉ số năng suất thực tế hay không
Nếu không có vòng phản hồi như vậy thì chuyện này chỉ biến thành một cuộc đua xem ai đốt token nhanh nhất
Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
Mạch lập luận kiểu “hạn mức 1.500 USD/tháng cho mỗi công cụ có vẻ là một phản ứng chính sách hợp lý trước tình trạng chi tiêu quá tay” rồi lại sang “mức dùng token của tôi là khoảng 1.000 USD/tháng ở cả Anthropic lẫn OpenAI, nhưng hiện giờ tôi chỉ trả 100 USD cho mỗi bên nhờ các gói trợ giá hào phóng cho người đăng ký cá nhân” nghe rất giống mô hình kinh doanh bán hàng đa cấp
Nó giống kiểu các “diamond” kiếm tiền bằng cách quảng bá MLM ở hội thảo, rồi bảo những người đầy hy vọng ở tầng dưới rằng “mua gói đăng ký AI ngay bây giờ là cơ hội duy nhất để trở thành người chiến thắng trong đời”
Không biết có thứ gì đó đang tạo ra FOMO kiểu MLM vs LLM hay không