2 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Uber giới hạn chi tiêu token hằng tháng ở mức 1.500 USD cho mỗi công cụ lập trình AI đối với mọi nhân viên, nhằm ứng phó với chi phí gia tăng của các công cụ lập trình dạng tác nhân
  • Giới hạn này chỉ áp dụng cho phần mềm lập trình dạng tác nhân như Cursor hoặc Claude Code, và mức chi cho một công cụ không ảnh hưởng đến ngân sách của công cụ khác
  • Uber đã lập ngân sách AI cho năm 2026 từ năm 2025, nhưng sau đó các tác nhân lập trình tiêu thụ nhiều token đã trở nên phổ biến nhanh hơn dự kiến, khiến ngân sách năm 2026 bị dùng hết chỉ sau 4 tháng
  • Nếu giả định sử dụng tích cực 2 công cụ, giới hạn hằng năm cho mỗi kỹ sư là 36.000 USD, tương đương khoảng 11% mức thu nhập trung vị 330.000 USD của kỹ sư phần mềm Uber tại Mỹ theo Levels.fyi
  • Giá công cụ AI ngày càng chênh lệch lớn giữa các gói trợ giá cho người dùng cá nhân và mức giá API mà các doanh nghiệp lớn thực sự phải trả, và giới hạn của Uber cho thấy ngưỡng chi phí mà doanh nghiệp có thể chấp nhận

Giới hạn chi tiêu cho công cụ lập trình AI của Uber

  • Uber giới hạn chi tiêu token hằng tháng ở mức 1.500 USD cho mỗi công cụ lập trình AI đối với mọi nhân viên
  • Giới hạn này được đưa vào trong vài tháng gần đây và chỉ áp dụng cho phần mềm lập trình dạng tác nhân như Cursor hoặc Claude Code của Anthropic
  • Đây là giới hạn theo từng công cụ, nên chi phí dùng ở một công cụ sẽ không làm giảm ngân sách của công cụ khác
  • Mức 1.500 USD mỗi tháng được xem là cách hợp lý để đối phó với tình trạng chi tiêu quá mức, và được đánh giá là hợp lý hơn so với bảng xếp hạng tokenmaxxing vốn khuyến khích nhân viên cạnh tranh về mức sử dụng AI

Tín hiệu giá và cách tính chi phí

  • Việc Uber dùng hết ngân sách AI năm 2026 chỉ trong 4 tháng có liên hệ với bối cảnh là khi lập ngân sách vào năm 2025, rất khó dự đoán mức độ phổ biến của các tác nhân lập trình tiêu thụ nhiều token
  • Nếu giả định một kỹ sư tích cực sử dụng 2 công cụ, mức trần sẽ là 3.000 USD mỗi tháng và 36.000 USD mỗi năm
  • Gói đãi ngộ thường niên trung vị của kỹ sư phần mềm Uber tại Mỹ theo Levels.fyi là 330.000 USD, và giới hạn 36.000 USD mỗi năm tương đương khoảng 11% con số đó
  • Xét theo mức sử dụng cá nhân, ngay cả khi dùng lượng token trị giá 1.000 USD mỗi tháng cho cả Anthropic và OpenAI, chi phí hiện tại vẫn chỉ ở mức khoảng 100 USD cho mỗi nhà cung cấp nhờ các gói trợ giá dành cho người dùng cá nhân
  • Các gói trợ giá cá nhân đó không còn được cung cấp cho các doanh nghiệp lớn như Uber nữa, và với mô hình sử dụng hiện tại thì ngay cả trong giới hạn của Uber, mỗi công cụ vẫn còn dư 500 USD mỗi tháng

1 bình luận

 
Ý kiến trên Hacker News
  • Tò mò không biết các công ty AI có tiếp tục giữ mức giá theo token hiện nay hay cuối cùng sẽ phải hạ xuống vì cạnh tranh từ Trung Quốc
    Những cá nhân không có nhiều ngân sách đã bắt đầu chuyển sang các mô hình trọng số mở của Trung Quốc như DeepSeek
    Cũng không rõ liệu Trung Quốc có thực sự đang trợ cấp cho các công ty này, hay chi phí suy luận thực tế vốn đã thấp hơn rất nhiều và Anthropic/OpenAI chỉ đang thu tối đa có thể trước các đợt IPO trong tương lai

    • Vì nhiều mô hình là trọng số mở và còn được cung cấp bởi các bên thứ ba không có lý do gì để trợ cấp, nên có thể phần nào thấy được rằng chi phí suy luận của chúng đủ thấp để gần với giá vốn thực tế
      Có lẽ các phòng thí nghiệm dẫn đầu sẽ phải hạ mức giá token cao của mình, ít nhất là với các mô hình giá rẻ và tầm trung. Lý do là các mô hình Trung Quốc như Qwen, DeepSeek, Kimi, GLM đã “đủ gần” để trở thành lựa chọn thay thế hiệu quả về chi phí nếu được đặt trong môi trường vận hành phù hợp
      Dù vậy, cũng có những mô hình cần nhiều công việc hơn để giải cùng một bài toán, nên có thể chưa cần lấp đầy hoàn toàn khoảng cách ngay lúc này
      Dù sao thì giá có lẽ cũng sẽ giảm theo cách này hay cách khác, đồng thời khả năng cao là các gói đăng ký của những mô hình Trung Quốc giá rẻ cũng đang có yếu tố trợ cấp, nên theo thời gian sẽ bớt hào phóng hơn
    • Điều Paul Kedrosky nói gần đây về duration mismatch là một khía cạnh của vấn đề
      Giá theo token giảm dần theo thời gian do áp lực cạnh tranh hoặc vì khách hàng có động lực dùng các mô hình cũ, rẻ hơn, trong khi các trung tâm dữ liệu lại được tài trợ bằng nợ dựa trên giả định rằng doanh thu sẽ tăng theo thời gian
      Mượn cách diễn đạt của ông ấy, “[các công ty AI] đang dùng hàng hóa mất giá để trả chi phí cố định”
      Một bên là doanh thu token đi xuống, bên kia là chi phí huấn luyện các mô hình frontier thế hệ tiếp theo tăng lên, trong khi họ vẫn phải trả khoản nợ 10 năm
      0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
    • Không cần lo đâu, chỉ cần vận động hành lang để cấm các mô hình Trung Quốc nhằm bảo vệ doanh thu token là được
      “Điều làm vấn đề nghiêm trọng hơn là các phòng thí nghiệm Trung Quốc thường phát hành các mô hình có khả năng lưỡng dụng dưới dạng trọng số mở. Khi mô hình ở dạng trọng số mở, các biện pháp an toàn hiện có cũng có thể bị gỡ bỏ, cho phép các tác nhân nhà nước và phi nhà nước với mục đích xấu sử dụng, bao gồm cả các hành vi lạm dụng mạng và CBRN mà những biện pháp an toàn đó vốn nhằm ngăn chặn”
      https://www.anthropic.com/research/2028-ai-leadership
    • Ngược lại, khả năng cao là giá sẽ tăng. NVidia nói rằng giá phần cứng GPU sẽ không giảm ít nhất cho đến năm 2030, và toàn cầu đang thiếu công suất fab
    • Hầu hết các công ty Mỹ vận hành bình thường sẽ chặn việc sử dụng các công ty AI Trung Quốc qua nền tảng đám mây. Vì mã nguồn, dữ liệu, thông tin cá nhân, v.v. đều sẽ bị gửi sang đó
  • Tò mò không biết đến bao giờ các tập đoàn lớn mới nhận ra rằng ngay cả mô hình flash cũng đã đủ tốt nếu đáp ứng các điều kiện sau

    1. Không yêu cầu LLM thực hiện thay đổi lớn
    2. Xem lại mọi kết quả và chỉ cho nó hướng đúng
      Ngay cả mô hình lớn vẫn rất kém với các thay đổi lớn, vẫn tạo ra những kiến trúc đáng ngờ, và nếu là dự án nghiêm túc thì dù sao bạn cũng phải review code
      Bất kể là mô hình nào, nếu không chú ý đủ thì codebase sẽ nhanh chóng thành mớ hỗn độn
      Trong các tình huống lặp đi lặp lại có đưa chỉ dẫn, mô hình flash rẻ hơn 10 lần và nhanh hơn nhiều, nên khó thấy lý do phải dùng mô hình lớn. Mô hình lớn có thể dành cho kiểm toán bảo mật và bug, còn với các thay đổi dưới 300 dòng, nếu chỉ định rõ hình dạng mã nguồn mong muốn thì mô hình flash cũng hoạt động gần như tương tự
    • Khá đơn giản. Các tổ chức sẵn sàng chịu mức chi 1.500 USD mỗi tháng cho mỗi kỹ sư, và con số này có vẻ tương ứng khá sát với mức sử dụng “thông thường” của phần lớn kỹ sư toàn thời gian
      Nếu con số này tăng đáng kể, thì như bạn đề xuất, các công ty có lẽ sẽ bắt đầu xem xét nghiêm túc hơn các mô hình flash
    • Dùng mô hình mới nhất tốt nhất mà bạn có thể chi trả là một quyết định dễ dàng
      Nhưng như vậy sẽ bỏ lỡ phần quan trọng khác ở đây là môi trường vận hành (harness). Bạn vận hành một pipeline tự động dùng bộ điều phối tự xây để làm kế hoạch/thiết kế/code/build/test, và dùng agent ở nhiều giai đoạn
      Mỗi giai đoạn sẽ có mô hình phù hợp hơn, và bạn dùng LLM để đánh giá đầu ra giữa các bước. Không phải mọi tác vụ đều cần Opus 4.8
      Môi trường vận hành cung cấp nền tảng để căn chỉnh những gì cần đưa vào và lấy ra khỏi mô hình, đồng thời cho phép chỉ định mô hình nào làm việc gì
      Thứ tạo ra chất lượng trong một ngân sách token nhất định không phải là mô hình mà là pipeline
    • Tò mò không biết nên để mô hình tự quyết định đến mức nào về việc chuyển truy vấn sang mô hình khác
      Hoặc có thể mô hình lớn sẽ học cách phân biệt câu hỏi dễ và khó rồi tính phí tương ứng. Nếu đo được độ phức tạp thì thậm chí còn có thể báo giá trước
      Mô hình nhỏ là đủ cho các tác vụ code nhỏ, nhưng tôi không rõ vì sao ngay cả mô hình lớn cũng không thể chia nhỏ công việc trong phần lớn trường hợp
    • Hoàn toàn đồng ý. Các mô hình lớn hơn còn có thói quen làm mọi thứ phức tạp quá mức
    • “Không yêu cầu LLM thực hiện thay đổi lớn”, “xem lại mọi thứ và chỉ hướng cho nó” là những điều ban lãnh đạo không quan tâm
      Nó đã trở thành vấn đề của kỹ thuật, và bị đẩy sang cho kỹ sư tự giải quyết
  • Tôi không hiểu vì sao vẫn còn nhiều người tin rằng AI coding rồi sẽ chỉ là một trào lưu nhất thời
    Mới bắt đầu chưa đến 2 năm mà các công ty đã trả hàng nghìn đô la cho mỗi ghế, thậm chí tôi còn biết nơi trả 5.000 đô la mỗi tháng
    Khó nghĩ ra công cụ nào từ chỗ không có gì mà lại được chấp nhận nhanh đến vậy

    • Vì các công ty đang đặt cược rằng khoản chi này sẽ giúp họ cắt giảm chi phí bằng cách sa thải con người
      Những pull request AI LLM mà ta thấy hiện giờ chỉ đang tạo thêm việc cho người khác, còn các “builder” thì chỉ trông có vẻ hay ho nhờ dashboard mới và các tính năng để demo
      Nhưng không thể trao đổi về luồng code, cũng không thể hỏi quá trình suy nghĩ vì sao thứ gì đó lại thành ra như vậy
      Nó không được xây từ nền tảng với kinh nghiệm của nhiều người tích lũy lại, mà xuất hiện như thể tự vật chất hóa từ hư vô, không có cả sự phân tách cơ bản và hầu như không có trừu tượng hóa
      Không ai muốn đụng vào. Pull request thì quá lớn, còn những “tác giả” đó cũng chẳng trực on-call cùng chúng tôi
      Họ lấy hết hào quang nhưng không làm công việc thực sự
      Nó giống như vẽ xong bản thiết kế ngôi nhà rồi gửi cho kiến trúc sư và kỹ sư bảo “hãy làm cho cái này chạy được” vậy
    • Lập luận đó không dẫn tới kết luận ấy. Việc “các công ty đã trả hàng nghìn đô cho mỗi ghế” không có tương quan gì với chuyện thứ gì đó có phải trào lưu hay không
      Có nhiều cách giải thích hợp lý hơn rất nhiều cho việc các công ty hành xử như vậy, hơn là “vì AI coding không phải trào lưu”
    • Kết quả từ vibe coding đôi khi rất tuyệt, nhưng đôi khi lại làm hỏng thứ gì đó, thậm chí còn phá lại những thứ đã sửa nhiều lần rồi
      Pull request thì quá lớn và không ai có thể review nổi cái mớ hỗn độn đó, mà nếu đã deploy thì nên chuẩn bị tinh thần on-call
      Nó có thể sẽ tốt lên, cũng có thể không, hiện giờ thì vẫn chưa biết
    • Chính những điều này lại có vẻ là tín hiệu cho thấy thực tế có thể khác với bề ngoài
      Nó quá lớn và quá nhanh nên không tạo cảm giác bền vững. Có thể duy trì được mức này, có thể còn tăng nữa, hoặc cũng có thể giảm về mức sử dụng và ngân sách bình thường hơn
    • Giữa “AI coding là trào lưu” và “cấp token không giới hạn cho mọi nhân viên mà thậm chí không quan tâm liệu có hiệu quả tài chính ròng hay không” có một phổ rất rộng
  • Tôi dùng gói đăng ký 100 đô la mỗi tháng, nhưng chi phí API trong 30 ngày gần đây vào khoảng 1.700 đô la/tháng
    Nó khác biệt rất lớn tùy cách dùng. Nếu tạo thiết kế chi tiết bằng prompt, chia nó thành danh sách công việc rồi đưa vào nhiều agent, thì đốt vài nghìn đô là chuyện rất dễ
    Nếu dùng cẩn thận hơn, chỉ chạy tương tác vài agent mỗi lần và dùng cho review pull request / xử lý issue / dọn dẹp tự động / tối ưu hiệu năng thì có thể vào khoảng 1.500 đô la
    Nếu chỉ dùng để hỏi mấy câu lẻ tẻ như một Stack Overflow tốt hơn thì còn thấp hơn nhiều so với 100 đô la
    Dạo này tôi đang mê /goal, vì tìm một mục tiêu có thể kiểm chứng được rồi để nó chạy qua đêm, sáng hôm sau xem nó đã đi được đến đâu giống như sáng Giáng Sinh vậy

  • 1.500 đô la mỗi tháng tức là 18.000 đô la mỗi năm cho mỗi ghế
    Có khi Microsoft và Nvidia đang nhìn thấy điều gì đó
    Ngay cả một máy 128GB có thể chạy LLM cục bộ giá 5.000~8.000 đô la cũng nghe có vẻ rẻ. Số token mỗi giây vẫn chưa đủ, nhưng có lẽ vẫn ổn
    Nút thắt thực sự không hẳn là code, mà là Uber rốt cuộc đã tạo ra cái gì với từng ấy tiền, và nó có tác động tích cực có ý nghĩa nào đến doanh thu hay không

    • Tôi không chắc token mỗi giây không phải là nút thắt. Có vẻ đa số mọi người vẫn sẽ dùng AI agent theo kiểu tương tác hơn là để nó tự chạy qua đêm
      Cá nhân tôi thấy dưới 50 tok/s là hoàn toàn không dùng nổi
      Dù sao đây cũng là so táo với cam. Suy luận trên mô hình open-weight khá rẻ, và chỉ là Claude cùng OpenAI có thể đang ăn biên lợi nhuận rất cao so với DeepSeek hay nhiều nhà cung cấp trên OpenRouter. Vì mô hình mở là hàng hóa phổ thông
    • Chạy mô hình on-premise riêng vẫn tốt hơn nhiều
      Laptop là tài sản khấu hao, không có kinh tế theo quy mô, cấu hình cố định, và sẽ tạo ra một đội thiết bị phân mảnh mà bạn phải giữ mô hình luôn cập nhật
      Nghĩ tới cả điện năng tiêu thụ và làm mát thì tôi thực sự không hiểu vì sao các công ty lại đi theo hướng đó
    • Có lẽ cuối cùng các công ty sẽ mua máy chủ AI cục bộ
      Phần cứng cục bộ trở nên đắt đỏ khi phải chạy một stack phần mềm phức tạp có thể hỏng theo 10.000 cách khác nhau
      Các máy chủ AI cục bộ trong tương lai có lẽ sẽ chỉ giao tiếp bằng một giao thức nào đó dành cho AI rồi nằm ở một góc, và chẳng ai phải bận tâm đến nó
      Dù vậy, có thể vẫn cần quyền truy cập vào nhiều hệ thống, nên cũng khó nói, nhưng rốt cuộc có lẽ sẽ có ai đó cung cấp “AI trong hộp” với kiểu mô hình mở mới nhất được cài sẵn
    • Tôi đồng ý với luận điểm cơ bản, nhưng để chạy lượng AI cục bộ hiện đại tương đương 1.500 đô la mỗi tháng thì đã là chuyện không hề đơn giản, và cần nhớ đó mới chỉ là cho một ghế
      Nó tương đương với việc tạo ít nhất 20 tok/s suốt 24/7/365, mà trên thực tế có thể còn lớn hơn nhiều
      Mô hình open-weight rẻ hơn rất nhiều so với mô hình độc quyền, ngay cả khi được cung cấp qua một nhà cung cấp phương Tây có uy tín, nên để đạt cùng mức chi tiêu có thể cần hơn 100 tok/s, tức là bước vào lãnh địa phần cứng datacenter
      Trên nền tảng prosumer có thể chạm được con số đầu tiên, nhưng chỉ với khối lượng công việc rất đặc thù. Nếu dành nhiều thời gian cho prefill, điều thường gặp ở khối lượng công việc dạng agent, thì triển vọng còn tệ hơn. Với AI on-premise, đó là một ràng buộc lớn
    • Tôi cho rằng điểm mấu chốt không nhất thiết là Uber đã tạo ra gì, mà là mức tăng năng suất
      Nếu kỹ sư dùng đúng cách các công cụ AI, họ có thể tăng năng suất đáng kể, và có thể dùng LLM như một kỹ sư junior hoặc associate
      1.500 đô la mỗi tháng rẻ hơn rất nhiều so với mức năng suất kiểu đó, và để thuê một kỹ sư con người thì đã phải trả nhiều hơn rất nhiều
  • Tôi ngày càng lo về hiệu ứng khóa chặt và chi phí chuyển đổi
    Tôi đã dùng Claude khoảng một năm và đã tích lũy khá nhiều “tri thức” trong đó
    Nếu sau này hiệu năng trên giá thành của Claude trở nên bất lợi thì chắc tôi sẽ lo
    Tôi đã bắt đầu nghĩ đến các giải pháp phân tán tách riêng lưu trữ khỏi suy luận, nhưng ở thời điểm hiện tại Claude vẫn là lựa chọn. Không biết có ai cũng lo giống vậy không

    • Chẳng phải “tri thức” đó chỉ là file văn bản thôi sao? Tôi đã chuyển đổi giữa các dịch vụ chỉ bằng cách sao chép file văn bản một cách rất dễ dàng
    • Giải pháp tôi thích là dùng coding agent Cline. Nó mở và có thể chuyển đổi dễ dàng giữa nhiều nhà cung cấp và mô hình
    • Tôi không rõ “tri thức” trong đó là gì
      Tri thức được lưu ở đâu vậy?
      Tri thức của tôi thường được lưu trong các tài liệu kế hoạch bên ngoài agent
      Và dù sao thì mỗi cửa sổ agent tôi cũng lưu trữ định kỳ
  • Nếu nhân viên không tiêu hết ngân sách AI/LLM của mình thì có được tăng lương không?

    • Chắc là sẽ bị sa thải vì hiệu suất kém thôi
  • Tôi không hiểu vì sao việc tự host để chạy các mô hình open-weight trong doanh nghiệp lớn, hoặc dù không nhất thiết phải on-premise thì thuê máy chủ GPU hay host qua những nơi như Together AI, lại không phổ biến hơn
    Tôi đã dùng cả mô hình open-weight lẫn các mô hình cao cấp như Opus, Gemini Pro; nhóm sau có tốt hơn một chút thật, nhưng hoàn toàn không đến mức đủ để biện minh cho chênh lệch giá
    Với các trường hợp sử dụng của tôi, khác biệt đó phần lớn không quan trọng, và tôi nghĩ nhiều người dùng khác cũng có nhu cầu tương tự

    • Ở chỗ làm $WORK của tôi cũng vừa có thảo luận tương tự; đây là một công ty tài chính truyền thống, niêm yết trên NYSE, và nếu xét theo mặt bằng chung thì năng lực IT chỉ ở mức trung bình, nên tôi nghĩ lập luận sẽ là thế này
      Một chuyện là giao cho các lập trình viên/hacker giỏi một máy chủ GPU mạnh để họ tự do chạy mô hình mình muốn, còn một chuyện hoàn toàn khác là duy trì một nền tảng như vậy cho cả công ty
      Bạn phải lo nhân sự hiểu và bảo trì các mô hình đó, backend, tính sẵn sàng, v.v., và nhóm nhân sự đó thường có thể còn đắt hơn rất nhiều so với mức lương kỹ sư phần mềm thông thường
      Chính vì phiền phức bổ sung đó, việc trả tiền cho các phòng nghiên cứu bên ngoài hàng đầu và đặt một hạn mức chi tiêu hợp lý cho mọi người sẽ dễ hơn
    • Ngay cả khi mô hình cao cấp chỉ tốt hơn 10%, điều đó vẫn có thể đủ để biện minh cho mức giá so với việc tự host một mô hình open-weight cỡ khoảng 0.5~1T
      Mức sử dụng của cả đống rack khổng lồ như vậy sẽ không phải 24/7/365, và đa số tổ chức cũng không đủ tập trung vào GPU để tận dụng phần năng lực dư ra vào việc huấn luyện mô hình
      Nếu giá là hơn 100.000~200.000 USD và tuổi thọ chỉ khoảng 2 năm, thì rất khó biện minh về mặt tài chính
      Ngay cả tự host, nếu khấu hao cho nhiều lập trình viên thì cũng dễ lên khoảng 1.000 USD/tháng, và giờ cao điểm sẽ có giới hạn tốc độ rất gắt
      Lấy 1.000 USD trừ khỏi 1.500 USD/tháng thì còn 500 USD; liệu khoản đó có đủ để biện minh cho việc năng suất AI giảm 10% không? Tôi nghĩ đa số trường hợp là không
      Trong ngắn hạn, nếu không có lý do thật sự thuyết phục buộc phải tự host mô hình hỗ trợ lập trình, thì 2~3 nhà cung cấp hỗ trợ lập trình hàng đầu vẫn là lựa chọn tốt hơn
      Chưa ai bị sa thải chỉ vì mua giấy phép Claude Code cả
    • Tôi không hiểu vì sao lại nghĩ chuyện đó đáng lẽ phải phổ biến hơn
      Chỉ riêng việc gom GPU để phục vụ nhiều người dùng, đồng thời giữ các kiểm soát bảo mật và kết nối vào tài liệu cùng data lake, đã là việc không hề đơn giản
      Cuối cùng bạn vẫn sẽ phải trả tiền cho một đội ngũ để quản lý tất cả chuyện đó
    • Việc tự mình thử một lần trên máy cá nhân hoàn toàn khác với bài toán cung cấp mô hình cho 3.000 nhân viên trong bối cảnh yêu cầu phần cứng và phần mềm liên tục thay đổi
      Bạn cần phần cứng chuyên dụng trong trung tâm dữ liệu và các chuyên gia để vận hành nó
      Công ty còn phải tìm cách quản lý mua sắm, tài sản, chi phí và thêm cả 1.000 thứ khác ngoài công việc kinh doanh chính
      Ai là bên đã giải quyết sẵn toàn bộ chuyện đó? AWS/Azure/OpenAI và các bên tương tự
    • Cũng vì cùng một lý do mà các công ty không tự xây trung tâm dữ liệu cho các nhu cầu host và lưu trữ thông thường, mà đưa lên AWS, Azure, v.v.
      Việc bảo trì phần cứng và thuê chuyên gia vận hành dịch vụ đều tốn tiền
      Với một thứ phổ biến như mô hình LLM, trừ khi công ty cực kỳ nhạy cảm với việc gửi byte lên AWS, còn không thì hoàn toàn không có lý do gì phải cung cấp mô hình bằng phần cứng tự có
  • So với con số hạn mức 1.500 USD/tháng, điều thú vị hơn là việc họ đã đặt ra một hạn mức nào đó
    Hầu hết các đội kỹ thuật mà tôi nói chuyện cùng đều không biết chi tiêu AI trên mỗi lập trình viên là bao nhiêu, vì nó bị chìm trong hóa đơn cloud tổng hợp
    Một hard cap buộc phải có hai cuộc trao đổi hữu ích: workflow nào thật sự xứng đáng với các lệnh gọi API và workflow nào chỉ cần suy luận cục bộ; và liệu đầu ra có đang được đối chiếu với các chỉ số năng suất thực tế hay không
    Nếu không có vòng phản hồi như vậy thì chuyện này chỉ biến thành một cuộc đua xem ai đốt token nhanh nhất

  • Mạch lập luận kiểu “hạn mức 1.500 USD/tháng cho mỗi công cụ có vẻ là một phản ứng chính sách hợp lý trước tình trạng chi tiêu quá tay” rồi lại sang “mức dùng token của tôi là khoảng 1.000 USD/tháng ở cả Anthropic lẫn OpenAI, nhưng hiện giờ tôi chỉ trả 100 USD cho mỗi bên nhờ các gói trợ giá hào phóng cho người đăng ký cá nhân” nghe rất giống mô hình kinh doanh bán hàng đa cấp
    Nó giống kiểu các “diamond” kiếm tiền bằng cách quảng bá MLM ở hội thảo, rồi bảo những người đầy hy vọng ở tầng dưới rằng “mua gói đăng ký AI ngay bây giờ là cơ hội duy nhất để trở thành người chiến thắng trong đời”
    Không biết có thứ gì đó đang tạo ra FOMO kiểu MLM vs LLM hay không

    • Simon Willison đã luôn như vậy kể từ khi LLM xuất hiện. Trông quá lộ liễu như một người đang nhận tiền để quảng bá