1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • COO của Uber cho rằng ngày càng khó biện minh việc chi tiêu cho AI có tạo ra kết quả tương xứng với chi phí bỏ ra hay không
  • Tranh luận nội bộ gia tăng sau khi CTO của Uber tiết lộ công ty đã dùng hết ngân sách Claude Code cho năm 2026
  • Mối liên hệ giữa mức sử dụng token cao hơn với việc gia tăng tương ứng các tính năng hữu ích cho người dùng vẫn chưa được xác nhận
  • CEO của Uber cho biết công ty đang làm chậm tốc độ tuyển dụng để bù đắp cho khoản đầu tư vào AI
  • Trái với xu hướng tokenmaxxing ở Big Tech, Duolingo đã rút lại quyết định đưa việc dùng AI vào đánh giá hiệu suất sau phản ứng từ nhân viên

Vấn đề biện minh chi phí AI trong nội bộ Uber

  • Giám đốc vận hành Uber Andrew Macdonald cho rằng việc biện minh chi phí AI trong công ty đang ngày càng khó khăn hơn
  • Trong cuộc phỏng vấn Rapid Response được công bố hôm thứ Bảy, ông nói AI chưa tạo ra hiệu quả tương xứng với số tiền công ty đang chi
  • Tranh luận nội bộ tăng lên sau khi CTO của Uber, Praveen Neppalli Naga, nói trong cuộc phỏng vấn với The Information hồi tháng 4 rằng Uber đã dùng hết ngân sách Claude Code cho năm 2026
  • Phát biểu này dẫn tới tình huống mà Macdonald mô tả là một “khoảnh khắc như muốn nổ tung đầu óc”, và trong công ty đã xuất hiện thảo luận về bài toán đánh đổi giữa mức tiêu thụ token AIquy mô nhân sự

Thiếu mối liên kết giữa lượng token sử dụng và hiệu quả sản phẩm

  • Sau khi trao đổi với các lãnh đạo kỹ thuật cấp cao của Uber, Macdonald kết luận rằng mức sử dụng token cao hơn không dẫn tới sự gia tăng tỷ lệ thuận về các tính năng hữu ích cho người dùng
  • Ông nói “mối liên kết đó vẫn chưa tồn tại”, tức là có thể công ty đang phát hành nhiều tính năng hơn, nhưng khó gắn trực tiếp một chỉ số cụ thể với kết luận rằng “giờ đây chúng tôi thực sự đang tạo ra nhiều hơn 25% tính năng hữu ích cho người dùng”
  • Càng khó liên hệ trực tiếp chi tiêu cho AI với kết quả, công ty càng khó biện minh cho chi phí đánh đổi đó
  • CEO Dara Khosrowshahi cho biết trong cuộc công bố kết quả kinh doanh đầu tháng này rằng Uber đang làm chậm tốc độ tuyển dụng để bù đắp cho khoản đầu tư vào AI

Người dùng cảm thấy như miễn phí, nhưng công ty là bên trả tiền

  • Macdonald cho rằng nếu đứng ở góc độ người dùng không phải trả tiền và đang nghĩ ra những “trường hợp sử dụng thú vị”, AI có thể trông như miễn phí
  • Nhưng cuối cùng công ty mới là bên trả chi phí
  • Việc mở rộng sử dụng AI không còn chỉ là một thử nghiệm năng suất đơn thuần, mà được xem như một cấu trúc chi phí ảnh hưởng tới ngân sách và vận hành nhân sự

Dòng chảy khác với tokenmaxxing của Big Tech

  • Big Tech đang đẩy mạnh tokenmaxxing, tức sử dụng AI nhiều nhất có thể, và một số công ty còn đưa mức độ sử dụng AI của nhân viên vào đánh giá
  • Meta, Google, JPMorgan được nhắc đến như những công ty gắn việc dùng AI với đánh giá hiệu suất, mục tiêu, tăng lương và thăng chức
  • Ngược lại, một số công ty bắt đầu lùi lại khỏi cách tiếp cận ép buộc dùng AI bằng mọi giá
  • Duolingo đã rút lại quyết định đưa việc sử dụng AI vào đánh giá hiệu suất sau khi nhân viên đặt câu hỏi: “Có phải chúng ta phải dùng AI chỉ để dùng AI không?”
  • CEO của Duolingo, Luis von Ahn, nói trong một cuộc phỏng vấn podcast hồi tháng 4 rằng điều đó tạo cảm giác như đang ép buộc một thứ vốn trong một số trường hợp không phù hợp, thay vì buộc mọi người chịu trách nhiệm về kết quả thực tế

1 bình luận

 
Ý kiến trên Hacker News
  • Vào giai đoạn 2007~2009 khi Google mở rộng mạnh các trung tâm dữ liệu, đặc biệt ngoài giờ làm việc có rất nhiều dung lượng nhàn rỗi
    Bất kỳ kỹ sư nào cũng có thể chạy bao nhiêu tác vụ tùy ý ở mức ưu tiên 0, và nếu tác vụ quan trọng hơn cần tài nguyên thì chúng sẽ là thứ bị kill đầu tiên
    Khi đó đã có rất nhiều thử nghiệm MapReduce chạy qua đêm, và trong một thời gian người ta thậm chí còn chạy các dịch vụ nội bộ ở mức ưu tiên 0 nên gần như vận hành kiểu “miễn phí”
    Khi mức sử dụng tăng lên, những dịch vụ đó ngày càng kém ổn định, và cuối cùng phải либо chứng minh tính hợp lý của việc dùng tài nguyên hoặc thu nhỏ quy mô, nhưng tôi nghĩ đó là hướng đi đúng
    Việc dùng token AI cũng nên theo mô hình tương tự. Các công ty công nghệ lớn có thể có trung tâm dữ liệu LLM riêng để xử lý nhu cầu nội bộ, rồi mở phần dung lượng nhàn rỗi ngoài giờ làm việc cho nhân viên thử nghiệm
    Trong công việc hằng ngày, nên khuyến khích hiệu quả token hơn là bản thân số lượng token. Dùng nhiều token cho tự động hóa giúp tiết kiệm vài giờ lao động của con người mỗi tuần là cách dùng tốt, còn đốt nhiều token để debug một bug frontend đơn giản mà vẫn mất 4 tiếng, thì là lãng phí

    • Chẳng phải khá giống với batch processing của OpenAI sao? Yêu cầu được xử lý trong vòng 24 giờ và chi phí chỉ bằng một nửa
      https://developers.openai.com/api/docs/guides/batch
    • Tôi không nghĩ người dùng LLM sẽ hành xử lý tính như vậy. Có vẻ khá nhiều người cứ khăng khăng rằng việc gì nhỏ cũng phải ném Opus vào
    • Hầu hết frontend AI được thiết kế cho công việc tương tác, nên khiến việc định nghĩa các tác vụ ưu tiên 0 kiểu “xử lý lúc nào cũng được” trở nên khó khăn
      Với những thứ như phát triển dựa trên đặc tả, nơi con người không liên tục ở trong vòng lặp mà chỉ giám sát phía trên vòng lặp, cách tiếp cận này tự nhiên hơn nhiều, nhưng ít nhất theo trải nghiệm với frontend của Google thì tôi chưa thấy nơi nào hỗ trợ tốt chuyện đó
    • Bảo người ta đừng đốt nhiều token rồi vẫn mất 4 tiếng cho một bug frontend đơn giản thì có vẻ không dễ đâu
      Chuyện đang xảy ra bây giờ với nhiều người là điều quá hiển nhiên. Nó giống như bảo một người nghiện mới được tạo ra có chủ đích để họ nghiện rằng “hãy tiêu dùng cẩn thận hơn một chút”, nên có lẽ sẽ không hiệu quả mấy
    • Cuối cùng có lẽ kịch bản hợp lý hơn là mọi người chấp nhận các mô hình Trung Quốc rẻ hơn 10 lần
  • Tôi không thích dùng AI và cũng không thấy nó hữu ích đến vậy
    Nhưng công ty ép phải dùng và còn theo dõi chỉ số, nên mỗi ngày tôi ném vào đó mấy việc vặt vô nghĩa để trông như có sử dụng
    Dù có tạo ra nhiều vấn đề hơn là sửa được, thì trên chỉ số tôi vẫn là người dùng AI

  • Nếu công ty nào công bố dùng lượng token tiêu thụ làm tín hiệu đánh giá hiệu suất nhân viên, thì theo tôi đó gần như là một dấu hiệu cảnh báo để tránh xa
    Một công ty có lãnh đạo kỹ thuật tốt không nên coi đây là ý tưởng chấp nhận được

    • Nếu vượt quá hạn mức 100 USD tiền ăn công tác thì bạn sẽ phải có một cuộc trao đổi khó xử với quản lý hoặc phòng tài chính
      Nhưng ở công ty, người ta hay mỉa mai rằng nếu bạn đốt 500 USD token AI một cách không hiệu quả thì lại được công nhận là người áp dụng AI hàng đầu
    • Có thể bạn sẽ ngạc nhiên, nhưng tôi biết vài kỹ sư ở những công ty công nghệ lớn ai cũng biết tên, dù không phải FAANG, và tất cả đều có bảng xếp hạng token dưới hình thức nào đó
      Có công ty còn nói với lập trình viên rằng “giờ chúng tôi muốn anh đừng tự viết dù chỉ một dòng code nữa”
      Góc nhìn của ban điều hành có lẽ là thế này. Nếu 20% nhân viên top đầu dùng LLM để tạo ra 80% code mà công ty vẫn vận hành được, thì có thể cắt bớt 80% lập trình viên phía dưới để tiết kiệm chi phí
    • Ngay cả những công ty từng có lãnh đạo hợp lý trước đây cũng bắt đầu hấp tấp và đưa ra các quyết định đáng ngờ kể từ khi LLM AI xuất hiện
      Việc dùng mức sử dụng token trong đánh giá hiệu suất nhân viên chỉ là một trong số đó
    • Token là số dòng code trên mỗi kỹ sư kiểu mới. Nó dễ vẽ biểu đồ và cũng dễ “quản lý”
    • Meta làm chuyện này. Cứ thử đoán xem một trong các tiêu chí sa thải gần đây là gì
  • Dưới lò phản ứng nhiệt hạch khổng lồ trên bầu trời thì chẳng có mấy điều thực sự mới
    Tôi đã đọc trong “The Information” của James Gleick về một thứ giống tokenmaxxing trong ngành điện báo
    Điện tín tính phí theo từng ký tự, nên đã hình thành cả một thị trường sổ mã để giảm số ký tự cần truyền. Nén đồng nghĩa với tiền, và các công ty điện báo ghét điều đó nhưng buộc phải chấp nhận
    Ngành mã điện tín bắt đầu từ những ngày đầu điện báo được thương mại hóa và kéo dài đến tận thập niên 1920
    Tuy nhiên cũng có cái giá phải trả. Mã hóa làm giảm mạnh tính dư thừa, và chỉ một lỗi rất nhỏ cũng có thể dẫn đến hiểu lầm lớn
    Theo mô tả của Gleick, điều này hoàn toàn trái ngược với cách trống ở châu Phi thêm tính dư thừa để củng cố mối quan hệ giữa nhịp điệu và ngôn ngữ mà tiếng trống mô phỏng

    • Chẳng phải điều đó chính xác là ngược lại với tokenmaxxing sao? Nếu ví với điện báo thì phải là tình huống điện báo viên được đánh giá không phải bằng thông lượng xử lý khách hàng mà bằng việc họ chiếm đường điện báo bao lâu mỗi ngày
      Tức là người thắng là người đốt nhiều token nhất hay tốn nhiều chi phí nhất, chứ không phải lập trình viên giao được tính năng
      Điều bạn mô tả gần với token minimization hơn là token maximization
    • Thú vị đấy, nhưng tokenmaxxing không phải là tối đa hóa hiệu quả sử dụng token, mà là tối đa hóa chính lượng sử dụng
    • Điều bạn mô tả về cơ bản là điều ngược lại với tokenmaxxing
  • Tôi luôn thắc mắc về software stack này ngay cả từ trước thời LLM, và bây giờ câu hỏi đó có vẻ còn liên quan hơn
    Một công ty như Uber đến khi nào thì mới “hoàn thiện”? Họ đã làm phần mềm suốt 16 năm
    Đây là công ty ghép tài xế với hành khách, và việc làm thêm phần mềm không khiến tôi có khả năng chọn Uber thay vì xe buýt hay tàu hỏa cao hơn đáng kể
    20 năm nữa thì phần mềm có xong không? Hay 80 năm nữa?

    • Phần lớn codebase là tích hợp tùy biến theo từng thị trường địa phương. Một phần có thể hệ thống hóa, nhưng phần lớn độ phức tạp đến từ đó
    • Nếu browser, Android và iOS đứng yên hơn 16 năm thì có lẽ mọi thứ sẽ dễ hơn đôi chút
      Cũng không thể bỏ qua môi trường pháp lý luôn thay đổi và các sản phẩm mới. Chỉ cần nhìn vào thời điểm Uber Eats xuất hiện là đủ
      Trong 16 năm đó đã có Covid-19, rồi xe tự lái thực dụng và cả quan hệ hợp tác với Waymo
      Một ứng dụng đại chúng kết nối qua mạng sẽ không bao giờ “hoàn thiện” nếu không có khả năng tiên tri hoàn hảo
      Tech stack nội bộ giống như một sinh vật sống, và ngay cả để duy trì một dịch vụ bề ngoài có vẻ không đổi cũng cần rất nhiều việc. Mở rộng quy mô cũng là chuyện lớn, và mở rộng quy mô cùng bảo trì liên tục khuếch đại lẫn nhau
    • Có vẻ nhiều người đang bỏ qua mức độ phức tạp của vận hành quốc tế và tối ưu hóa
      Mỗi quốc gia đều có luật riêng về việc Uber được phép làm gì và không được làm gì, và tất cả phải được mô hình hóa thành mã
      Ví dụ ở một số nơi, trên ứng dụng Uber thực chất là bạn đang gọi taxi, và giá cước có thể được tính theo dặm thay vì chốt trước
      Rồi còn có luật riêng theo từng thành phố. Nếu đi Uber từ thị trấn A sang thị trấn B nơi luật khác nhau thì phải xử lý ra sao? Luật sư có thể biết câu trả lời, nhưng ứng dụng phải tuân thủ nó
      Hơn nữa, luật còn liên tục thay đổi
      Tối ưu hóa cũng không có điểm kết thúc. Tốc độ, chi phí, lộ trình… lúc nào cũng có thứ để cải thiện
      Phần người tiêu dùng nhìn thấy chỉ là một mảnh rất nhỏ trong toàn bộ độ phức tạp mà những dịch vụ như vậy phải xây dựng và vận hành
    • Luôn có công nghệ và kỹ thuật mới cần triển khai. Cần thuật toán tốt hơn, triển khai ở quy mô lớn hơn, độ tin cậy cao hơn
      Gần như lúc nào cũng có bug cần sửa. Rất nhiều bug
    • Chẳng phải Uber cũng từng muốn tự làm xe tự lái sao?
      Đây cũng là vấn đề của một công ty nhận vốn đầu tư khổng lồ. Giá trị của Uber không chỉ dựa trên việc họ đang làm bây giờ, mà còn dựa trên kỳ vọng rằng họ sẽ khiến khái niệm sở hữu ô tô cá nhân hay dùng giao thông công cộng trở nên lỗi thời
      Có phần cường điệu, nhưng vẫn ít cường điệu hơn tưởng tượng
  • Tokenmaxxing là điều vô lý. Nó giống như cố tình viết các job SQL/Spark kém hiệu quả để dùng càng nhiều compute, memory và I/O càng tốt
    Tức là cố tình nhét thật nhiều Cartesian product, dataset lệch cực mạnh và những thứ tương tự
    Hễ một chỉ số trở thành mục tiêu thì chuyện này luôn xảy ra. Công ty nên xây dựng môi trường dùng AI hiệu quả nhất có thể, và trước tiên phải hỏi rằng “việc này có thực sự cần agent không?”
    Nếu cần, thì phải xác định cần agent nào, model nào, mức độ suy luận nào
    Cũng nên khuyến khích tiết kiệm token, tăng cache hit rate, và cấu trúc hóa thông tin để có thể dùng với ít ngữ cảnh hơn. Knowledge graph khá phù hợp cho việc này

    • Đây là kiểu lập luận ở mức trẻ con. “Dùng X có thể tạo ra kết quả tốt. Vậy để tối đa hóa kết quả tốt, ta phải dùng X nhiều nhất có thể”
      Nó giống như đốt trạm xăng để thắng một cuộc đua
    • Lý do tokenmaxxing tồn tại là vì các lãnh đạo cho rằng nhân viên đang chống lại thay đổi
      Nó chỉ là cách để khuyến khích hoặc ép mọi nhân viên thử công nghệ mới
      Một khi mọi người đều được xem là đang dùng AI thì những thứ như tokenmaxxing đương nhiên sẽ chấm dứt
    • Lập luận bênh vực tokenmaxxing thường là nó tạo không gian để nhân viên tự do khám phá một vùng rộng lớn và mới mẻ là quy trình làm việc dựa trên AI
      Tôi cũng đã thấy rất nhiều use case đáng ngờ về giá trị tạo ra, nhưng cũng thấy những đội giải quyết được các vấn đề cũ bằng workflow kiểu agent mà nếu đứng trước hội đồng xét duyệt chi phí thì rất khó để biện minh
      Theo tôi hiểu, các công việc như tiết kiệm token, tăng cache hit rate, cấu trúc hóa thông tin để dùng ít ngữ cảnh hơn thường được hầu hết các công ty tokenmaxxing lớn giao cho các team riêng xử lý ở hậu trường
  • Tôi hiểu vì sao các công ty đốt tiền vào phát triển có AI hỗ trợ. Nhưng ROI tổng thể thì sao? Nó có thực sự đáng giá như mức tăng hiệu quả được quảng bá không?
    Đây là điểm duy nhất thật sự thú vị trong cơn sốt AI, mà tôi không hiểu vì sao chẳng ai nói tới

    • Tôi nghĩ vì không có nhiều người biết cách đo đúng
      Với Claude, bạn có thể làm ra 5 tính năng vô dụng hoặc tệ trong một ngày, hoặc 1 tính năng hữu ích trong hai ngày. Trường hợp nào tác động tốt hơn đến ROI?
      Chỉ nhìn ví dụ thì có vẻ dễ trả lời, nhưng ngoài thực tế nó tinh vi hơn nhiều và cũng khó đo hơn nhiều
      Vì thế có vẻ nhiều công ty từ bỏ việc đo lường và chọn cách đơn giản là chạy theo cường điệu
  • Tôi tin chắc rằng khi vận hành bài bản, kể cả code review, mức cải thiện bền vững tối đa từ việc dùng AI đối với năng suất của một kỹ sư senior có kỹ năng phù hợp vào khoảng 20%
    Ngân sách token của bất kỳ kỹ sư nào cũng không nên vượt quá mức đó
    Tôi không hề tin rằng những kỹ sư làm tokenmaxxing thực sự năng suất, và cũng chưa từng thấy bất kỳ bằng chứng nào như vậy. Thậm chí có thể là ngược lại
    Với quy trình đúng và hiểu biết về codebase, ở mức nỗ lực bền vững thì tôi trực tiếp cảm nhận được mức đó là khả thi

  • Có vẻ AI cho năng suất kỹ thuật đang bị hiểu lầm rộng rãi như một nút thần kỳ cho ra cùng kết quả nhanh hơn và rẻ hơn
    Theo logic đó thì việc muốn ép nhân viên tokenmaxxing cũng là điều dễ hiểu. Nếu có thể có nhiều kết quả hơn, nhanh hơn, rẻ hơn thì tại sao không làm?
    Nhưng nhìn kỹ hơn thì thế này. AI giúp hoàn thành roadmap nhanh hơn phần nào, nhưng nó cũng tạo ra technical debt giống như khi thuê lập trình viên tạm thời để làm tính năng
    Không nhất thiết sẽ có người trong team hiểu được phần code mới
    Tương tự, mức tăng tay nghề của thành viên junior cũng giảm đi. Sẽ khó khai thác được chênh lệch giữa kỹ năng và tiền lương như trước
    Sản phẩm cũng có thể trở nên phức tạp hơn. Tính năng P2 là P2 vì có lý do, nhưng AI có thể khiến cả những tính năng có lợi ích cận biên thấp cũng bị đưa vào, làm sản phẩm phức tạp hơn

  • Thật sốc khi từng có người tin tokenmaxxing là một ý tưởng hay
    Những người theo chủ nghĩa tối đa hóa AI hay ví công nghệ này với điện. Hãy tưởng tượng vào thời đầu điện khí hóa, CEO thưởng cho nhân viên vì tăng lượng điện tiêu thụ thay vì tìm cách dùng điện để tạo ra kết quả kinh doanh
    Hồi đó người có biểu hiện bệnh tâm thần thường bị đưa vào cơ sở điều trị, và có lẽ chuyện này cũng đáng nhận cái kết như vậy

    • Vấn đề là ở cấp độ cá nhân, đây lại là một chiến lược tốt. Quản lý tồi sẽ đọc nó như một tín hiệu năng suất