13 điểm bởi GN⁺ 2025-08-04 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Trái với kỳ vọng rằng chi phí token của LLM sẽ giảm 10 lần mỗi năm, các dịch vụ đăng ký AI lại đang chứng kiến tình trạng lợi nhuận ngày càng xấu đi
  • Nhu cầu đối với các mô hình LLM mới nhất luôn tập trung vào những mô hình hàng đầu (SOTA, State-of-the-art), nên việc giá của các mô hình “đời cũ” giảm xuống không dẫn tới tiết kiệm chi phí thực tế
  • Hiệu năng mô hình càng tăng thì lượng token được sử dụng càng tăng theo cấp số nhân, bù trừ cho mức giảm đơn giá và thậm chí còn khiến tổng chi phí tăng vọt
  • Các thử nghiệm gói thuê bao không giới hạn (ví dụ: Claude Code $200/tháng) cũng không bền vững do token usage bùng nổ từ nhóm người dùng nặng
  • Ngoài tính phí theo mức sử dụng, không có mô hình nào bền vững về dài hạn, nhưng việc triển khai trong thực tế lại khó khăn do cạnh tranh giữa các startup và sự phản đối từ người tiêu dùng
  • Nếu không chuyển sang mô hình doanh thu bền vững, phần lớn startup cuối cùng sẽ đối mặt với nguy cơ phá sản

Kinh doanh thuê bao AI: vì sao đơn giá token giảm mà thua lỗ chỉ tăng thêm?

Ảo tưởng về việc giá LLM giảm

  • Các nhà sáng lập tin vào playbook của VC rằng “đơn giá token giảm 10 lần, chỉ cần cầm cự thêm chút nữa là có thể chuyển sang cấu trúc biên lợi nhuận cao”, nên ở giai đoạn đầu họ vận hành sản phẩm thuê bao ở mức hòa vốn hoặc lỗ
  • Thực tế, đơn giá token của các mô hình cũ như GPT-3.5 đã giảm hơn 10 lần, nhưng nhu cầu của người dùng và thị trường luôn dồn vào những mô hình mới nhất và mạnh nhất (SOTA)
  • Trên thực tế, sau 18 tháng, biên lợi nhuận không những không cải thiện mà còn tệ hơn
  • Việc giảm giá của mô hình cũ chỉ thực sự được cảm nhận ở những thứ đã nằm ngoài mối quan tâm của thị trường, giống như “báo ngày hôm qua”

Cấu trúc giá và nhu cầu của các mô hình mới nhất

  • GPT-4, Claude 3 Opus và các mô hình mới nhất luôn được phát hành với mức giá cao tương tự nhau, và dù mô hình cũ có rẻ đến đâu thì mức sử dụng thực tế của chúng cũng rất nhỏ
  • Người dùng chỉ muốn “hiệu năng tốt nhất”, còn “mô hình cũ giá rẻ” chẳng khác nào những chiếc xe cũ lâu năm trên thị trường ô tô
  • Vì điều người dùng thực sự muốn khi dùng AI là kết quả tốt nhất, nên rất hiếm trường hợp họ tự nguyện dùng mô hình cũ chỉ để tiết kiệm chi phí
  • Rốt cuộc, để có sức cạnh tranh trên thị trường thì lúc nào cũng phải cung cấp mô hình mới nhất đắt đỏ nhất, và vì thế chi phí đầu vào tiếp tục được giữ nguyên
    • Cũng giống như việc giá xe cũ từ thập niên 90 có giảm thì người tiêu dùng vẫn mua xe mới

Mức tăng bùng nổ của lượng token sử dụng

  • Khi hiệu năng mô hình tăng lên, xuất hiện hiện tượng lượng token tiêu thụ cho một tác vụ tăng theo cấp số nhân
  • Trước đây một công việc chỉ cần 1.000 token, giờ đây có thể tiêu tốn 100.000 token
  • Trước kia chỉ là một câu hỏi một câu trả lời, còn hiện nay là các quy trình nghiên cứu phức tạp, loop và orchestration chạy liên tục 10–20 phút, tạo ra lượng token khổng lồ
  • Khi AI được dùng cho nghiên cứu/phân tích sâu hơn, các kiểu “một lần chạy 20 phút, chạy liên tục 24 giờ mỗi ngày” khiến mức sử dụng trung bình mỗi ngày trên mỗi người dùng tăng vọt
    • Ví dụ, chỉ cần dùng một lần mỗi ngày tính năng 'deep research' trị giá $1 thì gói thuê bao $20 đã không còn hiệu quả kinh tế
  • Phần giảm của đơn giá bị bù hết bởi tổng lượng token tiêu thụ tăng lên, dẫn tới tình trạng gói $20/tháng thậm chí không gánh nổi một tác vụ $1 mỗi ngày

Sự thất bại của gói cước không giới hạn

  • Claude Code của Anthropic và các dịch vụ tương tự đã thử áp dụng gói không giới hạn $200/tháng, tự động tối ưu token và tận dụng PC của người dùng như các biện pháp cắt giảm chi phí
  • Nhưng một số power user đã dùng gần 10 tỷ token mỗi tháng (tương đương 12.500 bản “War and Peace”), vì họ tận dụng tự động hóa, tác vụ lặp và loop để đẩy mức sử dụng token bùng nổ
    • Mức sử dụng AI tách rời khỏi thời gian của con người, API chạy 24/7 và token bùng nổ
  • Dù đã có nhiều đổi mới về kỹ thuật, cuối cùng họ vẫn phải rollback gói cước
  • Kết luận: mô hình thuê bao không giới hạn giờ đã bất khả thi, bản thân phép tính đã không còn hợp lý

Thế lưỡng nan mà toàn ngành đang đối mặt

  • Nếu tiếp tục cố chấp với mô hình thuê bao thì lợi nhuận sẽ xấu đi và rủi ro sụp đổ ngày càng lớn
  • Các công ty AI đều biết rằng chỉ usage-based pricing mới là lời giải, nhưng nếu xuất hiện đối thủ cạnh tranh theo mô hình thuê bao thì nguy cơ mất người dùng là rất lớn
  • Cấu trúc kiểu “thế lưỡng nan của tù nhân” đẩy tất cả vào cuộc cạnh tranh trợ giá cho power user
  • Cursor, Replit và các công ty khác cũng tiếp cận theo hướng “ưu tiên tăng trưởng, lợi nhuận là vấn đề của tương lai”, nhưng rốt cuộc sớm muộn vẫn không tránh khỏi tái cấu trúc vì bài toán lợi nhuận

3 giải pháp thực tế

  • 1. Tính phí theo mức sử dụng
    • Nếu áp dụng mô hình kinh tế minh bạch ngay từ đầu thì có thể thiết kế cấu trúc doanh thu không vượt quá chi phí đầu vào. Về dài hạn, đây là mô hình bền vững duy nhất
    • Tuy nhiên, người tiêu dùng cực kỳ không thích hình thức tính tiền theo đồng hồ đo, nên rất khó đạt thành công đại chúng
  • 2. Tấn công thị trường doanh nghiệp dựa trên chi phí chuyển đổi cao
    • Thông qua bán hàng B2B cho khách hàng enterprise có chi phí chuyển đổi cao (ví dụ: tập đoàn lớn, tổ chức tài chính), một khi đã vào được thị trường thì gần như không thể bị hủy và biên lợi nhuận cũng cao
    • Các lĩnh vực system of record (SOR, như CRM/ERP/EHR) là ví dụ thành công tiêu biểu (ví dụ: triển khai cho 40.000 kỹ sư của Goldman Sachs)
  • 3. Tạo giá trị gia tăng thông qua tích hợp dọc (Vertical Integration)
    • Giống như Replit, có thể cung cấp chính suy luận LLM như một sản phẩm mồi đang bị lỗ, rồi tạo doanh thu từ các dịch vụ đặt phía trên như hosting, cơ sở dữ liệu, triển khai, giám sát
    • Xây dựng cấu trúc trong đó mức sử dụng AI tăng lên sẽ dẫn sang thị trường hạ tầng
  • Trong tương lai, đơn giá token vẫn sẽ tiếp tục giảm, nhưng kỳ vọng của người dùng và lượng sử dụng cũng sẽ tăng theo cấp số nhân
  • Những công ty vẫn chỉ bám vào chiến lược tăng trưởng bằng thuê bao rốt cuộc rất dễ phải tổ chức một “đám tang chi phí cao”

Tóm tắt

  • Chỉ dựa vào sự lạc quan rằng “sang năm token sẽ rẻ hơn 10 lần” thì không thể duy trì kinh doanh
    • Người dùng luôn đòi hỏi kỳ vọng cao hơn và mức sử dụng lớn hơn
  • Công thức mô hình tiến bộ = mức sử dụng bùng nổ = chi phí tăng đang thành hình, và cuối cùng một doanh nghiệp AI bền vững buộc phải chuyển sang cấu trúc mới thông qua tính phí theo mức sử dụng, hợp đồng doanh nghiệp lớn hoặc tích hợp dọc
    • Nếu muốn duy trì hoạt động kinh doanh thì cần một cách tiếp cận cấu trúc mới như chiến lược 'Neocloud'

Chưa có bình luận nào.

Chưa có bình luận nào.