26 điểm bởi GN⁺ 2025-06-10 | 4 bình luận | Chia sẻ qua WhatsApp
  • Phần lớn mọi người có xu hướng đánh giá quá cao chi phí sử dụng LLM (mô hình ngôn ngữ lớn), nhưng trên thực tế chi phí đang giảm rất nhanh và đã đạt tới mức còn rẻ hơn cả tìm kiếm web
    • Trong giai đoạn đầu của làn sóng AI tạo sinh, chi phí suy luận còn cao, nhưng trong 2 năm qua chi phí đã giảm gần 1000 lần
  • Khi so sánh trực tiếp đơn giá thực tế của API LLM với API tìm kiếm web, các mô hình LLM giá rẻ thậm chí còn rẻ hơn hơn 10 lần so với API tìm kiếm rẻ nhất, và ngay cả các mô hình tầm giá trung cũng có cấu trúc giá rất cạnh tranh
  • Có rất ít bằng chứng cho thấy các đơn vị vận hành mô hình đang trợ giá API một cách quá mức, và thậm chí có trường hợp ghi nhận biên lợi nhuận cao tới 80% nếu tính theo chi phí GPU
  • Lý do các công ty AI lớn như OpenAI thua lỗ không phải vì chi phí mà vì chính sách kiếm tiền còn thấp, và chỉ cần thu 1 USD mỗi tháng trên mỗi người dùng là cũng có thể chuyển sang có lãi
  • Trong tương lai, trọng tâm của gánh nặng chi phí sẽ chuyển từ bản thân LLM sang các dịch vụ backend bên ngoài (ví dụ: các nhà cung cấp dữ liệu khác nhau). Việc chạy LLM ngày càng rẻ hơn, và mô hình kinh doanh cũng hoàn toàn có thể đứng vững

Hiểu lầm và thực tế về chi phí của LLM

  • Nhiều người đang hiểu nhầm rằng chi phí vận hành các LLM như ChatGPT là cực kỳ đắt đỏ
  • Vì vậy, những phân tích sai lặp đi lặp lại cho rằng mô hình kinh doanh của các công ty AI không rõ ràng, hoặc việc kiếm tiền từ dịch vụ AI cho người tiêu dùng là bất lợi
  • Cho rằng LLM vẫn còn đắt là một sai lệch trong nhận thức
    • Ở giai đoạn đầu của cơn sốt AI, chi phí suy luận (inference) từng rất cao, nhưng trong 2 năm gần đây đã giảm gần 1000 lần
    • Nhiều cuộc thảo luận đang đưa ra dự báo sai vì dựa trên cấu trúc chi phí của quá khứ
  • Mô hình giá "theo 1 triệu token" thường dùng rất khó để hiểu một cách trực quan

So sánh giá API tìm kiếm web và API LLM

  • Mức giá tiêu biểu của API tìm kiếm web
    • Google Search: $35/1000 lượt
    • Bing Search: $15/1000 lượt
    • Brave Search: $5~9/1000 lượt, có cấu trúc mà đơn giá lại tăng khi mức sử dụng cao hơn
    • Nhìn chung, API tìm kiếm web không hề rẻ, và dịch vụ có chất lượng tốt hơn thì đắt hơn
  • Mức giá API LLM (theo 1k token)
    • Gemma 3 27B: $0.20
    • Gemini 2.0 Flash: $0.40
    • GPT-4.1 nano: $0.40
    • Deepseek V3: $1.10
    • GPT-4.1: $8.00 v.v.
    • Cần tính đơn giá LLM theo cách có thể so sánh với tìm kiếm: số token đầu ra trên mỗi truy vấn + giá mỗi token
    • 500~1000 token là mức tiêu thụ trung bình cho mỗi truy vấn, nên có thể so sánh trực tiếp
  • Các mô hình LLM giá rẻ rẻ hơn 10~25 lần so với API tìm kiếm rẻ nhất
    • Ngay cả các LLM chất lượng tầm trung cũng có chi phí thấp hơn nhiều so với tìm kiếm trong cùng khoảng
    • Nếu tính thêm các điều kiện giảm giá như theo lô hoặc ngoài giờ cao điểm thì còn rẻ hơn nữa

Lý do thực sự khiến chi phí rẻ

  • Nghi vấn rằng các nhà cung cấp mô hình đang trợ giá đơn giá API là thiếu căn cứ
    • Động lực mở rộng thị phần API cũng không mạnh, và giá API do nhiều nhà cung cấp bên thứ ba đưa ra cũng đang được hình thành theo cạnh tranh
    • Theo dữ liệu đo thực tế của Deepseek, biên lợi nhuận tính theo GPU lên tới 80%
  • Chi phí huấn luyện (Training) và chi phí suy luận (Inference)
    • Chi phí huấn luyện đang được phân bổ hiệu quả (amortize) nhờ lưu lượng suy luận ở quy mô lớn
    • Ngược lại, chi phí phát sinh khi sử dụng các dịch vụ backend của bên thứ ba mới có khả năng trở thành vấn đề nổi bật

Phản bác lập luận “API LLM chắc sẽ lỗ”

  • Khoản lỗ của các nhà cung cấp lớn như OpenAI là kết quả của chiến lược kiếm tiền thấp
    • Chỉ cần kiếm tiền ở mức khoảng 1 USD mỗi tháng là cũng có thể chuyển sang có lãi
    • Cũng tồn tại mục đích thu thập dữ liệu thông qua lưu lượng từ người dùng miễn phí
  • Vấn đề chi phí thực sự trong tương lai không nằm ở LLM mà ở backend bên ngoài
    • Ví dụ: khi một AI agent gọi API bên ngoài để đặt vé, gánh nặng chi phí thực tế có thể dồn sang bên thứ ba
    • Các nhà vận hành dịch vụ được dự đoán sẽ phản ứng bằng cách chặn crawling, chuyển sang di động, tăng cường đăng nhập, v.v.

Vì sao điều này quan trọng

  • Nhiều dự báo về tương lai đang được xây dựng trên tiền đề sai rằng LLM là đắt đỏ
  • Trên thực tế, giảm chi phí và tăng nhu cầu đang diễn ra đồng thời, giá sẽ còn tiếp tục giảm và thị trường được kỳ vọng sẽ sôi động hơn
  • Các công ty Frontier AI đang tập trung vào việc chiếm lĩnh thị trường hơn là kiếm tiền, và trên thực tế đơn giá dịch vụ LLM đặc biệt thấp
  • Vấn đề chi phí thực sự không nằm ở bản thân LLM mà ở các dịch vụ tích hợp bên ngoài phía sau (ví dụ: các trang đặt vé)
  • Trong một cấu trúc mà các dịch vụ bên ngoài này không kiếm được doanh thu, có thể xuất hiện các mô hình doanh thu mới hoặc xung đột kỹ thuật giữa AI và dịch vụ backend trong tương lai

Kết luận và triển vọng

  • Bản thân chi phí suy luận của LLM không còn là rào cản cốt lõi đối với kinh doanh AI
    • Với chi phí vận hành thấp và nhiều lựa chọn kiếm tiền khác nhau (ví dụ: quảng cáo, đăng ký thuê bao), lĩnh vực này hoàn toàn có tính khả thi về kinh doanh
    • Từ nay về sau, thách thức chính sẽ không phải là LLM mà là vấn đề chi phí và hạ tầng của các nhà cung cấp dữ liệu bên ngoài mà AI sử dụng
  • Cần có nhận thức thực tế hơn về chi phí và chuyển đổi chiến lược kinh doanh phù hợp với thay đổi của thị trường và công nghệ

4 bình luận

 
click 2025-06-12

Tôi đã nghĩ là cực kỳ đắt nếu mô phỏng theo kịch bản tự trang bị card đồ họa để dùng on-prem hoặc thuê GPU trên cloud,
nhưng có vẻ khi đạt được lợi thế kinh tế theo quy mô thì cũng khá khả thi.

 
ethanhur 2025-06-11

Tôi từng nghi ngờ liệu có thể kiếm tiền từ LLM hay không, nên khá ngạc nhiên khi thấy đánh giá lại tích cực như vậy.

 
mhj5730 2025-06-11

Kết quả khảo sát này đúng là gây sốc hơn tưởng tượng... chi phí sử dụng những mô hình được đầu tư tới hàng chục nghìn tỷ won lại rẻ, mà ngay cả với mức chi phí đó cũng vẫn đủ để kiếm tiền.

 
GN⁺ 2025-06-10
Ý kiến trên Hacker News
  • Tôi cho rằng việc so sánh một API tìm kiếm đang tạo ra doanh thu với một API LLM chạy trên đám mây đang chấp nhận lỗ để giành thị phần là không đúng đắn
    Dữ liệu hiện tại phản ánh việc các công ty đang chi tiêu capex khổng lồ để giành quyền dẫn dắt AI, nhưng vẫn chưa đến giai đoạn tạo ra lợi nhuận
    Hai sản phẩm này đang ở những giai đoạn trưởng thành hoàn toàn khác nhau, và thực tế rằng không thể biện minh cho việc tiếp tục lỗ với một dịch vụ đã 10 năm tuổi trong bối cảnh mức sử dụng giảm dần là điều không thể bỏ qua
    Ngoài ra, truy vấn tìm kiếm có thể được xử lý bằng CPU và tỷ lệ cache hit cao, trong khi suy luận LLM phần lớn cần GPU, và do đầu ra của mỗi token có kích thước lớn nên rất khó chia sẻ cache giữa người dùng

    • Có người nói không có bằng chứng rằng dịch vụ inference không có lợi nhuận, nhưng thực ra chỉ cần tự trả chi phí inference trên các nhà cung cấp hosting như AWS là sẽ hiểu
      AWS sẽ không thể trợ giá vô thời hạn cho dịch vụ chạy model của bên thứ ba, và điểm quan trọng hơn là capex là chi phí đầu tư, còn chi phí chạy suy luận là opex (chi phí vận hành)

    • Hiện nay, các nhà cung cấp API host model mã nguồn mở đang để lại biên lợi nhuận đủ lớn giữa phí API và chi phí phần cứng inference thực tế
      Tất nhiên đó không phải toàn bộ câu chuyện, nhưng nếu tính cả tối ưu hóa suy luận nội bộ thì biên lợi nhuận còn có thể lớn hơn
      Ngay cả các nhà cung cấp model đóng như OpenAI hay Anthropic, nếu ước tính dựa trên thông số model đã được công khai, thì tôi tin Anthropic đang có biên lợi nhuận rất tốt giữa phí API và chi phí phần cứng
      Nếu từng chạy các model này trong production thì tôi nghĩ có thể tự kiểm chứng điểm này

    • Có dấu hiệu cho thấy Perplexity đã thao túng kế toán bằng cách chuyển COGS sang R&D để trông như có biên lợi nhuận tốt
      Liên kết

    • Theo phân tích về dịch vụ API của DeepSeek, họ không chỉ đang ghi nhận biên lợi nhuận 500% mà còn cung cấp cùng một model với mức giá rẻ hơn rất nhiều so với các công ty Mỹ cung cấp dịch vụ tương tự
      Tôi cho rằng OpenAI hay Anthropic cũng hoàn toàn có khả năng đạt biên lợi nhuận cao hơn nữa
      GPU nhìn chung vượt CPU cả về chi phí lẫn hiệu quả năng lượng, và Anthropic sử dụng KV-cache caching với system prompt 24k token

    • Tôi không đồng ý với nhận định rằng API LLM là chiến lược chấp nhận lỗ để chiếm lĩnh thị trường
      Hiện nay thậm chí còn có những dịch vụ như openrouter cho phép tự do đổi model hay nhà cung cấp, nên hầu như không có lock-in, và chiến lược giành thị phần bản thân nó không có nhiều ý nghĩa về mặt kinh tế
      Nếu là sản phẩm qua UI như ChatGPT web thì còn có thể hiểu, nhưng bán API dưới giá vốn thì là điều ngớ ngẩn
      Tôi thậm chí nghĩ cả các VC cũng sẽ không chấp nhận chuyện bán API lỗ vốn

  • Tôi thấy việc so sánh công cụ tìm kiếm và LLM với giả định chúng chỉ được dùng cho tra cứu sự thật đơn giản (ví dụ: "Thủ đô của Mỹ là gì?") là một phép ví von đi quá xa khỏi các use case chính của cả hai dịch vụ
    Nếu dùng search engine thì trọng tâm là truy cập chỉ mục web, còn việc lấy câu trả lời đơn giản là chức năng của UI/sản phẩm chứ không phải mục đích của API
    Khi dùng LLM, người ta thường áp dụng cho phân tích dữ liệu quy mô lớn, nhận diện hình ảnh, suy luận phức tạp, lập trình và các tác vụ tương đối phức tạp khác; trong những trường hợp đó, lượng token sử dụng lớn hơn nhiều so với một câu trả lời tìm kiếm đơn giản
    Tôi cảm thấy điều tác giả đang làm giống kiểu so sánh sai lầm như nói rằng "Honda Civic rẻ vì giá của nó gần bằng giá táo tính theo mỗi pound"

    • Tôi có cảm giác mô hình search engine truyền thống đang dần kém hữu ích
      Người dùng chuyên sâu ngày càng ít dùng search engine hơn, và cả người dùng phổ thông cũng sử dụng search engine theo kiểu hội thoại như hỏi một con người, thay vì để duyệt chỉ mục web
      Những truy vấn có phần thừa như "Thủ đô của Mỹ là gì?" lại phù hợp với LLM hơn là search engine,
      và còn có vấn đề lớn là chất lượng tìm kiếm suy giảm do quá nhiều trang spam SEO
      LLM xử lý câu hỏi tự nhiên tốt hơn và chọn ra đúng câu trả lời người dùng cần mà không kèm giải thích dài dòng, spam hay quảng cáo, nên tôi nghĩ nó sẽ ngày càng hữu ích hơn trong tương lai

    • Tôi không đồng ý với ý kiến cho rằng tác giả đã "giữ việc so sánh search và LLM chỉ trong phạm vi truy vấn sự thật đơn giản", nhưng cốt lõi của phân tích thực ra không phải là 'so sánh search engine với LLM', mà là,
      đơn giản so sánh chênh lệch giữa giá bán và chi phí trên mỗi đơn vị (token/query) để tính biên lợi nhuận
      Khi bàn xem API có đang được trợ giá hay không thì không nhất thiết phải so với search engine

    • Việc LLM được dùng cho phân tích dữ liệu lớn và các mục đích phức hợp là đúng, nhưng tôi thừa nhận đó là nhóm power user

    • Điểm cho rằng search engine dùng để tìm chỉ mục web là một ý hay
      Nhưng LLM cũng có thể tìm thông tin mong muốn chính xác hơn, ít trùng lặp hơn và nhanh hơn, nên không thể nói tìm kiếm truyền thống lúc nào cũng tốt hơn
      Nếu LLM đưa ra câu trả lời trực tiếp, thậm chí còn gắn kèm liên kết để dễ xác minh kết quả, thì mức độ hài lòng của người dùng có thể còn cao hơn
      Theo tôi, lý do Google ngày càng chôn vùi kết quả tìm kiếm cũng là vì thực tế kết quả dựa trên chỉ mục đang dần kém hữu ích hơn

    • Cũng có cơ sở cho thấy OpenAI không lỗ quá lớn trong năm 2024, và nếu xét lưu lượng truy cập/sử dụng hàng tháng thì chi phí inference thực tế có thể không cao đến vậy
      Xét việc ChatGPT là một trong những website có lượng truy cập lớn nhất thế giới mỗi tháng, và phần lớn lưu lượng là người dùng miễn phí, thì chi phí thực tế có thể nhỏ hơn nhiều so với suy nghĩ thông thường

  • Có người đặt câu hỏi rằng cơ sở của các ước tính chi phí liên quan đến LLM không thật sự rõ ràng
    Ví dụ, với những thông tin mới như kích thước hành lý xách tay trên máy bay, đáng tin cậy hơn nếu gắn thêm chức năng tìm kiếm web để LLM kiểm tra nguồn
    Trong trường hợp đó, lượng token tiêu thụ có thể tăng rất nhanh và khiến ước tính chi phí bị lệch,
    và khi hội thoại lặp lại nhiều vòng khiến ngữ cảnh tích lũy, tổng số token sử dụng sẽ tăng vọt
    Tôi thừa nhận rằng nếu không có dữ liệu sử dụng thực tế thì rất khó tính chi phí chỉ bằng suy đoán

    • Tôi hỏi LLM về tin tức mới, và LLM trực tiếp đọc rồi tóm tắt nhiều trang web để hướng dẫn
      Khi hỏi các chủ đề mới, nó luôn tìm kiếm web và đính kèm liên kết tham khảo, nên tôi nghĩ cách sử dụng này là hoàn toàn khả thi

    • Tôi hỏi "kích thước hành lý xách tay trên tuyến DFW-CDG của hãng hàng không Mỹ là bao nhiêu" thì nó dùng tìm kiếm web để trả lời chính xác, đồng thời đưa cả website chính thức và liên kết FAA
      Tôi nghĩ cách này khá hiệu quả trong thực tế

  • Xét đến thực tế khó đảm bảo nguồn cung chip bán dẫn cùng với chi phí điện và thiết bị đắt đỏ, tôi không tin các tay chơi lớn có thể ngay lập tức kiếm lãi từ dịch vụ LLM dạng API mà không cải thiện được lợi nhuận
    Nếu vấn đề giá phần cứng và điện năng chưa được giải quyết thì sẽ còn khó tạo ra lợi nhuận lớn trong một thời gian
    Người này lấy ví dụ là ngay cả YouTube sau 20 năm vận hành, Alphabet cũng không công bố rõ ràng việc có lãi cụ thể hay không

    • Lợi nhuận khổng lồ của Alphabet (Google) đến từ thị phần áp đảo trong thị trường tìm kiếm và doanh thu quảng cáo
      Các công ty AI hiện cũng đang đặt cược rằng một ngày nào đó họ sẽ chuyển hóa thị phần thành doanh thu
      Nếu tạo ra được stickiness, thì việc chuyển từ thị phần sang lợi nhuận hoàn toàn có khả năng cao

    • Có người nói bản thân việc giá cổ phiếu tăng cũng, theo một nghĩa nào đó, có thể là thước đo lợi nhuận doanh nghiệp,
      và nhắc đến việc Amazon đã dùng chiến lược tương tự suốt hơn 10 năm

  • Với con số OpenAI lỗ 500 triệu USD trong năm 2024 và 500 triệu MAU, logic rằng 'chỉ cần chuyển đổi 500M người dùng miễn phí thành ARPU $10/năm là có thể đạt điểm hòa vốn' thực tế là rất khó thành hiện thực
    Chỉ cần bắt đầu thu phí người dùng miễn phí, dù chỉ $1, thì phần lớn có lẽ sẽ rời đi,
    và từ "chỉ cần" đã đơn giản hóa thực tế quá mức

    • Thực ra ý không phải là chuyển đổi sang phí $1/tháng, mà là hiện nay chi phí vận hành LLM đã rất rẻ nên hoàn toàn có thể kiếm tiền bằng quảng cáo
      So với các dịch vụ cùng quy mô người dùng (dựa trên quảng cáo), giá vốn của LLM hiện thấp hơn nhiều, và tôi không nghĩ thuê bao là câu trả lời duy nhất

    • Việc chuyển đổi 500 triệu người thành người dùng trả phí thậm chí có thể làm thay đổi hoàn toàn mô hình sử dụng dịch vụ và giá vốn, khiến chi phí bùng nổ
      Ngược lại, cũng có thể đưa ra giả định đơn giản rằng chỉ cần 1% chuyển sang trả phí là đã có 1 tỷ USD/năm

    • Tôi nghĩ lý do các dịch vụ này vận hành trong trạng thái lỗ là vì giá trị dữ liệu người dùng còn lớn hơn nhiều so với phí thuê bao

    • Trên thực tế không cần tất cả đều chuyển sang trả phí; chỉ cần tạo được cấu trúc trong đó một phần người dùng trả phí trợ cấp cho phần còn lại là đủ để hệ thống vận hành tốt

  • Theo thời gian, sau khi thị phần tập trung và các quy định được thiết lập, nhà đầu tư sẽ bắt đầu hiện thực hóa việc tăng giá đã được hứa hẹn từ trước

    • Hoặc khả năng cao là họ sẽ kiếm tiền bằng quảng cáo
      Dù hỏi gì thì giữa câu trả lời cũng sẽ xuất hiện quảng cáo Coca-Cola,
      các dự án code bằng AI sẽ tự động bị chèn quảng cáo,
      hay cứ mỗi email thứ 10 do AI gửi đi lại kèm một quảng cáo bảo hiểm,
      tức là tồn tại vô số cơ hội kiếm tiền
  • Khi ước tính chi phí vận hành LLM nội bộ trong công ty dựa trên mức tiêu thụ điện, thì ngay cả khi có các yêu cầu burst từ người dùng nội bộ, chi phí cũng chỉ ở mức hơn 10 USD cho mỗi 1 triệu token
    Tải trên server không lớn, nên nếu vận hành ở quy mô lớn thì vẫn còn nhiều dư địa để giảm chi phí hơn nữa

    • Có người hỏi liệu phép tính này có chỉ dựa trên mức tiêu thụ điện hay không
  • Có người nghi ngờ liệu 1 phản hồi token của LLM và 1 kết quả từ search engine có thể được so sánh tương đương hay không
    Tác giả so sánh 1.000 lần gọi LLM (khoảng 1 triệu token) với 1.000 truy vấn search engine,
    nhưng có vẻ như có thể tồn tại sai số lên tới 1.000 lần
    (Chỉnh sửa sau: sau khi xem lại cách làm của tác giả, người này xác nhận mình đã hiểu nhầm vì tác giả thực sự so sánh giá theo 1.000 lần dùng API)

    • Người này đính chính rằng đúng là tác giả đã so sánh đơn giá dựa trên 1.000 lần dùng LLM (tổng 1 triệu token) và 1.000 lần tìm kiếm

    • Nếu Gemini 2.0 Flash có giá 0,4 USD cho 1 triệu token, còn Bing Search API là 15 USD cho 1.000 truy vấn, thì phía LLM rẻ hơn 37 lần theo phép tính đó

  • Nếu trong tương lai hiệu suất được cải thiện và chi phí giảm 100 lần như dự đoán, thì tại sao hiện giờ người ta vẫn mở rộng data center dữ dội đến vậy là một câu hỏi đáng đặt ra
    Có lẽ chỉ cần chờ qua chu kỳ nâng cấp máy móc là các data center hiện có cũng đủ dùng,
    và cũng có ý kiến cho rằng cơn sốt đầu tư hiện tại có thể thực sự là bong bóng

  • Có người chia sẻ một bài viết so sánh hiệu năng liên quan
    Liên kết
    Chỉ nhìn vào giá thực tế thì tôi vẫn thấy là đắt,
    và trong bối cảnh cạnh tranh giành thị phần cực đoan như hiện nay thì không thể chỉ nhìn vào các con số mà diễn giải được