4 điểm bởi GN⁺ 2025-08-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trái với nhận định thường thấy trong ngành, chi phí suy luận AI rẻ hơn nhiều so với tưởng tượng và thậm chí còn có thể đảm bảo mức sinh lời cao
  • Theo phân tích, chi phí token đầu vào gần như có thể bỏ qua (khoảng $0.005 cho mỗi triệu token), trong khi chi phí token đầu ra vượt $3 cho mỗi triệu token, tạo ra chênh lệch tới 1000 lần
  • Các gói thuê bao người dùng (ví dụ: ChatGPT Pro $20/tháng) có mức doanh thu cao hơn 5~6 lần so với chi phí suy luận thực tế, còn gói dành cho nhà phát triển (Claude Code) là 10~20 lần, cho thấy hiệu quả kinh doanh rất cao
  • Bảng giá API để lại biên lợi nhuận từ 80~95% trở lên so với giá vốn, hình thành cấu trúc lợi nhuận tương đương phần mềm
  • Cuối cùng, suy luận không phải là một “cỗ máy đốt tiền”, mà là một mô hình kinh doanh có lợi nhuận rất cao nếu biết tận dụng tốt cấu trúc mất cân đối giữa đầu vào và đầu ra

Mở đầu

  • Có ý kiến cho rằng AI, đặc biệt là suy luận (inference), kéo theo chi phí khổng lồ, nhưng cần một phân tích kinh tế với góc nhìn hoài nghi về nhận định này
    • Tác giả không có kinh nghiệm trực tiếp vận hành các frontier model quy mô lớn, nhưng có hiểu biết về dịch vụ đám mây với thông lượng cao và cấu trúc chi phí của bare metal so với hyperscaler
  • Phân tích ở mức ước tính nháp (napkin math), tập trung vào chi phí tính toán thuần túy
    • Chi phí một GPU H100 được giả định là $2 mỗi giờ; trên thực tế các công ty AI lớn có thể mua được với mức thấp hơn

Giả định

  • Phân tích chỉ tập trung vào chi phí tính toán thuần túy, nhằm kiểm tra tính bền vững mà không cần cải tiến mô hình, dựa trên mức hữu dụng của các mô hình hiện tại
    • Sử dụng kiến trúc DeepSeek R1 (671B tham số tổng, 37B tham số kích hoạt), giả định hiệu năng tương đương Claude Sonnet 4 và GPT-5
    Quảng cáo

Môi trường production dùng H100

  • Thiết lập production: cụm 72 GPU H100, chi phí $144 mỗi giờ
    • Batch size 32, song song tensor trên mỗi 8 GPU, chạy đồng thời 9 instance mô hình
  • Giai đoạn prefill (xử lý đầu vào): dựa trên băng thông HBM 3.35TB/s của H100, xử lý 45 lượt forward pass mỗi giây
    • Với 32 sequence mỗi batch (trung bình 1.000 token), đạt 1,44 triệu token đầu vào mỗi giây, tương đương 4,68 tỷ token đầu vào mỗi giờ
    • Với mô hình MoE, thông lượng có thể giảm 30~50% do expert routing, nhưng tác động được giảm thiểu nhờ xử lý song song hiệu quả
  • Giai đoạn decode (tạo đầu ra): sinh token tuần tự, đạt 1.440 token đầu ra mỗi giây, tương đương 46,7 triệu token đầu ra mỗi giờ
  • Tính chi phí thuần trên mỗi token
    • Token đầu vào: $144 ÷ 4,68 tỷ = khoảng $0.003 cho mỗi triệu token
    • Token đầu ra: $144 ÷ 46,7 triệu = khoảng $3.08 cho mỗi triệu token
      • Tính bất đối xứng: chênh lệch chi phí giữa xử lý đầu vào và sinh đầu ra khoảng 1000 lần
    Quảng cáo

Nút thắt cổ chai tính toán

  • Thông thường, băng thông bộ nhớ là nút thắt cổ chai, nhưng với sequence ngữ cảnh dài 128k+, phép toán attention trở thành nút thắt, khiến chi phí tăng 2~10 lần
    • Claude Code giữ giới hạn 200k token để duy trì cơ chế rẻ hơn, thiên về bộ nhớ và tránh kịch bản chi phí cao thiên về tính toán
    • Việc thu thêm phí cho cửa sổ ngữ cảnh dài phản ánh sự thay đổi về mặt kinh tế

Hiệu quả kinh tế thực tế theo người dùng

  • Gói người dùng ($20/tháng ChatGPT Pro): 100.000 token/ngày (70% đầu vào, 30% đầu ra), chi phí thực tế khoảng $3/tháng
    • Biên lợi nhuận của OpenAI là 5~6 lần
  • Sử dụng của lập trình viên (Claude Code Max 5, $100/tháng): 2 triệu token đầu vào/ngày, 30.000 token đầu ra, chi phí thực tế khoảng $4.92/tháng, biên lợi nhuận 20.3 lần
    • Max 10 ($200/tháng): 10 triệu token đầu vào/ngày, 100.000 token đầu ra, chi phí thực tế khoảng $16.89/tháng, biên lợi nhuận 11.8 lần
    • Các coding agent tối đa hóa hiệu quả kinh tế nhờ mô hình sử dụng thiên về đầu vào (rẻ)
    Quảng cáo
  • Biên lợi nhuận API: so với mức giá hiện tại ($3/15 cho mỗi triệu token) và chi phí thực tế ($0.01/3), biên lợi nhuận đạt 80~95%

Kết luận

  • Phân tích dựa trên nhiều giả định và có thể có sai số, nhưng ngay cả khi giả định lệch 3 lần thì khả năng sinh lời vẫn cao
    • Xử lý đầu vào rẻ ở mức $0.005 cho mỗi triệu token, trong khi sinh đầu ra là $3+, chênh lệch tới hàng nghìn lần
  • Cấu trúc bất đối xứng giữa chi phí token đầu vào và đầu ra là điểm cốt lõi, và các dịch vụ tận dụng tốt điều này có thể đạt lợi nhuận cao
    • Workload có tỷ trọng đầu vào lớn (trợ lý lập trình, phân tích tài liệu, nghiên cứu, v.v.) → cấu trúc giá vốn gần như miễn phí, khả năng sinh lời rất cao
    • Workload có tỷ trọng đầu ra lớn (ví dụ: tạo video) → đầu vào ít nhưng đầu ra lên tới hàng triệu token, khiến cấu trúc chi phí bất lợi và buộc phải định giá cao
  • Nhận định rằng “suy luận AI đắt đến mức không bền vững” không phù hợp với cấu trúc giá vốn thực tế. Đây có thể là một chiến lược kìm hãm cạnh tranh của các ông lớn hiện hữu. Trên thực tế, cấu trúc biên lợi nhuận đã rất vững chắc
  • Cũng như việc từng phóng đại chi phí cloud computing để biện minh cho siêu lợi nhuận của Big Tech, tranh luận về chi phí suy luận cũng có nguy cơ bị chi phối bởi “marketing gieo sợ hãi về chi phí” quá mức
    • Cần tiếp cận cấu trúc giá vốn dựa trên sự thật

1 bình luận

 
GN⁺ 2025-08-29
Ý kiến Hacker News
  • Các phép tính toán học trong bài này sai ở nhiều khía cạnh

    • Đặc biệt, giả định rằng giai đoạn prefill bị giới hạn bởi băng thông là sai

    • Nếu khai triển MFU mà tác giả tính, kết quả ra 13 PFLOPS/s, tức là gấp 7 lần hiệu năng tối đa của phần cứng thực tế nên là con số bất khả thi

    • Các giả định như 32 yêu cầu đồng thời, giới hạn 8 GPU, và chỉ có phép toán attention là nút thắt cổ chai cũng đều là tiền đề sai

    • Thật đáng tiếc khi những người chỉ trích bài này trên HN chỉ ra các chi tiết vụn vặt thay vì lỗi gốc rễ

    • Nếu bài này đúng thì lập luận rằng OpenAI hay Anthropic đang lỗ ở suy luận cũng có cơ sở khá yếu

    • Phần chi phí token đầu ra cũng sai đáng kể

      • Thực tế, chỉ cần cụm GPU mạnh là có thể giải mã mô hình lớn với chi phí rẻ
      • Ví dụ, tính đến 4 tháng trước thì mức giá khoảng 0,2 USD cho mỗi 1 triệu token đầu ra, và sau đó còn rẻ hơn nhờ GPU B200 cùng tối ưu hóa mã
    • Cảm ơn vì đã chỉ ra rằng phép toán là sai, nhưng nếu vậy thì sẽ hữu ích hơn nếu cũng đưa ra các con số chính xác để giúp điều chỉnh kỳ vọng

  • Tôi đã mô hình hóa nhiều lần, và theo tôi thì tùy vào khấu hao GPU và tối ưu hóa mức sử dụng tài nguyên, suy luận có thể đạt biên lợi nhuận trên 50%

    • Tuy nhiên, kết quả thay đổi rất nhiều tùy việc có tính cả chi phí huấn luyện hay không

    • Nếu không vốn hóa chi phí huấn luyện thì biên lợi nhuận đẹp, nhưng nếu khấu hao và đưa vào thì khả năng sinh lời giảm mạnh

    • Có câu hỏi là vì sao lại loại trừ chi phí huấn luyện

      • Mô hình không phải dùng trong vài năm, mà phải huấn luyện lại vài tháng một lần mới giữ được tính cạnh tranh
    • Với các phòng thí nghiệm AI quy mô lớn thì biên lợi nhuận cao là khả thi, nhưng doanh nghiệp thông thường thì khác

      • Ví dụ, theo tài liệu công khai của nhóm DeepSeek, trên 8x H200 SXM với vLLM thì đạt khoảng 12K tok/s
      • Nhưng để xử lý 100K~200K tok/s thì cần lượng GPU khổng lồ, và phần lớn sẽ ở trạng thái nhàn rỗi
      • Vì vậy, các giả định như mức sử dụng 100%, xử lý đầu vào miễn phí, không có nghẽn mạng đều không thực tế
    • Ngay cả khi khấu hao GPU trong 5 năm, nếu mức sử dụng giảm vì mất thị phần thì vẫn có thể là đòn chí mạng

    • Theo chuẩn IFRS/GAAP, chi phí huấn luyện cũng là khoản chi phí quy trực tiếp vào doanh thu, nên cuối cùng vẫn phải được tính vào giá vốn hàng bán

  • Sam Altman nói rằng: “Chúng tôi đang có lãi ở suy luận, nếu bỏ chi phí huấn luyện ra thì khả năng sinh lời rất tốt”

    • Amodei cũng giải thích tương tự rằng, nếu xem một mô hình như một công ty thì với 100 triệu USD chi phí huấn luyện và 200 triệu USD doanh thu, bản thân mô hình đó có lãi

    • Chỉ là đồng thời công ty vẫn đang lỗ vì còn phải huấn luyện các mô hình thế hệ tiếp theo đắt đỏ hơn

    • Nhưng câu “có lãi nếu bỏ chi phí huấn luyện ra” thực ra là một cách nói sáo mòn có thể áp dụng cho gần như mọi công ty, nên không có nhiều ý nghĩa

    • Trên thực tế, OpenAI đầu tư vào startup và cấp credit, tạo ra một cấu trúc tiền quay vòng nội bộ, nên rất khó nắm được khả năng sinh lời thật sự

    • Theo podcast của NYT, Sam nói rằng “nếu chỉ nhìn vào suy luận thì chúng tôi có lãi”, nhưng COO ngồi cạnh đã có phản ứng khá lửng lơ

      • Tức là trên thực tế, có thể họ vẫn chưa hoàn toàn có lãi chỉ từ suy luận
  • Nếu suy luận rẻ đến vậy như bài viết khẳng định, thì có lý do gì mà chưa có nhiều nhà cung cấp API siêu rẻ?

    • Thực tế thì đa số nhà cung cấp giá rẻ chỉ chạy các mô hình nhỏ

    • Vậy thì vì sao các mô hình lớn như DeepSeek-R1 lại chưa thể được dùng với giá rẻ là điều đáng thắc mắc

    • Thực ra đã có khá nhiều nhà cung cấp API, và có nơi thậm chí còn cung cấp DeepSeek-R1 miễn phí

    • Cũng có những nơi như DeepInfra, và mức giá thực tế còn rẻ hơn ước tính trong bài

    • Tuy nhiên, vẫn có chi phí cố định khổng lồ như huấn luyện mô hình, xây dựng hạ tầng, nhân sự, nên không thể giải thích khả năng sinh lời chỉ bằng đơn giá suy luận

    • Nếu tự chạy một mô hình 600B thì cần lượng GPU trị giá hàng chục nghìn USD, mà phần lớn thời gian lại nhàn rỗi, nên rất kém hiệu quả

      • Vì vậy, việc nhà cung cấp mô hình gom GPU lại và cung cấp dưới dạng hạ tầng chia sẻ là hợp lý hơn
  • Từ góc nhìn của người có kinh nghiệm về kiến trúc GPU, với ngữ cảnh dài thì phép toán attention về lý thuyết tăng theo O(n²), nhưng

    • nút thắt thực tế là tốc độ truyền bộ nhớ
    • Ví dụ, ngay cả với HBM 2+TB/s cũng khó đáp ứng băng thông yêu cầu trên mỗi lõi, và nếu tính cả xung đột thì mức nghẽn còn nghiêm trọng hơn hàng nghìn lần
  • Bài viết này tính toán dựa trên DeepSeek R1, nhưng DeepSeek hiệu quả một cách bất thường, nên không phù hợp để ước tính chi phí của OpenAI/Anthropic

    • Hiệu quả của DeepSeek đến từ MoE và attention MLA

      • Nhưng nhiều khả năng OpenAI hay Google cũng đã áp dụng các tối ưu tương tự từ lâu
      • GPT OSS thậm chí dùng tới fp4, còn DeepSeek thì vẫn chưa
    • Lý do DeepSeek làm rung chuyển thị trường không phải vì hiệu quả suy luận mà là do tuyên bố chi phí huấn luyện 5 triệu USD

    • Thực tế rất khó cho rằng GPT-5 hay Claude 4 kém hiệu quả hơn DeepSeek

    • Amodei cũng nói rằng DeepSeek chỉ đơn thuần là một phần của đường cong giảm chi phí đã được dự báo trước

      • Nghĩa là điều đặc biệt không phải một đột phá mang tính cách mạng, mà là việc một công ty Trung Quốc đã cho thấy điều đó trước
  • Các con số token mỗi ngày mà bài viết đưa ra là quá thấp

    • Tôi dùng trung bình 300 triệu đến 800 triệu token mỗi ngày, còn đồng nghiệp của tôi cũng vào khoảng 150 triệu đến 600 triệu token
    • Ngoài ra bài viết không tính đến prompt caching, trong khi thứ này có thể giảm khối lượng suy luận đi 85~95%
    • Cũng cần nêu rõ mô hình và KV cache đang dùng kiểu lượng tử hóa nào thì mới có thể tính toán chính xác
  • Mức giá ChatGPT Pro cũng được nhắc sai

    • Thực tế là 200 USD mỗi tháng, và Sam Altman từng trực tiếp nói rằng “chúng tôi đang lỗ ở gói Pro”

    • Vì người dùng sử dụng nhiều hơn rất nhiều so với dự đoán

    • Tuy nhiên gần đây ông ấy lại nói rằng “chúng tôi có lãi ở suy luận”

      • Nhưng vì đây là công ty chưa niêm yết nên rất khó biết phát biểu nào gần với sự thật hơn
    • Cá nhân tôi không tin các phát biểu của Sam

      • Cảm giác nó giống một phát ngôn tiếp thị kiểu “sản phẩm của chúng tôi có giá trị rất lớn” hơn
    • Trên thực tế, rất có thể 10% người dùng hàng đầu chiếm phần lớn mức sử dụng theo phân phối lũy thừa

      • Vì vậy, gói Pro có thể là một cấu trúc bị lỗ
  • Theo các báo cáo gần đây, Anthropic có biên lợi nhuận 60%, còn OpenAI ở mức 50%, tính cả người dùng miễn phí

    • speculative decoding, caching và các kỹ thuật khác tiếp tục làm giảm chi phí

    • Con số 37 tỷ tham số mà bài viết giả định cũng không khớp với quy mô mô hình thực tế

    • Tuy nhiên, chỉ nhìn vào biên lợi nhuận thì vẫn chưa đủ để thấy toàn cảnh

      • Rất có thể Azure hoặc AWS đang cung cấp mức chiết khấu quy mô lớn
  • Sam Altman đã nhiều lần lặp lại trong các cuộc phỏng vấn rằng “nếu bỏ chi phí huấn luyện ra thì chúng tôi có lãi”

    • Một số người dựa vào đó để cho rằng lập luận “OpenAI lỗ trên từng yêu cầu” là sai
    • Nhưng nếu huấn luyện là miễn phí thì ai cũng làm được, nên bản thân giả định đó không có ý nghĩa
    • Dario Amodei cũng giải thích rằng nếu nhìn ở cấp độ mô hình thì cuối cùng vẫn có lãi
    • Tuy vậy, phát biểu của Sam có thể chỉ là để thuyết phục nhà đầu tư, và khả năng sinh lời thực tế vẫn rất mờ mịt