4 điểm bởi GN⁺ 2025-08-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Trái với nhận định thường thấy trong ngành, chi phí suy luận AI rẻ hơn nhiều so với tưởng tượng và thậm chí còn có thể đảm bảo mức sinh lời cao
  • Theo phân tích, chi phí token đầu vào gần như có thể bỏ qua (khoảng $0.005 cho mỗi triệu token), trong khi chi phí token đầu ra vượt $3 cho mỗi triệu token, tạo ra chênh lệch tới 1000 lần
  • Các gói thuê bao người dùng (ví dụ: ChatGPT Pro $20/tháng) có mức doanh thu cao hơn 5~6 lần so với chi phí suy luận thực tế, còn gói dành cho nhà phát triển (Claude Code) là 10~20 lần, cho thấy hiệu quả kinh doanh rất cao
  • Bảng giá API để lại biên lợi nhuận từ 80~95% trở lên so với giá vốn, hình thành cấu trúc lợi nhuận tương đương phần mềm
  • Cuối cùng, suy luận không phải là một “cỗ máy đốt tiền”, mà là một mô hình kinh doanh có lợi nhuận rất cao nếu biết tận dụng tốt cấu trúc mất cân đối giữa đầu vào và đầu ra

Mở đầu

  • Có ý kiến cho rằng AI, đặc biệt là suy luận (inference), kéo theo chi phí khổng lồ, nhưng cần một phân tích kinh tế với góc nhìn hoài nghi về nhận định này
    • Tác giả không có kinh nghiệm trực tiếp vận hành các frontier model quy mô lớn, nhưng có hiểu biết về dịch vụ đám mây với thông lượng cao và cấu trúc chi phí của bare metal so với hyperscaler
  • Phân tích ở mức ước tính nháp (napkin math), tập trung vào chi phí tính toán thuần túy
    • Chi phí một GPU H100 được giả định là $2 mỗi giờ; trên thực tế các công ty AI lớn có thể mua được với mức thấp hơn

Giả định

  • Phân tích chỉ tập trung vào chi phí tính toán thuần túy, nhằm kiểm tra tính bền vững mà không cần cải tiến mô hình, dựa trên mức hữu dụng của các mô hình hiện tại
    • Sử dụng kiến trúc DeepSeek R1 (671B tham số tổng, 37B tham số kích hoạt), giả định hiệu năng tương đương Claude Sonnet 4 và GPT-5

Môi trường production dùng H100

  • Thiết lập production: cụm 72 GPU H100, chi phí $144 mỗi giờ
    • Batch size 32, song song tensor trên mỗi 8 GPU, chạy đồng thời 9 instance mô hình
  • Giai đoạn prefill (xử lý đầu vào): dựa trên băng thông HBM 3.35TB/s của H100, xử lý 45 lượt forward pass mỗi giây
    • Với 32 sequence mỗi batch (trung bình 1.000 token), đạt 1,44 triệu token đầu vào mỗi giây, tương đương 4,68 tỷ token đầu vào mỗi giờ
    • Với mô hình MoE, thông lượng có thể giảm 30~50% do expert routing, nhưng tác động được giảm thiểu nhờ xử lý song song hiệu quả
  • Giai đoạn decode (tạo đầu ra): sinh token tuần tự, đạt 1.440 token đầu ra mỗi giây, tương đương 46,7 triệu token đầu ra mỗi giờ
  • Tính chi phí thuần trên mỗi token
    • Token đầu vào: $144 ÷ 4,68 tỷ = khoảng $0.003 cho mỗi triệu token
    • Token đầu ra: $144 ÷ 46,7 triệu = khoảng $3.08 cho mỗi triệu token
      • Tính bất đối xứng: chênh lệch chi phí giữa xử lý đầu vào và sinh đầu ra khoảng 1000 lần

Nút thắt cổ chai tính toán

  • Thông thường, băng thông bộ nhớ là nút thắt cổ chai, nhưng với sequence ngữ cảnh dài 128k+, phép toán attention trở thành nút thắt, khiến chi phí tăng 2~10 lần
    • Claude Code giữ giới hạn 200k token để duy trì cơ chế rẻ hơn, thiên về bộ nhớ và tránh kịch bản chi phí cao thiên về tính toán
    • Việc thu thêm phí cho cửa sổ ngữ cảnh dài phản ánh sự thay đổi về mặt kinh tế

Hiệu quả kinh tế thực tế theo người dùng

  • Gói người dùng ($20/tháng ChatGPT Pro): 100.000 token/ngày (70% đầu vào, 30% đầu ra), chi phí thực tế khoảng $3/tháng
    • Biên lợi nhuận của OpenAI là 5~6 lần
  • Sử dụng của lập trình viên (Claude Code Max 5, $100/tháng): 2 triệu token đầu vào/ngày, 30.000 token đầu ra, chi phí thực tế khoảng $4.92/tháng, biên lợi nhuận 20.3 lần
    • Max 10 ($200/tháng): 10 triệu token đầu vào/ngày, 100.000 token đầu ra, chi phí thực tế khoảng $16.89/tháng, biên lợi nhuận 11.8 lần
    • Các coding agent tối đa hóa hiệu quả kinh tế nhờ mô hình sử dụng thiên về đầu vào (rẻ)
  • Biên lợi nhuận API: so với mức giá hiện tại ($3/15 cho mỗi triệu token) và chi phí thực tế ($0.01/3), biên lợi nhuận đạt 80~95%

Kết luận

  • Phân tích dựa trên nhiều giả định và có thể có sai số, nhưng ngay cả khi giả định lệch 3 lần thì khả năng sinh lời vẫn cao
    • Xử lý đầu vào rẻ ở mức $0.005 cho mỗi triệu token, trong khi sinh đầu ra là $3+, chênh lệch tới hàng nghìn lần
  • Cấu trúc bất đối xứng giữa chi phí token đầu vào và đầu ra là điểm cốt lõi, và các dịch vụ tận dụng tốt điều này có thể đạt lợi nhuận cao
    • Workload có tỷ trọng đầu vào lớn (trợ lý lập trình, phân tích tài liệu, nghiên cứu, v.v.) → cấu trúc giá vốn gần như miễn phí, khả năng sinh lời rất cao
    • Workload có tỷ trọng đầu ra lớn (ví dụ: tạo video) → đầu vào ít nhưng đầu ra lên tới hàng triệu token, khiến cấu trúc chi phí bất lợi và buộc phải định giá cao
  • Nhận định rằng “suy luận AI đắt đến mức không bền vững” không phù hợp với cấu trúc giá vốn thực tế. Đây có thể là một chiến lược kìm hãm cạnh tranh của các ông lớn hiện hữu. Trên thực tế, cấu trúc biên lợi nhuận đã rất vững chắc
  • Cũng như việc từng phóng đại chi phí cloud computing để biện minh cho siêu lợi nhuận của Big Tech, tranh luận về chi phí suy luận cũng có nguy cơ bị chi phối bởi “marketing gieo sợ hãi về chi phí” quá mức
    • Cần tiếp cận cấu trúc giá vốn dựa trên sự thật

Chưa có bình luận nào.

Chưa có bình luận nào.