OpenAI và Anthropic có thực sự đang lỗ vì suy luận?
(martinalderson.com)- Trái với nhận định thường thấy trong ngành, chi phí suy luận AI rẻ hơn nhiều so với tưởng tượng và thậm chí còn có thể đảm bảo mức sinh lời cao
- Theo phân tích, chi phí token đầu vào gần như có thể bỏ qua (khoảng $0.005 cho mỗi triệu token), trong khi chi phí token đầu ra vượt $3 cho mỗi triệu token, tạo ra chênh lệch tới 1000 lần
- Các gói thuê bao người dùng (ví dụ: ChatGPT Pro $20/tháng) có mức doanh thu cao hơn 5~6 lần so với chi phí suy luận thực tế, còn gói dành cho nhà phát triển (Claude Code) là 10~20 lần, cho thấy hiệu quả kinh doanh rất cao
- Bảng giá API để lại biên lợi nhuận từ 80~95% trở lên so với giá vốn, hình thành cấu trúc lợi nhuận tương đương phần mềm
- Cuối cùng, suy luận không phải là một “cỗ máy đốt tiền”, mà là một mô hình kinh doanh có lợi nhuận rất cao nếu biết tận dụng tốt cấu trúc mất cân đối giữa đầu vào và đầu ra
Mở đầu
- Có ý kiến cho rằng AI, đặc biệt là suy luận (inference), kéo theo chi phí khổng lồ, nhưng cần một phân tích kinh tế với góc nhìn hoài nghi về nhận định này
- Tác giả không có kinh nghiệm trực tiếp vận hành các frontier model quy mô lớn, nhưng có hiểu biết về dịch vụ đám mây với thông lượng cao và cấu trúc chi phí của bare metal so với hyperscaler
- Phân tích ở mức ước tính nháp (napkin math), tập trung vào chi phí tính toán thuần túy
- Chi phí một GPU H100 được giả định là $2 mỗi giờ; trên thực tế các công ty AI lớn có thể mua được với mức thấp hơn
Giả định
- Phân tích chỉ tập trung vào chi phí tính toán thuần túy, nhằm kiểm tra tính bền vững mà không cần cải tiến mô hình, dựa trên mức hữu dụng của các mô hình hiện tại
- Sử dụng kiến trúc DeepSeek R1 (671B tham số tổng, 37B tham số kích hoạt), giả định hiệu năng tương đương Claude Sonnet 4 và GPT-5
Môi trường production dùng H100
- Thiết lập production: cụm 72 GPU H100, chi phí $144 mỗi giờ
- Batch size 32, song song tensor trên mỗi 8 GPU, chạy đồng thời 9 instance mô hình
- Giai đoạn prefill (xử lý đầu vào): dựa trên băng thông HBM 3.35TB/s của H100, xử lý 45 lượt forward pass mỗi giây
- Với 32 sequence mỗi batch (trung bình 1.000 token), đạt 1,44 triệu token đầu vào mỗi giây, tương đương 4,68 tỷ token đầu vào mỗi giờ
- Với mô hình MoE, thông lượng có thể giảm 30~50% do expert routing, nhưng tác động được giảm thiểu nhờ xử lý song song hiệu quả
- Giai đoạn decode (tạo đầu ra): sinh token tuần tự, đạt 1.440 token đầu ra mỗi giây, tương đương 46,7 triệu token đầu ra mỗi giờ
- Tính chi phí thuần trên mỗi token
- Token đầu vào: $144 ÷ 4,68 tỷ = khoảng $0.003 cho mỗi triệu token
- Token đầu ra: $144 ÷ 46,7 triệu = khoảng $3.08 cho mỗi triệu token
- Tính bất đối xứng: chênh lệch chi phí giữa xử lý đầu vào và sinh đầu ra khoảng 1000 lần
Nút thắt cổ chai tính toán
- Thông thường, băng thông bộ nhớ là nút thắt cổ chai, nhưng với sequence ngữ cảnh dài 128k+, phép toán attention trở thành nút thắt, khiến chi phí tăng 2~10 lần
- Claude Code giữ giới hạn 200k token để duy trì cơ chế rẻ hơn, thiên về bộ nhớ và tránh kịch bản chi phí cao thiên về tính toán
- Việc thu thêm phí cho cửa sổ ngữ cảnh dài phản ánh sự thay đổi về mặt kinh tế
Hiệu quả kinh tế thực tế theo người dùng
- Gói người dùng ($20/tháng ChatGPT Pro): 100.000 token/ngày (70% đầu vào, 30% đầu ra), chi phí thực tế khoảng $3/tháng
- Biên lợi nhuận của OpenAI là 5~6 lần
- Sử dụng của lập trình viên (Claude Code Max 5, $100/tháng): 2 triệu token đầu vào/ngày, 30.000 token đầu ra, chi phí thực tế khoảng $4.92/tháng, biên lợi nhuận 20.3 lần
- Max 10 ($200/tháng): 10 triệu token đầu vào/ngày, 100.000 token đầu ra, chi phí thực tế khoảng $16.89/tháng, biên lợi nhuận 11.8 lần
- Các coding agent tối đa hóa hiệu quả kinh tế nhờ mô hình sử dụng thiên về đầu vào (rẻ)
- Biên lợi nhuận API: so với mức giá hiện tại ($3/15 cho mỗi triệu token) và chi phí thực tế ($0.01/3), biên lợi nhuận đạt 80~95%
Kết luận
- Phân tích dựa trên nhiều giả định và có thể có sai số, nhưng ngay cả khi giả định lệch 3 lần thì khả năng sinh lời vẫn cao
- Xử lý đầu vào rẻ ở mức $0.005 cho mỗi triệu token, trong khi sinh đầu ra là $3+, chênh lệch tới hàng nghìn lần
- Cấu trúc bất đối xứng giữa chi phí token đầu vào và đầu ra là điểm cốt lõi, và các dịch vụ tận dụng tốt điều này có thể đạt lợi nhuận cao
- Workload có tỷ trọng đầu vào lớn (trợ lý lập trình, phân tích tài liệu, nghiên cứu, v.v.) → cấu trúc giá vốn gần như miễn phí, khả năng sinh lời rất cao
- Workload có tỷ trọng đầu ra lớn (ví dụ: tạo video) → đầu vào ít nhưng đầu ra lên tới hàng triệu token, khiến cấu trúc chi phí bất lợi và buộc phải định giá cao
- Nhận định rằng “suy luận AI đắt đến mức không bền vững” không phù hợp với cấu trúc giá vốn thực tế. Đây có thể là một chiến lược kìm hãm cạnh tranh của các ông lớn hiện hữu. Trên thực tế, cấu trúc biên lợi nhuận đã rất vững chắc
- Cũng như việc từng phóng đại chi phí cloud computing để biện minh cho siêu lợi nhuận của Big Tech, tranh luận về chi phí suy luận cũng có nguy cơ bị chi phối bởi “marketing gieo sợ hãi về chi phí” quá mức
- Cần tiếp cận cấu trúc giá vốn dựa trên sự thật
1 bình luận
Ý kiến Hacker News
Các phép tính toán học trong bài này sai ở nhiều khía cạnh
Đặc biệt, giả định rằng giai đoạn prefill bị giới hạn bởi băng thông là sai
Nếu khai triển MFU mà tác giả tính, kết quả ra 13 PFLOPS/s, tức là gấp 7 lần hiệu năng tối đa của phần cứng thực tế nên là con số bất khả thi
Các giả định như 32 yêu cầu đồng thời, giới hạn 8 GPU, và chỉ có phép toán attention là nút thắt cổ chai cũng đều là tiền đề sai
Thật đáng tiếc khi những người chỉ trích bài này trên HN chỉ ra các chi tiết vụn vặt thay vì lỗi gốc rễ
Nếu bài này đúng thì lập luận rằng OpenAI hay Anthropic đang lỗ ở suy luận cũng có cơ sở khá yếu
Phần chi phí token đầu ra cũng sai đáng kể
Cảm ơn vì đã chỉ ra rằng phép toán là sai, nhưng nếu vậy thì sẽ hữu ích hơn nếu cũng đưa ra các con số chính xác để giúp điều chỉnh kỳ vọng
Tôi đã mô hình hóa nhiều lần, và theo tôi thì tùy vào khấu hao GPU và tối ưu hóa mức sử dụng tài nguyên, suy luận có thể đạt biên lợi nhuận trên 50%
Tuy nhiên, kết quả thay đổi rất nhiều tùy việc có tính cả chi phí huấn luyện hay không
Nếu không vốn hóa chi phí huấn luyện thì biên lợi nhuận đẹp, nhưng nếu khấu hao và đưa vào thì khả năng sinh lời giảm mạnh
Có câu hỏi là vì sao lại loại trừ chi phí huấn luyện
Với các phòng thí nghiệm AI quy mô lớn thì biên lợi nhuận cao là khả thi, nhưng doanh nghiệp thông thường thì khác
Ngay cả khi khấu hao GPU trong 5 năm, nếu mức sử dụng giảm vì mất thị phần thì vẫn có thể là đòn chí mạng
Theo chuẩn IFRS/GAAP, chi phí huấn luyện cũng là khoản chi phí quy trực tiếp vào doanh thu, nên cuối cùng vẫn phải được tính vào giá vốn hàng bán
Sam Altman nói rằng: “Chúng tôi đang có lãi ở suy luận, nếu bỏ chi phí huấn luyện ra thì khả năng sinh lời rất tốt”
Amodei cũng giải thích tương tự rằng, nếu xem một mô hình như một công ty thì với 100 triệu USD chi phí huấn luyện và 200 triệu USD doanh thu, bản thân mô hình đó có lãi
Chỉ là đồng thời công ty vẫn đang lỗ vì còn phải huấn luyện các mô hình thế hệ tiếp theo đắt đỏ hơn
Nhưng câu “có lãi nếu bỏ chi phí huấn luyện ra” thực ra là một cách nói sáo mòn có thể áp dụng cho gần như mọi công ty, nên không có nhiều ý nghĩa
Trên thực tế, OpenAI đầu tư vào startup và cấp credit, tạo ra một cấu trúc tiền quay vòng nội bộ, nên rất khó nắm được khả năng sinh lời thật sự
Theo podcast của NYT, Sam nói rằng “nếu chỉ nhìn vào suy luận thì chúng tôi có lãi”, nhưng COO ngồi cạnh đã có phản ứng khá lửng lơ
Nếu suy luận rẻ đến vậy như bài viết khẳng định, thì có lý do gì mà chưa có nhiều nhà cung cấp API siêu rẻ?
Thực tế thì đa số nhà cung cấp giá rẻ chỉ chạy các mô hình nhỏ
Vậy thì vì sao các mô hình lớn như DeepSeek-R1 lại chưa thể được dùng với giá rẻ là điều đáng thắc mắc
Thực ra đã có khá nhiều nhà cung cấp API, và có nơi thậm chí còn cung cấp DeepSeek-R1 miễn phí
Cũng có những nơi như DeepInfra, và mức giá thực tế còn rẻ hơn ước tính trong bài
Tuy nhiên, vẫn có chi phí cố định khổng lồ như huấn luyện mô hình, xây dựng hạ tầng, nhân sự, nên không thể giải thích khả năng sinh lời chỉ bằng đơn giá suy luận
Nếu tự chạy một mô hình 600B thì cần lượng GPU trị giá hàng chục nghìn USD, mà phần lớn thời gian lại nhàn rỗi, nên rất kém hiệu quả
Từ góc nhìn của người có kinh nghiệm về kiến trúc GPU, với ngữ cảnh dài thì phép toán attention về lý thuyết tăng theo O(n²), nhưng
Bài viết này tính toán dựa trên DeepSeek R1, nhưng DeepSeek hiệu quả một cách bất thường, nên không phù hợp để ước tính chi phí của OpenAI/Anthropic
Hiệu quả của DeepSeek đến từ MoE và attention MLA
Lý do DeepSeek làm rung chuyển thị trường không phải vì hiệu quả suy luận mà là do tuyên bố chi phí huấn luyện 5 triệu USD
Thực tế rất khó cho rằng GPT-5 hay Claude 4 kém hiệu quả hơn DeepSeek
Amodei cũng nói rằng DeepSeek chỉ đơn thuần là một phần của đường cong giảm chi phí đã được dự báo trước
Các con số token mỗi ngày mà bài viết đưa ra là quá thấp
Mức giá ChatGPT Pro cũng được nhắc sai
Thực tế là 200 USD mỗi tháng, và Sam Altman từng trực tiếp nói rằng “chúng tôi đang lỗ ở gói Pro”
Vì người dùng sử dụng nhiều hơn rất nhiều so với dự đoán
Tuy nhiên gần đây ông ấy lại nói rằng “chúng tôi có lãi ở suy luận”
Cá nhân tôi không tin các phát biểu của Sam
Trên thực tế, rất có thể 10% người dùng hàng đầu chiếm phần lớn mức sử dụng theo phân phối lũy thừa
Theo các báo cáo gần đây, Anthropic có biên lợi nhuận 60%, còn OpenAI ở mức 50%, tính cả người dùng miễn phí
speculative decoding, caching và các kỹ thuật khác tiếp tục làm giảm chi phí
Con số 37 tỷ tham số mà bài viết giả định cũng không khớp với quy mô mô hình thực tế
Tuy nhiên, chỉ nhìn vào biên lợi nhuận thì vẫn chưa đủ để thấy toàn cảnh
Sam Altman đã nhiều lần lặp lại trong các cuộc phỏng vấn rằng “nếu bỏ chi phí huấn luyện ra thì chúng tôi có lãi”