- Phép tính 5.000 USD của gói Claude Code Max được Forbes trích dẫn thực chất dựa trên giá API bán lẻ, không phải chi phí compute thực tế
- So sánh với giá của các mô hình Qwen 3.5 397B và Kimi K2.5 trên OpenRouter cho thấy các mô hình quy mô tương tự đang được vận hành ở mức khoảng 1/10 giá API của Anthropic
- Nếu tính theo chuẩn này, chi phí thực tế ước tính của Anthropic vào khoảng 500 USD, tức chỉ lỗ khoảng 300 USD/tháng với một số người dùng có mức sử dụng rất cao
- Phần lớn người dùng không chạm tới giới hạn token, và xét theo mức sử dụng trung bình thì đây là cấu trúc hòa vốn hoặc có lãi
- Nhận thức rằng chi phí suy luận AI là quá cao là một sự hiểu lầm, và điều này đang được dùng để biện minh cho biên lợi nhuận API cao của các công ty AI lớn
Kiểm chứng khẳng định 5.000 USD của Forbes
- Trong bài viết về Cursor, Forbes dẫn lại nhận định rằng gói 200 USD của Anthropic cho phép mức sử dụng compute trị giá 5.000 USD
- Trích dẫn này được giới thiệu là phát biểu của “một người đã xem phân tích về mẫu hình sử dụng compute của công ty”
- Con số này được tính theo giá API bán lẻ, nên khác với chi phí compute thực tế
- Giá API Opus 4.6 của Anthropic được niêm yết ở mức 5 USD cho mỗi 1 triệu token đầu vào, 25 USD cho mỗi 1 triệu token đầu ra
- Theo mức giá này, người dùng nặng có thể đạt tới lượng sử dụng API tương đương 5.000 USD/tháng
Ước tính chi phí compute thực tế
- Trên OpenRouter, mô hình Qwen 3.5 397B-A17B có quy mô tương tự được định giá khoảng 0,39 USD cho mỗi 1 triệu token đầu vào, 2,34 USD cho đầu ra
- Mô hình Kimi K2.5 còn rẻ hơn, ở mức 0,45 USD cho đầu vào và 2,25 USD cho đầu ra
- Mức này rẻ hơn khoảng 10 lần so với giá API của Anthropic
- Chi phí token cache cũng chênh lệch theo tỷ lệ tương tự
- Ví dụ: chi phí đọc cache của Kimi K2.5 trên DeepInfra là 0,07 USD/MTok, trong khi Anthropic là 0,50 USD/MTok
- Vì vậy, có thể ước tính chi phí compute thực tế chỉ ở mức khoảng 10% giá API
Chi phí thực tế của người dùng Claude Code Max
- Một người dùng tiêu thụ lượng token tương đương 5.000 USD theo giá API thực tế chỉ gây ra chi phí khoảng 500 USD
- Trong trường hợp này, Anthropic lỗ khoảng 300 USD/tháng
- Tuy nhiên, Anthropic cho biết chỉ dưới 5% người dùng chạm tới giới hạn token
- Người dùng thông thường trung bình chỉ dùng dưới 50% lượng token
- Theo dữ liệu
/cost của Anthropic, người dùng trung bình có mức sử dụng API khoảng 6 USD/ngày, và 90% ở mức 12 USD hoặc thấp hơn
- Nếu tính theo chi phí thực tế thì vào khoảng 18 USD/tháng, tức vẫn có thể đảm bảo lợi nhuận so với mức thuê bao 20–200 USD
Chênh lệch chi phí với Cursor
- Con số 5.000 USD xuất phát từ kết quả phân tích nội bộ của Cursor
- Cursor phải dùng Opus 4.6 của Anthropic theo giá API bán lẻ
- Vì vậy, từ góc nhìn của Cursor, chi phí 5.000 USD/tháng cho mỗi người dùng năng suất cao là điều có thể xảy ra
- Trong khi đó, chi phí thực tế của Anthropic chỉ vào khoảng 500 USD
- Cursor đang gặp khó khăn vì các nhà phát triển ưa chuộng mô hình của Anthropic
Cấu trúc lợi nhuận của Anthropic và những hiểu lầm
- Anthropic vẫn đang thua lỗ tổng thể do chi phí huấn luyện, nhân sự và đầu tư compute quy mô lớn
- Tuy vậy, chi phí suy luận (inference) tính theo token nhiều khả năng có biên lợi nhuận cao
- Nhận thức rằng “suy luận AI là một mảng kinh doanh thua lỗ” đang được dùng để biện minh cho biên giá API quá cao, đồng thời làm suy yếu cạnh tranh
- Để hiểu đúng kinh tế học của suy luận, tham khảo giá các mô hình công khai trên OpenRouter sẽ thực tế hơn
- Các mức giá này chỉ bằng một phần chi phí API của các công ty AI lớn
1 bình luận
Ý kiến trên Hacker News
So sánh Qwen 3.5 397B-A17B với các mô hình của Anthropic là một so sánh khập khiễng
Các mô hình Trung Quốc như Qwen hay DeepSeek được cho là hiệu quả hơn hơn 10 lần so với Anthropic
Đây cũng là lý do chênh lệch giữa giá trên OpenRouter và giá niêm yết chính thức không quá lớn. Hơn nữa, cũng không rõ các nhà cung cấp trên OpenRouter dùng kỹ thuật lượng tử hóa (quantization) nào. Thực tế thậm chí có thể hiệu quả hơn 100 lần
Tất nhiên không phải mọi người dùng đều dùng gói ở mức tối đa, nên không phải mỗi người dùng đều gây lỗ 5.000 USD
Nếu nhìn vào chỉ số t/s của Opus 4.5 trên Amazon Bedrock và các mô hình Trung Quốc thì mức này khá tương đồng, nên số lượng tham số hoạt động thực tế cũng tương tự
Trên OpenRouter còn có thể chọn trực tiếp nhà cung cấp BF16 hoặc Q8
Các công ty Trung Quốc thiếu GPU nhưng đã đạt nhiều đổi mới trong tối ưu hóa suy luận. Liang, CEO của DeepSeek, cũng có tên trong danh sách tác giả các bài báo liên quan
Anthropic chưa từng công bố kiến trúc mô hình hay số lượng tham số
Các mô hình mã nguồn mở chủ yếu giảm chi phí tính toán bằng cách chưng cất (distill) từ mô hình khác hoặc dùng MoE
Bài blog lấy Qwen làm chuẩn so sánh khó đáng tin
Theo bài gốc, Cursor năm ngoái ước tính gói Claude Code 200 USD/tháng có thể sử dụng lượng tính toán trị giá tối đa 2.000 USD
Hiện tại khoản trợ giá đó còn lớn hơn, và cùng gói này có thể tiêu thụ khoảng 5.000 USD tiền tính toán
Nhiều người tin rằng OpenAI và Anthropic bán token dưới giá vốn, nhưng hầu như không có bằng chứng thực tế
Meme này lan rộng vì một bài viết thiếu chính xác của Forbes. Bài đó thậm chí còn không hiểu sự khác biệt giữa chi phí API và chi phí tính toán
Việc Anthropic chặn sử dụng bên ngoài CC và đặt trần chi tiêu API ở mức 5.000 USD cho thấy khả năng lợi nhuận thấp
Chi phí nghiên cứu, huấn luyện và nhân sự hạ tầng đều phải được tính vào chi phí tạo token
Mức giá thấp của các mô hình open-weight là do bán phá giá để giành thị phần, còn chi phí thực tế cao hơn
Cuối cùng cấu trúc này sẽ không thể kéo dài lâu
Nếu mô hình không được huấn luyện liên tục thì giá trị của token sẽ giảm
Nếu đội của chúng tôi dùng Claude Code qua API thì sẽ tốn 200.000 USD/tháng, nhưng thực tế chỉ trả 1.400 USD/tháng bằng gói Max
Mức này tương đương khoảng 50.000 USD mỗi người dùng, nhưng nhìn số token JSON thì phần lớn là yêu cầu đã được cache, nên chi phí thực tế có lẽ thấp hơn nhiều
Chi phí thực có lẽ ở mức 25.000~30.000 USD. Ước tính 5.000 USD của Forbes là cường điệu
npx ccusageđể kiểm tra log cục bộ và tính chi phí theo giá APINếu năng lực tính toán của Anthropic thực sự đã bão hòa hoàn toàn, thì power user của Claude Code có thể tạo ra chi phí cơ hội 5.000 USD mỗi người dùng
Nhưng kiểu so sánh này cũng không phù hợp chẳng khác nào so số bánh răng giữa Rolex và đồng hồ vô danh
Anthropic cũng vậy: người dùng có thể nghi ngờ chất lượng không ổn định hoặc chuyển sang tính phí theo API
Chi phí suy luận và biên lợi nhuận khác biệt rất lớn giữa mô hình open-weight và các nhà cung cấp cloud lớn
Điều này tương tự chênh lệch giữa chi phí R&D của ngành dược và chi phí sản xuất thuốc generic
Biên lợi nhuận suy luận của OpenAI được ước tính khoảng 70%, còn Anthropic là 40~90%
Bài liên quan: Phemex, SaaStr, The Information, Investing.com
Theo chuẩn kế toán, doanh thu trên mỗi mô hình có thể đã bù được chi phí huấn luyện
Nhưng xét theo dòng tiền thì vẫn chưa cashflow positive
Nếu không hiểu sự khác biệt này thì sẽ đánh giá thấp toàn bộ ngành AI
Chưa thể chắc chắn kích thước mô hình của Opus 4.6 là bao nhiêu
Người ta đoán nó lớn hơn nhiều so với Qwen397B
Anthropic có lẽ vẫn kiếm được tiền từ API, nhưng chắc không phải biên 90%
Cache gần như rẻ đến mức coi như miễn phí, nhưng thực ra không hoàn toàn miễn phí
Nếu trừ chi phí token cache thì lượng tính toán thực tế của gói 200 USD giảm xuống còn khoảng 800 USD
Phần lớn năng lực tính toán có lẽ đang ở trạng thái nhàn rỗi
Nếu cache không hit thì sẽ phát sinh chi phí cơ hội tương ứng
Cursor phải dùng Opus 4.6 theo giá API bán lẻ của Anthropic, nên mỗi power user có thể tốn 5.000 USD/tháng
Trong khi đó chi phí thực của Anthropic có lẽ chỉ khoảng 500 USD
Gần đây tôi nghe podcast Swix nói về chiến lược cloud agent của Cursor, và rào cản gia nhập đang thấp dần
Gói thuê bao Claude gần với khái niệm spot instance hơn
API là dịch vụ on-demand, và ưu tiên thuộc về API
Phần năng lực tính toán dư ra sẽ được phân cho người dùng thuê bao, và khi thiếu dung lượng thì sẽ được định tuyến sang mô hình rẻ hơn đã lượng tử hóa
Kiểu thuê bao này vừa tận dụng tài nguyên nhàn rỗi, vừa đóng vai trò cải thiện chất lượng huấn luyện mô hình nhờ các workflow có thể dự đoán được
Tôi đã dùng cả Qwen Code, Codex và Claude; Codex tốt hơn Qwen khoảng 2 lần, còn Claude tốt hơn Codex khoảng 2 lần
Vì thế tôi đoán Claude Opus sẽ đắt hơn Qwen Code khoảng 4~5 lần