1 điểm bởi GN⁺ 2026-03-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Phép tính 5.000 USD của gói Claude Code Max được Forbes trích dẫn thực chất dựa trên giá API bán lẻ, không phải chi phí compute thực tế
  • So sánh với giá của các mô hình Qwen 3.5 397BKimi K2.5 trên OpenRouter cho thấy các mô hình quy mô tương tự đang được vận hành ở mức khoảng 1/10 giá API của Anthropic
  • Nếu tính theo chuẩn này, chi phí thực tế ước tính của Anthropic vào khoảng 500 USD, tức chỉ lỗ khoảng 300 USD/tháng với một số người dùng có mức sử dụng rất cao
  • Phần lớn người dùng không chạm tới giới hạn token, và xét theo mức sử dụng trung bình thì đây là cấu trúc hòa vốn hoặc có lãi
  • Nhận thức rằng chi phí suy luận AI là quá cao là một sự hiểu lầm, và điều này đang được dùng để biện minh cho biên lợi nhuận API cao của các công ty AI lớn

Kiểm chứng khẳng định 5.000 USD của Forbes

  • Trong bài viết về Cursor, Forbes dẫn lại nhận định rằng gói 200 USD của Anthropic cho phép mức sử dụng compute trị giá 5.000 USD
    • Trích dẫn này được giới thiệu là phát biểu của “một người đã xem phân tích về mẫu hình sử dụng compute của công ty”
  • Con số này được tính theo giá API bán lẻ, nên khác với chi phí compute thực tế
  • Giá API Opus 4.6 của Anthropic được niêm yết ở mức 5 USD cho mỗi 1 triệu token đầu vào, 25 USD cho mỗi 1 triệu token đầu ra
    • Theo mức giá này, người dùng nặng có thể đạt tới lượng sử dụng API tương đương 5.000 USD/tháng

Ước tính chi phí compute thực tế

  • Trên OpenRouter, mô hình Qwen 3.5 397B-A17B có quy mô tương tự được định giá khoảng 0,39 USD cho mỗi 1 triệu token đầu vào, 2,34 USD cho đầu ra
    • Mô hình Kimi K2.5 còn rẻ hơn, ở mức 0,45 USD cho đầu vào và 2,25 USD cho đầu ra
  • Mức này rẻ hơn khoảng 10 lần so với giá API của Anthropic
  • Chi phí token cache cũng chênh lệch theo tỷ lệ tương tự
    • Ví dụ: chi phí đọc cache của Kimi K2.5 trên DeepInfra là 0,07 USD/MTok, trong khi Anthropic là 0,50 USD/MTok
  • Vì vậy, có thể ước tính chi phí compute thực tế chỉ ở mức khoảng 10% giá API

Chi phí thực tế của người dùng Claude Code Max

  • Một người dùng tiêu thụ lượng token tương đương 5.000 USD theo giá API thực tế chỉ gây ra chi phí khoảng 500 USD
    • Trong trường hợp này, Anthropic lỗ khoảng 300 USD/tháng
  • Tuy nhiên, Anthropic cho biết chỉ dưới 5% người dùng chạm tới giới hạn token
    • Người dùng thông thường trung bình chỉ dùng dưới 50% lượng token
  • Theo dữ liệu /cost của Anthropic, người dùng trung bình có mức sử dụng API khoảng 6 USD/ngày, và 90% ở mức 12 USD hoặc thấp hơn
    • Nếu tính theo chi phí thực tế thì vào khoảng 18 USD/tháng, tức vẫn có thể đảm bảo lợi nhuận so với mức thuê bao 20–200 USD

Chênh lệch chi phí với Cursor

  • Con số 5.000 USD xuất phát từ kết quả phân tích nội bộ của Cursor
    • Cursor phải dùng Opus 4.6 của Anthropic theo giá API bán lẻ
  • Vì vậy, từ góc nhìn của Cursor, chi phí 5.000 USD/tháng cho mỗi người dùng năng suất cao là điều có thể xảy ra
    • Trong khi đó, chi phí thực tế của Anthropic chỉ vào khoảng 500 USD
  • Cursor đang gặp khó khăn vì các nhà phát triển ưa chuộng mô hình của Anthropic

Cấu trúc lợi nhuận của Anthropic và những hiểu lầm

  • Anthropic vẫn đang thua lỗ tổng thể do chi phí huấn luyện, nhân sự và đầu tư compute quy mô lớn
  • Tuy vậy, chi phí suy luận (inference) tính theo token nhiều khả năng có biên lợi nhuận cao
  • Nhận thức rằng “suy luận AI là một mảng kinh doanh thua lỗ” đang được dùng để biện minh cho biên giá API quá cao, đồng thời làm suy yếu cạnh tranh
  • Để hiểu đúng kinh tế học của suy luận, tham khảo giá các mô hình công khai trên OpenRouter sẽ thực tế hơn
    • Các mức giá này chỉ bằng một phần chi phí API của các công ty AI lớn

1 bình luận

 
GN⁺ 2026-03-11
Ý kiến trên Hacker News
  • So sánh Qwen 3.5 397B-A17B với các mô hình của Anthropic là một so sánh khập khiễng
    Các mô hình Trung Quốc như Qwen hay DeepSeek được cho là hiệu quả hơn hơn 10 lần so với Anthropic
    Đây cũng là lý do chênh lệch giữa giá trên OpenRouter và giá niêm yết chính thức không quá lớn. Hơn nữa, cũng không rõ các nhà cung cấp trên OpenRouter dùng kỹ thuật lượng tử hóa (quantization) nào. Thực tế thậm chí có thể hiệu quả hơn 100 lần
    Tất nhiên không phải mọi người dùng đều dùng gói ở mức tối đa, nên không phải mỗi người dùng đều gây lỗ 5.000 USD

    • Đó là lập luận vòng tròn. Lý do người ta tin mô hình Trung Quốc hiệu quả hơn 10 lần chỉ vì chúng rẻ hơn 10 lần
      Nếu nhìn vào chỉ số t/s của Opus 4.5 trên Amazon Bedrock và các mô hình Trung Quốc thì mức này khá tương đồng, nên số lượng tham số hoạt động thực tế cũng tương tự
      Trên OpenRouter còn có thể chọn trực tiếp nhà cung cấp BF16 hoặc Q8
    • Đồng ý, nhưng nhiều khả năng Opus 4.6 là mô hình lớn hơn gấp 10 lần. GPT-4 vốn đã là mô hình 1.6T và Llama 4 còn lớn hơn nhiều
      Các công ty Trung Quốc thiếu GPU nhưng đã đạt nhiều đổi mới trong tối ưu hóa suy luận. Liang, CEO của DeepSeek, cũng có tên trong danh sách tác giả các bài báo liên quan
    • So sánh mô hình mã nguồn mở như Qwen với Anthropic là vô nghĩa
      Anthropic chưa từng công bố kiến trúc mô hình hay số lượng tham số
      Các mô hình mã nguồn mở chủ yếu giảm chi phí tính toán bằng cách chưng cất (distill) từ mô hình khác hoặc dùng MoE
      Bài blog lấy Qwen làm chuẩn so sánh khó đáng tin
    • Opus có thể đã đạt chi phí thấp hơn nhờ tận dụng TPU
    • Trong mục nhà cung cấp của OpenRouter có hiển thị thông tin lượng tử hóa
  • Theo bài gốc, Cursor năm ngoái ước tính gói Claude Code 200 USD/tháng có thể sử dụng lượng tính toán trị giá tối đa 2.000 USD
    Hiện tại khoản trợ giá đó còn lớn hơn, và cùng gói này có thể tiêu thụ khoảng 5.000 USD tiền tính toán

    • Có phản ứng rằng “đây là thông tin làm thay đổi mọi thứ”
  • Nhiều người tin rằng OpenAI và Anthropic bán token dưới giá vốn, nhưng hầu như không có bằng chứng thực tế
    Meme này lan rộng vì một bài viết thiếu chính xác của Forbes. Bài đó thậm chí còn không hiểu sự khác biệt giữa chi phí API và chi phí tính toán

    • Tuy vậy cũng khó khẳng định chắc chắn rằng không có bằng chứng bán lỗ
      Việc Anthropic chặn sử dụng bên ngoài CC và đặt trần chi tiêu API ở mức 5.000 USD cho thấy khả năng lợi nhuận thấp
    • Cũng có ý kiến rằng “công ty chỉ bán token thì làm sao không lỗ được”
      Chi phí nghiên cứu, huấn luyện và nhân sự hạ tầng đều phải được tính vào chi phí tạo token
      Mức giá thấp của các mô hình open-weight là do bán phá giá để giành thị phần, còn chi phí thực tế cao hơn
      Cuối cùng cấu trúc này sẽ không thể kéo dài lâu
    • So với việc Anthropic có lỗ trên từng token hay không, điều quan trọng hơn là chi phí huấn luyện cao đến đâu
      Nếu mô hình không được huấn luyện liên tục thì giá trị của token sẽ giảm
    • Tài liệu liên quan ở đây
  • Nếu đội của chúng tôi dùng Claude Code qua API thì sẽ tốn 200.000 USD/tháng, nhưng thực tế chỉ trả 1.400 USD/tháng bằng gói Max
    Mức này tương đương khoảng 50.000 USD mỗi người dùng, nhưng nhìn số token JSON thì phần lớn là yêu cầu đã được cache, nên chi phí thực tế có lẽ thấp hơn nhiều

    • Tôi tò mò họ phân phối công việc kiểu gì mà hiệu quả thế. Tôi cũng dùng Claude nhiều nhưng nhanh chạm giới hạn
    • Gemini CLI hiển thị tỷ lệ tiết kiệm nhờ cache theo từng phiên, thường vào khoảng 90%
    • Tôi cũng chạy nhiều agent Claude, và 85% token đầu vào là cache read
      Chi phí thực có lẽ ở mức 25.000~30.000 USD. Ước tính 5.000 USD của Forbes là cường điệu
    • Có thể dùng npx ccusage để kiểm tra log cục bộ và tính chi phí theo giá API
    • Nhưng tôi thắc mắc dùng gói Max cho mục đích công ty có phải là vi phạm điều khoản sử dụng không
  • Nếu năng lực tính toán của Anthropic thực sự đã bão hòa hoàn toàn, thì power user của Claude Code có thể tạo ra chi phí cơ hội 5.000 USD mỗi người dùng
    Nhưng kiểu so sánh này cũng không phù hợp chẳng khác nào so số bánh răng giữa Rolex và đồng hồ vô danh

    • Chi phí cơ hội không phải là chi phí thực tế. Điểm cốt lõi là Anthropic có đang bão hòa đến mức không bán thêm được thuê bao hay không
    • GPU farm càng được sử dụng hết công suất thì hiệu ứng batching lại càng làm giảm đơn giá
    • Từ “chi phí cơ hội” cũng hay được dùng trong ngành giải trí, nhưng thực tế thường là mức tiêu thụ giảm xuống
      Anthropic cũng vậy: người dùng có thể nghi ngờ chất lượng không ổn định hoặc chuyển sang tính phí theo API
    • Cũng có câu đùa rằng “mong tình trạng tôi dùng thoải mái Opus với gói 100 USD vẫn tiếp tục”
  • Chi phí suy luận và biên lợi nhuận khác biệt rất lớn giữa mô hình open-weight và các nhà cung cấp cloud lớn
    Điều này tương tự chênh lệch giữa chi phí R&D của ngành dược và chi phí sản xuất thuốc generic
    Biên lợi nhuận suy luận của OpenAI được ước tính khoảng 70%, còn Anthropic là 40~90%
    Bài liên quan: Phemex, SaaStr, The Information, Investing.com

    • Có ý kiến cho rằng không nên dùng từ “lợi nhuận (profit)” quá dễ dãi
      Theo chuẩn kế toán, doanh thu trên mỗi mô hình có thể đã bù được chi phí huấn luyện
      Nhưng xét theo dòng tiền thì vẫn chưa cashflow positive
      Nếu không hiểu sự khác biệt này thì sẽ đánh giá thấp toàn bộ ngành AI
  • Chưa thể chắc chắn kích thước mô hình của Opus 4.6 là bao nhiêu
    Người ta đoán nó lớn hơn nhiều so với Qwen397B

    • Vì Musk từng nói Grok có hàng nghìn tỷ tham số nên Opus cũng có thể ở cỡ đó
      Anthropic có lẽ vẫn kiếm được tiền từ API, nhưng chắc không phải biên 90%
    • Trên OpenRouter, DeepSeek v3.2 (685B/37B active) có giá $0.26/0.40, còn Kimi K2.5 (1T/32B active) là $0.45/2.25
    • Nếu là chuyên gia thì có thể sẽ đoán Opus ở mức 1~2 nghìn tỷ tham số
  • Cache gần như rẻ đến mức coi như miễn phí, nhưng thực ra không hoàn toàn miễn phí
    Nếu trừ chi phí token cache thì lượng tính toán thực tế của gói 200 USD giảm xuống còn khoảng 800 USD
    Phần lớn năng lực tính toán có lẽ đang ở trạng thái nhàn rỗi

    • Nhưng cache vẫn chiếm RAM liên tục nên không thể xem là hoàn toàn miễn phí
      Nếu cache không hit thì sẽ phát sinh chi phí cơ hội tương ứng
    • Nhờ cache mà có thể bán suy luận cho nhiều người dùng hơn với giá premium, nên thực chất đây là công cụ tối đa hóa lợi nhuận
    • Nếu không phải tài nguyên nhàn rỗi, thì số tài nguyên đó còn có thể được dùng cho huấn luyện mô hình hoặc thí nghiệm nghiên cứu
  • Cursor phải dùng Opus 4.6 theo giá API bán lẻ của Anthropic, nên mỗi power user có thể tốn 5.000 USD/tháng
    Trong khi đó chi phí thực của Anthropic có lẽ chỉ khoảng 500 USD
    Gần đây tôi nghe podcast Swix nói về chiến lược cloud agent của Cursor, và rào cản gia nhập đang thấp dần

  • Gói thuê bao Claude gần với khái niệm spot instance hơn
    API là dịch vụ on-demand, và ưu tiên thuộc về API
    Phần năng lực tính toán dư ra sẽ được phân cho người dùng thuê bao, và khi thiếu dung lượng thì sẽ được định tuyến sang mô hình rẻ hơn đã lượng tử hóa
    Kiểu thuê bao này vừa tận dụng tài nguyên nhàn rỗi, vừa đóng vai trò cải thiện chất lượng huấn luyện mô hình nhờ các workflow có thể dự đoán được
    Tôi đã dùng cả Qwen Code, Codex và Claude; Codex tốt hơn Qwen khoảng 2 lần, còn Claude tốt hơn Codex khoảng 2 lần
    Vì thế tôi đoán Claude Opus sẽ đắt hơn Qwen Code khoảng 4~5 lần

    • Ý “Claude tốt hơn Codex 2 lần” thì hiện không còn đúng
    • Phần “khi thiếu dung lượng sẽ định tuyến sang mô hình rẻ hơn” thì chưa từng được công bố chính thức