1 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Chi phí suy luận cục bộ chịu ảnh hưởng từ giá thiết bị nhiều hơn tiền điện, và mẫu M5 Max MacBook Pro 64GB được tính ở mức $4,299
  • Laptop Apple Silicon khi chạy tải dùng 50~100W, và với giá điện $0.20 mỗi kWh thì tiền điện chỉ khoảng $0.48 mỗi ngày
  • Gemma4:31b được quan sát chạy ở 10~40 token/giây trên M5 Max, khiến chi phí mỗi một triệu token dao động khoảng $0.40~$4.79
  • Gemma4 31b trên OpenRouter có giá khoảng $0.38~$0.50 mỗi một triệu token, nên chỉ trong điều kiện rất lạc quan mới tương đương MacBook Pro Max
  • Suy luận cục bộ nhìn chung đắt hơn và chậm hơn OpenRouter, và về mặt kế toán thì hợp lý khi tính chi phí Pro Max ở mức khoảng gấp 3 lần cho mỗi một triệu token

Tính chi phí suy luận cục bộ

  • Tiền điện theo hóa đơn gần đây ở Northern Virginia là $0.18 mỗi kWh, nhưng trong tính toán được làm tròn tăng lên $0.20 mỗi kWh
  • Giá điện dân dụng trung bình tại Mỹ năm 2025 của EIA là $0.1730 mỗi kWh
  • Nếu laptop Apple Silicon dùng 50~100W khi chạy tải, tiền điện là $0.009~$0.018 mỗi giờ, và có thể tính xấp xỉ $0.02 mỗi giờ
  • Ngay cả khi chạy suy luận liên tục 100%, tiền điện cũng chỉ ở mức $0.48 mỗi ngày
  • Mẫu M5 Max MacBook Pro 14 inch 64GB có giá $4,299 theo website Apple, và 64GB được xem là đủ để chạy các mô hình như Gemma 4 31b
  • Nếu chia vòng đời phần cứng thành 3 năm, 5 năm và 10 năm thì chi phí hàng năm lần lượt là $1,433, $860, $430
  • Chi phí phần cứng mỗi giờ được tính là $0.16358 cho 3 năm, $0.09815 cho 5 năm, và $0.04908 cho 10 năm
  • Trong sử dụng thông thường, 5 năm là ước tính vòng đời hợp lý; 7 năm hay 10 năm cũng có thể, nhưng với tải suy luận tối đa thì 3 năm cũng là một ước tính hợp lý

Chi phí mỗi token và so sánh với OpenRouter

  • Biến số cốt lõi của chi phí mô hình cục bộ là số token có thể sinh ra mỗi giờ; trong thử nghiệm trên M5 Max, các mô hình như Gemma4:31b nằm trong khoảng 10~40 token/giây
  • Ở mức 10 token/giây, đó là 36,000 token/giờ, và với vòng đời 3~10 năm cùng giá điện $0.18 mỗi kWh thì chi phí mỗi một triệu token được tính là $1.61~$4.79
  • Ở mức 40 token/giây, đó là 144,000 token/giờ, và chi phí mỗi một triệu token giảm xuống còn $0.40~$1.20
  • Trên Apple Silicon, chi phí phần cứng chi phối tổng chi phí nhiều hơn tiền điện
  • Giá Gemma4 31b trên OpenRouter là khoảng $0.38~$0.50 mỗi một triệu token
  • Trong điều kiện lạc quan gồm 50W, 40 token/giây và dùng trong 10 năm, MacBook Pro Max có thể hạ chi phí xuống gần ngang OpenRouter
  • Trong điều kiện bi quan gồm 100W, 10 token/giây và dùng trong 3 năm, MacBook Pro Max đắt hơn 10 lần so với OpenRouter
  • Xét theo góc độ kế toán, ước tính hợp lý là chi phí suy luận cục bộ trên Pro Max vào khoảng gấp 3 lần OpenRouter cho mỗi một triệu token
  • Trong đa số trường hợp, biến số lớn hơn chi phí là tốc độ suy luận, và suy luận cục bộ chậm hơn suy luận trên đám mây
  • Một số nhà cung cấp Gemma 4 trên OpenRouter đạt tới 60~70 token/giây, nhanh hơn 3~7 lần so với mức 10~20 token/giây quan sát được trên Pro Max
  • Chi phí lương của nhân viên dùng laptop cho công việc cao hơn khoảng 1000 lần so với chi phí token có thể tạo ra cục bộ, nên trong bối cảnh này chi tiền cho Anthropic hợp lý hơn
  • Việc có thể chạy một mô hình trên thiết bị tiêu dùng với hiệu năng gần Anthropic Sonnet vẫn là một kết quả đáng kinh ngạc

1 bình luận

 
Ý kiến trên Hacker News
  • Phân tích này không ổn lắm, vì cứ liên tục làm tròn tất cả các giá trị lên. Tiền điện bị đội lên 10%, rồi trong khoảng mức tiêu thụ điện lại chọn cận trên gấp đôi giá trị thấp hơn, sau đó nhân tiếp với mức giá điện đã bị thổi phồng đó
    Thế rồi còn giả định rằng một chiếc Mac mới mua sẽ được chạy suy luận ở tải tối đa 24 giờ mỗi ngày. Tại sao lại phải như vậy? Apple Silicon thì nhanh, nhưng như chính tác giả cũng chỉ ra, chỉ vào khoảng 10~40 token/giây, không tệ nhưng vốn dĩ không phải để dùng cho mục đích đó
    Trung tâm dữ liệu không trả giá điện dân dụng, dùng chip có hiệu suất điện tốt, và dùng các chip không được thiết kế như Mac. Apple Silicon không phải để cày token 24/7/365, và nếu bạn không mua phần cứng mới chỉ cho mục đích đó thì nó khá ổn. Bạn có thể dùng Mac Studio vài lần một tuần cho những việc cần thiết và chạy ollama qua tailnet gần như “miễn phí”. Tính kinh tế chỉ hợp lý khi bạn không cố biến Mac Studio thành một cụm H100 làm mát bằng chất lỏng, còn việc phần cứng đa thuê bao với điện rẻ và số token trên mỗi watt cao hơn gần như luôn thắng thì là điều hiển nhiên

    • Ngay cả khi hạ mọi thứ xuống theo cấu hình lạc quan nhất thì vẫn ra $0.40 cho mỗi triệu token, trong khi trên OpenRouter cùng model đó là $0.38/triệu token
    • Bản thân bài viết đã vô lý rồi. Không thể dùng OpenRouter như một máy tính đa dụng, vậy tại sao lại so sánh cả một chiếc máy tính với một SaaS đơn mục đích
    • Tôi không rõ con số 40 token/giây đó lấy từ đâu ra. Chạy Gemma 4 31B trên M5 Max 128GB thì tôi từng thấy 95~100 token/giây. Tôi cũng từng thử với cùng prompt và nó còn nhanh hơn Claude Opus 4.5
    • Thực ra tính theo kiểu sinh token 24 giờ/ngày là trường hợp tốt nhất. Nếu tính theo mức dùng thực tế 8 giờ/ngày thì chi phí cố định của phần cứng vẫn là phần lớn nhất trong ngân sách, còn số token sinh ra chỉ còn 1/3 nên chi phí trên mỗi token sẽ tăng gấp 3
  • Nếu tôi không hiểu sai, phép tính này đang đưa giá toàn bộ chiếc laptop vào chi phí sinh token. Có vẻ đang bỏ qua việc đổi lại số tiền đó, bạn không chỉ nhận được đầu ra LLM mà còn nhận được cả chiếc laptop
    Nếu bạn định để cái máy đó trong một góc tối và chỉ chạy như một máy chủ ngốn token thì laptop đúng là một lựa chọn công nghệ cực tệ cho mục đích này. Nhưng nếu bạn định dùng laptop như laptop, thì việc có một chiếc laptop rõ ràng là lợi ích lớn hơn nhiều so với không có
    Ngoài ra bạn còn có quyền riêng tư, tự do khỏi kiểm duyệt, và quyền kiểm soát model mình dùng. Bạn có thể tránh tình huống xây cả quy trình làm việc quanh đặc tính của một model rồi 3 tháng sau nó đột nhiên biến mất

    • Chỉ số tốt hơn có lẽ là chênh lệch giá giữa chiếc laptop cần để chạy model cục bộ và chiếc laptop mà đằng nào bạn cũng sẽ mua
    • Bạn có được quyền kiểm soát model, nhưng lại không tiếp cận được những model mạnh nhất và chỉ chạy được các model nhỏ hơn
    • Bạn không chỉ nhận được đầu ra LLM mà còn nhận được cả chiếc laptop, và nếu là Mac thì khi nâng cấp sau này giá bán lại cũng vẫn còn khá tốt
    • Với OpenRouter thì không thể chơi Cyberpunk 2077 ở 5K HDR thiết lập tối đa
    • Bài gốc thực ra đang cho thấy kịch bản tốt nhất tuyệt đối nếu so với những người bị ám ảnh bởi việc tích trữ Mac
      Có một số lượng nhiều đến phi lý những người đã bỏ hơn $10,000 cho Mac Studio mà vẫn bị nghẽn tính toán, trong khi cũng chẳng có mấy lựa chọn hiệu quả hơn Gemma 4
  • Các công ty AI frontier đang bán lỗ
    Bỏ qua hết những gì u/bastawhiz nói[0], thì Claude, OpenAI, Gemini v.v. đúng nghĩa là đang đốt hàng trăm tỷ đô, bán lại món hàng giá 1 đô với giá vài xu chỉ với hy vọng trở thành bên sống sót cuối cùng
    Nếu tôi bỏ ra $10 để trồng cam rồi bán với giá $1, thì dĩ nhiên tự trồng sẽ trông đắt hơn. Các model này theo thời gian chỉ có thể ngày càng đắt hơn, và họ chỉ đang cố chiếm lĩnh thị trường trước khi buộc phải ngừng bán lỗ quy mô lớn
    [0]: https://news.ycombinator.com/item?id=48168433

    • Có vẻ khả năng đó thấp. Trên OpenRouter có nhiều nhà cung cấp model mở, và khó mà tin rằng họ đang lỗ trên từng token bán ra
      Ngoài ra cũng có lý do kỹ thuật khiến suy luận hiệu quả hơn rất nhiều khi ở quy mô lớn
    • Bài blog đang so sánh chi phí chạy Gemma4 31B, nhưng trên OpenRouter model này không phải do các công ty AI frontier cung cấp mà do những nhà cung cấp suy luận nhỏ vô danh cung cấp. Có vẻ là một so sánh khá công bằng
    • Dù vậy hiệu quả theo quy mô vẫn có thể lớn hơn rất nhiều. Với khối lượng công việc hiện tại của tôi thì không thể giữ một model cục bộ hoạt động 24 giờ/ngày ở mức sử dụng 98%, nhưng các đám mây lớn thì có thể. Tôi cũng không thể cấp nguồn DC trực tiếp cho máy chủ của mình, và còn có cả tổn hao khi chuyển AC sang DC. Những yếu tố kiểu này cứ nối tiếp nhau
    • Điều đó không đúng. Token API không bị bán lỗ, còn phần cứng thì theo thời gian ngày càng hiệu quả hơn nên chi phí cung cấp suy luận cho cùng một model sẽ giảm xuống
      LLAMA 3.1 405B từng là $6/$12 cho mỗi triệu token vào năm 2024, nhưng đến năm 2026 cùng model đó là $3/$3. Các model thông minh nhất ở từng thời điểm đắt hơn model trước đó vì chúng lớn hơn rất nhiều, nên token của GPT5.5 mới đắt hơn 5.4. Nhưng 2 năm nữa, chi phí cung cấp một model cỡ GPT5.5 có lẽ sẽ rẻ hơn GPT5.5 hiện nay. Các kỹ thuật chưng cất có hiệu quả trong việc giảm số tham số cần để đạt cùng điểm benchmark, nên 2 năm nữa mức thông minh tương đương cũng sẽ rẻ hơn
    • Có bằng chứng không? CEO Anthropic nói công ty đang có lãi, và OpenAI cũng nói như vậy
  • Nếu muốn một model dense tốt thì nên dùng qwen3.6 27B. Nó nhanh hơn, và nếu bạn không tin khi tôi nói nó thông minh hơn thì giá trên OpenRouter so với Gemma, vốn lớn hơn, chậm hơn và kém hiệu quả bộ nhớ hơn, cũng đã nói thay điều đó
    Nếu muốn model nhanh hơn nữa thì dùng qwen3.6 35B. Nếu Gemma model phù hợp với công việc của bạn hơn thì có thể dùng gemma 4 26B. Việc mọi người, trong đó có tôi, cứ nhắc mãi đến hai model này, đặc biệt là 27B, là có lý do. Nó đủ nhỏ để chạy ở tốc độ ổn, nhất là nhờ MTP tích hợp mà llama.cpp cuối cùng cũng hỗ trợ chính thức, và trên nhiều khối lượng công việc cũng như mọi benchmark tôi đã ném vào, nó ngang ngửa hoặc vượt những model lẽ ra không nên bị nó đánh bại
    Mấy hôm trước tôi tỉnh dậy trong lúc mất Internet, bật 27B trên pi, đưa cho nó mật khẩu router và bảo chẩn đoán xem có vấn đề gì. Lúc tôi lấy cà phê quay lại thì nó đã tạo ra cả một báo cáo đầy đủ kèm đề xuất cách xử lý. Tôi thích OpenRouter và dùng nó cho nhiều mục đích, nhưng nó không rẻ hơn
    Tất nhiên, tất cả điều này có phần chủ quan dựa trên trải nghiệm cá nhân khi đã dùng toàn bộ các model đó. Có thể có trường hợp 31B Gemma vượt trội, nhưng tôi chưa thấy, và tôi đã chạy cả 4 model được nhắc đến này trên nhiều tác vụ kể từ chỉ vài giờ sau khi chúng được phát hành công khai. Thậm chí trên hermes của tôi, kết quả còn tốt hơn khi đổi từ gemma 4 26B sang qwen3.5 9B, mà đó còn chưa phải dòng 3.6 được cải thiện đáng kể. Làm kiểu phân tích này mà không dùng model đang được xem là tiên tiến nhất trên phần cứng tiêu dùng hiện tại thì thấy hơi lỗi thời hoặc có vẻ như đang cherry-pick

    • Đúng vậy. Qwen 3.6 45b(6 parameter) chạy được trên RTX 5090 thông thường, và nếu bạn thích game thì có thể bạn đã có sẵn rồi. Nó đủ dùng cho phần lớn tác vụ sinh mã
      Tương tự, DeepSeek V4 Flash cũng khá dễ tiếp cận như một model cục bộ, và nếu dùng DwarfStar 4 thì có thể chạy dễ dàng trên MacBook 96GB
      Việc phải trả chi phí suy luận tự nó không phải vấn đề, nhưng model cục bộ mở ra những khả năng khá đáng kinh ngạc như dùng hoàn toàn ngoại tuyến, xử lý dữ liệu có thông tin định danh cá nhân hoặc đặc quyền bí mật pháp lý, và làm các công việc mà không cần bận tâm chút nào về việc vượt hạn mức tính phí
      Một điểm nữa là bạn có thể xây một dịch vụ với niềm tin rằng nó sẽ chạy liên tục 100% mà không phải lo bị gián đoạn hay ngừng cung cấp. Các model frontier hiện giờ có vấn đề này. Cấu hình Qwen cục bộ của tôi hoàn toàn có thể dự đoán được, và miễn là còn kiếm được phần cứng để chạy thì nó có thể tiếp tục vận hành
      Chiến lược hợp lý là dùng cả hai. Có bộ công cụ suy luận cục bộ, đồng thời dùng cả model đám mây giá rẻ lẫn giá cao. Dùng GPT-5.5 và Opus-4.7 cho những việc chúng làm tốt như suy luận khó, dùng cách thứ hai rẻ hơn bằng cách đi vòng qua gói đăng ký Claude, dùng DeepSeek V4 Pro cho việc hơi bớt khó, V4 Flash cho phần lớn tác vụ sinh mã, và dùng model cục bộ cho những việc cần model cục bộ
    • Tôi đồng ý với luận điểm, nhưng không chắc đọc giá qwen3.6 27B theo cách đó có đúng không
      Có vẻ các nhà cung cấp đó đang bám theo mức giá niêm yết ban đầu của Alibaba cho 27B Dense, và cá nhân tôi thấy hơi đắt. Cũng có thể vì model Qwen có hiệu quả suy luận thấp hơn so với model frontier hay Gemma, và chi phí cung cấp độ dài chuỗi lớn thì đắt hơn
    • Tôi tò mò mọi người đánh giá các model đã lượng tử hóa với nhau như thế nào. Tôi vẫn chưa tìm ra benchmark nào thật sự ưng ý
      Ví dụ debug bằng 27B rất hay. Tôi cũng đã thấy thành công tương tự sau khi mua một chiếc Mac có RAM gấp 4 lần, và Qwen 35B A3B đột nhiên làm rất tốt. Còn 9B trên laptop thì khó mà gọi là tốt được
  • Có nhiều bình luận ở đây chỉ ra vấn đề trong phân tích của bài gốc, nhưng về kết luận rộng hơn thì phần lớn tôi thấy gần như là “không khác biệt đáng kể”. Trừ quyền riêng tư ra, nếu xét thuần túy chi phí và hiệu năng thì với lập trình viên cá nhân, dùng dịch vụ được host vẫn tốt hơn là tự host
    Trong công việc thì chủ lao động trả tiền token, còn ngoài công việc thì phần lớn lập trình viên thấy gói đăng ký $20/$100/$200 mỗi tháng của nhà cung cấp họ thích là đã đủ. Xét thuần về hiệu năng trên chi phí, không có nhiều lập trình viên thật sự rơi vào điều kiện mà chạy model cục bộ là lựa chọn đúng
    Quan trọng hơn, việc thiết lập model cục bộ trong thực tế có vẻ gần với sở thích, học hỏi, hoặc kiểm soát quyền riêng tư hơn là tiết kiệm chi phí hay tăng năng suất

    • Kiểu điện toán mainframe mà các nhà sản xuất model mơ đến sẽ không quay lại, bất kể OpenAI, Google, Anthropic hay Microsoft muốn gì. Có quá nhiều những kẻ man di công nghệ thông minh đang muốn bước vào cửa, và họ sẽ không hài lòng với việc quay lại thời đại terminal máy tính
      Máy tính cá nhân đã kết thúc thời đại terminal trước đó, phần lớn các công ty thời đó đã biến mất, và chỉ còn IBM cùng một vài công ty sống sót, nhưng cũng chỉ là cái bóng của chính họ ngày xưa
  • Tác giả chỉ so sánh chi phí token đầu ra, nhưng trong khối lượng công việc dạng agent thông thường thì token đầu vào chiếm một phần lớn của chi phí. Với suy luận cục bộ, về cơ bản token đầu vào là miễn phí
    Chỉ còn những chi phí ngầm như thời gian chờ token đầu tiên lâu hơn, điện năng cao hơn, và tốc độ token đầu ra thấp hơn

    • Đúng, điểm đó phá hủy hoàn toàn luận điểm của tác giả
      Tôi xem thử vài phiên agent ngẫu nhiên trong hoạt động OpenRouter của mình thì thấy chi phí đầu vào cao gấp 10 lần chi phí đầu ra. Prompt caching của OpenRouter phức tạp và khó tin cậy, nhưng trên phần cứng cục bộ với llama-cpp thì phần lớn gần như miễn phí
    • Kể cả bỏ qua khả năng cache tốt hơn của thiết lập cục bộ, phần cứng Mac thường xử lý token đầu vào nhanh hơn khoảng 10 lần so với token đầu ra. OpenRouter với cùng model thì có vẻ chỉ chênh khoảng gấp đôi
  • Nếu làm thông minh thì không phải vậy. MacBook M5 Max 128GB là chiếc laptop cao cấp giá 6.000 đô, nhưng nó làm được rất nhiều việc và là máy chính rất tốt để dùng cả ngày
    Ngoài ra, bạn còn có thể chạy DeepSeek V4 Flash để xử lý cục bộ những công việc không hề tầm thường, không kiểm duyệt hay giới hạn, không cần kết nối Internet, với dữ liệu cá nhân cực kỳ nhạy cảm. Đó là một món hời. Nếu bạn mua cụm dual Mac Studio 512GB giá 25.000 đô để cố bỏ OpenAI và mấy công ty kia thì sẽ thất vọng cả về hiệu năng lẫn chi phí

    • Lựa chọn khôn ngoan là mua một chiếc MacBook khoảng 48GB để dùng hằng ngày, rồi dành ngân sách khoảng $800/năm cho đăng ký AI hoặc token. Như vậy cuối cùng sẽ ra cùng tầm giá
      Với tư cách tác giả blog, tôi đang viết bài này trên MacBook M5 Max 128GB
    • M4 Max 128GB của tôi cuối cùng hóa ra là một lựa chọn khá hợp lý. Tôi dùng nó để chỉnh sửa video, huấn luyện model machine learning, chạy các model AI công khai lớn, dựng hình 3D, render, và làm CAD
      Tôi không làm tất cả những việc đó 100% thời gian. Tôi chạy huấn luyện machine learning qua đêm rồi sáng xem kết quả, trong giờ làm việc thì dựng nó lên như máy chủ để chạy model cục bộ, còn thời gian cá nhân thì chỉnh sửa video và dựng hình 3D. Đây là một cỗ máy cực kỳ đa năng, và tất cả đều diễn ra trong khi dữ liệu nằm trong thiết bị và tôi giữ toàn quyền kiểm soát quy trình làm việc
    • Với dân HN thì đây là bí mật, nhưng một số model kiểu này có thể chạy trên rpi5 giá $200 hoặc mini PC AMD giá $500
      Một bí mật công khai khác là có vài công ty đang cho miễn phí hàng chục nghìn token với những model khá ổn như Gemini 3.1 hay GLM 4.6
  • Bài gốc đem so Gemma ở chỗ này chỗ kia, nhưng kết luận lại là trả tiền cho Anthropic thì tốt hơn. Anthropic tính $15 cho mỗi triệu token đầu ra, tức là theo giá OpenRouter thì đắt hơn 30~35 lần
    Chuyện này giống như so sánh xe đạp điện ở nhà với dịch vụ thuê xe đạp điện rồi kết luận rằng vì tốc độ cũng tương đương nên tốt hơn hết là đi thuê một chiếc Toyota. Thật mệt khi những bài viết tệ lại thu hút nhiều chú ý

  • Bài viết mắc một sai lầm lớn ở phần cuối nên sai nghiêm trọng. Không thể chỉ nhìn số token được tạo ra rồi bảo đó là chi phí. Trong lập trình kiểu agent, có rất nhiều lượt qua lại nên bạn phải trả không chỉ token đầu ra mà còn cả tất cả token đầu vào gửi đi ở mỗi lượt. Kể cả có cache và rẻ hơn khoảng 10 lần thì vẫn vậy. Vì thế phép tính này hoàn toàn không phản ánh chính xác chi phí API
    Thứ hai, nếu dùng đội agent thì bạn có thể tăng mạnh lượng token sinh ra cục bộ. Một hội thoại đơn lẻ bị trói bởi băng thông bộ nhớ nên không dùng hết tài nguyên tính toán. Nếu có thể batch token của nhiều agent lại thì rất dễ tăng sản lượng token lên gấp 5

  • Tôi hoàn toàn không thể quay lại AI đám mây. Với tôi, quyền riêng tư và toàn quyền kiểm soát quan trọng hơn tốc độ hay model tối tân nhất

    • Còn có cả tính dự đoán được, khả năng phục hồi, và chủ quyền nữa. Bạn không phải lo sự cố của người khác, nhu cầu tăng đột biến ảnh hưởng đến mình đúng lúc bất tiện, ai đó làm model của mình kém đi, chi phí thay đổi khó lường, hay một lỗi bất ngờ tạo ra hóa đơn khổng lồ
      Với tôi nó thuộc cùng một nhóm với điện mặt trời trên mái nhà. Nếu bạn là kiểu người thấy yên tâm khi kiểm soát hạ tầng và giảm phụ thuộc, thì không nhất thiết phải đòi hỏi tính kinh tế tuyệt đối mới thấy đáng giá