Lập trình AI tại nhà mà không phải chi tiền như công ty

(stephen.bochinski.dev)

5 điểm bởi GN⁺ 2026-06-15 | 2 bình luận | Chia sẻ qua WhatsApp

Các lựa chọn để giảm chi phí lập trình AI cá nhân được chia thành ba hướng: tự host, thuê API mô hình mã nguồn mở, và tối ưu hóa gói đăng ký frontier
Tự host là mua thiết bị và chạy mô hình mã nguồn mở cục bộ, sau đó không phải trả chi phí theo token, nhưng chi phí ban đầu lớn và các mô hình có thể chạy tại nhà yếu hơn các mô hình từ những phòng thí nghiệm frontier
Nếu thuê mô hình mã nguồn mở theo giá API, bạn không phải chôn hàng nghìn đô la vào cấu hình GPU, tránh được công việc tinh chỉnh để khai thác hiệu năng, và dễ chuyển sang lựa chọn rẻ hơn hoặc tốt hơn vào tháng sau
Các gói đăng ký frontier của OpenAI và Anthropic có giá khoảng 400 USD mỗi tháng nhưng có thể nhận được lượng sử dụng API trị giá khoảng 2.800 USD theo giá niêm yết; tuy nhiên, các workflow AI-native quy mô lớn sẽ nhanh chóng tiêu hết số token đi kèm
Cách phù hợp nhất là chiến lược kết hợp: dùng gói frontier cho suy luận khó và viết đặc tả, còn dùng API mã nguồn mở cho các tác vụ nhỏ và mang tính cơ học

Ba lựa chọn

Có ba cách để lập trình AI tại nhà mà không phải chi tiêu ở mức doanh nghiệp, và cách nào phù hợp phụ thuộc nhiều vào việc bạn tin tưởng đến đâu vào các đợt ra mắt phần cứng và mô hình trong 1 năm tới
Tự host là cách tự mua thiết bị và chạy mô hình mã nguồn mở cục bộ, sau đó không còn tốn chi phí theo token
- Chi phí ban đầu lớn, và các mô hình thực sự có thể chạy tại nhà yếu hơn những mô hình do các phòng thí nghiệm frontier phát hành
- Chỉ hiệu quả về chi phí khi bạn có thể liên tục tận dụng thiết bị cho các tác vụ chạy dài, nơi các mô hình chậm nhưng rẻ làm việc suốt đêm
- Với đa số mọi người, rất khó duy trì thiết bị gia đình ở tải cao liên tục như vậy, và phần cứng mua hôm nay có thể trông như một lựa chọn tồi sau 1 năm
Thuê API mô hình mã nguồn mở là cách thuê chính các mô hình mã nguồn mở đó từ nhà cung cấp theo giá API, và là lựa chọn phù hợp với đa số mọi người
- Bạn không cần đổ hàng nghìn đô la vào một cấu hình GPU, đồng thời tránh được công việc khai thác hiệu năng chạy dài từ các mô hình mở
- Dễ chuyển sang lựa chọn rẻ hơn hoặc tốt hơn vào tháng sau, và không cần bán lại thiết bị
- Các dịch vụ như OpenRouter khiến việc chuyển đổi gần như chỉ là thay đổi một dòng
Tối ưu hóa gói đăng ký frontier là cách tận dụng tối đa các gói đăng ký của OpenAI và Anthropic
- Với mức phí khoảng 400 USD mỗi tháng, bạn có thể nhận được lượng sử dụng API trị giá khoảng 2.800 USD theo giá niêm yết, nên có hiệu ứng giảm giá rất lớn cho đến khi chạm giới hạn
- Các gói này đo lường mức sử dụng, và các workflow AI-native quy mô lớn sẽ nhanh chóng tiêu hao số token đi kèm
- Phù hợp với các công việc do con người trực tiếp dẫn dắt, nhưng không đủ làm động cơ cho các agent chạy cả ngày

Tổ hợp hoạt động tốt nhất

Cách hoạt động tốt nhất là kết hợp gói đăng ký frontier với API mô hình mã nguồn mở
Duy trì vài gói frontier cho suy luận khó và viết đặc tả, còn các tác vụ nhỏ, mang tính cơ học thì xử lý bằng giá API của mô hình mã nguồn mở
Khi tận dụng phát triển theo đặc tả, các mô hình đắt tiền sẽ lập kế hoạch còn các mô hình rẻ sẽ điền vào kế hoạch đó
Nếu thực hiện tốt cách này, có thể tạo ra lượng đầu ra tương đương một nhóm khoảng 20 kỹ sư tạo ra trong một tháng với chi phí khoảng 1.000 USD

2 bình luận

pencil6962 25 ngày trước

Thực tế thì cứ đăng ký gói thuê bao của một model rẻ là được. Nội dung bài cũng nói gần giống như vậy.

GN⁺ 2026-06-15

Ý kiến trên Hacker News

Có vẻ như tôi đã chạm đến giai đoạn chững lại và không biết phải nâng lên bước tiếp theo thế nào. Hiện tại tôi cứ dùng 5.5-xhigh trong gói Codex $100/tháng và thấy như vậy là đủ
Tôi nghĩ về việc cần làm tiếp theo, dùng phiên chat để cụ thể hóa yêu cầu đến ngay trước khi triển khai, rồi để Codex xử lý công việc theo từng commit, sau đó kiểm tra nhanh trên máy chủ phát triển cục bộ. Nếu cần thì yêu cầu sửa, rồi mới cho commit, sau đó lại nhờ nó gợi ý bước kế tiếp dựa trên đặc tả. Dù sao thỉnh thoảng tôi cũng phải “phê duyệt” các yêu cầu vượt ra ngoài sandbox
Tôi vẫn chưa tìm ra loại công việc nào thật sự đáng để chạy qua đêm. Có thể giao cả một kế hoạch lớn trong một lần, nhưng tôi thường muốn thay đổi đôi chút ở các kết quả trung gian nên thấy khá lãng phí
Tiếp theo chắc tôi phải tìm kiểu VM máy riêng nào đó có thể tunnel các yêu cầu GUI của Codex. Tôi không muốn cấp quyền truy cập “nguy hiểm” cho toàn bộ chiếc Mac của mình
Tôi không hiểu ở các dự án phụ thì mọi người làm gì mà đốt token nhanh đến vậy, đến mức cần 2 gói đăng ký $200/tháng cộng thêm tiền token phát sinh
- Là vì bạn đang tiếp cận vấn đề như một kỹ sư, chứ không phải như một “influencer” hay “lập trình viên gấp 10 lần”. Bạn xem đây là vấn đề cần giải bằng kỹ thuật và AI chỉ là công cụ. Theo trải nghiệm của tôi, hầu như không có bài toán nào dành cho kỹ sư lại cần tạo mã AI không giám sát trong nhiều giờ
  Tôi chỉ tìm được đúng một trường hợp mà chuyện để AI cày liên tục hàng giờ còn hơi hợp lý. Tôi đang reverse engineering một thiết bị có năm firmware image, nên tôi dump binary ra rồi cho AI decompile và phân tích ngược các dự án firmware đan xen với nhau. Đây là công việc phức tạp nhưng phạm vi được xác định cực kỳ rõ. Nó không hẳn là việc khó, mà là việc rất nhiều. Kết quả là một đống văn bản trông giống C, chỉ để cung cấp thông tin chứ không thể biên dịch trực tiếp. Chất lượng đầu ra phụ thuộc chặt vào assembly đầu vào, và toàn bộ sản phẩm là tài liệu ở dạng mã
  Vì rủi ro bằng 0 nên tôi hoàn toàn thoải mái để AI tự xử không giám sát. Dù vậy, nếu AI nắn nó thành dạng một dự án C mà có thể nhận ra assembly, tôi sẽ đọc và suy luận dễ hơn rất nhiều. Tôi xem đó là một thắng lợi dễ dàng
- Tôi đã xem khá nhiều video người không chuyên tạo thứ gì đó bằng AI, và những người đốt 12 giờ làm việc theo đúng nghĩa đen là còn không đọc đầu ra hay hiểu mình đang làm gì
  Họ vừa yêu cầu tạo chương trình xong thì khi chương trình xuất hiện lại lập tức hỏi AI cách chạy nó. Nếu có lỗi thì hỏi AI xem sai ở đâu, hoặc bỏ hết rồi đổi model/harness để thử lại từ đầu
  Ví dụ: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
  Nó hoàn toàn khác với quy trình làm việc chuyên nghiệp mà bạn mô tả. Gần như là một món đồ chơi cho người dùng phổ thông
- Tôi đã hạ Claude xuống gói $20/tháng, giờ hầu như chỉ dùng để chat trên web. Còn lập trình thì tôi dùng Claude Code với DeepSeek được cấu hình theo hình thức tính phí API
  Tôi đã dùng khoảng $4.8 cho 320,000,000 token. Khi còn dùng gói Claude, tôi luôn có cảm giác áp lực rằng để biện minh cho cái giá đó thì LLM phải luôn làm gì đó. Từ khi chuyển sang DeepSeek, tôi không còn nghĩ như vậy nữa. Không dùng gói đăng ký cũng không thấy áy náy, và cũng không lo giới hạn. Vì chỉ cần trả thêm là được. Đặc biệt là không có giới hạn theo giờ nên khác biệt trong chạy song song rất rõ
- “Nghĩ xem tiếp theo phải làm gì” mới là điểm nghẽn thực sự mà bất kỳ ai định làm việc thật đều sẽ nhận ra. Nếu hệ thống đang theo kịp tốc độ suy nghĩ của tôi thì là đang làm tốt
  Mua thêm token không khiến năng lực tư duy “lên cấp”. Những người chạy thứ gì đó tự động hóa hơn rất có thể đang lao nhanh hơn khả năng suy nghĩ của chính mình, và cuối cùng điều đó sẽ cản chân họ
- Tôi đang dùng Codex $200/tháng để làm game cho con trẻ vì thấy vui và tò mò. Tôi là lập trình viên và từng chơi game, nhưng chưa từng làm game. Cũng có những tác vụ chạy qua đêm, nhưng phần lớn chỉ là “trông nom pipeline asset 3D của tôi và dành thời gian thêm thắt gì đó vào đó”
  Trên RTX 5090, tôi chạy Trellis2 -> ultrashapes -> Trellis2 -> nối rigging và thiết lập animation
  Tuy nhiên 99% công việc đó là thời gian Codex chờ đầu ra. Dù chạy 12 tiếng thì phần lớn cũng chỉ là đặt rất nhiều sleep. Tôi chưa bao giờ dùng hết token. Gói Codex $100/tháng thì tôi đụng trần hạn mức tuần chỉ sau khoảng 3 ngày vì chạy đồng thời 10 agent để code pipeline asset điên cuồng, nên đã nâng cấp. Gói $200/tháng có credit gấp 4 lần nên đến giờ tôi vẫn chưa đụng tường và có thể thoải mái tăng tốc
“Ban đầu là tự self-host. Mua máy, chạy model mã nguồn mở ở local thì sau đó không phải trả chi phí theo token nữa”, nhưng tiền điện thì không miễn phí
Theo tôi thì rốt cuộc đây là trả thêm phí cho quyền riêng tư, và với tôi điều đó xứng đáng
- Đúng lúc tôi cũng cần một chiếc laptop mới, và đã mua từ một người bạn một chiếc M1 Max cũ với giá khá rẻ, đủ nhanh để biên dịch lại những thứ khác tôi quan tâm
  Vì vậy trong trường hợp của tôi không có thêm chi phí phần cứng. Đó là một khoản mua thay thế
  Việc chạy model AI tại nhà trên thiết bị này là vì tôi muốn thế, và nếu cần thì tôi sẽ dùng OpenRouter
  Tôi thừa nhận phép tính hiệu quả kinh tế trong bài này là đúng. Nhưng cảm giác kết cục là chúng ta bị biến thành những người chăm sóc cỗ máy làm công việc mà mình từng yêu thích thì thật quá buồn. Về lâu dài, có lẽ việc cân đo những khác biệt tinh tế như vậy cũng có ý nghĩa
  Sai lầm tôi đã mắc phải trong đời—giờ tôi cũng có tuổi nên thực ra khó mà sửa được—là tin rằng nếu tiếp tục nhận đủ sự thỏa mãn từ công việc thì có thể bù đắp cho sự thiếu vắng những thỏa mãn cá nhân khác. Tôi luôn thích việc có thể trực tiếp giúp đỡ người khác thông qua công việc mình yêu thích và làm tốt, và điều đó đã ngăn nỗi buồn vì khó có được một đời sống gia đình theo nghĩa truyền thống
  Tôi từng nghĩ mình sẽ luôn tìm được niềm vui đó theo những cách mới, nhưng nếu mọi thứ không lại nghiêng thêm về phía nỗ lực của con người, thì ngay cả niềm vui nhỏ là tự khám phá những thứ này bằng chính thiết bị của mình theo cách của mình cũng sẽ không đủ
  Thế giới chúng ta tự tạo ra thật u ám. Dạo này tôi thấy sợ việc già đi thêm trong đó
- Tôi nghĩ các card thế hệ hiện tại ít nhất có thể kỳ vọng tuổi thọ 5 năm. Ngay cả 3090 vẫn còn dùng tốt nhờ 24GB RAM, vì trong vài năm qua yếu tố giới hạn của machine learning tại nhà chính là bộ nhớ
  Mua 6000 thì sẽ tốn khoảng 7~8 nghìn đô, nhưng khả năng cao giá trị bán lại vẫn khá tốt. 3090 hiện vẫn trên 50% giá niêm yết. Ngay cả khi không làm LLM, đây vẫn là một đề xuất giá trị thú vị cho việc huấn luyện các model thị giác dùng mạng nơ-ron tích chập “truyền thống”. 96GB cho phép đẩy batch size lên rất lớn. Lý do lớn nhất để nâng cấp là hiệu năng trên mỗi watt gần như đã tăng gấp đôi. Ví dụ, 4000 Pro Blackwell ở mức hiệu năng tương đương chỉ tiêu thụ khoảng một nửa so với 3090
  Mọi người có xu hướng giả định rằng chi tiêu vốn cứ thế biến mất, nhưng như đã thấy với RAM, tốt hơn là đừng quá chắc rằng khi cần bạn sẽ không thể bán lại được
- Nếu có điện mặt trời thì trên thực tế có thể gần như miễn phí ở một mức độ nào đó. Nên tôi tự hỏi liệu ban ngày tính toán AI riêng tư có thực sự rẻ hơn hay không
- Trả nhiều tiền hơn cho chi phí phần cứng cũng là một khoản chi phí bổ sung
  Tôi đã tính thử và thấy rằng nếu bỏ qua quyền riêng tư thì nó không hợp lý. Dù vậy tôi vẫn làm. [0]
  0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Có một thí nghiệm tư duy thú vị với câu “điện không miễn phí”. Nếu AI làm trong một ngày thứ mà tôi phải mất cả ngày mới làm xong, thì bên nào sẽ dùng nhiều điện hơn?
  Xét thuần túy từ góc độ mức tiêu thụ điện năng, điểm hòa vốn nằm ở đâu?
Tôi thực sự không hiểu nổi làm sao mọi người lại tiêu tiền kiểu đó
Tôi đã dùng gói Cursor $60/tháng ở chế độ tự động, và kể cả khi để nó lên kế hoạch lẫn code suốt các buổi tối 4 ngày mỗi tuần, tôi cũng chưa bao giờ tiến gần đến mức dùng hết hạn mức đi kèm
Rốt cuộc họ đang làm gì khác mà chi phí lại cao đến vậy?
Họ đang dùng mức sử dụng theo nhu cầu, hay các model trả phí khác, hay bật các chế độ cao hơn chăng? Tôi không hiểu vì sao lại cần những thứ đó. Với các bài toán tôi làm, đầu ra của Auto tốt đến mức điên rồ, và tôi vẫn chưa gặp vấn đề nào mà nó không làm được ở mức đủ tốt
Khi phỏng vấn ứng viên để gia nhập đội ở công ty, có người nói họ đang tiêu $2K mỗi tháng cho token ở chỗ làm hiện tại. Tôi thật sự không thể hình dung nổi phải có chuyện gì xảy ra thì mới đến mức đó
- Gói Claude Enterprise đắt hơn gói cho người dùng cá nhân khoảng 30~40 lần
  Ở một startup nhỏ, tôi từng dùng gói Max với chi phí $200/tháng. Giờ đây với cùng mức sử dụng, tôi đang trả Claude Enterprise ở mức vài nghìn USD/tháng
  Anthropic đang trợ giá cho mức dùng của người tiêu dùng, còn với doanh nghiệp thì họ tính biên lợi nhuận khá tốt cho chế độ không lưu dữ liệu (ZDR)
- Nếu có thể cấp cho agent quyền truy cập rộng và một vòng phản hồi hiệu quả, thì tôi chỉ cần định hướng và kiểm tra đầu ra cuối cùng
  Ví dụ, tôi có thể bảo một agent có quyền truy cập vào trình duyệt, log, chỉ số, GitHub và log CI triển khai một tính năng mới
  Nếu có vài báo cáo lỗi trên Slack, tôi bật thêm vài agent. Nếu PM muốn chỉnh UI, tôi bật một agent. Nhiều việc dev làm không nhất thiết phải phức tạp, và tôi chỉ cần review PR cuối cùng rồi để lại comment như với đồng nghiệp. Sau đó agent của tôi sẽ chạy tiếp, sửa theo comment và yêu cầu review mới
  Trong lúc đó, tôi có thể dành sự chú ý thực sự cho các tính năng nặng hơn, tài liệu thiết kế, phân tích dữ liệu, v.v.
  Với cá nhân tôi tiêu $300/tháng, còn cho công việc là vài nghìn USD. Agent thực sự có thể thay đổi năng suất, và hoàn toàn xứng đáng với chi phí
  Từ góc nhìn công ty, đây là bài toán trả vài nghìn USD mỗi tháng hay tuyển thêm một kỹ sư với tổng chi phí hàng năm lên tới vài trăm nghìn USD. Ở thời điểm hiện tại, với tôi ít nhất đó là hệ số nhân 2x
- Cũng có thể mấy người đó chỉ đang cố khoe kỹ năng viết prompt điên rồ của mình. Kiểu như kỹ sư có lòng tự trọng thì sao có thể để người khác thấy mình tiêu chưa tới $2K mỗi tháng
  Nhìn vào bối cảnh tương tác với những người như vậy, đó có vẻ là câu trả lời đơn giản nhất cho một câu hỏi khá khó hiểu. Trừ khi cố tình lãng phí credit, tôi còn không thấy việc tiêu $2K/tháng là khả thi
- Đồng ý. Nhưng khá nhiều người trong số đó cũng hay nói về chỉ dẫn/quy tắc/kỹ năng/tính năng tùy chỉnh mà họ tự thiết lập. Như vậy là đã ngốn khá nhiều cửa sổ ngữ cảnh ngay từ trước khi bắt đầu
  Khi tôi dùng AI, tôi chỉ dùng đúng công cụ thuần túy, và ngữ cảnh là chính phần code cụ thể mà tôi đang làm. Mục tiêu là xem nó có giúp giải quyết một vấn đề cụ thể hay không, còn phần còn lại của codebase thì tôi đã hiểu đủ rõ để đánh giá câu trả lời là tốt hay dở
- Có vài nguyên nhân. 1) Nếu prompt không đủ chính xác để thu hẹp phạm vi, agent có thể quét toàn bộ codebase, lặp đi lặp lại ở cùng một chỗ rồi mắc kẹt. 2) Phần lớn thời gian bạn có thể không cần kiểm tra đầu ra, nhưng thỉnh thoảng nó không hiểu và tạo ra rác; nếu không đọc code để xác định vấn đề thì không thể chỉ dùng prompt mà thoát ra được. Để nó chạy tự động thì sẽ đốt token
  Cả những thứ ở mức thấp cũng có thể làm agent vấp. Ngay lúc nãy thôi, nó cố tránh đọc đúng một lỗi nói rằng hàm yêu cầu giá trị trả về kiểu bool, rồi thử 10 biến thể của cùng một việc cho đến khi tôi phải ngắt. Skill cũng có thể gây vấn đề. Ví dụ, nếu cấp quyền, nó cực kỳ thích đọc mã nguồn của thư viện tôi đang dùng. Đó là một cái hố thỏ
Nếu ý là “chi phí ban đầu cao, và các model thực sự có thể chạy tại nhà thì yếu hơn những gì các phòng lab hàng đầu tung ra, nên chỉ có lợi khi bạn có thể giữ cho máy luôn bận bằng các tác vụ chạy dài qua đêm với model chậm nhưng rẻ. Phần lớn mọi người không thể duy trì tải như vậy trên máy ở nhà, và phần cứng mua hôm nay có thể trông như một khoản cược tệ sau 1 năm”, thì đây không phải bài viết về AI coding tại nhà mà là bài về vibe coding tại nhà
Có khá nhiều điểm trong bài này tôi không đồng ý. Tôi đang viết bình luận này trên một máy tính ở nhà 64GB RAM không có GPU, và tôi làm rất nhiều AI coding với chi phí rất thấp
Tôi chạy Gemma 4 26b (mixture-of-experts) và Qwen 3 coder bằng Ollama. Tôi dùng Github Copilot để hoàn thành mã, và cũng dùng free tier của Gemini và Mistral API. Tôi còn có tài khoản Gemini API trả phí, nhưng giờ là trả trước nên không còn lo vô tình nhận hóa đơn $1000 nữa. Với Gemini Flash Lite 3.1 cũng làm được khá nhiều việc
Không thứ nào trong số này đốt token để tạo ra một đống mã spaghetti đắt đỏ, nhưng rõ ràng nó vẫn là AI coding
- Tôi cũng thấy vậy. Tôi đang dùng Qwen 3.6 35B A3B trên một máy có 64GB RAM và 24GB 5090. May mắn là tôi đã mua Alienware 16 Area51 khoảng 15 giây trước khi mọi người ngu ngốc đặt trước máy tính cho 3 năm tới và phá hỏng mọi thứ
  Với nó tôi không thể làm kiểu vibe coding “đại bác bắn rác”, nhưng đó cũng không phải mục đích vì đây là code cá nhân của tôi và tôi không muốn nó biến thành spaghetti. Điều tôi muốn là được tìm ngay các bài Stack Overflow và Reddit trong hộp chat, giảm bớt nỗi đau thể xác khi phải tự gõ code TypeScript, và bớt cảnh vật lộn debug mãi những vấn đề Docker mơ hồ. Tôi là dev backend nên mức kiên nhẫn với frontend là âm, và dù tôi thích Docker, tôi không có kiên nhẫn với những lỗi khó chịu cùng vô số tính nết quái gở của nó. Model này làm mấy việc đó cực kỳ tốt
- Chắc chắn có những công việc có thể để chạy liên tục trong một thời gian. Tôi nghĩ ranh giới giữa vibe coding và quy trình coding có con người tham gia sẽ ngày càng mờ đi khi luồng công việc được kiểm chứng và model trở nên thông minh hơn, rẻ hơn
  Hầu hết những kỹ sư giỏi nhất mà tôi biết trong năm nay đều chuyển sang vibe coding nhiều hơn hẳn. Khả năng hiện nay đã tốt hơn rất nhiều rồi
Dùng trực tiếp API của nền tảng DeepSeek và chỉ cần nối model V4 Flash vào một harness như Opencode là đã đủ hài lòng. Có lẽ trong vài tuần tôi chỉ tốn khoảng $10
Tôi cũng đã xem qua các model self-host, nhưng phần cứng lúc này quá đắt
- Nếu dùng Opencode Go nhưng chỉ dùng DeepSeek Flash thì có vẻ sẽ cầm cự được lâu hơn. Tính theo token thì tương đương $65, nhưng vì là thanh toán theo tháng nên phải dùng hết, thành ra nếu mức sử dụng thấp thì gọi trực tiếp DeepSeek sẽ rẻ hơn
  Tháng đầu là $5, sau đó là $10 và có thể hủy bất cứ lúc nào. Cũng có thể tiếp tục nhận ưu đãi bằng email mới
- Ý là dùng trực tiếp từ DeepSeek à? Theo cách tôi hiểu thì tôi chưa xác minh, nhưng các nhà vận hành AI khác đang cung cấp một số model DeepSeek với giá rẻ hơn
  Dù vậy vẫn thấy thú vị. Với mức giá đó thì nhận được gì? Chỉ coding thôi, hay còn gồm cả tạo ảnh chẳng hạn?
Ở nhà thì mọi người đang làm gì vậy? Tôi dùng gói Claude $20/tháng để code khoảng 5 ứng dụng, tất nhiên vẫn có thể đụng giới hạn tốc độ, nhưng tôi không hiểu phải làm gì mới có thể đốt tới $3k tiền token
- Còn tùy trường hợp, nhưng tự động hóa có thể ngốn rất nhanh các gói $100~$200/tháng và đốt hàng nghìn đô chỉ riêng tiền token
  Có phân tích nguyên nhân gốc rễ cho các vấn đề hỗ trợ khách hàng chạy theo giờ, tự động hóa hằng ngày như phân tích log, rồi tự động hóa theo tuần/tháng để theo dõi và thực thi KPI
  Khi làm side project thì 1) phạm vi được xác định khá rõ và 2) không cần người dùng hay tự động hóa, nên dễ ở trong giới hạn gói $20/tháng hơn nhiều. Giờ thì tôi hay đụng giới hạn hằng tuần và cần nhiều gói Max
- Tôi cũng vậy. $20/tháng là đủ và tôi code mỗi ngày
  Có vẻ những người đốt token đang dùng các cấu hình như nhiều sub-agent, 50 kỹ năng đã nạp, 40 công cụ MCP. Mấy thứ đó lấp đầy ngữ cảnh ở mỗi lượt
- Tôi cũng gần giống vậy, nhưng có lẽ tôi ít đụng giới hạn hơn vì vẫn tự suy nghĩ khá nhiều, còn AI thì chỉ dùng để tăng tốc những việc chán ngắt mà tôi không muốn tự làm
  Nó đặc biệt tốt cho các dự án cá nhân ở nhà. Sau khi làm việc nhàm chán của công ty suốt cả ngày, việc không phải tự xử lý các công việc lặp lại trong side project khiến tôi muốn tiếp tục làm hơn nhiều
  Phần lớn những người đốt hàng nghìn đô token ở nhà có lẽ đang tạo ra những đống slop khổng lồ
- Câu trả lời ngắn cho câu “phải làm gì để đốt $3k tiền token” là tạo slop
  Phần lớn việc coding có thể làm nhanh chỉ với bàn phím, IntelliSense và một ít template sinh mã
  Nhưng mọi người đã trở nên phụ thuộc vào việc AI làm mọi thứ, và giờ các tech bro bắt đầu vắt kiệt như dân buôn thuốc
Vài tháng trước tôi đã đầu tư khoảng $4,000 vào NVIDIA DGX Spark. Nó có 128GB RAM hợp nhất và chip NVIDIA GB10
Nhờ RAM, nhiều lõi CPU và SSD NVMe 4TB, đây là một máy tính ARM64 Linux khá mạnh ngay cả khi không dùng GPU, và đến giờ tôi chủ yếu dùng nó như vậy. Nhưng tôi đang thắc mắc model nào chạy tốt trên phần cứng này, đặc biệt là model mạnh nhất cho coding
- Tôi đang nghiên cứu và thử nghiệm cho một bài về Spark viết cho Ars, và tình cờ đi tới một cấu hình 2 tác tử LLM dùng Qwen3.6-35B-A3B (nvidia/Qwen3.6-35B-A3B-NVFP4) làm tác tử lập kế hoạch, còn bản FP8 của Qwen3-Coder-30B-A3B-Instruct (Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) làm tác tử coding
  Tôi vẫn bám vào vLLM làm inference engine, và đã nối vòng lặp 2 tác tử bằng Opencode
  Bộ lập kế hoạch Qwen3.6-35B-A3B chạy ổn ở khoảng 50~55 token/giây, còn coder Qwen3-Coder-30B-A3B-Instruct đạt khoảng 30~35 token. Khi chạy cả hai tác tử và để ở trạng thái chờ việc, mức dùng RAM là khoảng 112GB trên tổng 128GB
  Khá ổn. Tôi đang nghịch bằng cách disassemble game MS-DOS thập niên 1980, và đó là loại công việc rất hợp với cấu hình này. Nó không phải nhanh nhất thế giới, nhưng nếu để cửa sổ ngữ cảnh của planner là 256k token và tác tử coding là 128k thì nó có thể qua lại một danh sách việc khá dài mà không than phiền. Vấn đề thực sự duy nhất là ngay cả khi thu hẹp prompt rất mạnh, tác tử coding vẫn ảo giác như thể vừa phê LSD. Tuy vậy, tác tử lập kế hoạch có vẻ phát hiện ảo giác khá tốt và chia nhỏ lại công việc rồi chuyển lại cho coder
  Ngầu thật. Có lẽ vài tháng nữa khi phải trả lại máy review thì tôi sẽ buồn lắm
  Ngoài ra tôi cũng thử Deepseek v4 Flash với thiết lập của Antirez (https://github.com/antirez/ds4), và nó khá xuất sắc, lại còn cực kỳ dễ chạy. Chỉ là trên Spark thì khá chậm, khoảng 14 token/giây. Và trừ khi bạn có hai máy Spark, nếu không thì mỗi lần chỉ chạy được một model này thôi. Nó ăn sạch RAM
- https://www.canirun.ai/?status=tight có thể trả lời câu hỏi đó
- Deepseek v4 flash mạnh đáng ngạc nhiên so với kích thước của nó, và được biết là chạy tốt ngay cả trên phần cứng đó
- Nếu còn chưa biết điều đó mà lại nói “đang dùng nó như vậy”, thì có lẽ bài viết nên mở đầu bằng “vài tháng trước tôi đã ném $4k qua cửa sổ cho một món đồ chơi”
- DeepSeek V4 Flash là một model coding rất có năng lực và chạy tốt trên phần cứng bạn mô tả. Đặc biệt nên tìm các bản được tối ưu cho dùng cục bộ
Với tôi, đầu tư vào phần cứng có vẻ là con đường phù hợp
Tôi học lập trình từ gần 24 năm trước và đến giờ vẫn tiếp tục học cái mới. Trong suốt thời gian đó, tôi chưa từng phải dựa vào mô hình thuê bao để học và làm ra cái mới
Nếu LLM và agent sẽ trở thành công cụ nền tảng cho việc lập trình và xây dựng phần mềm ít nhất trong vài năm tới, thì việc đầu tư $2000~3000 vào phần cứng như PC Halo Strix có vẻ là lựa chọn hiển nhiên
- Tôi từng nghĩ có lẽ vẫn có một lựa chọn “miễn phí” từ phần cứng bị bỏ xó
  Tôi có một chiếc GTX1080ti khoảng đời 2018, không dùng đến nữa, và nó đã hoàn vốn từ nhiều năm rồi nên giờ chi phí phần cứng xem như bằng 0
  Nó chạy đủ tốt Gemma e4b đa phương thức, qwen 3.5 8b, và mô hình embedding qwen 4b. LLM cho tốc độ hơn 40 token mỗi giây
  Khi tải nặng nó ngốn 350W từ ổ điện, chế độ tiết kiệm điện là 3W, và nhàn rỗi là 80W. Giá điện là £0.035 mỗi kWh, khá rẻ theo mặt bằng Anh, vì tôi chuyển tải sang pin gia đình
  Khoảng 1 penny cho 144k token đầu ra, và về lý thuyết mất một giờ
  Ngay cả khi có phần cứng miễn phí và giá điện rẻ hơn khoảng 10 lần mức thông thường, nó vẫn chỉ rẻ hơn một chút so với dùng mô hình deepseek v4 flash mạnh hơn nhiều
- Vừa đúng vừa không đúng. Phần cứng có hiệu ứng bị khóa chặt. Tôi hài lòng với 128GB bộ nhớ chia sẻ, nhưng hơi lo vì có vẻ bây giờ nó còn đắt hơn lúc tôi mua
  Kết hợp động thái gần đây của Nhà Trắng với Anthropic và thực tế là các mô hình tốt của thế hệ tiếp theo có thể cần hơn 128GB để chạy ổn, thì đây không phải tín hiệu tốt cho tương lai
  Tôi không chê local. Tôi cũng là một trong những người dùng đó và vẫn dùng cả thuê bao, nhưng cần nhìn rõ sự đánh đổi
- Với $3k thì không thể đạt hiệu năng cấp mô hình dẫn đầu. Nếu không phải chỉ mua GPU mà chia ra cho cả một PC hoàn chỉnh, thì bạn cũng chỉ vừa đủ đạt mức hiệu năng dùng được mà thôi
- Nên nghĩ đến $10k chứ không phải 3 nghìn đô
- Tôi cũng nghĩ tương tự. Tôi đang dùng một card 16GB VRAM giá rẻ mua khoảng một năm trước, và tôi hiểu rằng có thể trả tiền để mua tốc độ token mỗi giây cao hơn rất nhiều so với những gì làm được ở nhà
  Nhưng cảm giác đó như đang đo năng suất bằng số dòng code. Với công việc tôi làm, tôi không thấy thuê bao nào mang lại lợi ích
  Dĩ nhiên không thể tạo mới cả một ứng dụng CRUD nhàm chán chỉ với một prompt duy nhất, nhưng thôi thì đành vậy
Tôi đã bắt đầu dùng cách tiếp cận brain -> worker cho việc code
Brain là mô hình đắt và thông minh trong gói Claude. Khi có thể thì tôi dùng Fable 5, còn hiện tại là Opus
Worker là mô hình local (qwen3.6:46B), được triển khai trên GPU 36GB với Opencode + Ollama
Brain phụ trách phân tích/thiết kế và tạo công việc. Công việc phải đơn giản và rõ ràng để worker có thể xử lý. Worker viết code, Brain kiểm chứng rồi nếu cần thì tạo tác vụ chỉnh sửa. Hiện tại tỷ lệ chỉnh sửa trên tác vụ vào khoảng 1:20
Nếu không có GPU tại nhà thì qwen3.6 trên cloud cũng khá rẻ
Đây gần như là một cấu hình thử nghiệm được dựng lên vì tò mò, nhưng nó hoạt động tốt hơn tôi nghĩ. Hiện nó cho phép tôi duy trì 3 coding agent chạy liên tục sang ngày thứ 4. Tôi đã giải thích cách mình đi đến cấu hình này ở đây: https://news.ycombinator.com/item?id=48520757
Liệu giờ đã có thể chạy local thứ gì đó ngang Opus 4.6 chưa? Tôi cứ nghe các ý kiến trái ngược nhau
Nếu bỏ ra $10k mà làm được thì tôi sẽ hủy thuê bao. Vấn đề là tôi không muốn tự bỏ tiền ra chỉ để kiểm chứng
- Nếu muốn cấp độ mô hình dẫn đầu thì lựa chọn hợp lý về kinh tế là OpenRouter hoặc thuê bao trực tiếp với mô hình dẫn đầu mà bạn muốn
  Thực tế là để bảo vệ biên lợi nhuận trung tâm dữ liệu, họ không cung cấp cấu hình để người dùng cá nhân có thể chạy lượng VRAM đó trên một máy đơn. Apple trước đây từng làm được nhưng đã dừng lại, và những thiết bị đó giờ được bán trên eBay với giá hơn $20k một chiếc
  Bạn vẫn có thể chạy các mô hình rất mạnh bằng các card dòng 3090/4090/5090/6000. Nhưng nếu muốn “cấp độ mô hình dẫn đầu” thì theo giá mới, bạn cần đầu tư tối thiểu khoảng $22k. Mua đồ cũ có thể giảm mạnh chi phí ban đầu để tự dựng server, nhưng điện năng tiêu thụ có thể sẽ cao hơn 4~6 lần hoặc hơn
- $10k thì còn chưa tiệm cận được Opus hay Sonnet
  Ở thời điểm hiện tại, đây chưa phải việc người bình thường có thể làm
- Tiếc là hiện vẫn chưa thể chạy local thứ gì đó ngang Opus 4.6. Thứ gần nhất bạn có thể đạt được chỉ vào khoảng Sonnet 3.7
- Tôi đã chi $8k và đạt mức gần với Sonnet nhưng chậm hơn 2~3 lần. Đó là cấu hình chạy deep seek v4 flash trên 2 máy Spark
- Trong một số benchmark, Kimi K2.6 cho kết quả nằm trong biên sai số so với Opus 4.6, và có thể chạy bằng 8 chiếc RTX6000
  Hiện tại, để dựng một cỗ máy như vậy từ đầu thì không thể dưới $100K. Nhưng lúc này cũng khó mà định giá được quyền tự chủ