Lập trình AI tại nhà mà không phải chi tiền như công ty
(stephen.bochinski.dev)- Các lựa chọn để giảm chi phí lập trình AI cá nhân được chia thành ba hướng: tự host, thuê API mô hình mã nguồn mở, và tối ưu hóa gói đăng ký frontier
- Tự host là mua thiết bị và chạy mô hình mã nguồn mở cục bộ, sau đó không phải trả chi phí theo token, nhưng chi phí ban đầu lớn và các mô hình có thể chạy tại nhà yếu hơn các mô hình từ những phòng thí nghiệm frontier
- Nếu thuê mô hình mã nguồn mở theo giá API, bạn không phải chôn hàng nghìn đô la vào cấu hình GPU, tránh được công việc tinh chỉnh để khai thác hiệu năng, và dễ chuyển sang lựa chọn rẻ hơn hoặc tốt hơn vào tháng sau
- Các gói đăng ký frontier của OpenAI và Anthropic có giá khoảng 400 USD mỗi tháng nhưng có thể nhận được lượng sử dụng API trị giá khoảng 2.800 USD theo giá niêm yết; tuy nhiên, các workflow AI-native quy mô lớn sẽ nhanh chóng tiêu hết số token đi kèm
- Cách phù hợp nhất là chiến lược kết hợp: dùng gói frontier cho suy luận khó và viết đặc tả, còn dùng API mã nguồn mở cho các tác vụ nhỏ và mang tính cơ học
Ba lựa chọn
- Có ba cách để lập trình AI tại nhà mà không phải chi tiêu ở mức doanh nghiệp, và cách nào phù hợp phụ thuộc nhiều vào việc bạn tin tưởng đến đâu vào các đợt ra mắt phần cứng và mô hình trong 1 năm tới
- Tự host là cách tự mua thiết bị và chạy mô hình mã nguồn mở cục bộ, sau đó không còn tốn chi phí theo token
- Chi phí ban đầu lớn, và các mô hình thực sự có thể chạy tại nhà yếu hơn những mô hình do các phòng thí nghiệm frontier phát hành
- Chỉ hiệu quả về chi phí khi bạn có thể liên tục tận dụng thiết bị cho các tác vụ chạy dài, nơi các mô hình chậm nhưng rẻ làm việc suốt đêm
- Với đa số mọi người, rất khó duy trì thiết bị gia đình ở tải cao liên tục như vậy, và phần cứng mua hôm nay có thể trông như một lựa chọn tồi sau 1 năm
- Thuê API mô hình mã nguồn mở là cách thuê chính các mô hình mã nguồn mở đó từ nhà cung cấp theo giá API, và là lựa chọn phù hợp với đa số mọi người
- Bạn không cần đổ hàng nghìn đô la vào một cấu hình GPU, đồng thời tránh được công việc khai thác hiệu năng chạy dài từ các mô hình mở
- Dễ chuyển sang lựa chọn rẻ hơn hoặc tốt hơn vào tháng sau, và không cần bán lại thiết bị
- Các dịch vụ như OpenRouter khiến việc chuyển đổi gần như chỉ là thay đổi một dòng
- Tối ưu hóa gói đăng ký frontier là cách tận dụng tối đa các gói đăng ký của OpenAI và Anthropic
- Với mức phí khoảng 400 USD mỗi tháng, bạn có thể nhận được lượng sử dụng API trị giá khoảng 2.800 USD theo giá niêm yết, nên có hiệu ứng giảm giá rất lớn cho đến khi chạm giới hạn
- Các gói này đo lường mức sử dụng, và các workflow AI-native quy mô lớn sẽ nhanh chóng tiêu hao số token đi kèm
- Phù hợp với các công việc do con người trực tiếp dẫn dắt, nhưng không đủ làm động cơ cho các agent chạy cả ngày
Tổ hợp hoạt động tốt nhất
- Cách hoạt động tốt nhất là kết hợp gói đăng ký frontier với API mô hình mã nguồn mở
- Duy trì vài gói frontier cho suy luận khó và viết đặc tả, còn các tác vụ nhỏ, mang tính cơ học thì xử lý bằng giá API của mô hình mã nguồn mở
- Khi tận dụng phát triển theo đặc tả, các mô hình đắt tiền sẽ lập kế hoạch còn các mô hình rẻ sẽ điền vào kế hoạch đó
- Nếu thực hiện tốt cách này, có thể tạo ra lượng đầu ra tương đương một nhóm khoảng 20 kỹ sư tạo ra trong một tháng với chi phí khoảng 1.000 USD
1 bình luận
Ý kiến trên Hacker News
Có vẻ như tôi đã chạm đến giai đoạn chững lại và không biết phải nâng lên bước tiếp theo thế nào. Hiện tại tôi cứ dùng 5.5-xhigh trong gói Codex $100/tháng và thấy như vậy là đủ
Tôi nghĩ về việc cần làm tiếp theo, dùng phiên chat để cụ thể hóa yêu cầu đến ngay trước khi triển khai, rồi để Codex xử lý công việc theo từng commit, sau đó kiểm tra nhanh trên máy chủ phát triển cục bộ. Nếu cần thì yêu cầu sửa, rồi mới cho commit, sau đó lại nhờ nó gợi ý bước kế tiếp dựa trên đặc tả. Dù sao thỉnh thoảng tôi cũng phải “phê duyệt” các yêu cầu vượt ra ngoài sandbox
Tôi vẫn chưa tìm ra loại công việc nào thật sự đáng để chạy qua đêm. Có thể giao cả một kế hoạch lớn trong một lần, nhưng tôi thường muốn thay đổi đôi chút ở các kết quả trung gian nên thấy khá lãng phí
Tiếp theo chắc tôi phải tìm kiểu VM máy riêng nào đó có thể tunnel các yêu cầu GUI của Codex. Tôi không muốn cấp quyền truy cập “nguy hiểm” cho toàn bộ chiếc Mac của mình
Tôi không hiểu ở các dự án phụ thì mọi người làm gì mà đốt token nhanh đến vậy, đến mức cần 2 gói đăng ký $200/tháng cộng thêm tiền token phát sinh
Tôi chỉ tìm được đúng một trường hợp mà chuyện để AI cày liên tục hàng giờ còn hơi hợp lý. Tôi đang reverse engineering một thiết bị có năm firmware image, nên tôi dump binary ra rồi cho AI decompile và phân tích ngược các dự án firmware đan xen với nhau. Đây là công việc phức tạp nhưng phạm vi được xác định cực kỳ rõ. Nó không hẳn là việc khó, mà là việc rất nhiều. Kết quả là một đống văn bản trông giống C, chỉ để cung cấp thông tin chứ không thể biên dịch trực tiếp. Chất lượng đầu ra phụ thuộc chặt vào assembly đầu vào, và toàn bộ sản phẩm là tài liệu ở dạng mã
Vì rủi ro bằng 0 nên tôi hoàn toàn thoải mái để AI tự xử không giám sát. Dù vậy, nếu AI nắn nó thành dạng một dự án C mà có thể nhận ra assembly, tôi sẽ đọc và suy luận dễ hơn rất nhiều. Tôi xem đó là một thắng lợi dễ dàng
Họ vừa yêu cầu tạo chương trình xong thì khi chương trình xuất hiện lại lập tức hỏi AI cách chạy nó. Nếu có lỗi thì hỏi AI xem sai ở đâu, hoặc bỏ hết rồi đổi model/harness để thử lại từ đầu
Ví dụ: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
Nó hoàn toàn khác với quy trình làm việc chuyên nghiệp mà bạn mô tả. Gần như là một món đồ chơi cho người dùng phổ thông
Tôi đã dùng khoảng $4.8 cho 320,000,000 token. Khi còn dùng gói Claude, tôi luôn có cảm giác áp lực rằng để biện minh cho cái giá đó thì LLM phải luôn làm gì đó. Từ khi chuyển sang DeepSeek, tôi không còn nghĩ như vậy nữa. Không dùng gói đăng ký cũng không thấy áy náy, và cũng không lo giới hạn. Vì chỉ cần trả thêm là được. Đặc biệt là không có giới hạn theo giờ nên khác biệt trong chạy song song rất rõ
Mua thêm token không khiến năng lực tư duy “lên cấp”. Những người chạy thứ gì đó tự động hóa hơn rất có thể đang lao nhanh hơn khả năng suy nghĩ của chính mình, và cuối cùng điều đó sẽ cản chân họ
Trên RTX 5090, tôi chạy Trellis2 -> ultrashapes -> Trellis2 -> nối rigging và thiết lập animation
Tuy nhiên 99% công việc đó là thời gian Codex chờ đầu ra. Dù chạy 12 tiếng thì phần lớn cũng chỉ là đặt rất nhiều sleep. Tôi chưa bao giờ dùng hết token. Gói Codex $100/tháng thì tôi đụng trần hạn mức tuần chỉ sau khoảng 3 ngày vì chạy đồng thời 10 agent để code pipeline asset điên cuồng, nên đã nâng cấp. Gói $200/tháng có credit gấp 4 lần nên đến giờ tôi vẫn chưa đụng tường và có thể thoải mái tăng tốc
“Ban đầu là tự self-host. Mua máy, chạy model mã nguồn mở ở local thì sau đó không phải trả chi phí theo token nữa”, nhưng tiền điện thì không miễn phí
Theo tôi thì rốt cuộc đây là trả thêm phí cho quyền riêng tư, và với tôi điều đó xứng đáng
Vì vậy trong trường hợp của tôi không có thêm chi phí phần cứng. Đó là một khoản mua thay thế
Việc chạy model AI tại nhà trên thiết bị này là vì tôi muốn thế, và nếu cần thì tôi sẽ dùng OpenRouter
Tôi thừa nhận phép tính hiệu quả kinh tế trong bài này là đúng. Nhưng cảm giác kết cục là chúng ta bị biến thành những người chăm sóc cỗ máy làm công việc mà mình từng yêu thích thì thật quá buồn. Về lâu dài, có lẽ việc cân đo những khác biệt tinh tế như vậy cũng có ý nghĩa
Sai lầm tôi đã mắc phải trong đời—giờ tôi cũng có tuổi nên thực ra khó mà sửa được—là tin rằng nếu tiếp tục nhận đủ sự thỏa mãn từ công việc thì có thể bù đắp cho sự thiếu vắng những thỏa mãn cá nhân khác. Tôi luôn thích việc có thể trực tiếp giúp đỡ người khác thông qua công việc mình yêu thích và làm tốt, và điều đó đã ngăn nỗi buồn vì khó có được một đời sống gia đình theo nghĩa truyền thống
Tôi từng nghĩ mình sẽ luôn tìm được niềm vui đó theo những cách mới, nhưng nếu mọi thứ không lại nghiêng thêm về phía nỗ lực của con người, thì ngay cả niềm vui nhỏ là tự khám phá những thứ này bằng chính thiết bị của mình theo cách của mình cũng sẽ không đủ
Thế giới chúng ta tự tạo ra thật u ám. Dạo này tôi thấy sợ việc già đi thêm trong đó
Mua 6000 thì sẽ tốn khoảng 7~8 nghìn đô, nhưng khả năng cao giá trị bán lại vẫn khá tốt. 3090 hiện vẫn trên 50% giá niêm yết. Ngay cả khi không làm LLM, đây vẫn là một đề xuất giá trị thú vị cho việc huấn luyện các model thị giác dùng mạng nơ-ron tích chập “truyền thống”. 96GB cho phép đẩy batch size lên rất lớn. Lý do lớn nhất để nâng cấp là hiệu năng trên mỗi watt gần như đã tăng gấp đôi. Ví dụ, 4000 Pro Blackwell ở mức hiệu năng tương đương chỉ tiêu thụ khoảng một nửa so với 3090
Mọi người có xu hướng giả định rằng chi tiêu vốn cứ thế biến mất, nhưng như đã thấy với RAM, tốt hơn là đừng quá chắc rằng khi cần bạn sẽ không thể bán lại được
Tôi đã tính thử và thấy rằng nếu bỏ qua quyền riêng tư thì nó không hợp lý. Dù vậy tôi vẫn làm. [0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Xét thuần túy từ góc độ mức tiêu thụ điện năng, điểm hòa vốn nằm ở đâu?
Tôi thực sự không hiểu nổi làm sao mọi người lại tiêu tiền kiểu đó
Tôi đã dùng gói Cursor $60/tháng ở chế độ tự động, và kể cả khi để nó lên kế hoạch lẫn code suốt các buổi tối 4 ngày mỗi tuần, tôi cũng chưa bao giờ tiến gần đến mức dùng hết hạn mức đi kèm
Rốt cuộc họ đang làm gì khác mà chi phí lại cao đến vậy?
Họ đang dùng mức sử dụng theo nhu cầu, hay các model trả phí khác, hay bật các chế độ cao hơn chăng? Tôi không hiểu vì sao lại cần những thứ đó. Với các bài toán tôi làm, đầu ra của Auto tốt đến mức điên rồ, và tôi vẫn chưa gặp vấn đề nào mà nó không làm được ở mức đủ tốt
Khi phỏng vấn ứng viên để gia nhập đội ở công ty, có người nói họ đang tiêu $2K mỗi tháng cho token ở chỗ làm hiện tại. Tôi thật sự không thể hình dung nổi phải có chuyện gì xảy ra thì mới đến mức đó
Ở một startup nhỏ, tôi từng dùng gói Max với chi phí $200/tháng. Giờ đây với cùng mức sử dụng, tôi đang trả Claude Enterprise ở mức vài nghìn USD/tháng
Anthropic đang trợ giá cho mức dùng của người tiêu dùng, còn với doanh nghiệp thì họ tính biên lợi nhuận khá tốt cho chế độ không lưu dữ liệu (ZDR)
Ví dụ, tôi có thể bảo một agent có quyền truy cập vào trình duyệt, log, chỉ số, GitHub và log CI triển khai một tính năng mới
Nếu có vài báo cáo lỗi trên Slack, tôi bật thêm vài agent. Nếu PM muốn chỉnh UI, tôi bật một agent. Nhiều việc dev làm không nhất thiết phải phức tạp, và tôi chỉ cần review PR cuối cùng rồi để lại comment như với đồng nghiệp. Sau đó agent của tôi sẽ chạy tiếp, sửa theo comment và yêu cầu review mới
Trong lúc đó, tôi có thể dành sự chú ý thực sự cho các tính năng nặng hơn, tài liệu thiết kế, phân tích dữ liệu, v.v.
Với cá nhân tôi tiêu $300/tháng, còn cho công việc là vài nghìn USD. Agent thực sự có thể thay đổi năng suất, và hoàn toàn xứng đáng với chi phí
Từ góc nhìn công ty, đây là bài toán trả vài nghìn USD mỗi tháng hay tuyển thêm một kỹ sư với tổng chi phí hàng năm lên tới vài trăm nghìn USD. Ở thời điểm hiện tại, với tôi ít nhất đó là hệ số nhân 2x
Nhìn vào bối cảnh tương tác với những người như vậy, đó có vẻ là câu trả lời đơn giản nhất cho một câu hỏi khá khó hiểu. Trừ khi cố tình lãng phí credit, tôi còn không thấy việc tiêu $2K/tháng là khả thi
Khi tôi dùng AI, tôi chỉ dùng đúng công cụ thuần túy, và ngữ cảnh là chính phần code cụ thể mà tôi đang làm. Mục tiêu là xem nó có giúp giải quyết một vấn đề cụ thể hay không, còn phần còn lại của codebase thì tôi đã hiểu đủ rõ để đánh giá câu trả lời là tốt hay dở
Cả những thứ ở mức thấp cũng có thể làm agent vấp. Ngay lúc nãy thôi, nó cố tránh đọc đúng một lỗi nói rằng hàm yêu cầu giá trị trả về kiểu bool, rồi thử 10 biến thể của cùng một việc cho đến khi tôi phải ngắt. Skill cũng có thể gây vấn đề. Ví dụ, nếu cấp quyền, nó cực kỳ thích đọc mã nguồn của thư viện tôi đang dùng. Đó là một cái hố thỏ
Nếu ý là “chi phí ban đầu cao, và các model thực sự có thể chạy tại nhà thì yếu hơn những gì các phòng lab hàng đầu tung ra, nên chỉ có lợi khi bạn có thể giữ cho máy luôn bận bằng các tác vụ chạy dài qua đêm với model chậm nhưng rẻ. Phần lớn mọi người không thể duy trì tải như vậy trên máy ở nhà, và phần cứng mua hôm nay có thể trông như một khoản cược tệ sau 1 năm”, thì đây không phải bài viết về AI coding tại nhà mà là bài về vibe coding tại nhà
Có khá nhiều điểm trong bài này tôi không đồng ý. Tôi đang viết bình luận này trên một máy tính ở nhà 64GB RAM không có GPU, và tôi làm rất nhiều AI coding với chi phí rất thấp
Tôi chạy Gemma 4 26b (mixture-of-experts) và Qwen 3 coder bằng Ollama. Tôi dùng Github Copilot để hoàn thành mã, và cũng dùng free tier của Gemini và Mistral API. Tôi còn có tài khoản Gemini API trả phí, nhưng giờ là trả trước nên không còn lo vô tình nhận hóa đơn $1000 nữa. Với Gemini Flash Lite 3.1 cũng làm được khá nhiều việc
Không thứ nào trong số này đốt token để tạo ra một đống mã spaghetti đắt đỏ, nhưng rõ ràng nó vẫn là AI coding
Với nó tôi không thể làm kiểu vibe coding “đại bác bắn rác”, nhưng đó cũng không phải mục đích vì đây là code cá nhân của tôi và tôi không muốn nó biến thành spaghetti. Điều tôi muốn là được tìm ngay các bài Stack Overflow và Reddit trong hộp chat, giảm bớt nỗi đau thể xác khi phải tự gõ code TypeScript, và bớt cảnh vật lộn debug mãi những vấn đề Docker mơ hồ. Tôi là dev backend nên mức kiên nhẫn với frontend là âm, và dù tôi thích Docker, tôi không có kiên nhẫn với những lỗi khó chịu cùng vô số tính nết quái gở của nó. Model này làm mấy việc đó cực kỳ tốt
Hầu hết những kỹ sư giỏi nhất mà tôi biết trong năm nay đều chuyển sang vibe coding nhiều hơn hẳn. Khả năng hiện nay đã tốt hơn rất nhiều rồi
Dùng trực tiếp API của nền tảng DeepSeek và chỉ cần nối model V4 Flash vào một harness như Opencode là đã đủ hài lòng. Có lẽ trong vài tuần tôi chỉ tốn khoảng $10
Tôi cũng đã xem qua các model self-host, nhưng phần cứng lúc này quá đắt
Tháng đầu là $5, sau đó là $10 và có thể hủy bất cứ lúc nào. Cũng có thể tiếp tục nhận ưu đãi bằng email mới
Dù vậy vẫn thấy thú vị. Với mức giá đó thì nhận được gì? Chỉ coding thôi, hay còn gồm cả tạo ảnh chẳng hạn?
Ở nhà thì mọi người đang làm gì vậy? Tôi dùng gói Claude $20/tháng để code khoảng 5 ứng dụng, tất nhiên vẫn có thể đụng giới hạn tốc độ, nhưng tôi không hiểu phải làm gì mới có thể đốt tới $3k tiền token
Có phân tích nguyên nhân gốc rễ cho các vấn đề hỗ trợ khách hàng chạy theo giờ, tự động hóa hằng ngày như phân tích log, rồi tự động hóa theo tuần/tháng để theo dõi và thực thi KPI
Khi làm side project thì 1) phạm vi được xác định khá rõ và 2) không cần người dùng hay tự động hóa, nên dễ ở trong giới hạn gói $20/tháng hơn nhiều. Giờ thì tôi hay đụng giới hạn hằng tuần và cần nhiều gói Max
Có vẻ những người đốt token đang dùng các cấu hình như nhiều sub-agent, 50 kỹ năng đã nạp, 40 công cụ MCP. Mấy thứ đó lấp đầy ngữ cảnh ở mỗi lượt
Nó đặc biệt tốt cho các dự án cá nhân ở nhà. Sau khi làm việc nhàm chán của công ty suốt cả ngày, việc không phải tự xử lý các công việc lặp lại trong side project khiến tôi muốn tiếp tục làm hơn nhiều
Phần lớn những người đốt hàng nghìn đô token ở nhà có lẽ đang tạo ra những đống slop khổng lồ
Phần lớn việc coding có thể làm nhanh chỉ với bàn phím, IntelliSense và một ít template sinh mã
Nhưng mọi người đã trở nên phụ thuộc vào việc AI làm mọi thứ, và giờ các tech bro bắt đầu vắt kiệt như dân buôn thuốc
Vài tháng trước tôi đã đầu tư khoảng $4,000 vào NVIDIA DGX Spark. Nó có 128GB RAM hợp nhất và chip NVIDIA GB10
Nhờ RAM, nhiều lõi CPU và SSD NVMe 4TB, đây là một máy tính ARM64 Linux khá mạnh ngay cả khi không dùng GPU, và đến giờ tôi chủ yếu dùng nó như vậy. Nhưng tôi đang thắc mắc model nào chạy tốt trên phần cứng này, đặc biệt là model mạnh nhất cho coding
Tôi vẫn bám vào vLLM làm inference engine, và đã nối vòng lặp 2 tác tử bằng Opencode
Bộ lập kế hoạch Qwen3.6-35B-A3B chạy ổn ở khoảng 50~55 token/giây, còn coder Qwen3-Coder-30B-A3B-Instruct đạt khoảng 30~35 token. Khi chạy cả hai tác tử và để ở trạng thái chờ việc, mức dùng RAM là khoảng 112GB trên tổng 128GB
Khá ổn. Tôi đang nghịch bằng cách disassemble game MS-DOS thập niên 1980, và đó là loại công việc rất hợp với cấu hình này. Nó không phải nhanh nhất thế giới, nhưng nếu để cửa sổ ngữ cảnh của planner là 256k token và tác tử coding là 128k thì nó có thể qua lại một danh sách việc khá dài mà không than phiền. Vấn đề thực sự duy nhất là ngay cả khi thu hẹp prompt rất mạnh, tác tử coding vẫn ảo giác như thể vừa phê LSD. Tuy vậy, tác tử lập kế hoạch có vẻ phát hiện ảo giác khá tốt và chia nhỏ lại công việc rồi chuyển lại cho coder
Ngầu thật. Có lẽ vài tháng nữa khi phải trả lại máy review thì tôi sẽ buồn lắm
Ngoài ra tôi cũng thử Deepseek v4 Flash với thiết lập của Antirez (https://github.com/antirez/ds4), và nó khá xuất sắc, lại còn cực kỳ dễ chạy. Chỉ là trên Spark thì khá chậm, khoảng 14 token/giây. Và trừ khi bạn có hai máy Spark, nếu không thì mỗi lần chỉ chạy được một model này thôi. Nó ăn sạch RAM
Với tôi, đầu tư vào phần cứng có vẻ là con đường phù hợp
Tôi học lập trình từ gần 24 năm trước và đến giờ vẫn tiếp tục học cái mới. Trong suốt thời gian đó, tôi chưa từng phải dựa vào mô hình thuê bao để học và làm ra cái mới
Nếu LLM và agent sẽ trở thành công cụ nền tảng cho việc lập trình và xây dựng phần mềm ít nhất trong vài năm tới, thì việc đầu tư $2000~3000 vào phần cứng như PC Halo Strix có vẻ là lựa chọn hiển nhiên
Tôi có một chiếc GTX1080ti khoảng đời 2018, không dùng đến nữa, và nó đã hoàn vốn từ nhiều năm rồi nên giờ chi phí phần cứng xem như bằng 0
Nó chạy đủ tốt Gemma e4b đa phương thức, qwen 3.5 8b, và mô hình embedding qwen 4b. LLM cho tốc độ hơn 40 token mỗi giây
Khi tải nặng nó ngốn 350W từ ổ điện, chế độ tiết kiệm điện là 3W, và nhàn rỗi là 80W. Giá điện là £0.035 mỗi kWh, khá rẻ theo mặt bằng Anh, vì tôi chuyển tải sang pin gia đình
Khoảng 1 penny cho 144k token đầu ra, và về lý thuyết mất một giờ
Ngay cả khi có phần cứng miễn phí và giá điện rẻ hơn khoảng 10 lần mức thông thường, nó vẫn chỉ rẻ hơn một chút so với dùng mô hình deepseek v4 flash mạnh hơn nhiều
Kết hợp động thái gần đây của Nhà Trắng với Anthropic và thực tế là các mô hình tốt của thế hệ tiếp theo có thể cần hơn 128GB để chạy ổn, thì đây không phải tín hiệu tốt cho tương lai
Tôi không chê local. Tôi cũng là một trong những người dùng đó và vẫn dùng cả thuê bao, nhưng cần nhìn rõ sự đánh đổi
Nhưng cảm giác đó như đang đo năng suất bằng số dòng code. Với công việc tôi làm, tôi không thấy thuê bao nào mang lại lợi ích
Dĩ nhiên không thể tạo mới cả một ứng dụng CRUD nhàm chán chỉ với một prompt duy nhất, nhưng thôi thì đành vậy
Tôi đã bắt đầu dùng cách tiếp cận brain -> worker cho việc code
Brain là mô hình đắt và thông minh trong gói Claude. Khi có thể thì tôi dùng Fable 5, còn hiện tại là Opus
Worker là mô hình local (qwen3.6:46B), được triển khai trên GPU 36GB với Opencode + Ollama
Brain phụ trách phân tích/thiết kế và tạo công việc. Công việc phải đơn giản và rõ ràng để worker có thể xử lý. Worker viết code, Brain kiểm chứng rồi nếu cần thì tạo tác vụ chỉnh sửa. Hiện tại tỷ lệ chỉnh sửa trên tác vụ vào khoảng 1:20
Nếu không có GPU tại nhà thì qwen3.6 trên cloud cũng khá rẻ
Đây gần như là một cấu hình thử nghiệm được dựng lên vì tò mò, nhưng nó hoạt động tốt hơn tôi nghĩ. Hiện nó cho phép tôi duy trì 3 coding agent chạy liên tục sang ngày thứ 4. Tôi đã giải thích cách mình đi đến cấu hình này ở đây: https://news.ycombinator.com/item?id=48520757
Liệu giờ đã có thể chạy local thứ gì đó ngang Opus 4.6 chưa? Tôi cứ nghe các ý kiến trái ngược nhau
Nếu bỏ ra $10k mà làm được thì tôi sẽ hủy thuê bao. Vấn đề là tôi không muốn tự bỏ tiền ra chỉ để kiểm chứng
Thực tế là để bảo vệ biên lợi nhuận trung tâm dữ liệu, họ không cung cấp cấu hình để người dùng cá nhân có thể chạy lượng VRAM đó trên một máy đơn. Apple trước đây từng làm được nhưng đã dừng lại, và những thiết bị đó giờ được bán trên eBay với giá hơn $20k một chiếc
Bạn vẫn có thể chạy các mô hình rất mạnh bằng các card dòng 3090/4090/5090/6000. Nhưng nếu muốn “cấp độ mô hình dẫn đầu” thì theo giá mới, bạn cần đầu tư tối thiểu khoảng $22k. Mua đồ cũ có thể giảm mạnh chi phí ban đầu để tự dựng server, nhưng điện năng tiêu thụ có thể sẽ cao hơn 4~6 lần hoặc hơn
Ở thời điểm hiện tại, đây chưa phải việc người bình thường có thể làm
Hiện tại, để dựng một cỗ máy như vậy từ đầu thì không thể dưới $100K. Nhưng lúc này cũng khó mà định giá được quyền tự chủ