- Trong bối cảnh giá API của các frontier lab tại Mỹ liên tục tăng, tổ hợp kỹ sư ở các quốc gia chi phí thấp và mô hình mã nguồn mở như DeepSeek đang nổi lên như một phương án thay thế kinh tế
- Các mô hình frontier mới nhất như GPT-5.5, Gemini 3.5 Flash, Opus-4.7 đã tăng giá 2~3 lần hoặc làm tăng lượng token tiêu thụ
- Khi so sánh theo token pha trộn, Anthropic·OpenAI ở mức khoảng $2.80/M, còn DeepSeek là $0.094/M, tức chênh lệch giá khoảng 30 lần
- Frontier model mạnh hơn, nhưng đối với mục đích lập trình thì mô hình OSS đã đủ tốt, và khi kết hợp với kỹ sư giỏi có thể bù đắp khoảng cách
- Một lý do khiến việc tăng giá không thể kéo dài vô hạn là vì tổ hợp thuê ngoài + LocalAI đóng vai trò như trần giá
Xu hướng chi phí suy luận của các frontier lab đang tăng
- Trái với quan niệm phổ biến rằng chi phí suy luận đang giảm, giá của các frontier lab Mỹ đang có xu hướng tăng rõ rệt
- GPT-5.5 ($5/$30) được phát hành chỉ 2 tháng sau GPT-5.4, và mức giá API nhìn chung đã tăng gấp đôi
- So với GPT-5 ($1.25/$10) cách đây 8 tháng, hiện đã đắt hơn hơn 3 lần
- Gemini 3.5 Flash ($1.50/$9.00) tăng giá gấp 3 lần so với mẫu ngay trước đó là Gemini-3-flash-preview ($0.50/$3.00)
- Bản Gemini-3-flash-preview cũng đã là mức tăng so với 2.5 Flash ($0.30/$2.50)
- Anthropic Opus-4.7 áp dụng tokenizer mới khiến lượng token tiêu thụ tăng 32~47%, làm chi phí thực tế tăng so với Opus-4.6 trước đó
So sánh mô hình frontier đóng với mô hình mã nguồn mở
- So sánh theo tỷ lệ tiêu thụ token pha trộn: giả định đầu ra 50k token trên mỗi 1M token đầu vào (+cache), tức dưới khoảng 5%
- Các vòng lặp agent quy mô lớn có nhiều lượt nên tỷ trọng đọc cao, vì vậy đây là ước tính thận trọng
- So sánh giá pha trộn trung bình sau khi phản ánh cache của từng nhà cung cấp (nguồn: openrouter.ai)
-
So sánh giá theo nhà cung cấp
- Anthropic: đầu vào $1.57 / đầu ra $25.00 / tỷ lệ cache hit 79.6% → pha trộn $2.82
- OpenAI: đầu vào $1.30 / đầu ra $30.22 / tỷ lệ cache hit 84.8% → pha trộn $2.80
- DeepSeek: đầu vào $0.055 / đầu ra $0.870 / tỷ lệ cache hit 88.1% → pha trộn $0.094
- Hiện tại các mô hình frontier đóng mạnh hơn mô hình mới nhất của DeepSeek, nhưng vẫn còn nghi vấn liệu khoảng cách đó có đủ để biện minh cho mức chênh giá 30 lần hay không
- OSS LLM không nhất thiết phải đạt đẳng cấp frontier; chỉ cần đủ hiệu năng cho tác vụ lập trình là được, và hiện đã đạt đến mức đó
Xu hướng lượng token tiêu thụ gia tăng
- Xu hướng tokenmaxxing đã tăng tốc trong vài tháng đến vài năm gần đây (tham khảo blog Pragmatic Engineer)
- Trong giới kỹ sư giỏi có sự đồng thuận rằng coi tokenmaxxing là mục tiêu là điều ngớ ngẩn, dù đây là một chủ đề riêng
- Việc lượng token tiêu thụ tăng mạnh cũng có thể xác nhận qua tình trạng thiếu hụt GPU kéo dài
- Mức tiêu thụ token tăng đồng thời với việc giá trên mỗi token cũng tăng, gắn liền với chiến lược thu giữ giá trị của các frontier lab Mỹ
(Con người + LLM cận-frontier) vs LLM frontier
- Có một phân tích riêng so sánh kỹ sư con người và AI agent trên 12 trục (signalbloom.ai)
- Kết luận: AI agent đã vượt con người trong lập trình, và nhiều khả năng cũng sẽ sớm vượt trong gỡ lỗi có phạm vi giới hạn
- Tuy vậy, AI vẫn còn thua ở các năng lực cốt lõi khác cần cho kỹ nghệ phần mềm tốt
- Long-term memory
- Meta memory: khả năng phân biệt rõ điều mình biết và điều mình không biết
- Evidential Sufficiency Assessment: đánh giá liệu đã có đủ bằng chứng để hành động hay chưa
- Kiến trúc thống kê hiện tại cần được tăng cường hoặc thay thế bằng một đột phá khác
- Năng lực xử lý tác vụ và mức độ tự chủ của AI không phải là một
Kịch bản điểm giao cắt chi phí
-
So sánh cốt lõi
- Phân tích thời điểm tổ hợp kỹ sư ở quốc gia chi phí thấp + mô hình đủ năng lực có giá trị trên chi phí tốt hơn so với frontier model hàng đầu
- Các biến số: lương kỹ sư, tốc độ tăng lương, lượng token ban đầu, tốc độ tăng token, giá frontier, tốc độ biến động giá frontier, giá DeepSeek, thời gian
-
Kết quả
- Giao cắt xảy ra ở mốc 11 tháng, khi chi phí suy luận frontier vượt chi phí của tổ hợp kỹ sư + DeepSeek ($1,116.61/tháng)
Ý kiến và giới hạn
- Biểu đồ có các giả định đơn giản hóa
- Các biến như giá suy luận trong tương lai, xu hướng tiêu thụ token
- Tính phản thân (reflexivity): các bên tham gia thị trường thay đổi hành vi theo những gì họ quan sát được
- Các yếu tố sau chưa được phản ánh, và nếu tính vào sẽ càng có lợi cho mô hình cục bộ hơn
- Tốc độ cải thiện hiệu năng nhanh của mô hình cục bộ
- Phần cứng suy luận bổ sung sẽ được đưa vào trong vài tháng đến vài năm tới
- Luận điểm cốt lõi: khi chi phí AI tăng vượt một ngưỡng nhất định, nó sẽ trở thành mức đốt tiền đáng lo ngại đối với doanh nghiệp và chiếm tỷ trọng lớn trong tổng chi tiêu
- Vì vậy sẽ hình thành giới hạn trên đối với biên độ và tốc độ tăng giá của các frontier lab
1 bình luận
Ý kiến trên Hacker News
Khi bàn về giá LLM, mọi người đang bỏ lỡ điểm cốt lõi. Giá token theo gói đăng ký rẻ hơn 10~40 lần so với giá API, nên gói Claude $90/tháng nếu quy đổi theo giá token API thì gần tương đương $1000~$4000
Thứ hai, kỹ năng của “người vận hành” mô hình tạo ra khác biệt cực lớn trong kết quả. Một lập trình viên senior dày dạn, biết viết prompt tốt và có tính chủ động cao sẽ cho ra kết quả tốt hơn rất nhiều so với đồng đội thiếu động lực và năng lực nền tảng
Cuối cùng, giữa mô hình tiên tiến cỡ 5T như Opus và các mô hình distilled nhỏ của DeepSeek chủ yếu trông nổi bật trên benchmark có sự khác biệt lớn về năng lực, tính quyết định và khả năng xử lý lỗi
Vì vậy các tập đoàn lớn thực ra đang trả nhiều hơn rất nhiều so với gói đăng ký được giảm giá
Và có vẻ bạn đang hiểu sai khi nói mô hình local là “được distilled từ DeepSeek”. Không phải các mô hình local chỉ giỏi trên benchmark, và Qwen 3.6 là một mô hình khá ổn. Dĩ nhiên nó không phải Opus, nhưng nhanh hơn nhiều, mà tốc độ bản thân nó cũng là một dạng chất lượng
Các công ty này đang chịu lỗ khổng lồ và gánh những khoản nợ cùng cam kết trị giá hàng trăm tỷ đô la. Họ sẽ sớm phải mở vòi kiếm tiền
Cách nhìn này giống kiểu thấy cây mà không thấy rừng. Làm việc với ChatGPT cho cảm giác kỳ lạ rất giống thời kỳ enterprise trước đây khi làm việc với lập trình viên offshore ở Ấn Độ. Nếu chỉ dẫn rõ ràng thì họ làm việc hiệu quả, nhưng nếu để tự xoay xở thì sẽ có rất nhiều khoảnh khắc WTF
LLM rất có thể sẽ thay thế các lập trình viên outsourced, vì nhân viên nội bộ hiểu ngữ cảnh có thể dùng LLM để làm công việc trước đây do các lập trình viên offshore đảm nhiệm
Doanh nghiệp luôn muốn hạ chi phí biên. Họ sẽ thuê 1 kiến trúc sư phần mềm ở Mỹ để viết đặc tả, rồi thuê 10 lập trình viên ở Ấn Độ để trông nom 100 agent
Khác với lập trình viên từ xa, vấn đề của outsourcing là để vận hành cho ra hồn thì thật sự cần một nhà quản lý và lãnh đạo kỹ thuật cực giỏi
Theo kinh nghiệm của tôi, để có kết quả hiệu quả thì phải viết tài liệu thiết kế và đặc tả công việc cực kỳ chi tiết. Thường phải chi tiết ngang với một prompt hiệu quả
Nếu đã viết đặc tả chi tiết đến mức đó rồi, thì cần gì lập trình viên outsourcing và mô hình tối tân nữa?
Những công ty có lãnh đạo sản phẩm/dự án mạnh và giám sát cực kỳ sát sao có thể tạo ra một thế hệ lập trình viên mới, nhưng cũng sẽ có những công ty tin vào lời quảng cáo rồi thất bại khi phần mềm trở nên không thể bảo trì
Tôi nghĩ 10 năm nữa số lượng lập trình viên vẫn sẽ tương đương hiện nay, nhưng sẽ tạo ra nhiều sản phẩm hơn. AI sẽ được dùng để tự động hóa những mảng cô lập có ý nghĩa, còn phần lớn phát triển phần mềm sẽ diễn ra ở mức trừu tượng cao hơn, nơi cùng một khái niệm được diễn đạt bằng ít rác văn bản hơn
Cốt lõi của code sẽ tập trung nhiều hơn vào việc mã hóa cụ thể và bộc lộ sự phức tạp của những trường hợp biên kỳ quặc
Khi mới bắt đầu làm phần mềm, tôi từng làm việc với một MUD cực kỳ bẩn thỉu được truyền qua tay nhiều người. Thật khó tưởng tượng ai lại sẵn lòng đào bới một đống bùn và spaghetti code do AI tạo ra mà không có giám sát và chỉnh sửa nghiêm ngặt
Cốt lõi của phát triển phần mềm từ trước đến nay luôn là giải quyết vấn đề, hay chính xác hơn là xác định vấn đề. Theo thời gian, chúng ta đã dần loại bỏ những thứ lặt vặt để tập trung vào đúng điểm đó. Xu hướng này sẽ tiếp tục, tiến hóa thành ngôn ngữ ngắn gọn và trừu tượng hơn để mô tả vấn đề, còn các luồng logic khó nhằn, phần driver và toán học sẽ ngày càng được cô lập vào thư viện và công cụ
Dù các kỹ sư có hợp tác đi nữa, quản lý hoặc chủ doanh nghiệp thường né tránh cộng tác chặt chẽ và ép một kiểu làm việc giữ khoảng cách. Ví dụ như chỉ gọi điện một lần mỗi tuần
Tôi đã trải qua chuyện này rồi. Có lần tôi chi £300k cho một đội phát triển outsourcing, may là không phải tiền của tôi, và cuối cùng chẳng nhận được gì cả. Phần lớn thời gian chỉ dùng để căn chỉnh hướng làm việc
Tôi và đối tác phần nào biết mình muốn gì, và muốn đồng bộ thường xuyên hơn để căn chỉnh nỗ lực, nhưng quản lý bên đó liên tục ngăn cản. Đó chính là mô hình kinh doanh tư vấn
Với nhân sự remote toàn thời gian thì động lực lại ngược lại. Họ đúng nghĩa là nhân viên full-time, không có tầng quản lý cản trở giao tiếp, và trừ khi họ lười biếng hoặc lừa đảo, họ sẽ muốn giải những bài toán thú vị chứ không muốn ngồi chán ngắt
Tôi nghĩ đó cũng là chỗ mà giả định trong bài gốc bị lệch. Khác biệt giữa DeepSeek và các mô hình tối tân thường không phải thứ có thể bù bằng outsourcing chất lượng thấp. Rốt cuộc bạn vẫn sẽ phải trả tiền cho kỹ sư outsourcing rất lành nghề, mà họ thì chưa chắc rẻ. Ngay từ đầu, outsourcing không chỉ diễn ra vì chi phí mà còn vì năng lực và khả năng tiếp nhận công việc
Mọi thứ đều phải được đặc tả tới mức độ chi tiết phù hợp, và đến lúc đó thì LLM cũng có khả năng làm khá tốt. Thêm nữa, nhiều đội outsourcing xây theo cách hoàn toàn khác đội nội bộ, và khác biệt về mức độ bàn giao lẫn tốc độ là tuyệt đối
Mọi thứ thay đổi nhanh như thế này, nên tôi cũng tự hỏi vì sao phải dùng thời gian và tiền bạc của mình để đào tạo nhân viên của người khác theo kịp xu hướng mới nhất
Tôi có một người bạn là lãnh đạo ở một công ty phần mềm Mỹ, và anh ấy đang chuẩn bị sa thải vài đội lập trình viên ở chi nhánh Đông Âu rồi thay bằng một số ít lập trình viên Mỹ cùng với AI. Anh ấy nói cách đó năng suất hơn nhiều và làm tính năng mới nhanh hơn hẳn
Nếu áp vào sản xuất, chiến lược ưu tiên robot không nên chỉ dừng ở việc đưa sản xuất quay về trong nước mà còn phải nhắm cao hơn nữa: trở thành điểm đến outsourcing sản xuất mới
Vì vậy các doanh nghiệp vừa và nhỏ có thể sẽ không còn cần duy trì nhiều nhân sự kỹ thuật nội bộ, tài chính và marketing như hiện nay
Tương lai của AI tối tân ở Mỹ không phải là gọi API, mà là mang việc tới OAI/Anthropic như mang cho tư vấn hay nhà thầu bên ngoài, rồi nhận về kết quả kiểu sản phẩm mà không cần xem quá nhiều sản phẩm trung gian
Điều này là tất yếu do sự kết hợp giữa mối đe dọa chưng cất và nỗ lực xây dựng môi trường thực thi độc quyền cần thiết để đẩy hiệu năng tối tân lên mức cao nhất
OAI/Anthropic sẽ tìm cách cướp 100% việc làm của mọi người và sở hữu “lao động”. Ở đây phía Trung Quốc mới là phe tốt
Nhưng điều họ chưa nhận ra là việc định nghĩa bài toán còn khó hơn chính lời giải
Tôi đã thử rất nhiều cách chỉ để bằng mọi giá dùng được mô hình cục bộ. Đã thử đủ kiểu môi trường chạy, công cụ, kỹ năng và prompt
Nhưng khi so sánh Claude Code và các mô hình của Anthropic, hoặc Codex và GPT 5.5, với các môi trường chạy như Qwen, GLM, Gemma, thì các mô hình tiên phong vượt trội áp đảo. Giờ tôi không còn hiểu ý nghĩa của các mô hình không thuộc nhóm tiên phong nữa. Thời gian lãng phí còn nhiều hơn thời gian tiết kiệm được
Với các tác vụ lập trình phạm vi hẹp, ví dụ viết một hàm cụ thể, thì chậm nhưng vẫn làm được. Tuy vậy, trên phần cứng tiêu dùng cao cấp, dùng cho chat LLM thông thường thì ngoại trừ chi phí ra vẫn có sức cạnh tranh
https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Nếu chi phí suy luận tiếp tục giảm, như vẫn diễn ra trong vài năm qua, thì đến cuối năm nay có lẽ chúng ta sẽ chạy được các mô hình tiên phong của hôm nay trên laptop
Với tư cách kỹ sư phần mềm thì gần như là quá đủ đến mức khó mà dùng hết, và nếu tính đến mức tăng hiệu suất thì nó rất rẻ
Hơn nữa Claude/Codex đã làm tốt và vẫn tiến bộ mỗi tháng, vậy ai còn muốn ngồi vọc môi trường chạy hay định nghĩa dàn điều phối tác tử nữa chứ
Kịch bản có khả năng cao hơn là phần đáy biến mất, còn phần trên thì trở nên năng suất hơn nhờ các mô hình tiên phong
Lập trình viên càng yếu thì càng cần AI có năng lực cao hơn. Tiền đề của bài này không đứng vững vì nó nhầm lẫn rằng lập trình viên yếu với AI yếu lại tốt hơn lập trình viên mạnh với AI gần như tự chủ
Sản phẩm do lập trình viên yếu dùng AI tiên phong tạo ra hiện đã kém hơn lập trình viên giỏi đi kèm AI yếu của 2 năm trước
Nói rõ hơn, lập trình viên giỏi đã có thể tận dụng AI để làm ra sản phẩm chất lượng cao từ 2 năm trước rồi. Dù dùng AI mới nhất thì lập trình viên yếu vẫn chật vật, còn lập trình viên giỏi có thể giao nhiều việc hơn cho AI mạnh hơn để đẩy năng suất lên nữa
Những tổ chức ác mộng đầy nhà thầu không được giám sát hoặc các nhân sự mới bị tuyển quá tay giờ đây hẳn sẽ còn chí mạng hơn nhiều trong thời điểm như thế này
Tôi cứ liên tục thấy câu chuyện lấy DeepSeek làm ví dụ cho LLM mã nguồn mở, nhưng họ đang trợ giá một lượng token khổng lồ ở mức giá vốn. Nếu không lười và chịu suy nghĩ phản biện, bạn sẽ dễ hiểu vì sao họ làm vậy
Đặc biệt trong bối cảnh phần cứng suy luận bị hạn chế mạnh vì rủi ro địa chính trị, dùng AI cục bộ đạt đến mức ngang với những gì các mô hình tiên phong cung cấp hiện vẫn quá đắt đỏ và kém hiệu quả
Tôi cũng rất nghi ngờ luận điểm cho rằng về dài hạn LLM cục bộ có thể đe dọa các công ty tiên phong này
Lý do token sẽ trở nên đắt hơn là vì họ đã bắt đầu chiếm lĩnh thị trường, và sẽ dùng lợi thế đó để hạn chế phân phối phần cứng trong và ngoài biên giới
Có lẽ LLM cục bộ sẽ được dùng nhiều hơn trong một số quy trình làm việc, nhưng đó sẽ không phải các công việc cần tới đẳng cấp của mô hình tiên phong, và cũng sẽ khó mà đánh bại mức giá mà các phiên bản nhẹ hơn, nhỏ hơn của mô hình tiên phong đưa ra để thâu tóm phần đuôi dài
Ấn tượng của tôi là DeepSeek thiết kế v4 đặc biệt cho suy luận giá rẻ, và có vẻ họ vẫn không lỗ ngay cả khi giá thấp hơn 75%
Tôi nghĩ trải nghiệm chất lượng và giá trị cá nhân quan trọng hơn chi phí kỹ sư. Trong vài năm qua tôi đã thấy quá nhiều đường tắt trong công việc thuê ngoài, và AI cũng cực kỳ thích đi đường tắt. Kết hợp cả hai không mang lại giá trị tương xứng với mức tiết kiệm chi phí
Nếu bạn coi trọng công việc chất lượng cao và niềm tự hào với việc mình làm, thì nhân lực thuê ngoài không phải lời giải. Nói chung, họ rẻ là vì họ không chú ý đủ kỹ đến công việc của mình
Ngược lại, nếu bạn chỉ muốn làm cho xong bằng bất cứ giá nào và không quan tâm nó có được làm đúng hay không, thì có lẽ không gì tốt hơn việc chi càng ít tiền càng tốt
Bài viết có một điểm chưa đề cập. Một kỹ sư giỏi không dành phần lớn thời gian cho bản thân việc viết code trong một dự án sẵn có so với các công việc khác. Một kỹ sư giỏi hiểu hệ thống từ đầu đến cuối. Lập trình viên offshore còn kém hơn cả Llama3