Tổ hợp nhân lực thuê ngoài + LocalAI sắp trở nên kinh tế hơn các frontier lab

(signalbloom.ai)

14 điểm bởi GN⁺ 2026-05-28 | 2 bình luận | Chia sẻ qua WhatsApp

Trong bối cảnh giá API của các frontier lab tại Mỹ liên tục tăng, tổ hợp kỹ sư ở các quốc gia chi phí thấp và mô hình mã nguồn mở như DeepSeek đang nổi lên như một phương án thay thế kinh tế
Các mô hình frontier mới nhất như GPT-5.5, Gemini 3.5 Flash, Opus-4.7 đã tăng giá 2~3 lần hoặc làm tăng lượng token tiêu thụ
Khi so sánh theo token pha trộn, Anthropic·OpenAI ở mức khoảng $2.80/M, còn DeepSeek là $0.094/M, tức chênh lệch giá khoảng 30 lần
Frontier model mạnh hơn, nhưng đối với mục đích lập trình thì mô hình OSS đã đủ tốt, và khi kết hợp với kỹ sư giỏi có thể bù đắp khoảng cách
Một lý do khiến việc tăng giá không thể kéo dài vô hạn là vì tổ hợp thuê ngoài + LocalAI đóng vai trò như trần giá

Xu hướng chi phí suy luận của các frontier lab đang tăng

Trái với quan niệm phổ biến rằng chi phí suy luận đang giảm, giá của các frontier lab Mỹ đang có xu hướng tăng rõ rệt
GPT-5.5 ($5/$30) được phát hành chỉ 2 tháng sau GPT-5.4, và mức giá API nhìn chung đã tăng gấp đôi
- So với GPT-5 ($1.25/$10) cách đây 8 tháng, hiện đã đắt hơn hơn 3 lần
Gemini 3.5 Flash ($1.50/$9.00) tăng giá gấp 3 lần so với mẫu ngay trước đó là Gemini-3-flash-preview ($0.50/$3.00)
- Bản Gemini-3-flash-preview cũng đã là mức tăng so với 2.5 Flash ($0.30/$2.50)
Anthropic Opus-4.7 áp dụng tokenizer mới khiến lượng token tiêu thụ tăng 32~47%, làm chi phí thực tế tăng so với Opus-4.6 trước đó

So sánh mô hình frontier đóng với mô hình mã nguồn mở

So sánh theo tỷ lệ tiêu thụ token pha trộn: giả định đầu ra 50k token trên mỗi 1M token đầu vào (+cache), tức dưới khoảng 5%
- Các vòng lặp agent quy mô lớn có nhiều lượt nên tỷ trọng đọc cao, vì vậy đây là ước tính thận trọng
So sánh giá pha trộn trung bình sau khi phản ánh cache của từng nhà cung cấp (nguồn: openrouter.ai)
So sánh giá theo nhà cung cấp
- Anthropic: đầu vào $1.57 / đầu ra $25.00 / tỷ lệ cache hit 79.6% → pha trộn $2.82
- OpenAI: đầu vào $1.30 / đầu ra $30.22 / tỷ lệ cache hit 84.8% → pha trộn $2.80
- DeepSeek: đầu vào $0.055 / đầu ra $0.870 / tỷ lệ cache hit 88.1% → pha trộn $0.094
Hiện tại các mô hình frontier đóng mạnh hơn mô hình mới nhất của DeepSeek, nhưng vẫn còn nghi vấn liệu khoảng cách đó có đủ để biện minh cho mức chênh giá 30 lần hay không
OSS LLM không nhất thiết phải đạt đẳng cấp frontier; chỉ cần đủ hiệu năng cho tác vụ lập trình là được, và hiện đã đạt đến mức đó

Xu hướng lượng token tiêu thụ gia tăng

Xu hướng tokenmaxxing đã tăng tốc trong vài tháng đến vài năm gần đây (tham khảo blog Pragmatic Engineer)
Trong giới kỹ sư giỏi có sự đồng thuận rằng coi tokenmaxxing là mục tiêu là điều ngớ ngẩn, dù đây là một chủ đề riêng
Việc lượng token tiêu thụ tăng mạnh cũng có thể xác nhận qua tình trạng thiếu hụt GPU kéo dài
Mức tiêu thụ token tăng đồng thời với việc giá trên mỗi token cũng tăng, gắn liền với chiến lược thu giữ giá trị của các frontier lab Mỹ

(Con người + LLM cận-frontier) vs LLM frontier

Có một phân tích riêng so sánh kỹ sư con người và AI agent trên 12 trục (signalbloom.ai)
Kết luận: AI agent đã vượt con người trong lập trình, và nhiều khả năng cũng sẽ sớm vượt trong gỡ lỗi có phạm vi giới hạn
Tuy vậy, AI vẫn còn thua ở các năng lực cốt lõi khác cần cho kỹ nghệ phần mềm tốt
- Long-term memory
- Meta memory: khả năng phân biệt rõ điều mình biết và điều mình không biết
- Evidential Sufficiency Assessment: đánh giá liệu đã có đủ bằng chứng để hành động hay chưa
Kiến trúc thống kê hiện tại cần được tăng cường hoặc thay thế bằng một đột phá khác
Năng lực xử lý tác vụ và mức độ tự chủ của AI không phải là một

Kịch bản điểm giao cắt chi phí

So sánh cốt lõi
- Phân tích thời điểm tổ hợp kỹ sư ở quốc gia chi phí thấp + mô hình đủ năng lực có giá trị trên chi phí tốt hơn so với frontier model hàng đầu
- Các biến số: lương kỹ sư, tốc độ tăng lương, lượng token ban đầu, tốc độ tăng token, giá frontier, tốc độ biến động giá frontier, giá DeepSeek, thời gian
Kết quả
- Giao cắt xảy ra ở mốc 11 tháng, khi chi phí suy luận frontier vượt chi phí của tổ hợp kỹ sư + DeepSeek ($1,116.61/tháng)

Ý kiến và giới hạn

Biểu đồ có các giả định đơn giản hóa
- Các biến như giá suy luận trong tương lai, xu hướng tiêu thụ token
- Tính phản thân (reflexivity): các bên tham gia thị trường thay đổi hành vi theo những gì họ quan sát được
Các yếu tố sau chưa được phản ánh, và nếu tính vào sẽ càng có lợi cho mô hình cục bộ hơn
- Tốc độ cải thiện hiệu năng nhanh của mô hình cục bộ
- Phần cứng suy luận bổ sung sẽ được đưa vào trong vài tháng đến vài năm tới
Luận điểm cốt lõi: khi chi phí AI tăng vượt một ngưỡng nhất định, nó sẽ trở thành mức đốt tiền đáng lo ngại đối với doanh nghiệp và chiếm tỷ trọng lớn trong tổng chi tiêu
Vì vậy sẽ hình thành giới hạn trên đối với biên độ và tốc độ tăng giá của các frontier lab

2 bình luận

hmmhmmhm 29 ngày trước

Nếu dùng Qwen 3.6 35B A3B cho việc code và Gemma 26B A4B cho nghiên cứu thì có vẻ cũng ra được kết quả kha khá, nhưng tôi vẫn mong sẽ có thêm nhiều thiết bị on-device giá rẻ hơn. Phải từ Apple M4 Pro trở lên hoặc RTX 5070 Ti 16GB trở lên thì mới tạm chạy được....

GN⁺ 2026-05-28

Ý kiến trên Hacker News

Khi bàn về giá LLM, mọi người đang bỏ lỡ điểm cốt lõi. Giá token theo gói đăng ký rẻ hơn 10~40 lần so với giá API, nên gói Claude $90/tháng nếu quy đổi theo giá token API thì gần tương đương $1000~$4000
Thứ hai, kỹ năng của “người vận hành” mô hình tạo ra khác biệt cực lớn trong kết quả. Một lập trình viên senior dày dạn, biết viết prompt tốt và có tính chủ động cao sẽ cho ra kết quả tốt hơn rất nhiều so với đồng đội thiếu động lực và năng lực nền tảng
Cuối cùng, giữa mô hình tiên tiến cỡ 5T như Opus và các mô hình distilled nhỏ của DeepSeek chủ yếu trông nổi bật trên benchmark có sự khác biệt lớn về năng lực, tính quyết định và khả năng xử lý lỗi
- Hôm nay tôi mới biết, gói Anthropic Enterprise mà các tập đoàn lớn dùng vì các tính năng governance và audit log được tính phí theo mức giá token API cộng thêm $20 mỗi ghế mỗi tháng
  Vì vậy các tập đoàn lớn thực ra đang trả nhiều hơn rất nhiều so với gói đăng ký được giảm giá
- Tôi muốn biết căn cứ nào để nói Opus là mô hình 5T
  Và có vẻ bạn đang hiểu sai khi nói mô hình local là “được distilled từ DeepSeek”. Không phải các mô hình local chỉ giỏi trên benchmark, và Qwen 3.6 là một mô hình khá ổn. Dĩ nhiên nó không phải Opus, nhưng nhanh hơn nhiều, mà tốc độ bản thân nó cũng là một dạng chất lượng
- Ngay cả các mô hình không thuộc nhóm tiên tiến nhất cũng đang tiếp tục được cải thiện. Nếu ai đó có thể hoàn thành 90% công việc bằng DeepSeek với $100, rồi trả thêm $100 cho Anthropic hoặc OpenAI để xử lý nốt phần còn lại, thì họ rất có thể sẽ chọn cách đó thay vì trả $1000 cho Anthropic hay OpenAI
- Việc giá token theo gói đăng ký rẻ hơn API 10~40 lần chỉ là hiện tượng tạm thời. Trong vài tháng tới cần chờ đợi các đợt tăng giá lớn, hoặc giới hạn sử dụng nghiêm ngặt, hoặc cả hai
  Các công ty này đang chịu lỗ khổng lồ và gánh những khoản nợ cùng cam kết trị giá hàng trăm tỷ đô la. Họ sẽ sớm phải mở vòi kiếm tiền
- Biết rằng gói Claude $90/tháng tương đương $1000~$4000 theo chuẩn API mà vẫn cho rằng cấu trúc này không bền vững là điều phi lý sao?
Cách nhìn này giống kiểu thấy cây mà không thấy rừng. Làm việc với ChatGPT cho cảm giác kỳ lạ rất giống thời kỳ enterprise trước đây khi làm việc với lập trình viên offshore ở Ấn Độ. Nếu chỉ dẫn rõ ràng thì họ làm việc hiệu quả, nhưng nếu để tự xoay xở thì sẽ có rất nhiều khoảnh khắc WTF
LLM rất có thể sẽ thay thế các lập trình viên outsourced, vì nhân viên nội bộ hiểu ngữ cảnh có thể dùng LLM để làm công việc trước đây do các lập trình viên offshore đảm nhiệm
- Có bao nhiêu trong số những khoảnh khắc WTF đó đơn giản chỉ vì “họ không có mặt trong căn phòng nơi quyết định được đưa ra”? Phần lớn phần mềm enterprise đầy rẫy những khoảnh khắc WTF bị yêu cầu bởi đủ loại thỏa hiệp
- Ngoài đất nước của bạn cũng có những lập trình viên tài năng, dùng ngôn ngữ đủ tốt và chấp nhận mức lương thấp hơn. Có quá nhiều lý do để số lượng những người như vậy tiếp tục tăng lên
- Nhìn vào số lượng đội outsourcing đang cầu xin việc trên LinkedIn thì đúng là khớp hoàn toàn
- Các “lập trình viên offshore ở Ấn Độ” cũng không phải hạng dễ chơi. Họ cũng có thể tiếp cận cùng các mô hình GPT đó, và chi phí của họ có thể chỉ bằng 1/10 mức lương trung vị ở Mỹ
  Doanh nghiệp luôn muốn hạ chi phí biên. Họ sẽ thuê 1 kiến trúc sư phần mềm ở Mỹ để viết đặc tả, rồi thuê 10 lập trình viên ở Ấn Độ để trông nom 100 agent
Khác với lập trình viên từ xa, vấn đề của outsourcing là để vận hành cho ra hồn thì thật sự cần một nhà quản lý và lãnh đạo kỹ thuật cực giỏi
Theo kinh nghiệm của tôi, để có kết quả hiệu quả thì phải viết tài liệu thiết kế và đặc tả công việc cực kỳ chi tiết. Thường phải chi tiết ngang với một prompt hiệu quả
Nếu đã viết đặc tả chi tiết đến mức đó rồi, thì cần gì lập trình viên outsourcing và mô hình tối tân nữa?
- Điều thú vị là vấn đề của outsourcing cũng giống vấn đề của AI, và tất cả đều gợi nhớ đến đầu những năm 2000. Các công ty ngạc nhiên vì có thể tiết kiệm được bao nhiêu tiền mà không nhận ra mức độ tổn hại gây ra cho sản phẩm
  Những công ty có lãnh đạo sản phẩm/dự án mạnh và giám sát cực kỳ sát sao có thể tạo ra một thế hệ lập trình viên mới, nhưng cũng sẽ có những công ty tin vào lời quảng cáo rồi thất bại khi phần mềm trở nên không thể bảo trì
  Tôi nghĩ 10 năm nữa số lượng lập trình viên vẫn sẽ tương đương hiện nay, nhưng sẽ tạo ra nhiều sản phẩm hơn. AI sẽ được dùng để tự động hóa những mảng cô lập có ý nghĩa, còn phần lớn phát triển phần mềm sẽ diễn ra ở mức trừu tượng cao hơn, nơi cùng một khái niệm được diễn đạt bằng ít rác văn bản hơn
  Cốt lõi của code sẽ tập trung nhiều hơn vào việc mã hóa cụ thể và bộc lộ sự phức tạp của những trường hợp biên kỳ quặc
  Khi mới bắt đầu làm phần mềm, tôi từng làm việc với một MUD cực kỳ bẩn thỉu được truyền qua tay nhiều người. Thật khó tưởng tượng ai lại sẵn lòng đào bới một đống bùn và spaghetti code do AI tạo ra mà không có giám sát và chỉnh sửa nghiêm ngặt
  Cốt lõi của phát triển phần mềm từ trước đến nay luôn là giải quyết vấn đề, hay chính xác hơn là xác định vấn đề. Theo thời gian, chúng ta đã dần loại bỏ những thứ lặt vặt để tập trung vào đúng điểm đó. Xu hướng này sẽ tiếp tục, tiến hóa thành ngôn ngữ ngắn gọn và trừu tượng hơn để mô tả vấn đề, còn các luồng logic khó nhằn, phần driver và toán học sẽ ngày càng được cô lập vào thư viện và công cụ
- Toàn bộ mô hình kinh doanh của các lập trình viên hay công ty “outsourcing” là tính phí quá mức cho khách hàng. Họ nói rằng “4 kỹ sư đã được phân vào dự án”, nhưng 4 người đó còn đang làm thêm 5 dự án khác
  Dù các kỹ sư có hợp tác đi nữa, quản lý hoặc chủ doanh nghiệp thường né tránh cộng tác chặt chẽ và ép một kiểu làm việc giữ khoảng cách. Ví dụ như chỉ gọi điện một lần mỗi tuần
  Tôi đã trải qua chuyện này rồi. Có lần tôi chi £300k cho một đội phát triển outsourcing, may là không phải tiền của tôi, và cuối cùng chẳng nhận được gì cả. Phần lớn thời gian chỉ dùng để căn chỉnh hướng làm việc
  Tôi và đối tác phần nào biết mình muốn gì, và muốn đồng bộ thường xuyên hơn để căn chỉnh nỗ lực, nhưng quản lý bên đó liên tục ngăn cản. Đó chính là mô hình kinh doanh tư vấn
  Với nhân sự remote toàn thời gian thì động lực lại ngược lại. Họ đúng nghĩa là nhân viên full-time, không có tầng quản lý cản trở giao tiếp, và trừ khi họ lười biếng hoặc lừa đảo, họ sẽ muốn giải những bài toán thú vị chứ không muốn ngồi chán ngắt
- Outsourcing nhìn chung trả lại đúng những gì bạn bỏ tiền ra. Ở một khía cạnh nào đó, nó còn minh bạch hơn các cách khác. Chỉ là sự minh bạch đó, tức cái giá của chất lượng, đôi khi không được truyền từ ban lãnh đạo hay bộ phận mua sắm đưa ra quyết định xuống tới đội thực sự phải làm việc phân tán
  Tôi nghĩ đó cũng là chỗ mà giả định trong bài gốc bị lệch. Khác biệt giữa DeepSeek và các mô hình tối tân thường không phải thứ có thể bù bằng outsourcing chất lượng thấp. Rốt cuộc bạn vẫn sẽ phải trả tiền cho kỹ sư outsourcing rất lành nghề, mà họ thì chưa chắc rẻ. Ngay từ đầu, outsourcing không chỉ diễn ra vì chi phí mà còn vì năng lực và khả năng tiếp nhận công việc
- Tôi cũng nghĩ đúng y như vậy
  Mọi thứ đều phải được đặc tả tới mức độ chi tiết phù hợp, và đến lúc đó thì LLM cũng có khả năng làm khá tốt. Thêm nữa, nhiều đội outsourcing xây theo cách hoàn toàn khác đội nội bộ, và khác biệt về mức độ bàn giao lẫn tốc độ là tuyệt đối
  Mọi thứ thay đổi nhanh như thế này, nên tôi cũng tự hỏi vì sao phải dùng thời gian và tiền bạc của mình để đào tạo nhân viên của người khác theo kịp xu hướng mới nhất
- Vấn đề của tôi đơn giản là thiếu ownership. Trừ khi đó là một công ty outsourcing nhỏ và tập trung, còn không thì với công ty, cứ đẩy ra ngoài cho xong sẽ dễ hơn, chưa cần nói tới chất lượng hay khả năng bảo trì. Tất nhiên mẫu quan sát cá nhân của tôi cũng khá nhỏ
Tôi có một người bạn là lãnh đạo ở một công ty phần mềm Mỹ, và anh ấy đang chuẩn bị sa thải vài đội lập trình viên ở chi nhánh Đông Âu rồi thay bằng một số ít lập trình viên Mỹ cùng với AI. Anh ấy nói cách đó năng suất hơn nhiều và làm tính năng mới nhanh hơn hẳn
- Nghe hướng này có vẻ hợp lý hơn. Điểm nghẽn của tôi đang chuyển từ “hiểu code” sang hiểu người dùng. Việc kiểm chứng cái sau thì không nhất thiết phải do lập trình viên làm
- Một thế đảo chiều thú vị
  Nếu áp vào sản xuất, chiến lược ưu tiên robot không nên chỉ dừng ở việc đưa sản xuất quay về trong nước mà còn phải nhắm cao hơn nữa: trở thành điểm đến outsourcing sản xuất mới
- Không biết sẽ mất bao lâu trước khi anh ta quay về thực tế và sa thải hàng loạt các agent :-)
- Bài viết đúng về outsourcing, nhưng tôi không nghĩ là vì các contractor offshore giá rẻ. Những chuyên gia giỏi sẽ làm việc độc lập hơn, và nhờ AI họ có thể phục vụ nhiều khách hàng hơn
  Vì vậy các doanh nghiệp vừa và nhỏ có thể sẽ không còn cần duy trì nhiều nhân sự kỹ thuật nội bộ, tài chính và marketing như hiện nay
Tương lai của AI tối tân ở Mỹ không phải là gọi API, mà là mang việc tới OAI/Anthropic như mang cho tư vấn hay nhà thầu bên ngoài, rồi nhận về kết quả kiểu sản phẩm mà không cần xem quá nhiều sản phẩm trung gian
Điều này là tất yếu do sự kết hợp giữa mối đe dọa chưng cất và nỗ lực xây dựng môi trường thực thi độc quyền cần thiết để đẩy hiệu năng tối tân lên mức cao nhất
OAI/Anthropic sẽ tìm cách cướp 100% việc làm của mọi người và sở hữu “lao động”. Ở đây phía Trung Quốc mới là phe tốt
- Không. Kiểu ném dự án qua bên kia bức tường gần như lúc nào cũng kết thúc trong thảm họa. Yêu cầu không bao giờ đủ rõ ràng
- Tôi chúc kiểu đó thành công. Nó gợi tôi nhớ tới cảm hứng của các ngôn ngữ lập trình khai báo như Prolog: hãy khai báo bài toán để máy giải, đối lập với cách mệnh lệnh là chỉ cho máy phải làm gì
  Nhưng điều họ chưa nhận ra là việc định nghĩa bài toán còn khó hơn chính lời giải
Tôi đã thử rất nhiều cách chỉ để bằng mọi giá dùng được mô hình cục bộ. Đã thử đủ kiểu môi trường chạy, công cụ, kỹ năng và prompt
Nhưng khi so sánh Claude Code và các mô hình của Anthropic, hoặc Codex và GPT 5.5, với các môi trường chạy như Qwen, GLM, Gemma, thì các mô hình tiên phong vượt trội áp đảo. Giờ tôi không còn hiểu ý nghĩa của các mô hình không thuộc nhóm tiên phong nữa. Thời gian lãng phí còn nhiều hơn thời gian tiết kiệm được
- Với lập trình kiểu tác tử thì tôi đồng ý 100%. Trong lập trình quy mô lớn, mô hình cục bộ vừa tệ hơn, vừa chậm hơn, vừa đắt hơn
  Với các tác vụ lập trình phạm vi hẹp, ví dụ viết một hàm cụ thể, thì chậm nhưng vẫn làm được. Tuy vậy, trên phần cứng tiêu dùng cao cấp, dùng cho chat LLM thông thường thì ngoại trừ chi phí ra vẫn có sức cạnh tranh
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Các mô hình cục bộ hiện chậm hơn 3~6 tháng so với các mô hình tiên phong mới nhất, nhưng có một ưu điểm lớn là không cần gửi toàn bộ tài sản trí tuệ cho một bên thứ ba đáng ngờ
  Nếu chi phí suy luận tiếp tục giảm, như vẫn diễn ra trong vài năm qua, thì đến cuối năm nay có lẽ chúng ta sẽ chạy được các mô hình tiên phong của hôm nay trên laptop
- Tôi cũng vậy. Nghe người ta soi mói chuyện bỏ ra hoặc được hoàn lại $200 mỗi tháng cho gói Codex hay Claude thật bực mình
  Với tư cách kỹ sư phần mềm thì gần như là quá đủ đến mức khó mà dùng hết, và nếu tính đến mức tăng hiệu suất thì nó rất rẻ
  Hơn nữa Claude/Codex đã làm tốt và vẫn tiến bộ mỗi tháng, vậy ai còn muốn ngồi vọc môi trường chạy hay định nghĩa dàn điều phối tác tử nữa chứ
- Tôi cũng đi đến cùng kết luận. Nếu tính chi phí cho mỗi truy vấn, thì luôn dùng Opus là lựa chọn rẻ nhất
- Cốt lõi là đừng tự trói mình vào những công ty có lợi ích không phù hợp với lợi ích của mình
Kịch bản có khả năng cao hơn là phần đáy biến mất, còn phần trên thì trở nên năng suất hơn nhờ các mô hình tiên phong
Lập trình viên càng yếu thì càng cần AI có năng lực cao hơn. Tiền đề của bài này không đứng vững vì nó nhầm lẫn rằng lập trình viên yếu với AI yếu lại tốt hơn lập trình viên mạnh với AI gần như tự chủ
Sản phẩm do lập trình viên yếu dùng AI tiên phong tạo ra hiện đã kém hơn lập trình viên giỏi đi kèm AI yếu của 2 năm trước
Nói rõ hơn, lập trình viên giỏi đã có thể tận dụng AI để làm ra sản phẩm chất lượng cao từ 2 năm trước rồi. Dù dùng AI mới nhất thì lập trình viên yếu vẫn chật vật, còn lập trình viên giỏi có thể giao nhiều việc hơn cho AI mạnh hơn để đẩy năng suất lên nữa
- Hiếm khi trong đời, tôi thật sự thấy may mắn vì hiện đang làm ở một nơi mà phần lớn là các kỹ sư senior có năng lực
  Những tổ chức ác mộng đầy nhà thầu không được giám sát hoặc các nhân sự mới bị tuyển quá tay giờ đây hẳn sẽ còn chí mạng hơn nhiều trong thời điểm như thế này
Tôi cứ liên tục thấy câu chuyện lấy DeepSeek làm ví dụ cho LLM mã nguồn mở, nhưng họ đang trợ giá một lượng token khổng lồ ở mức giá vốn. Nếu không lười và chịu suy nghĩ phản biện, bạn sẽ dễ hiểu vì sao họ làm vậy
Đặc biệt trong bối cảnh phần cứng suy luận bị hạn chế mạnh vì rủi ro địa chính trị, dùng AI cục bộ đạt đến mức ngang với những gì các mô hình tiên phong cung cấp hiện vẫn quá đắt đỏ và kém hiệu quả
Tôi cũng rất nghi ngờ luận điểm cho rằng về dài hạn LLM cục bộ có thể đe dọa các công ty tiên phong này
Lý do token sẽ trở nên đắt hơn là vì họ đã bắt đầu chiếm lĩnh thị trường, và sẽ dùng lợi thế đó để hạn chế phân phối phần cứng trong và ngoài biên giới
Có lẽ LLM cục bộ sẽ được dùng nhiều hơn trong một số quy trình làm việc, nhưng đó sẽ không phải các công việc cần tới đẳng cấp của mô hình tiên phong, và cũng sẽ khó mà đánh bại mức giá mà các phiên bản nhẹ hơn, nhỏ hơn của mô hình tiên phong đưa ra để thâu tóm phần đuôi dài
- Có nguồn nào cho khẳng định đầu tiên đó không?
  Ấn tượng của tôi là DeepSeek thiết kế v4 đặc biệt cho suy luận giá rẻ, và có vẻ họ vẫn không lỗ ngay cả khi giá thấp hơn 75%
- Các nhà cung cấp khác trên OpenRouter cung cấp mô hình DeepSeek cũng có thể đưa ra mức giá rất thấp, nên nói rằng họ đang trợ giá token ở mức giá vốn là hoàn toàn sai. Những công ty đó cũng đâu có tiền để trợ giá
- Có lẽ không phải vậy. Theo những gì tôi nghe thì DeepSeek không lỗ ở mảng suy luận
Tôi nghĩ trải nghiệm chất lượng và giá trị cá nhân quan trọng hơn chi phí kỹ sư. Trong vài năm qua tôi đã thấy quá nhiều đường tắt trong công việc thuê ngoài, và AI cũng cực kỳ thích đi đường tắt. Kết hợp cả hai không mang lại giá trị tương xứng với mức tiết kiệm chi phí
Nếu bạn coi trọng công việc chất lượng cao và niềm tự hào với việc mình làm, thì nhân lực thuê ngoài không phải lời giải. Nói chung, họ rẻ là vì họ không chú ý đủ kỹ đến công việc của mình
Ngược lại, nếu bạn chỉ muốn làm cho xong bằng bất cứ giá nào và không quan tâm nó có được làm đúng hay không, thì có lẽ không gì tốt hơn việc chi càng ít tiền càng tốt
Bài viết có một điểm chưa đề cập. Một kỹ sư giỏi không dành phần lớn thời gian cho bản thân việc viết code trong một dự án sẵn có so với các công việc khác. Một kỹ sư giỏi hiểu hệ thống từ đầu đến cuối. Lập trình viên offshore còn kém hơn cả Llama3