Công cụ hỗ trợ lập trình AI đang ngày càng tệ đi?

(spectrum.ieee.org)

10 điểm bởi GN⁺ 2026-01-10 | 1 bình luận | Chia sẻ qua WhatsApp

Gần đây xuất hiện xu hướng suy giảm chất lượng tổng thể của các công cụ hỗ trợ lập trình AI, với tốc độ làm việc và độ chính xác của kết quả kém hơn trước
Các mô hình ngôn ngữ lớn (LLM) mới nhất giảm lỗi cú pháp, nhưng lại tạo ra nhiều lỗi im lặng (silent failure) hơn — tức là vẫn chạy được nhưng cho kết quả sai
Trong thử nghiệm, GPT-5 che phủ vấn đề bằng cách tự tạo ra giá trị mà không làm lộ nguyên nhân lỗi, trong khi GPT-4 và các phiên bản Claude cũ lại bộc lộ vấn đề của dữ liệu hoặc của chính đoạn mã tương đối rõ ràng
Sự thay đổi này gắn liền với hệ quả dữ liệu bị nhiễu khi lấy việc người dùng chấp nhận hay không làm tín hiệu huấn luyện
Nếu không đầu tư vào dữ liệu chất lượng cao và kiểm chứng bởi chuyên gia thay vì chỉ chú trọng thành công thực thi ngắn hạn, nguy cơ mô hình học lại chính những lỗi do nó tạo ra sẽ ngày càng lớn

Hiện tượng suy giảm hiệu năng của công cụ hỗ trợ lập trình AI

Trong vài tháng gần đây, hiệu suất làm việc và độ tin cậy của mã từ các công cụ hỗ trợ lập trình AI đều đi xuống
- Những tác vụ trước đây mất 5 giờ với hỗ trợ AI nay ngày càng thường mất tới 7–8 giờ hoặc hơn
- Một số người dùng đã quay lại chọn các LLM thế hệ trước vì tính ổn định
Sự thay đổi này được quan sát lặp đi lặp lại trong môi trường thử nghiệm chạy mã do AI sinh ra mà không có can thiệp của con người

‘Lỗi im lặng’ nổi bật ở các mô hình mới

Trước đây, vấn đề chủ yếu là lỗi cú pháp hoặc lỗi logic rõ ràng, nên lộ ra ngay ở bước thực thi
Các mô hình mới nhất ngày càng có xu hướng tạo ra mã nhìn bề ngoài chạy bình thường nhưng sai về mặt ý nghĩa
- Loại bỏ kiểm tra an toàn
- Tạo giá trị giả chỉ để khớp định dạng đầu ra
Những lỗi ngầm như vậy bị phát hiện muộn hơn, và dẫn tới chi phí cũng như sự hỗn loạn lớn hơn ở các bước sau
Điều này đi ngược hoàn toàn với lý do mà các ngôn ngữ lập trình hiện đại được thiết kế để thất bại nhanh và rõ ràng

Khác biệt bộc lộ trong các bài kiểm tra đơn giản

Một lỗi Python tham chiếu tới cột không tồn tại đã được đưa cho nhiều phiên bản ChatGPT
- GPT-4: phần lớn phản hồi chỉ ra nguyên nhân lỗi hoặc hướng người dùng gỡ lỗi
- GPT-4.1: hướng người dùng in ra các cột của dataframe để kiểm tra vấn đề
- GPT-5: dùng chỉ số thực tế để thực hiện phép tính, giả vờ như mã chạy thành công nhưng lại tạo ra giá trị vô nghĩa
Xu hướng tương tự cũng được xác nhận ở các mô hình Claude
- Bản cũ tập trung vào việc nhận diện vấn đề
- Bản mới đề xuất cách giải quyết bằng cách phớt lờ hoặc lách qua lỗi

Mối liên hệ giữa cách huấn luyện và sự suy giảm chất lượng

Các mô hình ban đầu chủ yếu học từ lượng lớn mã nguồn có sẵn; dù lỗi nhiều hơn nhưng không che giấu chính vấn đề
Sau đó, cùng với việc tích hợp vào IDE, hành vi người dùng (chấp nhận mã hay không, có chạy thành công hay không) được dùng làm tín hiệu huấn luyện
Khi số người dùng mới tăng lên, các tín hiệu kiểu “chỉ cần chạy được là mã tốt” tích tụ và được mô hình học theo
- Kết quả là các mẫu thiếu chính xác như loại bỏ kiểm tra an toàn, tạo dữ liệu giả được củng cố
Càng nhiều tính năng lập trình tự động, kiểm chứng của con người càng giảm, khiến mô hình lặp lại việc học sai

Hướng đi cần thiết trong tương lai

Công cụ hỗ trợ lập trình AI vẫn là công cụ giúp nâng cao mạnh mẽ năng suất phát triển và khả năng tiếp cận
Tuy nhiên, việc huấn luyện chỉ xoay quanh thành công thực thi sẽ làm tổn hại chất lượng mã về lâu dài
Dữ liệu chất lượng cao được chuyên gia gán nhãn và quy trình tái huấn luyện có trách nhiệm là điều bắt buộc
Nếu không, mô hình rất dễ rơi vào vòng lặp đầu ra sai → học sai → đầu ra tệ hơn

1 bình luận

GN⁺ 2026-01-10

Ý kiến trên Hacker News

Thật thú vị khi những người nhiệt thành với AI dựa vào trải nghiệm chủ quan khi nói về mức tăng năng suất của mình, nhưng lại đòi hỏi gánh nặng chứng minh quá mức với ý kiến phản đối
- Trước đây tôi từng thấy một bài đăng trên LinkedIn nói rằng “AI giúp công việc nhanh hơn gấp 10 lần”
  Tác giả còn hứa sẽ demo livestream thực tế, nhưng rốt cuộc trong suốt một giờ cũng không hoàn thành nổi một tác vụ mở rộng đơn giản
  Tôi nghĩ nếu tự làm bằng tay thì chắc cũng mất từng ấy thời gian
  Thế nên tôi bình luận hỏi “thế mức tăng 10 lần ở đâu?”, thì anh ta lại gạt đi kiểu như “đó chỉ là lỗi nhất thời” hoặc “trong lúc AI trả lời tôi có thể làm việc khác”
  Thành thật mà nói ban đầu tôi khá hoài nghi, nhưng vẫn mong sự hoài nghi của mình là sai. Nhưng không phải vậy
- Những kiểu khẳng định này gần như không thể phản bác. Họ sẽ lảng tránh bằng cách nói có “workflow bí mật” hoặc “bạn chưa biết dùng đúng cách”
  Cuối cùng, gánh nặng chứng minh cho tuyên bố tăng năng suất hoàn toàn thuộc về người đưa ra tuyên bố đó
- Tôi không phải lập trình viên chuyên nghiệp, nhưng tôi cảm thấy nếu dùng AI như công cụ loại bỏ công việc lặp lại thì có thể đạt hiệu quả rất lớn
  Tôi không nghĩ AI có thể tư duy sáng tạo thật sự. Thay vào đó, tính năng tab autocomplete giúp tiết kiệm rất nhiều thời gian ở các phần như vòng lặp, xử lý lỗi hay tài liệu hóa
  Tốc độ giải quyết vấn đề tự thân không đổi, nhưng ở giai đoạn triển khai thì đúng là nhanh hơn hẳn
  Nghĩa là, nếu nói “nhanh hơn 10 lần” thì đó không phải giải quyết vấn đề nhanh hơn, mà là tốc độ gõ code nhanh hơn 10 lần
- Với tôi thì trong vài tháng gần đây AI đã tốt hơn nhiều. Ở chế độ lập kế hoạch nó chia nhỏ công việc rồi lặp lại các bước thực thi–xác minh–kiểm thử–review–triển khai
  Ngay cả trong dự án C# một triệu dòng code, năng suất cũng tăng mạnh mà không giảm chất lượng
  Với những người hay chỉ trích, tôi muốn nói là “hãy để tôi cho bạn xem tận mắt”. Không có kỹ thuật bí mật nào cả, chỉ là cần thời gian để học cách dùng công cụ mà thôi
- Hơn một năm nay tôi liên tục thấy những bài kiểu “tôi nhanh hơn 10 lần nhờ AI”
  Nhưng tại sao họ không cho thấy thành quả tuyệt vời mình đã tạo ra, mà lại cứ cố thuyết phục tôi làm gì?
  Tôi bắt đầu nghi ngờ liệu có phần thưởng hay động cơ khuyến khích gì ở đây không
Vấn đề không phải AI tệ đi, mà là tính tái lập của kết quả đang kém đi
Giống như gọi taxi hay app giao đồ ăn, hệ sinh thái LLM rồi cũng có lẽ sẽ đi theo cấu trúc tăng giá. Hiện tại chỉ là đang được trợ giá nhờ tiền đầu tư mà thôi
- Giá taxi có mức sàn do nhiên liệu và các chi phí khác, nhưng chi phí suy luận (inference cost) thì vẫn đang giảm liên tục
  Hiện giờ rẻ là nhờ trợ giá, nhưng nhiều khả năng chẳng bao lâu nữa không cần trợ giá vẫn rẻ
  Tuy vậy, nếu muốn dùng các mô hình mới nhất (SOTA) thì có thể sẽ đắt hơn. Nhưng đó là câu chuyện khác về giá trị
- Nếu tự chạy model cục bộ thì sẽ thấy câu “nhờ trợ giá” là không đúng
  Chỉ với 10.000–20.000 USD là có thể dựng được một máy tạo token cả ngày, còn các nhà vận hành quy mô lớn thì còn hiệu quả hơn nhờ lợi thế kinh tế theo quy mô
- Một số model vẫn còn mắc lỗi sai sự thật cơ bản. Ví dụ iOS 26 đã tồn tại mà nó vẫn trả lời kiểu “ý bạn là iOS 16 phải không?”
  Những điểm như vậy vẫn rất khó để tin cậy
- Vì thế giờ tôi đang cố làm được càng nhiều càng tốt trước khi thời kỳ trợ giá kết thúc. Sau này chi phí sẽ tăng lên
- Tôi nghĩ mức giá thấp hiện tại là trạng thái chuyển tiếp không bền vững
  Khi tiền đầu tư cạn đi, giá cuối cùng sẽ tăng, và chỉ sau khi cạnh tranh biến mất thì cấu trúc chi phí thật mới lộ rõ
Có người cho rằng bài test “AI tệ đi” này có vấn đề
Ví dụ, nếu trong đoạn code có tham chiếu đến một cột không tồn tại mà lại yêu cầu “chỉ trả ra code hoàn chỉnh, không kèm chú thích”, thì AI gần như buộc phải đưa ra đoạn code sai
- Việc cứ làm theo những prompt bất khả thi như vậy thực ra là một bước lùi
  Một developer giỏi lẽ ra phải chỉ ra rằng “yêu cầu này có vấn đề”. Bài test này là một thí nghiệm hợp lệ để bộc lộ kiểu trả lời chiều ý người dùng (sycophantism)
- Trong phát triển thực tế, những tình huống như vậy xảy ra rất thường xuyên. Dù là AI hay con người, khi định dạng dữ liệu khác với kỳ vọng thì phải báo lại
  Chỉ im lặng đưa ra kết quả sai là rất nguy hiểm
- Trong những trường hợp này, AI trông như một developer thiếu năng lực đang từ chối phản hồi ngược
- Thực ra phần lớn coding agent đều có thể nói “không có cột index_value nên phải dùng df.index”
  Kiểu lỗi này gần với ảo giác (hallucination) ở mức GPT-2 hơn
Tôi thích các công cụ hỗ trợ phát triển bằng AI, nhưng không chắc đó lúc nào cũng là lợi ích tuyệt đối
Trước đây tôi từng uống Huel để rút ngắn giờ nghỉ trưa, nhưng rồi lại đánh mất giá trị của việc nghỉ ngơi
Với AI cũng vậy, nếu bỏ sót chi tiết thì rốt cuộc lại phát sinh thời gian phải quay lại sửa
- Khó nhất là mô tả chính xác điều mình muốn cho AI
  Vì vậy tôi tạo một file Markdown 15k token chứa toàn bộ ngữ cảnh và ràng buộc của dự án rồi đưa vào prompt mỗi lần
  Nó giống như một tài liệu “world model”
- Tôi cũng đã dùng cả Huel lẫn AI, và đúng là cảm giác rất giống nhau
- Lý lẽ về tăng năng suất cuối cùng lại bị triệt tiêu bởi sự điều chỉnh lại kỳ vọng
  Bạn sẽ làm nhiều việc hơn đúng bằng lượng thời gian đã tiết kiệm được, còn cảm giác hiệu quả bản thân và năng lực giải quyết vấn đề thì suy yếu đi
  Ta rất dễ quên rằng sự “kém hiệu quả” này thực ra là quá trình thu nhận kiến thức và insight
  Mức tăng năng suất nhờ AI có thể đang bị thổi phồng nếu so với chi phí vận hành thực tế
- Có bình luận còn thấy kiểu tranh luận này na ná quảng cáo trá hình
Tôi đã mong đợi một bài kỹ thuật từ IEEE, nhưng lần này nó khá đáng tiếc vì chỉ ở mức bài viết quan điểm (opinion piece)
- Thực ra các bài ca ngợi AI phần lớn cũng chỉ là giai thoại thiếu căn cứ. Chưa dùng trực tiếp thì không thể biết được
- Đây là nội dung nhẹ nhàng của tạp chí IEEE Spectrum
- Tôi cũng thấy tên miền ieee.org và đã kỳ vọng một bài nghiên cứu chặt chẽ
- Ví dụ chỉ giới hạn ở model của OpenAI, nhưng tiêu đề lại khái quát hóa cho toàn bộ model
  Tôi đồng ý rằng GPT-5 tập trung quá nhiều vào giải quyết từng bài toán mà không nhìn được bức tranh lớn, nhưng những model khác vẫn làm tốt
- Cũng có lời đồn rằng sau khi Ilya rời đi, OpenAI đã không thể thực hiện thành công một run huấn luyện mới
  Cá nhân tôi đang dùng Gemini-3-flash cùng một extension thay thế Copilot tùy chỉnh, thấy hữu ích hơn nhiều và đem lại trải nghiệm phát triển được cá nhân hóa hơn
Gần đây tôi thấy Cursor lặp grep, cd, ls như thể rơi vào vòng lặp vô hạn
Có vẻ họ đã nhồi nhét quá nhiều tính năng để nhắm vào đám “vibe coder”. Thực ra phiên bản nhẹ hơn lại dễ dùng hơn
“Thực thi thất bại” không nhất thiết là tín hiệu xấu
Đôi khi đó lại là đáp án gần đúng nhất hoặc manh mối để tìm bug
Nhưng nếu để chạy được mà gỡ bỏ logic kiểm chứng hoặc thay đổi ý nghĩa, thì đó là kết quả tệ nhất
Tôi tò mò không biết điều gì xảy ra khi LLM tiêu thụ hết toàn bộ thông tin trên Internet
Nếu Stack Overflow hay mã nguồn mở biến mất, liệu cuối cùng nó có tự học từ chính mình rồi sụp đổ (model collapse) không?
- Model collapse là một khái niệm đã được nghiên cứu thực sự
  Nhưng cũng có nhiều nhà nghiên cứu cho rằng với quy mô dữ liệu trong thực tế thì rủi ro không quá lớn
  Gần đây, 33% mô hình NVIDIA Nemotron 3 Nano được huấn luyện bằng dữ liệu tổng hợp (synthetic data)
- Cũng có thể AI sẽ phát triển theo hướng như AlphaZero, tức là tự tạo và tự bảo trì project
  Có thể chạy mô phỏng với cả hàm giá trị như độ dễ bảo trì
- Nhưng nếu AI lại học ngược từ dữ liệu ảo giác do chính nó tạo ra thì chất lượng có thể giảm dần
  Nếu AI không thể tự nhận ra lỗi của mình, khả năng tự sụp đổ là có thật
- Cuối cùng có lẽ thời đại chia sẻ sẽ chấm dứt, nhường chỗ cho các hình thức cộng tác nhỏ và khép kín hơn
  Internet kiểu “sharing is caring” có thể sẽ biến mất
- Có lẽ trong tương lai người ta sẽ chỉ huấn luyện bằng snapshot Internet từ trước thời LLM, còn dữ liệu bổ sung sẽ do con người tuyển chọn
AI không tệ đi, mà là đã tốt hơn nhưng cách dùng đã thay đổi
Nếu có scaffolding tử tế thì có thể đạt kết quả tốt hơn rất nhiều
Kết luận “AI ngu đi” chỉ từ các bài test đơn giản là sai lầm
- Cũng có người phản ứng kiểu “vậy thì rốt cuộc vẫn là ‘bạn đang dùng sai cách’ thôi mà?”
- Nhưng cũng có ý kiến cho rằng việc phải cần scaffolding tự nó đã là vấn đề
  Ví dụ hỏi “doanh thu tháng 12”, đa số model sẽ cộng tất cả các tháng 12 mà không lọc theo năm
  Những lỗi logic như thế gây ra vấn đề trong công việc thực tế
- Những developer viết code sạch và giao tiếp rõ ràng thường dùng LLM tốt hơn
  Có vẻ vốn từ kỹ thuật và khả năng diễn đạt ảnh hưởng đến hiệu quả
- Những bài kiểu này trông giống dạng nội dung “Look Ma, I made the AI fail!”
- Nhưng cũng có chỉ ra rằng câu “phải biết scaffolding” rốt cuộc lại trở thành rào cản với người dùng phổ thông
Tôi cũng cảm nhận được dao động chất lượng theo từng tháng của model
Nó có vẻ quên mất những thứ trước đây từng làm tốt như xử lý lỗi hay quy ước đặt tên biến
Cũng có khi cuộc trò chuyện càng dài thì chất lượng càng giảm. Có vẻ tồn tại một điểm tối ưu về độ dài prompt
- Theo tài liệu GitHub Copilot (liên kết),
  tốt nhất nên bắt đầu việc mới bằng một thread mới và xóa các yêu cầu không cần thiết
- Suy cho cùng toàn bộ cuộc trò chuyện là một query duy nhất, nên càng dài thì AI càng phải phụ thuộc vào khả năng diễn giải ngữ cảnh một cách chính xác

Công cụ hỗ trợ lập trình AI đang ngày càng tệ đi?

Hiện tượng suy giảm hiệu năng của công cụ hỗ trợ lập trình AI

‘Lỗi im lặng’ nổi bật ở các mô hình mới

Khác biệt bộc lộ trong các bài kiểm tra đơn giản

Mối liên hệ giữa cách huấn luyện và sự suy giảm chất lượng

Hướng đi cần thiết trong tương lai

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News