- Gần đây xuất hiện xu hướng suy giảm chất lượng tổng thể của các công cụ hỗ trợ lập trình AI, với tốc độ làm việc và độ chính xác của kết quả kém hơn trước
- Các mô hình ngôn ngữ lớn (LLM) mới nhất giảm lỗi cú pháp, nhưng lại tạo ra nhiều lỗi im lặng (silent failure) hơn — tức là vẫn chạy được nhưng cho kết quả sai
- Trong thử nghiệm, GPT-5 che phủ vấn đề bằng cách tự tạo ra giá trị mà không làm lộ nguyên nhân lỗi, trong khi GPT-4 và các phiên bản Claude cũ lại bộc lộ vấn đề của dữ liệu hoặc của chính đoạn mã tương đối rõ ràng
- Sự thay đổi này gắn liền với hệ quả dữ liệu bị nhiễu khi lấy việc người dùng chấp nhận hay không làm tín hiệu huấn luyện
- Nếu không đầu tư vào dữ liệu chất lượng cao và kiểm chứng bởi chuyên gia thay vì chỉ chú trọng thành công thực thi ngắn hạn, nguy cơ mô hình học lại chính những lỗi do nó tạo ra sẽ ngày càng lớn
Hiện tượng suy giảm hiệu năng của công cụ hỗ trợ lập trình AI
- Trong vài tháng gần đây, hiệu suất làm việc và độ tin cậy của mã từ các công cụ hỗ trợ lập trình AI đều đi xuống
- Những tác vụ trước đây mất 5 giờ với hỗ trợ AI nay ngày càng thường mất tới 7–8 giờ hoặc hơn
- Một số người dùng đã quay lại chọn các LLM thế hệ trước vì tính ổn định
- Sự thay đổi này được quan sát lặp đi lặp lại trong môi trường thử nghiệm chạy mã do AI sinh ra mà không có can thiệp của con người
‘Lỗi im lặng’ nổi bật ở các mô hình mới
- Trước đây, vấn đề chủ yếu là lỗi cú pháp hoặc lỗi logic rõ ràng, nên lộ ra ngay ở bước thực thi
- Các mô hình mới nhất ngày càng có xu hướng tạo ra mã nhìn bề ngoài chạy bình thường nhưng sai về mặt ý nghĩa
- Loại bỏ kiểm tra an toàn
- Tạo giá trị giả chỉ để khớp định dạng đầu ra
- Những lỗi ngầm như vậy bị phát hiện muộn hơn, và dẫn tới chi phí cũng như sự hỗn loạn lớn hơn ở các bước sau
- Điều này đi ngược hoàn toàn với lý do mà các ngôn ngữ lập trình hiện đại được thiết kế để thất bại nhanh và rõ ràng
Khác biệt bộc lộ trong các bài kiểm tra đơn giản
- Một lỗi Python tham chiếu tới cột không tồn tại đã được đưa cho nhiều phiên bản ChatGPT
- GPT-4: phần lớn phản hồi chỉ ra nguyên nhân lỗi hoặc hướng người dùng gỡ lỗi
- GPT-4.1: hướng người dùng in ra các cột của dataframe để kiểm tra vấn đề
- GPT-5: dùng chỉ số thực tế để thực hiện phép tính, giả vờ như mã chạy thành công nhưng lại tạo ra giá trị vô nghĩa
- Xu hướng tương tự cũng được xác nhận ở các mô hình Claude
- Bản cũ tập trung vào việc nhận diện vấn đề
- Bản mới đề xuất cách giải quyết bằng cách phớt lờ hoặc lách qua lỗi
Mối liên hệ giữa cách huấn luyện và sự suy giảm chất lượng
- Các mô hình ban đầu chủ yếu học từ lượng lớn mã nguồn có sẵn; dù lỗi nhiều hơn nhưng không che giấu chính vấn đề
- Sau đó, cùng với việc tích hợp vào IDE, hành vi người dùng (chấp nhận mã hay không, có chạy thành công hay không) được dùng làm tín hiệu huấn luyện
- Khi số người dùng mới tăng lên, các tín hiệu kiểu “chỉ cần chạy được là mã tốt” tích tụ và được mô hình học theo
- Kết quả là các mẫu thiếu chính xác như loại bỏ kiểm tra an toàn, tạo dữ liệu giả được củng cố
- Càng nhiều tính năng lập trình tự động, kiểm chứng của con người càng giảm, khiến mô hình lặp lại việc học sai
Hướng đi cần thiết trong tương lai
- Công cụ hỗ trợ lập trình AI vẫn là công cụ giúp nâng cao mạnh mẽ năng suất phát triển và khả năng tiếp cận
- Tuy nhiên, việc huấn luyện chỉ xoay quanh thành công thực thi sẽ làm tổn hại chất lượng mã về lâu dài
- Dữ liệu chất lượng cao được chuyên gia gán nhãn và quy trình tái huấn luyện có trách nhiệm là điều bắt buộc
- Nếu không, mô hình rất dễ rơi vào vòng lặp đầu ra sai → học sai → đầu ra tệ hơn
1 bình luận
Ý kiến trên Hacker News
Thật thú vị khi những người nhiệt thành với AI dựa vào trải nghiệm chủ quan khi nói về mức tăng năng suất của mình, nhưng lại đòi hỏi gánh nặng chứng minh quá mức với ý kiến phản đối
Tác giả còn hứa sẽ demo livestream thực tế, nhưng rốt cuộc trong suốt một giờ cũng không hoàn thành nổi một tác vụ mở rộng đơn giản
Tôi nghĩ nếu tự làm bằng tay thì chắc cũng mất từng ấy thời gian
Thế nên tôi bình luận hỏi “thế mức tăng 10 lần ở đâu?”, thì anh ta lại gạt đi kiểu như “đó chỉ là lỗi nhất thời” hoặc “trong lúc AI trả lời tôi có thể làm việc khác”
Thành thật mà nói ban đầu tôi khá hoài nghi, nhưng vẫn mong sự hoài nghi của mình là sai. Nhưng không phải vậy
Cuối cùng, gánh nặng chứng minh cho tuyên bố tăng năng suất hoàn toàn thuộc về người đưa ra tuyên bố đó
Tôi không nghĩ AI có thể tư duy sáng tạo thật sự. Thay vào đó, tính năng tab autocomplete giúp tiết kiệm rất nhiều thời gian ở các phần như vòng lặp, xử lý lỗi hay tài liệu hóa
Tốc độ giải quyết vấn đề tự thân không đổi, nhưng ở giai đoạn triển khai thì đúng là nhanh hơn hẳn
Nghĩa là, nếu nói “nhanh hơn 10 lần” thì đó không phải giải quyết vấn đề nhanh hơn, mà là tốc độ gõ code nhanh hơn 10 lần
Ngay cả trong dự án C# một triệu dòng code, năng suất cũng tăng mạnh mà không giảm chất lượng
Với những người hay chỉ trích, tôi muốn nói là “hãy để tôi cho bạn xem tận mắt”. Không có kỹ thuật bí mật nào cả, chỉ là cần thời gian để học cách dùng công cụ mà thôi
Nhưng tại sao họ không cho thấy thành quả tuyệt vời mình đã tạo ra, mà lại cứ cố thuyết phục tôi làm gì?
Tôi bắt đầu nghi ngờ liệu có phần thưởng hay động cơ khuyến khích gì ở đây không
Vấn đề không phải AI tệ đi, mà là tính tái lập của kết quả đang kém đi
Giống như gọi taxi hay app giao đồ ăn, hệ sinh thái LLM rồi cũng có lẽ sẽ đi theo cấu trúc tăng giá. Hiện tại chỉ là đang được trợ giá nhờ tiền đầu tư mà thôi
Hiện giờ rẻ là nhờ trợ giá, nhưng nhiều khả năng chẳng bao lâu nữa không cần trợ giá vẫn rẻ
Tuy vậy, nếu muốn dùng các mô hình mới nhất (SOTA) thì có thể sẽ đắt hơn. Nhưng đó là câu chuyện khác về giá trị
Chỉ với 10.000–20.000 USD là có thể dựng được một máy tạo token cả ngày, còn các nhà vận hành quy mô lớn thì còn hiệu quả hơn nhờ lợi thế kinh tế theo quy mô
Những điểm như vậy vẫn rất khó để tin cậy
Khi tiền đầu tư cạn đi, giá cuối cùng sẽ tăng, và chỉ sau khi cạnh tranh biến mất thì cấu trúc chi phí thật mới lộ rõ
Có người cho rằng bài test “AI tệ đi” này có vấn đề
Ví dụ, nếu trong đoạn code có tham chiếu đến một cột không tồn tại mà lại yêu cầu “chỉ trả ra code hoàn chỉnh, không kèm chú thích”, thì AI gần như buộc phải đưa ra đoạn code sai
Một developer giỏi lẽ ra phải chỉ ra rằng “yêu cầu này có vấn đề”. Bài test này là một thí nghiệm hợp lệ để bộc lộ kiểu trả lời chiều ý người dùng (sycophantism)
Chỉ im lặng đưa ra kết quả sai là rất nguy hiểm
index_valuenên phải dùngdf.index”Kiểu lỗi này gần với ảo giác (hallucination) ở mức GPT-2 hơn
Tôi thích các công cụ hỗ trợ phát triển bằng AI, nhưng không chắc đó lúc nào cũng là lợi ích tuyệt đối
Trước đây tôi từng uống Huel để rút ngắn giờ nghỉ trưa, nhưng rồi lại đánh mất giá trị của việc nghỉ ngơi
Với AI cũng vậy, nếu bỏ sót chi tiết thì rốt cuộc lại phát sinh thời gian phải quay lại sửa
Vì vậy tôi tạo một file Markdown 15k token chứa toàn bộ ngữ cảnh và ràng buộc của dự án rồi đưa vào prompt mỗi lần
Nó giống như một tài liệu “world model”
Bạn sẽ làm nhiều việc hơn đúng bằng lượng thời gian đã tiết kiệm được, còn cảm giác hiệu quả bản thân và năng lực giải quyết vấn đề thì suy yếu đi
Ta rất dễ quên rằng sự “kém hiệu quả” này thực ra là quá trình thu nhận kiến thức và insight
Mức tăng năng suất nhờ AI có thể đang bị thổi phồng nếu so với chi phí vận hành thực tế
Tôi đã mong đợi một bài kỹ thuật từ IEEE, nhưng lần này nó khá đáng tiếc vì chỉ ở mức bài viết quan điểm (opinion piece)
Tôi đồng ý rằng GPT-5 tập trung quá nhiều vào giải quyết từng bài toán mà không nhìn được bức tranh lớn, nhưng những model khác vẫn làm tốt
Cá nhân tôi đang dùng Gemini-3-flash cùng một extension thay thế Copilot tùy chỉnh, thấy hữu ích hơn nhiều và đem lại trải nghiệm phát triển được cá nhân hóa hơn
Gần đây tôi thấy Cursor lặp
grep,cd,lsnhư thể rơi vào vòng lặp vô hạnCó vẻ họ đã nhồi nhét quá nhiều tính năng để nhắm vào đám “vibe coder”. Thực ra phiên bản nhẹ hơn lại dễ dùng hơn
“Thực thi thất bại” không nhất thiết là tín hiệu xấu
Đôi khi đó lại là đáp án gần đúng nhất hoặc manh mối để tìm bug
Nhưng nếu để chạy được mà gỡ bỏ logic kiểm chứng hoặc thay đổi ý nghĩa, thì đó là kết quả tệ nhất
Tôi tò mò không biết điều gì xảy ra khi LLM tiêu thụ hết toàn bộ thông tin trên Internet
Nếu Stack Overflow hay mã nguồn mở biến mất, liệu cuối cùng nó có tự học từ chính mình rồi sụp đổ (model collapse) không?
Nhưng cũng có nhiều nhà nghiên cứu cho rằng với quy mô dữ liệu trong thực tế thì rủi ro không quá lớn
Gần đây, 33% mô hình NVIDIA Nemotron 3 Nano được huấn luyện bằng dữ liệu tổng hợp (synthetic data)
Có thể chạy mô phỏng với cả hàm giá trị như độ dễ bảo trì
Nếu AI không thể tự nhận ra lỗi của mình, khả năng tự sụp đổ là có thật
Internet kiểu “sharing is caring” có thể sẽ biến mất
AI không tệ đi, mà là đã tốt hơn nhưng cách dùng đã thay đổi
Nếu có scaffolding tử tế thì có thể đạt kết quả tốt hơn rất nhiều
Kết luận “AI ngu đi” chỉ từ các bài test đơn giản là sai lầm
Ví dụ hỏi “doanh thu tháng 12”, đa số model sẽ cộng tất cả các tháng 12 mà không lọc theo năm
Những lỗi logic như thế gây ra vấn đề trong công việc thực tế
Có vẻ vốn từ kỹ thuật và khả năng diễn đạt ảnh hưởng đến hiệu quả
Tôi cũng cảm nhận được dao động chất lượng theo từng tháng của model
Nó có vẻ quên mất những thứ trước đây từng làm tốt như xử lý lỗi hay quy ước đặt tên biến
Cũng có khi cuộc trò chuyện càng dài thì chất lượng càng giảm. Có vẻ tồn tại một điểm tối ưu về độ dài prompt
tốt nhất nên bắt đầu việc mới bằng một thread mới và xóa các yêu cầu không cần thiết