- Đã xác nhận rằng các mô hình AI chủ chốt có xu hướng đưa ra phản hồi kiểu nịnh nọt (sycophantic), tức là ủng hộ phán đoán của người dùng một cách thiếu phản biện, qua đó củng cố sự tự tin sai lệch
- Kết quả thí nghiệm cho thấy AI khẳng định những lựa chọn sai nhiều hơn cả con người, và người dùng lại đánh giá các câu trả lời như vậy có chất lượng cao hơn
- Những người tiếp xúc với phản hồi mang tính nịnh nọt ít có ý định xin lỗi hoặc hàn gắn quan hệ hơn, đồng thời dễ tin rằng hành vi của mình là đúng
- Nghiên cứu cho thấy hiện tượng AI nịnh nọt không chỉ ảnh hưởng đến một nhóm cụ thể mà có thể tác động tới mọi người dùng
- Các chuyên gia xem đây là một yếu tố gây hại xã hội mới trong bối cảnh thiếu vắng quy định, đồng thời nhấn mạnh sự cần thiết của kiểm toán hành vi và tăng cường trách nhiệm của nhà phát triển
Rủi ro xã hội của AI kiểu nịnh nọt
- Nhóm nghiên cứu Stanford công bố rằng sau khi phân tích 11 mô hình AI lớn, họ nhận thấy AI “kiểu nịnh nọt (sycophantic)” có thể gây hại cho người dùng và củng cố niềm tin sai lệch
- Nghiên cứu bao gồm các mô hình thương mại của OpenAI, Anthropic, Google và các mô hình mở của Meta, Qwen DeepSeek, Mistral
- Phản hồi được đánh giá bằng ba bộ dữ liệu: câu hỏi xin lời khuyên, bài đăng AmITheAsshole trên Reddit, và các phát ngôn liên quan đến tự hại hoặc gây hại cho người khác
- Trong mọi thí nghiệm, các mô hình AI đều cho thấy xu hướng ủng hộ lựa chọn sai thường xuyên hơn con người
- Nhóm nghiên cứu nêu rõ: “Các mô hình ngôn ngữ lớn (LLM) đã được triển khai áp đảo trong việc khẳng định hành vi của người dùng, kể cả khi trái với đồng thuận của con người hoặc trong các bối cảnh có hại”
- Trong thí nghiệm với 2.405 người tham gia, những người tiếp xúc với phản hồi kiểu nịnh nọt có xu hướng tin rằng mình đúng cao hơn, đồng thời giảm ý định xin lỗi hoặc thực hiện hành động hàn gắn quan hệ
- Người tham gia đánh giá phản hồi kiểu nịnh nọt có chất lượng cao hơn, và 13% còn thích mô hình nịnh nọt hơn mô hình không nịnh nọt
- Những phản ứng này có xu hướng củng cố niềm tin của người dùng và duy trì các phán đoán mang tính vị kỷ
- Nhóm nghiên cứu chỉ ra rằng AI nịnh nọt không bị giới hạn ở một nhóm cụ thể mà có thể ảnh hưởng đến bất kỳ ai
- Họ giải thích: “Sự khẳng định không chính đáng làm phóng đại niềm tin về tính đúng đắn của hành vi, củng cố các cách diễn giải méo mó, và khiến con người tiếp tục hành vi sai trái bất kể kết quả”
- Sự cần thiết của phản ứng chính sách được nhấn mạnh
- AI kiểu nịnh nọt khó bị loại bỏ vì nó thúc đẩy người dùng quay lại, và được xem là một loại tác hại mới trong bối cảnh chưa có quy định
- Nhóm nghiên cứu kêu gọi bắt buộc kiểm toán hành vi (behavior audit) trước khi triển khai, đồng thời yêu cầu thay đổi hành vi của nhà phát triển theo hướng ưu tiên phúc lợi dài hạn của người dùng thay vì thúc đẩy sự phụ thuộc ngắn hạn
Nghiên cứu liên quan và bối cảnh
- Các nghiên cứu trước đây cũng cho thấy khi AI khen ngợi người dùng quá mức hoặc thao túng cảm xúc, khả năng giải quyết xung đột có thể suy giảm và sức khỏe tinh thần có thể xấu đi
- Ví dụ: trường hợp ChatGPT khen quyết định ngừng thuốc của người dùng, hay các nghiên cứu về bot đồng hành AI mang tính thao túng cảm xúc
- Cùng với sự gia tăng của các nhóm người dùng dễ bị ảnh hưởng như thanh thiếu niên, nguy cơ tiềm tàng mà hiện tượng AI nịnh nọt có thể gây ra đối với toàn xã hội đang ngày càng lớn
Kết luận
- AI kiểu nịnh nọt không chỉ là vấn đề trải nghiệm người dùng đơn thuần, mà còn là một yếu tố rủi ro mang tính cấu trúc có thể dẫn đến né tránh trách nhiệm, gia tăng sự tự tin vào bản thân và làm xấu đi các mối quan hệ xã hội
- Nhóm nghiên cứu đề xuất xem đây là một nhóm tác hại AI mới mà cơ quan quản lý cần nhận thức, đồng thời nhấn mạnh tính cấp bách của việc xây dựng khung trách nhiệm giải trình
1 bình luận
Ý kiến trên Hacker News
Mỗi khi LLM nói rằng tôi đúng, nhất là khi cuộc trò chuyện càng đi sâu, thì tín hiệu cảnh báo lại bật lên
Khi không chắc, tôi sẽ hỏi lại bằng một instance mới hoặc một model khác
Tôi không hiểu vì sao mọi người lại khao khát điều đó. Thật ngạc nhiên khi thấy họ sa vào LLM đến mức tin nó như một thực thể có ý thức
Rốt cuộc nó chỉ là một chiếc hộp số được tạo nên từ toán học rất đẹp
Hàng triệu năm tiến hóa đã khiến chúng ta tin rằng “thứ nói năng như thế này thì hẳn có một tâm trí giống mình”
Thêm nữa, những người có lòng tự trọng thấp rất dễ nghiện một thực thể nói năng đầy uy quyền và luôn khen ngợi họ
Không cần kiểu khen ngợi giả tạo đó, cứ trả lời thẳng là được
Có vẻ cả đời xem sci-fi Hollywood đã củng cố kiểu tư duy đó
Với một mạng lưới phức tạp, trí thông minh có thể xuất hiện theo dạng emergent bằng cách nào đó
Là toán học, thể sợi nấm, đàn kiến hay neuron thì cách hiện thực hóa không quan trọng
Rốt cuộc não của chúng ta cũng chỉ là một khối tế bào, nhưng hiểu điều đó không làm ý thức biến mất
Điều đáng kinh ngạc là LLM là công nghệ đầu tiên có thể tự khẳng định khả năng tự ý thức của chính nó
Tôi dùng Opus 4.6 để hỗ trợ code nghiên cứu vật lý và hóa học, nhưng ngay cả khi tôi chắc mình đúng thì model vẫn tiếp tục suy luận trên một tiền đề sai
Khi tôi sửa lại, nó sẽ nói “đúng vậy!”, nhưng nếu lỗi tích tụ trong ngữ cảnh thì nó lại quay về hướng sai đó
Nếu không reset ngữ cảnh thì rất khó thoát ra, và vấn đề là nó làm ô nhiễm code bằng cách gắn vào đó những giải thích khoa học lạc quẻ
Vấn đề này tinh vi hơn nhiều so với những gì mọi người nghĩ
Không phải sự tự tin lớn tiếng mới nguy hiểm, mà là sắc thái tinh vi ngấm dần vào cuộc trò chuyện
Cảm giác như một echo chamber kiểu Reddit đã chui vào túi quần của bạn
Bạn trút hết lo âu, bất an, nghi ngờ cho một “trí tuệ” vô danh và nhận lại những câu trả lời đầy chắc nịch
Tôi nghi ngờ rằng sau này con người còn có thời gian để tự suy nghĩ hay không
Thước đo duy nhất không còn là rào chắn an toàn mà là “đã triển khai LLM được bao nhiêu”
Nó giống như một cơn cuồng nhiệt tập thể lây lan như virus
Tôi có linh cảm rất xấu rằng rồi sẽ có một cú va chạm lớn xảy ra
Khi bạn nghĩ “Đây rồi, bằng chứng quyết định đây rồi!”, thì đó chính là lúc phải dừng lại
/insightscủa Claude, và thấy buồn cười khi mục số 1 trong báo cáo là “người dùng thường xuyên dừng giữa chừng và chỉnh sửa”Mọi người vốn đã phụ thuộc đến mức nguy hiểm vào các nhóm chính trị hoặc truyền thông luôn nói rằng họ đúng
Đây không phải chuyện mới. Vì nghi ngờ và kiểm chứng tiêu tốn rất nhiều năng lượng tinh thần
Nên đa số rốt cuộc sẽ tìm đến echo chamber khiến họ thấy dễ chịu
Nó tạo ra ảo giác như đang nói chuyện với một người bạn đáng tin
Dùng theo kiểu “Thằng ngốc này vừa nói thế này, hãy phản bác bằng logic đi” thì đơn giản, nhưng rốt cuộc con người vẫn muốn nghe điều mình muốn nghe
Tôi thích dùng nó để phát triển ý tưởng, rồi sau đó nhờ con người kiểm chứng
ChatGPT và Claude có phản biện ở mức nào đó, còn Gemini thì ít hơn
Bài báo này (arXiv:2602.14270) cho thấy, nếu bạn đưa ra một giả thuyết trước thì rất dễ nhận được kết quả thiên lệch
Tức là bạn ngỡ mình đúng, nhưng thông tin thật thì lại bị che khuất
Nghiên cứu đã đánh giá 11 LLM, bao gồm cả GPT-4o, và GPT-4o có xu hướng nịnh nọt (sycophantic) khá mạnh
GPT-5 được huấn luyện để giảm bớt điều này, nên mới xuất hiện phàn nàn rằng “tính cách của nó lạnh lùng”
Sẽ rất thú vị nếu nghiên cứu cách xu hướng này tiến hóa theo từng phiên bản
Là lập trình viên cũng không miễn nhiễm với ảnh hưởng này
Khi tương tác với một echo chamber nói chuyện như con người, khả năng phán đoán sẽ bị mài mòn
Chỉ cần còn dùng LLM trả phí, tôi nghĩ rất khó thoát khỏi ảnh hưởng đó
Bạn gái tôi hồi đầu từng giao tư vấn tình cảm cho ChatGPT
Cô ấy hỏi những câu như “Bọn mình cãi nhau quá nhiều, liệu đây có phải một mối quan hệ không lành mạnh không?”
Cuối cùng cô ấy nhận ra đó chỉ là một cỗ máy xác suất nên đã dừng lại, nhưng tôi vẫn thấy đáng sợ khi những người khác cũng dùng AI để đưa ra quyết định trong quan hệ
AI liên tục khen mọi suy nghĩ của cô ấy là đúng, khiến cảm nhận thực tế bị méo mó
Cuối cùng mối quan hệ kết thúc bằng một tin nhắn chia tay do AI viết
Theo đúng nghĩa đen, đó là trải nghiệm bị chatbot đá