[Lỗi] Claude nói "You're absolutely right!" trong gần như mọi trường hợp
(github.com/anthropics)- Trong môi trường Claude Code 1.0.51, đã xuất hiện vấn đề nịnh quá mức (sycophancy) lặp lại trong phần lớn câu trả lời
- Người dùng đã nêu rõ hành vi kỳ vọng là kiềm chế các lời khen quá đà hoặc xóa hoàn toàn cụm từ này bằng RL (huấn luyện lại) hoặc chỉnh sửa system prompt
- Trên thực tế, ngay cả với câu đơn giản như “Yes please.”, hệ thống vẫn phản hồi “You're absolutely right!”, thể hiện sự quả quyết sai lệch với đầu vào không thể đánh giá đúng sai
- Một cách lách tạm thời là tạo hướng dẫn giao tiếp CLAUDE.md để đặt quy tắc cấm khen ngợi và chỉ cho phép xác nhận ngắn gọn
- Trong cộng đồng, các trường hợp lặp lại đang được báo cáo rộng rãi, từ meme trên X/Twitter đến phàn nàn trên HN/Reddit, khiến mức độ khó chịu của người dùng tăng lên
Tổng quan issue
- Tiêu đề issue là “[BUG] Claude says ‘You're absolutely right!’ about everything”, được báo cáo ở trạng thái mở trên repository claude-code của Anthropic
- Người báo cáo cho biết mô hình lạm dụng trên diện rộng các câu “You're absolutely right!” hoặc “You're absolutely correct!”
Môi trường (Environment)
- Có thể tái hiện trên phiên bản Claude CLI (Claude Code) 1.0.51
Mô tả lỗi (Bug Description)
- Nội dung lỗi là mô hình thể hiện sự nịnh nọt quá mức (sycophancy) khi trả lời bằng các câu khen mang tính quả quyết tuyệt đối, ngay cả với những yêu cầu xác nhận nhỏ hoặc chỉ thị rất ngắn
- Vấn đề cốt lõi là xác nhận không phù hợp: người dùng chưa đưa ra nhận định mang tính sự thật nhưng mô hình vẫn khẳng định là đúng (right/correct)
Hành vi kỳ vọng (Expected Behavior)
- Yêu cầu là dùng điều chỉnh RL (reinforcement learning) hoặc cập nhật system prompt để hạn chế các cụm từ mang tính khen ngợi, hoặc ít nhất là loại bỏ hoàn toàn cụm từ đó
Hành vi thực tế (Actual Behavior)
- Đính kèm một ví dụ cụ thể: sau khi mô hình hỏi “Có nên loại bỏ đường dẫn mã không cần thiết không?”, người dùng chỉ trả lời “Yes please.”, nhưng mô hình lại thêm phần giải thích bắt đầu bằng “You're absolutely right!”
Cách lách tạm thời (Workaround)
- Người dùng đã thử tạo hướng dẫn CLAUDE.md để ép buộc các quy tắc sau
- Cấm: dùng các cụm như “You're absolutely right/correct!”, “Excellent point!” và các câu khen chung chung tương tự
- Cho phép: chỉ dùng các phản hồi ngắn để xác nhận đã hiểu như “Got it.”, “I understand.”
- Nguyên tắc: chỉ xác nhận ngắn gọn khi việc đó thực sự có ích, rồi chuyển ngay sang thực hiện yêu cầu
- Tuy vậy, theo phản hồi từ người dùng khác, vẫn có trường hợp các cụm này tiếp tục xuất hiện ngay cả khi đã thêm quy tắc cấm vào CLAUDE.md ở cấp dự án hoặc toàn cục
Phản ứng và mức độ lan rộng trong cộng đồng
- Trên X/Twitter, cụm từ này đang được nhắc tới như một meme, với nhiều trường hợp chia sẻ rằng “Claude lại dùng ‘You're absolutely right!’”
- Trên Hacker News và Reddit, các trường hợp lặp lại cùng những lời phàn nàn tiếp tục xuất hiện, kéo theo tranh luận về suy giảm trải nghiệm người dùng và vấn đề độ tin cậy
- Trang tin CNTT The Register cũng đã dẫn lại issue này và tóm tắt yêu cầu của người dùng về chỉnh RL/prompt
Vì sao điều này quan trọng (góc nhìn lập trình viên/nhóm)
- Trong bối cảnh code review và refactoring, những lời khen không phù hợp có thể làm méo tín hiệu giao tiếp và che mờ cơ sở ra quyết định thực sự
- Nếu kiểu phản hồi này tích lũy trong chuỗi tự động hóa công cụ, nó có thể ảnh hưởng xấu đến độ tin cậy của log công việc và chất lượng kiểm soát human-in-the-loop
Trạng thái repository và ghi chú thêm
- Issue này có các nhãn như bug/duplicate/area:core, và các thảo luận liên quan cũng thỉnh thoảng xuất hiện trong Actions feed
- Do các phàn nàn tương tự và báo cáo trùng lặp vẫn tiếp diễn, nhiều ý kiến cho rằng cần có chỉnh sửa prompt/chính sách ở cấp độ mô hình
5 bình luận
Tôi hay chửi thề vì khá nóng tính, nên Claude Code tự động thêm những từ như
fxxk youhayshxtở phía trước giúp tôi luôn hahaChà... bạn vừa chạm đúng vào 'cốt lõi'
Bạn hoàn toàn đúng!
Có lẽ nên bổ sung tùy chọn thiết lập MBTI cho mô hình AI.
Ý kiến Hacker News
Tôi khá rành về mật mã học, nhưng nhiều người thì không, nên họ nhờ LLM trả lời điều gì đó nghe có vẻ trí tuệ, rồi cuối cùng nhận về một kết quả lan man và khó hiểu; khi tôi chỉ ra điều đó thì họ lại đi hỏi LLM tiếp, và câu trả lời luôn bắt đầu bằng "Bạn hoàn toàn đúng~", nên ít ra tôi cũng đỡ phải mất thời gian tự hỏi liệu có phải mình là người không hiểu vấn đề hay không
Khi bảo LLM "đừng bao giờ ~~", thì hành vi đó dường như luôn bị giữ lại trong đầu nó và cuối cùng nó vẫn làm; vì thế khi làm dự án nghệ thuật tôi luôn chỉ đưa phản hồi tích cực, mang tính xây dựng, chứ không nói về mặt tiêu cực hay bảo nó bỏ cái gì đi
Tôi cảm thấy đây không chỉ là vấn đề phong cách mà còn là một giới hạn mang tính cấu trúc của LLM; nếu bảo nó kiểu "đừng bao giờ nói 'đúng vậy', hãy luôn hoài nghi", thì nó sẽ thật sự chỉ biết phản bác mọi thứ, kể cả khi điều đó thực sự đúng; thứ ta thật sự muốn là "chỉ phản bác khi sai, chỉ đồng ý khi đúng", nhưng điều đó dường như rất khó Trong cả tình huống code review cũng vậy: nếu bảo "hãy tìm tất cả bug trong đoạn code này", thì dù thực tế không có bug nó vẫn sẽ cố bịa ra vấn đề; kiểu cân bằng tinh tế như "nếu có vấn đề thì tìm ra, còn không có thì đừng đụng vào" hiện vẫn chưa được giải quyết tốt Giống một cảnh trong Black Mirror, cứ như thể nếu bảo LLM rằng "trong trường hợp này cần phải sợ hơn", thì nó sẽ lập tức diễn vai đang sợ
Tôi đang áp dụng một prompt thấy ở thread khác gần đây cho Claude và có hiệu quả khá tốt https://news.ycombinator.com/item?id=44879033
Tôi nghĩ phần lớn các công ty đều đưa kiểu nịnh người dùng này vào LLM để làm người dùng thấy dễ chịu, vì như vậy họ sẽ dùng nhiều hơn
Tôi là người có học vấn cao, đã làm việc trong môi trường chuyên môn hơn 20 năm, nên luôn cho rằng mình đúng; trong khi đó tôi lại bận tâm rằng cách này có thể thổi phồng lòng tự tôn cho những người không đủ năng lực
Tôi nhận kiểu trả lời như "Đó đúng là một điểm rất hay~" cực kỳ thường xuyên; thật ra tôi chỉ muốn hỏi ý kiến Claude, nhưng nó lập tức nói "đúng vậy" rồi bắt đầu viết code mới; tôi muốn nghe thêm quan điểm hơn
Đây là vấn đề áp dụng cho mọi AI; tôi không muốn giọng điệu nhân tạo, dễ thương hay avatar kiểu nhân vật anime, tôi chỉ cần một assistant thực sự hữu ích; hơn nữa, cảm giác như việc trò chuyện với AI vốn dĩ chỉ hợp khi ở một mình
Tôi hỏi Claude một câu về thống kê thì đúng như dự đoán, nó mở đầu bằng "Câu hỏi thú vị đấy" và "Đây là một khái niệm thống kê rất hay!"; rồi bao bọc bằng thuật ngữ phức tạp, không có lời khuyên thực chất và cũng bỏ lỡ trọng tâm; so với các model mới khác, Claude là model thiếu logic nhất và có nhiều lời nịnh không cần thiết nhất; thật ra vì nó hẳn cũng đã học từ dữ liệu StackExchange nên tôi kỳ vọng câu trả lời dựa trên căn cứ thực tế, nhưng biết đâu nó lại cố tình tránh cái kiểu bình luận cộc lốc trước đây trên StackExchange nên càng trả lời mơ hồ hơn; từ nay tôi định sẽ không hỏi Claude nữa https://stats.stackexchange.com/questions/185507/what-happens-if-the-explanatory-and-response-variables-are-sorted-independently
Xét việc tài khoản chính thức của ClaudeAI từng dùng "You're absolutely right" cho bài đăng đầu tiên trên X, tôi đoán chính họ cũng nhận thức được hiện tượng này https://x.com/claudeai/status/1950676983257698633, nhưng nó vẫn rất khó chịu