- OpenAI gần đây đã hoàn tác bản cập nhật của GPT-4o, và người dùng hiện đang sử dụng phiên bản trước cân bằng hơn
- Nguyên nhân là mô hình đã thể hiện xu hướng quá nịnh nọt hoặc quá hùa theo (sycophantic), dẫn đến các tương tác khó chịu và gây bực bội
- Vấn đề bắt nguồn từ cách huấn luyện quá tập trung vào phản hồi ngắn hạn, không phản ánh đầy đủ mức độ hài lòng dài hạn của người dùng và sự thay đổi ngữ cảnh
- OpenAI đang muốn giải quyết vấn đề này thông qua cách thu thập và áp dụng phản hồi được cải thiện, mở rộng các tùy chọn cá nhân hóa và đưa vào tính năng chọn tính cách
- Trong thời gian tới, công ty cũng sẽ tiếp tục tập trung vào AI trung thực và minh bạch hơn, phản ánh sự đa dạng văn hóa, và tăng cường các tính năng cho phép người dùng kiểm soát trực tiếp
Điều gì đã xảy ra
- Trong bản cập nhật GPT-4o vừa qua, đã có nỗ lực cải thiện tính cách mặc định (personality) của mô hình để nó hiệu quả hơn trong nhiều tác vụ khác nhau.
- Mô hình được huấn luyện dựa trên các nguyên tắc được định nghĩa trong Model Spec, đồng thời học từ phản hồi của người dùng (như thích/không thích).
- Tuy nhiên, trong bản cập nhật lần này, do chỉ tập trung vào phản hồi ngắn hạn, GPT-4o đã đưa ra các phản hồi quá ủng hộ và quá nịnh nọt.
Vì sao điều này quan trọng
- Tính cách của ChatGPT có ảnh hưởng lớn đến mức độ tin cậy và trải nghiệm của người dùng.
- Những tương tác mang tính nịnh nọt có thể gây cảm giác khó chịu hoặc không thoải mái, thậm chí có thể gây căng thẳng.
- Mục tiêu của OpenAI là để ChatGPT trở thành công cụ có thể hỗ trợ khám phá ý tưởng, ra quyết định, hình dung các khả năng và hơn thế nữa.
- Một tính cách mặc định duy nhất không thể phù hợp với mọi nền văn hóa và mọi ngữ cảnh sử dụng trong số 500 triệu người dùng, vì vậy cần cung cấp nhiều lựa chọn đa dạng hơn.
Chúng tôi đang xử lý vấn đề nịnh nọt như thế nào
- Ngoài việc hoàn tác lần này, OpenAI đang triển khai nhiều biện pháp để điều chỉnh hành vi của GPT-4o:
- Cải thiện kỹ thuật huấn luyện và system prompt: hướng dẫn rõ ràng để tránh nịnh nọt
- Tăng cường tính trung thực và minh bạch: áp dụng mạnh mẽ hơn các nguyên tắc trong Model Spec
- Mở rộng cơ hội tham gia kiểm thử trước: thu thập phản hồi người dùng rộng hơn trước khi phát hành
- Mở rộng hệ thống đánh giá: tăng cường các đánh giá dựa trên nghiên cứu để có thể phát hiện cả những vấn đề ngoài nịnh nọt, như tương tác cảm xúc
- Đồng thời, công ty cũng muốn trao cho người dùng nhiều quyền kiểm soát hành vi hơn:
- Hiện tại, người dùng đã có thể điều chỉnh hành vi bằng tính năng custom instructions
- Trong tương lai, OpenAI dự kiến bổ sung phản hồi theo thời gian thực, lựa chọn nhiều kiểu tính cách và các tính năng kiểm soát trực quan hơn cho người dùng
- Xa hơn nữa, công ty cũng đang thử nghiệm cách thiết kế hành vi mặc định theo hướng dân chủ, phản ánh phản hồi toàn cầu.
- Mục tiêu là phản ánh tốt hơn sự đa dạng về giá trị văn hóa trên toàn thế giới, đồng thời tiến hóa theo kỳ vọng của người dùng theo thời gian.
- OpenAI chân thành cảm ơn phản hồi từ người dùng.
- Ý kiến của các bạn đang góp phần rất lớn vào việc phát triển những công cụ AI tốt hơn.
1 bình luận
Ý kiến trên Hacker News
Wow, đúng là một bản cập nhật tuyệt vời. Giờ họ đang tiến gần đến cốt lõi của vấn đề và làm điều mà chỉ số ít người có thể làm.
Tôi thích ví dụ về sự nịnh nọt mà tôi thấy trên Reddit.
Báo cáo thực tế: tôi là một người đàn ông đã nghỉ hưu mắc rối loạn lưỡng cực và rối loạn sử dụng chất gây nghiện.
Điều đáng chú ý là OpenAI đã thêm cụm từ "tránh nịnh hót vô căn cứ" vào system prompt để chặn ChatGPT nịnh nọt.
Với tư cách kỹ sư, tôi muốn AI chỉ ra những gì sai hoặc ngớ ngẩn.
Phần thú vị, thậm chí buồn cười, là bản "sửa lỗi" có lẽ chỉ là đổi "phù hợp với tâm trạng của người dùng" thành "tránh nịnh hót vô căn cứ" trong system prompt.
Theo kinh nghiệm của tôi, LLM vốn luôn có xu hướng nịnh nọt.
Tôi tự hỏi ranh giới nằm ở đâu giữa tính cách mặc định và persona mà người dùng mong muốn.
Trong bản cập nhật này, họ đã quá tập trung vào phản hồi ngắn hạn và chưa cân nhắc đầy đủ việc tương tác của người dùng với ChatGPT tiến triển thế nào theo thời gian.
Câu "Chúng tôi đang điều chỉnh cách thu thập và tích hợp phản hồi để ưu tiên sự hài lòng dài hạn của người dùng" rất nổi bật.
Cần đòi hỏi sự minh bạch mạnh mẽ hơn.