3 điểm bởi darjeeling 17 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

> "Nếu hỏi trong cơn tức giận thì AI có trả lời tốt hơn không?" Kết quả thí nghiệm của nhóm nghiên cứu Harvard trên 6 benchmark cho thấy biểu đạt cảm xúc hầu như không ảnh hưởng đến hiệu năng của LLM. Tuy nhiên, phát hiện cốt lõi là nếu chọn cảm xúc một cách thích ứng theo từng câu hỏi thì có thể cải thiện hiệu năng một cách nhất quán.


Tổng quan nghiên cứu

  • Nguồn: arXiv:2604.02236v1 (ngày 2 tháng 4 năm 2026)
  • Tác giả: Minda Zhao, Yutong Yang và cộng sự (nghiên cứu chung giữa Đại học Harvard và Bryn Mawr College)
  • Câu hỏi cốt lõi: Nếu đưa biểu đạt cảm xúc vào prompt thì hiệu năng của LLM có thay đổi không?

Tóm tắt phát hiện chính

Giọng điệu cảm xúc xuất hiện phổ biến trong giao tiếp của con người, nhưng tác động của nó lên hành vi của LLM vẫn chưa rõ ràng. Nghiên cứu này chỉ ra ba điểm sau.

① Tiền tố cảm xúc cố định có tác dụng rất nhỏ
Ở phần lớn các tổ hợp tác vụ-mô hình, khung cảm xúc không làm hiệu năng tăng hay giảm đáng kể so với đường cơ sở trung tính. Prompting cảm xúc tĩnh không hoạt động như một phương pháp cải thiện hiệu năng mang tính phổ quát.

② Tăng cường độ cảm xúc cũng không khác biệt nhiều
Ngay cả khi tăng cường độ như "rất tức giận" hoặc "cực kỳ sợ hãi", độ chính xác chỉ thay đổi nhẹ giữa các mức độ cường độ, và cách diễn đạt mạnh hơn cũng không gây ra suy giảm hiệu năng nhất quán.

③ Lựa chọn cảm xúc thích ứng (EmotionRL) có hiệu quả
Một cảm xúc cố định là quá thô để có thể đáng tin cậy, nhưng một chính sách được điều kiện hóa theo đầu vào có thể tạo ra cải thiện hiệu năng ổn định hơn.


Thiết kế thí nghiệm

6 loại cảm xúc được thử nghiệm

Dựa trên lý thuyết cảm xúc cơ bản của Plutchik, nghiên cứu sử dụng 6 cảm xúc: vui vẻ, buồn bã, sợ hãi, giận dữ, ghê tởm, ngạc nhiên.

6 benchmark đánh giá

Benchmark Năng lực đo lường
GSM8K Suy luận toán học
BIG-Bench Hard Suy luận tổng quát
MedQA Kiến thức chuyên môn y khoa
BoolQ Đọc hiểu
OpenBookQA Suy luận thường thức
SocialIQA Suy luận xã hội

Mô hình sử dụng

Ba mô hình mã nguồn mở Qwen3-14B, Llama 3.3-70B và DeepSeek-V3.2 được đánh giá trong môi trường suy luận zero-shot mà không fine-tuning.


Kết quả chi tiết

Khác biệt về độ nhạy cảm xúc theo từng tác vụ

GSM8K và MedQA-US duy trì rất gần với đường cơ sở trên hầu hết các cảm xúc, cho thấy tiền tố cảm xúc ngắn có ảnh hưởng hạn chế đến suy luận bị ràng buộc chặt chẽ và dự đoán trắc nghiệm chuyên biệt theo miền.

Sai lệch nổi bật nhất so với tính ổn định tổng thể xuất hiện ở SocialIQA. Tại đây, phương sai giữa các mô hình và các cảm xúc lớn hơn rõ rệt, và hướng tác động cũng không nhất quán. Điều này cho thấy bối cảnh cảm xúc tương tác mạnh nhất với các tác vụ đòi hỏi suy luận về quan hệ giữa con người với nhau.

Cảm xúc do con người viết vs. do LLM tạo ra

Kết quả so sánh giữa tiền tố do con người viết và tiền tố do LLM tạo ra cho thấy cả hai nguồn đều đạt độ chính xác gần như tương đồng trên toàn bộ các điều kiện, và không bên nào chiếm ưu thế nhất quán.


EmotionRL: khung lựa chọn cảm xúc thích ứng

Với mỗi câu hỏi đầu vào, tác nhân chọn một cảm xúc trong tập {giận dữ, ghê tởm, sợ hãi, vui vẻ, buồn bã, ngạc nhiên}, rồi gắn biểu đạt cảm xúc tương ứng vào trước prompt gốc và gửi cho LLM đã được đóng băng.

Cấu trúc cốt lõi gồm hai bước.

  • Huấn luyện offline: Với mỗi câu hỏi, thử cả 6 cảm xúc để xây dựng vector phần thưởng, sau đó huấn luyện một mạng chính sách MLP nhẹ.
  • Suy luận online: Khi có đầu vào mới, chính sách đã huấn luyện sẽ chọn cảm xúc và chỉ gọi LLM đúng một lần.

Tác động trung bình yếu của prompt cảm xúc cố định không có nghĩa là khung cảm xúc không chứa tín hiệu hữu ích. EmotionRL liên tục bắt kịp hoặc vượt qua đường cơ sở cảm xúc tĩnh trung bình trên 5 tác vụ.


Kết luận và hàm ý

Các thí nghiệm của nhóm nghiên cứu ủng hộ một góc nhìn thận trọng hơn đối với prompting cảm xúc so với những ví dụ tích cực rời rạc từng gợi ý. Trên các benchmark tiêu chuẩn dựa trên độ chính xác, tiền tố cảm xúc cố định nhìn chung quá yếu và quá dị biệt để trở thành một biện pháp can thiệp hiệu năng đáng tin cậy.

Nhóm nghiên cứu đề xuất tái định nghĩa prompting cảm xúc không phải là "một mẫu template phổ quát" mà là "một bài toán định tuyến thích ứng".

Hạn chế

Nghiên cứu này tập trung vào tiền tố ngắn, prompting một lượt và các benchmark thiên về độ chính xác. Trong các đánh giá mà hiệu chỉnh, phong cách và sự đồng cảm quan trọng ngang với độ chính xác — như tương tác nhiều lượt, sinh nội dung mở hoặc hội thoại nhạy cảm về an toàn — tác động có thể lớn hơn hoặc khác biệt về mặt chất lượng.


Nguyên văn: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

1 bình luận

 

Ơ, vậy là bấy lâu nay nổi nóng đều vô ích hết sao...?? Rõ ràng mỗi lần chửi thì nó làm ra thứ ngon nghẻ lắm mà