LLM cực kỳ sợ các tình huống ngoại lệ
(twitter.com/karpathy)- Andrej Karpathy đã châm biếm tác dụng phụ phát sinh trong quá trình học tăng cường (RL) khi nói rằng “các LLM sợ ngoại lệ (Exception) đến mức chết khiếp (mortally terrified)”
- Anh chỉ ra rằng khi gặp tình huống ngoại lệ, LLM thường tự dừng lại hoặc phản ứng quá mức theo hướng phòng thủ, đồng thời nhấn mạnh rằng ngoại lệ là một phần tự nhiên của quá trình phát triển
- Cách nói “người ta đã làm gì với những LLM tội nghiệp này trong lúc RL vậy (what labs are doing to these poor LLMs)” là lời phê phán thực tế rằng mô hình đã bị điều kiện hóa để sợ thất bại trong quá trình huấn luyện
- Karpathy đùa rằng hãy “cải thiện phần thưởng trong các trường hợp xảy ra ngoại lệ (improved rewards in cases of exceptions)” bằng một ‘đơn kiến nghị phúc lợi cho LLM (LLM welfare petition)’,
qua đó châm biếm vấn đề thiết kế phần thưởng theo hướng giúp mô hình xử lý ngoại lệ mà không sợ hãi - Dòng tweet này không chỉ là một câu đùa, mà còn được hiểu là thông điệp chỉ ra rằng RLHF có thể kìm hãm tư duy khám phá và thái độ thử nghiệm của mô hình
> I don't know what labs are doing to these poor LLMs during RL but they are mortally terrified of exceptions, in any infinitesimally likely case. Exceptions are a normal part of life and healthy dev process. Sign my LLM welfare petition for improved rewards in cases of exceptions.
1 bình luận
Ý kiến trên Hacker News
https://github.com/EnterpriseQualityCoding/FizzBuzzEnterpriseEdition
Tuy nhiên, mặt khác tôi cũng nghĩ các lập trình viên bình thường ngoài đời thực sự nên viết nhiều khối try/catch hơn; nhiều tình huống không nên để một ngoại lệ phát sinh trong một khu vực nào đó, dù hiếm đến đâu, làm dừng toàn bộ hoạt động; tất nhiên cũng có trường hợp dừng lại mới là đúng, nên còn tùy tình huống
abs(b) < sys.float_info.epsilon; rồi ở bước pre-check thì cho phép trả về NaN, nhưng nếu trong phép tính thực tế lại ra NaN thì đổi thành None; đó là hành vi không có cơ sở xét từ góc độ thiết kế API