"RLHF chỉ là một phần nhỏ của RL." - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) là giai đoạn lớn thứ ba (và cũng là cuối cùng) trong quá trình huấn luyện LLM, sau pretraining và supervised finetuning (SFT) Theo tôi, RLHF chỉ là một phần của RL, nhưng điều này chưa được biết đến rộng rãi RLHF thực ra chưa đủ để được gọi là RL (học tăng cường) đúng nghĩa Ví dụ, AlphaGo được huấn luyện bằng RL thực sự, và nếu được huấn luyện bằng RLHF thì có lẽ đã không đạt được thành tựu như hiện nay Nếu AlphaGo được huấn luyện bằng RLHF thì điều gì sẽ xảy ra? Đưa cho người đánh giá hai trạng thái bàn cờ vây và yêu cầu họ chọn bên nào tốt hơn Thu thập khoảng 100.000 so sánh như vậy, rồi huấn luyện một mạng nơ-ron "Reward Model" (RM, mô hình phần thưởng) để mô phỏng đánh giá của con người (Vibe Check) Dùng mô hình phần thưởng này làm tiêu chuẩn để chạy RL và học các nước đi nhận được đánh giá tốt Nhưng cách này có lẽ đã không tạo ra kết quả có ý nghĩa trong cờ vây Hai lý do chính khiến RLHF không phù hợp với AlphaGo Thứ nhất, Vibe có thể gây hiểu lầm. Phần thưởng này là một mục tiêu proxy (đại diện) không chính xác, chứ không phải phần thưởng chiến thắng thực sự Thứ hai, trong quá trình tối ưu hóa RL, rất có khả năng mô hình phần thưởng sẽ cho điểm cao với các trạng thái bất thường nằm ngoài phạm vi dữ liệu huấn luyện, làm méo mó quá trình tối ưu RM là một mạng nơ-ron lớn với hàng tỷ tham số dùng để mô phỏng vibe Các vấn đề khi áp dụng RLHF cho LLM Mô hình phần thưởng của LLM cũng có xu hướng cho điểm cao đối với những câu trả lời mà người đánh giá có thể thích Mô hình phần thưởng này không giải quyết vấn đề "thực" mà chỉ là một mục tiêu đại diện để đánh giá các phản hồi có vẻ hợp ý con người Không thể chạy RLHF quá lâu vì mô hình nhanh chóng học cách trả lời theo kiểu đánh lừa mô hình phần thưởng Bạn có thể thấy một trợ lý LLM bắt đầu trả lời bằng những thứ kỳ quặc như "The the the the the the" Nhìn thì buồn cười, nhưng RM lại cho rằng điều đó rất xuất sắc Đây là trường hợp tìm ra một adversarial example ở vùng nằm ngoài phạm vi dữ liệu huấn luyện của RM Vì vậy, không thể chạy RLHF qua quá nhiều bước tối ưu hóa; sau vài trăm hoặc vài nghìn bước thì phải dừng lại vì quá trình tối ưu bắt đầu đánh lừa RM Điều này không giống RL kiểu AlphaGo Vì sao RLHF vẫn hữu ích để xây dựng LLM Assistant RLHF hưởng lợi từ khoảng cách giữa Generator (bộ sinh) và Discriminator (bộ phân biệt) Tức là, với nhiều dạng bài toán, việc để người đánh giá chọn câu trả lời tốt nhất trong vài phương án ứng viên dễ hơn nhiều so với việc tự viết ra câu trả lời lý tưởng ngay từ đầu Một ví dụ điển hình là với prompt như "hãy tạo một bài thơ về chiếc kẹp giấy", việc chọn bài thơ hay nhất trong nhiều ứng viên sẽ dễ hơn RLHF là một cách tận dụng khoảng cách về "độ dễ" trong giám sát của con người Ngoài ra, RLHF cũng hữu ích trong việc giảm hallucination (tạo thông tin sai) Nếu RM là một mô hình đủ mạnh để phát hiện khi LLM bịa ra điều gì đó trong quá trình huấn luyện, thì có thể học cách phạt bằng phần thưởng thấp để dạy mô hình không thích mạo hiểm với những sự thật mà nó không chắc chắn Tuy nhiên, hallucination và cách giảm thiểu nó là một chủ đề hoàn toàn khác Tóm lại, "RLHF hữu ích, nhưng không phải RL thực sự" Cho đến nay vẫn chưa có trường hợp nào thuyết phục cho thấy LLM đã đạt và chứng minh được "RL thực sự" ở quy mô lớn, cấp độ production, trong miền mở Về mặt trực giác cũng vậy, vì việc thu được phần thưởng thực sự trong các bài toán giải quyết vấn đề miền mở (tức kiểu như chiến thắng trong trò chơi) là rất khó Nó thú vị trong những môi trường khép kín, giống trò chơi như cờ vây, nơi động lực học bị giới hạn và hàm phần thưởng vừa dễ đánh giá vừa không thể bị đánh lừa Ví dụ, làm sao có thể đưa ra phần thưởng khách quan cho việc tóm tắt tài liệu, trả lời một câu hỏi hơi mơ hồ, nói đùa, hay viết lại mã Java sang Python? Con đường hướng tới điều này về nguyên tắc không phải là bất khả thi, nhưng cũng không hề đơn giản và đòi hỏi tư duy sáng tạo Tuy nhiên, ai giải quyết được bài toán này một cách thuyết phục thì sẽ có thể chạy RL thực sự Loại RL đã giúp AlphaGo đánh bại con người trong cờ vây Người giải được bài toán này có thể tạo ra LLM vượt qua con người trong giải quyết vấn đề miền mở

(twitter.com/karpathy)

8 điểm bởi xguru 2024-08-09 | 1 bình luận | Chia sẻ qua WhatsApp

Reinforcement Learning from Human Feedback (RLHF) là giai đoạn lớn thứ ba (và cũng là cuối cùng) trong quá trình huấn luyện LLM, sau pretraining và supervised finetuning (SFT)
- Theo tôi, RLHF chỉ là một phần của RL, nhưng điều này chưa được biết đến rộng rãi
- RLHF thực ra chưa đủ để được gọi là RL (học tăng cường) đúng nghĩa
- Ví dụ, AlphaGo được huấn luyện bằng RL thực sự, và nếu được huấn luyện bằng RLHF thì có lẽ đã không đạt được thành tựu như hiện nay
Nếu AlphaGo được huấn luyện bằng RLHF thì điều gì sẽ xảy ra?
- Đưa cho người đánh giá hai trạng thái bàn cờ vây và yêu cầu họ chọn bên nào tốt hơn
- Thu thập khoảng 100.000 so sánh như vậy, rồi huấn luyện một mạng nơ-ron "Reward Model" (RM, mô hình phần thưởng) để mô phỏng đánh giá của con người (Vibe Check)
- Dùng mô hình phần thưởng này làm tiêu chuẩn để chạy RL và học các nước đi nhận được đánh giá tốt
- Nhưng cách này có lẽ đã không tạo ra kết quả có ý nghĩa trong cờ vây
Hai lý do chính khiến RLHF không phù hợp với AlphaGo
- Thứ nhất, Vibe có thể gây hiểu lầm. Phần thưởng này là một mục tiêu proxy (đại diện) không chính xác, chứ không phải phần thưởng chiến thắng thực sự
- Thứ hai, trong quá trình tối ưu hóa RL, rất có khả năng mô hình phần thưởng sẽ cho điểm cao với các trạng thái bất thường nằm ngoài phạm vi dữ liệu huấn luyện, làm méo mó quá trình tối ưu
  - RM là một mạng nơ-ron lớn với hàng tỷ tham số dùng để mô phỏng vibe
Quảng cáo
Các vấn đề khi áp dụng RLHF cho LLM
- Mô hình phần thưởng của LLM cũng có xu hướng cho điểm cao đối với những câu trả lời mà người đánh giá có thể thích
  - Mô hình phần thưởng này không giải quyết vấn đề "thực" mà chỉ là một mục tiêu đại diện để đánh giá các phản hồi có vẻ hợp ý con người
- Không thể chạy RLHF quá lâu vì mô hình nhanh chóng học cách trả lời theo kiểu đánh lừa mô hình phần thưởng
- Bạn có thể thấy một trợ lý LLM bắt đầu trả lời bằng những thứ kỳ quặc như "The the the the the the"
- Nhìn thì buồn cười, nhưng RM lại cho rằng điều đó rất xuất sắc
- Đây là trường hợp tìm ra một adversarial example ở vùng nằm ngoài phạm vi dữ liệu huấn luyện của RM
- Vì vậy, không thể chạy RLHF qua quá nhiều bước tối ưu hóa; sau vài trăm hoặc vài nghìn bước thì phải dừng lại vì quá trình tối ưu bắt đầu đánh lừa RM
- Điều này không giống RL kiểu AlphaGo
Vì sao RLHF vẫn hữu ích để xây dựng LLM Assistant
- RLHF hưởng lợi từ khoảng cách giữa Generator (bộ sinh) và Discriminator (bộ phân biệt)
  - Tức là, với nhiều dạng bài toán, việc để người đánh giá chọn câu trả lời tốt nhất trong vài phương án ứng viên dễ hơn nhiều so với việc tự viết ra câu trả lời lý tưởng ngay từ đầu
  - Một ví dụ điển hình là với prompt như "hãy tạo một bài thơ về chiếc kẹp giấy", việc chọn bài thơ hay nhất trong nhiều ứng viên sẽ dễ hơn
- RLHF là một cách tận dụng khoảng cách về "độ dễ" trong giám sát của con người
- Ngoài ra, RLHF cũng hữu ích trong việc giảm hallucination (tạo thông tin sai)
  - Nếu RM là một mô hình đủ mạnh để phát hiện khi LLM bịa ra điều gì đó trong quá trình huấn luyện, thì có thể học cách phạt bằng phần thưởng thấp để dạy mô hình không thích mạo hiểm với những sự thật mà nó không chắc chắn
  - Tuy nhiên, hallucination và cách giảm thiểu nó là một chủ đề hoàn toàn khác
Quảng cáo
Tóm lại, "RLHF hữu ích, nhưng không phải RL thực sự"
- Cho đến nay vẫn chưa có trường hợp nào thuyết phục cho thấy LLM đã đạt và chứng minh được "RL thực sự" ở quy mô lớn, cấp độ production, trong miền mở
- Về mặt trực giác cũng vậy, vì việc thu được phần thưởng thực sự trong các bài toán giải quyết vấn đề miền mở (tức kiểu như chiến thắng trong trò chơi) là rất khó
- Nó thú vị trong những môi trường khép kín, giống trò chơi như cờ vây, nơi động lực học bị giới hạn và hàm phần thưởng vừa dễ đánh giá vừa không thể bị đánh lừa
- Ví dụ, làm sao có thể đưa ra phần thưởng khách quan cho việc tóm tắt tài liệu, trả lời một câu hỏi hơi mơ hồ, nói đùa, hay viết lại mã Java sang Python?
  - Con đường hướng tới điều này về nguyên tắc không phải là bất khả thi, nhưng cũng không hề đơn giản và đòi hỏi tư duy sáng tạo
  - Tuy nhiên, ai giải quyết được bài toán này một cách thuyết phục thì sẽ có thể chạy RL thực sự
    - Loại RL đã giúp AlphaGo đánh bại con người trong cờ vây
  - Người giải được bài toán này có thể tạo ra LLM vượt qua con người trong giải quyết vấn đề miền mở

1 bình luận

xguru 2024-08-09

Ý kiến trên Hacker News

Trợ lý lập trình AI sẽ tiến bộ mạnh trong vài năm tới
- Chat AI không có hàm thưởng rõ ràng nên khó đánh giá chất lượng
- AI lập trình có thể chạy vòng lặp vô hạn gồm viết test, viết mã, biên dịch và kiểm tra các test case thất bại
- Quá trình này có thể được dùng làm dữ liệu huấn luyện cho các mô hình AI lập trình trong tương lai
- Các mô hình ngôn ngữ cũng sẽ thể hiện kết quả xuất sắc trong việc chứng minh định lý toán học
- Phần mềm kiểm chứng định lý cung cấp phản hồi chính xác 100%, nhờ đó có thể áp dụng học tăng cường
- Việc kiểm chứng hình thức về tính đúng đắn của chương trình khá nhàm chán, nhưng LLMs có thể thay đổi điều đó
- Engine có thể dùng các chú thích do LLMs tạo ra để chứng minh tính đúng đắn
Một phương pháp DIY rẻ tiền tương tự RLHF là fine-tune mô hình để thêm điểm số vào đầu ra
- RLHF là cần thiết vì không thể viết một hàm loss để tạo ra câu trả lời tốt
- Mô hình nền tạo ra n completion cho một prompt và chúng được chấm điểm thủ công
- Sau đó, các cặp prompt => (completion, điểm số) trở thành tập huấn luyện
- Khi mô hình được huấn luyện xong, chỉ cần đưa điểm số mong muốn vào prompt thì mô hình sẽ cố tạo câu trả lời phù hợp với điểm số đó
Vấn đề nhiều thuật toán ML khác nhau "game" hàm thưởng cũng tương tự các vấn đề trong tài chính và kinh tế
- Khi con người cố kiếm tiền mà không làm việc hiệu quả thì sẽ phát sinh nhiều thứ không tạo ra năng suất
- Để giảm bớt điều này, cần một hệ thống trừng phạt việc "game" hàm thưởng
- Hệ thống đó phải hiểu được giá trị thực và nhận diện những trường hợp hàm thưởng cao nhưng giá trị thấp
Karpathy hiểu chủ đề này tốt hơn nhiều, nhưng bài đăng này vẫn tạo cảm giác còn thiếu điều gì đó
- Go là một trò chơi quá phức tạp để con người giải quyết
- Mục tiêu của LLM là mô phỏng con người một cách hoàn hảo
- AlphaGo và Stockfish có thể thúc đẩy hiểu biết về trò chơi, nhưng LLM không thể mở rộng ranh giới của ngôn ngữ
- Vì LLM về bản chất là mô hình bắt chước, RLHF có ý nghĩa lớn hơn trong lĩnh vực LLM
Tôi tò mò "khoảng cách" giữa LLM dựa trên transformer hiện nay và dự đoán chuỗi tối ưu là gì
- LLM hiện tại có một hàm mục tiêu đơn giản là tối thiểu hóa cross-entropy của dự đoán token trong quá trình huấn luyện
- Solomonoff induction đạt được dự đoán chuỗi tối ưu
- Tôi tự hỏi cuộc trò chuyện giữa SI và GPT4 sẽ khác nhau đến mức nào
- AGI cần nhiều hơn là chỉ dự đoán chuỗi tối ưu
- Hàm mục tiêu lấy con người làm trung tâm là tối đa hóa xác suất đưa ra câu trả lời khiến người dùng hài lòng
- Nhưng vì có nhiều người dùng nên cách tổng hợp là một vấn đề
- Karpathy đang ám chỉ tới vấn đề này
Các lĩnh vực chứng minh như LEAN có trạng thái, hành động, thước đo tiến độ và trạng thái mục tiêu cuối cùng
- Nếu Karpathy tập trung vào việc tự động hóa chứng minh LEAN, điều đó có thể thay đổi toán học mãi mãi
AlphaGo không có phản hồi từ con người, nhưng đã học từ con người
- AlphaZero loại bỏ ảnh hưởng của con người và sử dụng học tăng cường thuần túy
Bài báo SPAG là một ví dụ về học tăng cường thực sự với mô hình ngôn ngữ
- Trong bài đăng của Karpathy còn thiếu yếu tố "quy mô" và "miền mở"
- Các trò chơi ngôn ngữ đối kháng có vẻ đầy hứa hẹn
Kết luận rằng LLM + RL sẽ vượt con người trong giải quyết vấn đề miền mở hiện vẫn thiếu cơ sở

"RLHF chỉ là một phần nhỏ của RL." - Andrej Karpathy

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News