Học tăng cường để huấn luyện khả năng tự sửa của mô hình ngôn ngữ
-
Sự cần thiết của tự sửa
- Khả năng tự sửa của mô hình ngôn ngữ lớn (LLM) là một năng lực rất đáng mong muốn, nhưng chưa hiệu quả trong các LLM hiện đại
- Các phương pháp huấn luyện tự sửa trước đây либо cần nhiều mô hình, либо cần một mô hình mạnh hơn hoặc một dạng giám sát khác
-
Cách tiếp cận SCoRe
- SCoRe là một cách tiếp cận học tăng cường (RL) trực tuyến nhiều lượt, sử dụng dữ liệu được tạo hoàn toàn bởi chính mô hình để cải thiện đáng kể khả năng tự sửa của LLM
- Để xây dựng SCoRe, nghiên cứu cho thấy các biến thể tinh chỉnh có giám sát (SFT) trên vết chỉnh sửa do mô hình tạo ra ngoại tuyến là không đủ để đưa hành vi tự sửa vào mô hình
- Huấn luyện bằng SFT gặp vấn đề do sự lệch phân phối giữa dữ liệu huấn luyện và các phản hồi do chính mô hình tạo ra, hoặc do chỉ ưu tiên một số kiểu hành vi sửa nhất định nên không hiệu quả khi kiểm thử
-
Giải pháp của SCoRe
- Huấn luyện trên phân phối các vết chỉnh sửa do chính mô hình tạo ra, đồng thời điều chỉnh quá trình học bằng cách dùng chuẩn hóa phù hợp để mô hình học được các chiến lược tự sửa hiệu quả khi kiểm thử
- Thực thi giai đoạn RL đầu tiên để tạo khởi tạo chính sách, và sử dụng phần thưởng cộng thêm để khuếch đại hành vi tự sửa trong quá trình huấn luyện
-
Kết quả hiệu năng
- Khi áp dụng cho Gemini 1.0 Pro và 1.5 Flash, SCoRe đạt mức cải thiện hiệu năng tự sửa lần lượt 15.6% và 9.1% trên các benchmark MATH và HumanEval
Tóm tắt của GN⁺
- Bài báo này đề xuất một phương pháp giúp cải thiện đáng kể khả năng tự sửa của mô hình ngôn ngữ lớn thông qua học tăng cường
- Cách tiếp cận SCoRe sử dụng dữ liệu do mô hình tự tạo để giải quyết vấn đề lệch phân phối của mô hình và giúp mô hình học các chiến lược sửa hiệu quả khi kiểm thử
- Nghiên cứu này cho thấy mức cải thiện hiệu năng nổi bật, đặc biệt trên các mô hình Gemini
- Khả năng tự sửa là yếu tố quan trọng để nâng cao độ tin cậy và độ chính xác của mô hình ngôn ngữ
- Một dự án có chức năng tương tự là dòng GPT của OpenAI
1 bình luận
Ý kiến trên Hacker News
Đây là cách tiếp cận tương tự mô hình o1 của OpenAI
Answer 1, Reasoning, Corrected Answercùng tín hiệu "hãy cải thiện Corrected Answer" thì có hai cáchReasoning, Corrected AnswerAnswer 1để làm choCorrected Answergiống hệtAnswer 1LLM không có ký ức trực tiếp về quá trình huấn luyện của chính nó
Có câu hỏi liệu đây có phải là một dạng chưng cất tri thức hay không
Có ý kiến cho rằng không thể loại bỏ ảo giác trong mô hình tự hồi quy, theo mô hình dự đoán token kế tiếp
Có sự khó chịu với việc các chuyên gia AI đã phổ biến khái niệm "ảo giác"
Một thuật toán có vẻ thông minh dẫn dắt một bộ dự đoán từ tiếp theo không thông minh thì vẫn chỉ là thuật toán không thông minh