2 điểm bởi GN⁺ 2024-09-22 | 1 bình luận | Chia sẻ qua WhatsApp

Học tăng cường để huấn luyện khả năng tự sửa của mô hình ngôn ngữ

  • Sự cần thiết của tự sửa

    • Khả năng tự sửa của mô hình ngôn ngữ lớn (LLM) là một năng lực rất đáng mong muốn, nhưng chưa hiệu quả trong các LLM hiện đại
    • Các phương pháp huấn luyện tự sửa trước đây либо cần nhiều mô hình, либо cần một mô hình mạnh hơn hoặc một dạng giám sát khác
  • Cách tiếp cận SCoRe

    • SCoRe là một cách tiếp cận học tăng cường (RL) trực tuyến nhiều lượt, sử dụng dữ liệu được tạo hoàn toàn bởi chính mô hình để cải thiện đáng kể khả năng tự sửa của LLM
    • Để xây dựng SCoRe, nghiên cứu cho thấy các biến thể tinh chỉnh có giám sát (SFT) trên vết chỉnh sửa do mô hình tạo ra ngoại tuyến là không đủ để đưa hành vi tự sửa vào mô hình
    • Huấn luyện bằng SFT gặp vấn đề do sự lệch phân phối giữa dữ liệu huấn luyện và các phản hồi do chính mô hình tạo ra, hoặc do chỉ ưu tiên một số kiểu hành vi sửa nhất định nên không hiệu quả khi kiểm thử
  • Giải pháp của SCoRe

    • Huấn luyện trên phân phối các vết chỉnh sửa do chính mô hình tạo ra, đồng thời điều chỉnh quá trình học bằng cách dùng chuẩn hóa phù hợp để mô hình học được các chiến lược tự sửa hiệu quả khi kiểm thử
    • Thực thi giai đoạn RL đầu tiên để tạo khởi tạo chính sách, và sử dụng phần thưởng cộng thêm để khuếch đại hành vi tự sửa trong quá trình huấn luyện
  • Kết quả hiệu năng

    • Khi áp dụng cho Gemini 1.0 Pro và 1.5 Flash, SCoRe đạt mức cải thiện hiệu năng tự sửa lần lượt 15.6% và 9.1% trên các benchmark MATH và HumanEval

Tóm tắt của GN⁺

  • Bài báo này đề xuất một phương pháp giúp cải thiện đáng kể khả năng tự sửa của mô hình ngôn ngữ lớn thông qua học tăng cường
  • Cách tiếp cận SCoRe sử dụng dữ liệu do mô hình tự tạo để giải quyết vấn đề lệch phân phối của mô hình và giúp mô hình học các chiến lược sửa hiệu quả khi kiểm thử
  • Nghiên cứu này cho thấy mức cải thiện hiệu năng nổi bật, đặc biệt trên các mô hình Gemini
  • Khả năng tự sửa là yếu tố quan trọng để nâng cao độ tin cậy và độ chính xác của mô hình ngôn ngữ
  • Một dự án có chức năng tương tự là dòng GPT của OpenAI

1 bình luận

 
GN⁺ 2024-09-22
Ý kiến trên Hacker News
  • Đây là cách tiếp cận tương tự mô hình o1 của OpenAI

    • Trong bài báo không có đề cập đến việc công khai trọng số
    • Bài báo diễn giải vòng vo thay vì giải thích trực tiếp chủ đề nên khá khó hiểu
    • Có một giả thuyết cho rằng có thể huấn luyện hành vi "tự sửa" để tăng tỷ lệ trả lời đúng của LLM với các bài toán khó
    • Đã thử huấn luyện hành vi này bằng nhiều kỹ thuật học tăng cường khác nhau nhưng không hoạt động tốt
    • Lập luận của bài báo là khi mô hình nhận Answer 1, Reasoning, Corrected Answer cùng tín hiệu "hãy cải thiện Corrected Answer" thì có hai cách
      • Cải thiện Reasoning, Corrected Answer
      • Cải thiện Answer 1 để làm cho Corrected Answer giống hệt Answer 1
    • Các nghiên cứu trước cho thấy cách thứ hai chủ yếu xảy ra, nên đã thất bại trong việc huấn luyện hành vi mong muốn
    • Bài báo điều chỉnh nhẹ phương pháp huấn luyện để dẫn mô hình đến cách thứ nhất
    • Ở giai đoạn đầu, mô hình bị buộc phải giữ nguyên câu trả lời đầu tiên và cải thiện câu trả lời thứ hai thông qua mất mát phân kỳ KL
    • Ở giai đoạn thứ hai, có thể thay đổi câu trả lời đầu tiên, nhưng hàm thưởng được điều chỉnh để thưởng cao hơn cho các "flips"
    • Cách này cải thiện mô hình nói chung đồng thời vẫn giữ được hành vi tự sửa
    • Có lo ngại rằng ở giai đoạn 2, mô hình sẽ cố tình viết câu trả lời đầu tiên tệ hơn để tối đa hóa phần thưởng
  • LLM không có ký ức trực tiếp về quá trình huấn luyện của chính nó

    • Con người trước khi nói điều mình biết sẽ kiểm tra mình biết điều đó như thế nào/tại sao
    • LLM không nhớ quá trình huấn luyện nên việc tự sửa là khó
  • Có câu hỏi liệu đây có phải là một dạng chưng cất tri thức hay không

  • Có ý kiến cho rằng không thể loại bỏ ảo giác trong mô hình tự hồi quy, theo mô hình dự đoán token kế tiếp

    • Vấn đề nằm ở việc cố dùng mô hình ngôn ngữ như một bộ giải bài toán mang tính quyết định
  • Có sự khó chịu với việc các chuyên gia AI đã phổ biến khái niệm "ảo giác"

    • Nó khiến AI trông như thể có quá trình suy nghĩ sâu sắc
    • AI chỉ đơn giản là tạo đầu ra dựa trên dữ liệu
    • Nếu một endpoint JSON API xuất ra dữ liệu sai, người ta sẽ nói "API này bị hỏng"
  • Một thuật toán có vẻ thông minh dẫn dắt một bộ dự đoán từ tiếp theo không thông minh thì vẫn chỉ là thuật toán không thông minh

    • Nó phân loại rác thanh nhã hơn nhưng vẫn là rác
    • Từng hy vọng cách tiếp cận học tăng cường sẽ thay thế cách tiếp cận transformer, nhưng rốt cuộc đó chỉ là mơ tưởng