2 điểm bởi GN⁺ 2025-03-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Cách các hành vi nhận thức giúp tạo nên tác nhân suy luận tự cải thiện, hay bốn thói quen của STaRs cực kỳ hiệu quả

  • Suy luận khi kiểm thử: Đây là một mô hình rất mạnh cho phép các mô hình ngôn ngữ suy nghĩ lâu hơn và cẩn trọng hơn về các bài toán phức tạp. Học tăng cường (RL) có thể thúc đẩy khả năng tự cải thiện của mô hình ngôn ngữ trên các tác vụ có thể kiểm chứng, nhưng một số mô hình đạt kết quả rất đáng kể trong khi các mô hình khác nhanh chóng chững lại. Ví dụ, Qwen-2.5-3B vượt trội rõ rệt so với Llama-3.2-3B dưới cùng một chế độ huấn luyện RL.

  • Thuộc tính nội tại: Điều này đặt ra câu hỏi về những thuộc tính nội tại giúp khả năng tự cải thiện hiệu quả trở nên khả thi. Để khảo sát vấn đề này, bài viết giới thiệu một khung phân tích bốn hành vi nhận thức chính: xác minh, quay lui, đặt mục tiêu con và suy luận ngược. Đây là những hành vi được các chuyên gia giải quyết vấn đề ở con người và các mô hình ngôn ngữ thành công sử dụng.

  • Kết quả thực nghiệm: Qwen thể hiện các hành vi suy luận này một cách tự nhiên, trong khi Llama ban đầu còn thiếu. Trong các thí nghiệm có kiểm soát sử dụng bộ dữ liệu hành vi, nhóm nghiên cứu phát hiện rằng nếu chuẩn bị cho Llama bằng các ví dụ có chứa những hành vi suy luận này, mô hình sẽ cải thiện đáng kể trong quá trình RL và đạt hoặc vượt hiệu năng của Qwen.

  • Tầm quan trọng của hành vi suy luận: Yếu tố quan trọng là sự hiện diện của các hành vi suy luận, chứ không phải độ chính xác của đáp án cuối cùng. Một mô hình được chuẩn bị bằng các lời giải sai nhưng có mẫu hình suy luận đúng vẫn đạt hiệu năng tương tự mô hình được huấn luyện bằng các lời giải đúng.

  • Tiền huấn luyện tiếp tục: Thông qua việc lọc dữ liệu OpenWebMath để khuếch đại các hành vi suy luận, mô hình Llama có thể đi theo quỹ đạo tự cải thiện của Qwen. Điều này xác lập mối quan hệ nền tảng giữa các hành vi suy luận ban đầu và năng lực cải thiện, qua đó giải thích vì sao một số mô hình ngôn ngữ có thể tận dụng hiệu quả lượng tính toán bổ sung.

Chưa có bình luận nào.

Chưa có bình luận nào.