LoPE: Thêm văn bản Latin ngẫu nhiên vào đầu giúp cải thiện suy luận của LLM! (bài báo arXiv)
(dev.to)LoPE: Thêm văn bản Latin ngẫu nhiên vào đầu giúp cải thiện suy luận của LLM (bài báo arXiv)
Tóm tắt chính
LoPE là kỹ thuật chèn Lorem ipsum dolor sit amet ... vào trước prompt trong quá trình huấn luyện RL. Nó giải quyết vấn đề "zero-advantage", khi mọi mẫu đều thất bại ở các bài toán khó khiến tín hiệu học bằng 0.
Kết quả chính:
- Trung bình +4.62 điểm trên các benchmark toán học với Qwen3-4B
- Cải thiện hiệu năng tương đối 22% trên AMC 2023
- Là phương pháp duy nhất vượt qua 50 bài toán khó mà tất cả phương pháp trước đó đều thất bại
Điểm đáng đọc
Lý do văn bản dựa trên tiếng Latin, "trông giống ngôn ngữ nhưng vô nghĩa", lại hiệu quả và cơ chế nó làm nhiễu quỹ đạo suy luận mặc định của mô hình để đảm bảo tính đa dạng trong khám phá là điểm rất thú vị.
Chưa có bình luận nào.