LoPE: thêm văn bản Latin ngẫu nhiên vào đầu có thể cải thiện suy luận của LLM! (bài báo arXiv)
(dev.to)LoPE là một kỹ thuật chèn Lorem ipsum dolor sit amet ... vào trước prompt trong quá trình huấn luyện RL. Cách này giải quyết vấn đề "zero-advantage", khi mọi mẫu đều thất bại ở các bài toán khó khiến tín hiệu học bằng 0.
Kết quả chính:
- Trung bình +4.62 điểm trên benchmark toán học với Qwen3-4B
- Cải thiện hiệu năng tương đối 22% trên AMC 2023
- Là phương pháp duy nhất vượt qua 50 bài toán khó mà tất cả phương pháp trước đó đều thất bại
Điểm đáng đọc
Lý do vì sao kiểu "văn bản trông như ngôn ngữ nhưng vô nghĩa" dựa trên tiếng Latin lại hiệu quả, cùng cơ chế nó làm nhiễu quỹ đạo suy luận mặc định của mô hình để đảm bảo tính đa dạng trong quá trình khám phá, là điều rất thú vị.
13 bình luận
“Cú số 158, làm được không?”
“… thưa huấn luyện viên, với tôi thì quá…”
“Lorem ipsum! Làm được không?”
“A!!! Làm được ạ!”
Á hahahahahahahahaha
hahahaha
🤣🤣🤣🤣 Cười bể bụng luôn
Có lẽ cũng có thể diễn giải rằng các mô hình hiện tại đang bị học quá khớp, và vì vậy vẫn còn dư địa để tiếp tục giảm dung lượng mô hình hơn nữa.
Thú vị thật. Tức là thêm vào những câu mà mô hình có thể bỏ qua như một kiểu seed, để khi sampling thì mở rộng không gian khám phá.
Đúng vậy. Việc nó đưa ra một góc nhìn mới không ai ngờ tới, lại còn thực sự cải thiện hiệu năng, vừa thú vị vừa hấp dẫn.
Hóa ra cảm giác kiểu viết prompt sai chính tả như điên mà hiệu năng lại tăng không phải là ảo giác nhỉ
kkkk, sao mọi người ai cũng hài hước thế này
Nguyên lý thì có vẻ hợp lý nhưng vẫn thật kỳ lạ. Tại sao hiệu năng lại không giảm mà còn tăng lên nhỉ?
Theo tôi, có lẽ điều này hơi giống với con người: khi giải một bài toán khó, đôi lúc việc “khơi lại dòng suy nghĩ” rồi nghĩ lại từ đầu có thể giúp tìm ra lời giải. Chỉ là suy nghĩ cá nhân của tôi thôi, haha
Điều mình tò mò là nếu tận dụng cái đó thì liệu trong việc học thông thường cũng có thể cho ra kết quả có ý nghĩa không nhỉ?? Hồi hộp quá..
Tôi cũng muốn thử một lần xem sao. ^^
Trước đây cũng từng có kết quả nghiên cứu cho thấy nếu đưa cùng một prompt vào lặp lại 2 lần (dù vô nghĩa) thì kết quả sẽ tốt hơn. Kiểu như cảm giác nhắc đi nhắc lại thêm một lần vậy.. Tôi cũng đã viết trong phần bình luận cho bài của aliverornot, nhưng có vẻ chuyện này đóng vai trò khơi gợi lại suy nghĩ. Cũng hơi giống việc các nhà toán học khi gặp một bài toán khó thì tạm đặt bút xuống rồi đi dạo một chút.. haha