LADDER: Nâng cao năng lực giải quyết vấn đề của LLM thông qua tự cải thiện
-
Giới thiệu LADDER: LADDER là một framework giúp mô hình ngôn ngữ lớn (LLM) tự nâng cao khả năng giải quyết vấn đề bằng cách dần biến đổi các bài toán phức tạp thành những dạng đơn giản hơn. Không cần bộ dữ liệu có sẵn hay phản hồi từ con người, hệ thống tận dụng chính năng lực của mô hình để tạo ra các biến thể bài toán dễ hơn.
-
Hiệu quả: LADDER đã nâng độ chính xác của Llama 3.2 3B trong lĩnh vực tích phân toán học từ 1% lên 82%, đồng thời giúp Qwen2.5 7B Deepseek-R1 Distilled đạt 73% trong vòng loại MIT Integration Bee.
-
Giới thiệu TTRL: TTRL (Test-Time Reinforcement Learning) là phương pháp thực hiện học tăng cường trong lúc suy luận thông qua các biến thể của bài toán kiểm tra. Nhờ đó, Qwen2.5 7B Deepseek-R1 Distilled đạt mức điểm dẫn đầu mới là 90% trong vòng loại MIT Integration Bee, vượt qua hiệu năng của OpenAI o1.
-
Ý nghĩa của kết quả: Những kết quả này cho thấy việc học tập tự chủ và có chiến lược có thể mang lại cải thiện năng lực đáng kể ngay cả khi không cần mở rộng kiến trúc hay giám sát từ con người.
1 bình luận
Ý kiến Hacker News
Tò mò không biết tuần này đang có chuyện gì. Trong hai ngày gần đây tôi đã chứng kiến nhiều đột phá thú vị trong machine learning
Tôi nhớ đến một câu trích dẫn của nhà toán học lý thuyết số nổi tiếng Hendrik Lenstra
Tôi hơi nghi ngờ về cách tiếp cận reinforcement learning ở thời điểm kiểm thử của họ
Họ đã chứng minh hiệu quả của LADDER trên chủ đề tích phân toán học. Nâng độ chính xác của Llama 3.2 3B từ 1% lên 82%
Frank Herbert đã biết điều này. Đây là một cách hiện thực hóa việc tự kiểm tra đệ quy của các mentat được mô tả trong Dune
Huấn luyện/reinforcement learning ở thời điểm kiểm thử là một cách tiếp cận phù hợp cho AI toán học trong tương lai. Đây có thể là một trong số ít cách để sử dụng lượng tính toán khổng lồ cho một bài toán cụ thể. Alphaproof đã làm điều này rồi, nhưng thật tốt khi thấy nó được làm lại và cho kết quả tốt
Hơi lạc đề, nhưng trang web của họ rất đẹp. Cảm giác như vừa tìm thấy một mỏ vàng
Có những cái tên hấp dẫn quá mức
Ở cuối bài báo họ nhắc đến hai bài trong kỳ thi sơ loại MIT Integration Bee 2025. Họ nói hệ thống liên tục đưa ra đáp án sai