LADDER: LLM tự cải thiện bằng cách phân rã vấn đề đệ quy

(arxiv.org)

1 điểm bởi GN⁺ 2025-03-08 | 1 bình luận | Chia sẻ qua WhatsApp

LADDER là một framework giúp nâng cao khả năng giải quyết vấn đề của LLM mà không cần phản hồi của con người hay dữ liệu được tuyển chọn, bằng cách cho mô hình đi xuống các biến thể dễ hơn của một vấn đề khó rồi quay trở lại
Cốt lõi là tạo ra một độ dốc độ khó tới mức mô hình có thể giải được, và dùng lời giải của các bài toán con có thể kiểm chứng làm bàn đạp để giải các vấn đề khó hơn
Trong tác vụ tích phân toán học, Llama 3.2 3B đã cải thiện độ chính xác ở các bài toán trình độ đại học từ 1% lên 82%, trong khi phần đóng góp cũng ghi giá trị khởi đầu là 2%
Qwen2.5 7B Deepseek-R1 Distilled đạt 73% chỉ với LADDER ở vòng loại MIT Integration Bee, vượt GPT-4o với 42% và mức hiệu năng thông thường của con người là 15–30%
TTRL áp dụng cả biến thể vấn đề và học tăng cường tại thời điểm kiểm thử, nâng độ chính xác trên cùng bài thi từ 73% lên 90% và đạt hiệu năng SOTA cao hơn OpenAI o1

Nút thắt học tập mà LADDER nhắm tới

Học tăng cường có hiệu quả trong huấn luyện LLM, nhưng cần các tác vụ có thể kiểm chứng phù hợp với năng lực hiện tại của mô hình và có thể xác nhận kết quả
Nếu bài toán quá khó so với năng lực của mô hình, quá trình học có thể dừng lại hoặc xảy ra sụp đổ khiến hiệu năng xấu đi
Trong các miền suy luận phức tạp, khoảng cách giữa tác vụ dễ và tác vụ nâng cao thường lớn, nên việc cấu trúc độ khó để có thể học dần dần là rất quan trọng
LADDER bắt đầu từ một vấn đề phức tạp và dùng phân rã vấn đề đệ quy, trong đó mô hình tạo ra nhiều biến thể dễ hơn, rồi mỗi biến thể lại tạo tiếp các biến thể con
Khi đi xuống tới các bài toán mà mô hình có thể giải một cách ổn định, các lời giải đó được dùng làm bàn đạp để giải các biến thể khó hơn

Học tự chủ và điều kiện kiểm chứng

Thay vì dùng bộ dữ liệu hoặc phản hồi do con người tạo ra, hệ thống tạo ra một độ dốc độ khó tự nhiên dựa trên năng lực sẵn có của mô hình
Việc học cần phần thưởng có thể kiểm chứng, và nghiên cứu này dùng tích phân số để xác nhận lời giải
Framework cho phép mô hình tự đánh giá tiến độ và điều chỉnh lộ trình học, nhờ đó có thể áp dụng học tăng cường mà không cần sự can thiệp của con người
Phân rã vấn đề đệ quy và học tự chủ được kết hợp với học tăng cường dựa trên GRPO
Việc tạo biến thể vấn đề và kiểm chứng hoạt động theo cấu trúc chỉ hiệu quả khi có một cơ chế kiểm chứng đáng tin cậy

Benchmark tích phân và kết quả TTRL

Trên benchmark tích phân toán học, LADDER cho thấy mức cải thiện hiệu năng vượt quá những gì có thể đạt được bằng lấy mẫu pass@k tiêu chuẩn
Llama 3.2 3B đạt độ chính xác tới 82% trên các bài toán tích phân trình độ đại học
- Phần tóm tắt ghi độ chính xác ban đầu là 1%
- Phần đóng góp ghi độ chính xác ban đầu là 2%
Qwen2.5 7B Deepseek-R1 Distilled đạt độ chính xác 73% sau khi áp dụng LADDER ở vòng loại MIT Integration Bee 2025
- GPT-4o là 42%
- Hiệu năng thông thường của con người là 15–30%
TTRL(Test-Time Reinforcement Learning) là một quá trình vi học tập tạo động các biến thể vấn đề tại thời điểm kiểm thử và áp dụng học tăng cường cho từng instance kiểm thử
TTRL cũng tận dụng cơ chế kiểm chứng dùng trong huấn luyện ở thời điểm suy luận để tinh chỉnh lời giải hơn nữa
Tại MIT Integration Bee, TTRL nâng kết quả 73% khi chỉ dùng LADDER lên 90%, đạt hiệu năng SOTA cao hơn OpenAI o1
Kết quả này cho thấy chỉ với phân rã vấn đề có chiến lược và tự học dựa trên kiểm chứng, không cần mở rộng kiến trúc hay giám sát của con người, vẫn có thể tạo ra mức cải thiện hiệu năng lớn

1 bình luận

GN⁺ 2025-03-08

Ý kiến trên Hacker News

Thật lạ là tuần này lại thấy nhiều đột phá ML đến vậy
Chỉ trong hai ngày qua tôi đã thấy ít nhất 3 kết quả thú vị và đầy tiềm năng, còn nhóm nghiên cứu của Google thì cho thấy có thể kết hợp mạng nơ-ron và CLA thông qua các cổng logic số
Vì thế thậm chí còn có khả năng rút gọn nhiều bài toán phi tuyến thành các mạch số đơn giản và hiệu quả; hôm nay nó cũng đã lên trang nhất HN: https://news.ycombinator.com/item?id=43286161
Khi liên tục xuất hiện những kết quả gây đau đầu về mạng nơ-ron, logic và trí tuệ nói chung, người ta bắt đầu tưởng tượng rằng thời điểm thật sự hiểu trí tuệ hoạt động như thế nào từ các nguyên lý đầu tiên đã gần đến mức nào
- Những thứ như thế này trong khoảng một năm qua gần như là bí quyết mà mọi người vẫn giấu kín
  Sau khi DeepSeek công bố mã nguồn mở, giá trị của chúng đã giảm đi nhiều, và có vẻ các công ty đang chọn cách đổi lấy danh tiếng trước khi bị ai đó đi trước
  Tôi đã làm đúng điều tương tự bằng cách fine-tune Llama 2 vào tháng 9/2023, nhưng không được phê duyệt để chia sẻ với bất kỳ ai
- Thật thú vị khi thấy nhiều cách tiếp cận mới trong AI/ML sau khi ngành cuối cùng cũng nhận ra rằng chỉ scaling một cách ngây thơ sẽ không đưa ta tới AGI
  Điều hay là các bên nhỏ hơn cũng có thể cạnh tranh và đóng góp bằng đổi mới thực sự, trái ngược với bầu không khí mà các ông lớn như OpenAI/MS đã cố khiến mọi người tin suốt nhiều năm rằng mã nguồn mở tuyệt đối không thể bắt kịp
  Trong vài năm qua đã lãng phí quá nhiều tài nguyên, thời gian và tiền bạc vào việc mở rộng thuần túy tính toán GPU
  Gary Marcus đã chỉ ra điều này từ vài năm trước, và kết quả đáng thất vọng của GPT-4.5, vốn được huấn luyện khoảng 2 năm, trông như một bằng chứng
- Hiện giờ giống như một vườn cây ăn quả mới đầy trái ở tầm thấp
  Bất kể ích lợi cuối cùng ra sao, nó hào nhoáng, có nhiều thổi phồng, rất đáng kinh ngạc, và khó theo kịp dòng tiền đang đổ vào
  Vì vậy một phần đáng kể những người giỏi nhất đã quan tâm, và tự nhiên các nỗ lực tạo đột phá đang đổ dồn vào đây
- Đột phá LLM đang dần giống như các đột phá pin mới
  Chỉ là hiện ta vẫn thiếu khả năng định lượng các đánh đổi
- Có vẻ liên quan đến việc các hội nghị quan trọng sắp bắt đầu nhận bài
  Một số hội nghị cấm công bố preprint trong vài tuần trước khi nộp, nên có thể mọi người đã vội tải lên
Điều này làm tôi nhớ đến câu nói của nhà toán học lý thuyết số nổi tiếng Hendrik Lenstra: “Với mọi bài toán không thể giải, luôn có một bài toán đơn giản hơn cũng không thể giải”
- Tôi tò mò không biết trích dẫn này có thật không
  Tôi quen với câu của George Pólya: “Nếu bạn không thể giải bài toán đã cho, trước hết hãy thử giải một bài toán liên quan đơn giản hơn”, nhưng không tìm được nguồn của câu trích Lenstra
- Cách này không quy nạp đẹp được
  Trừ khi đó là một câu nói nhằm xúc phạm
Cách tiếp cận học tăng cường tại thời điểm kiểm thử của họ trông hơi đáng ngờ
Theo tôi hiểu, TTRL để mô hình ngôn ngữ tạo ra các phiên bản dễ hơn của ca kiểm thử, rồi chạy học tăng cường trên các bài toán đã được đơn giản hóa đó với hy vọng hiệu năng trên bài toán gốc cũng tốt hơn
Vấn đề là họ dùng bộ tích phân số khi kiểm chứng bài toán đơn giản hóa
Hoàn toàn có thể hình dung rằng các bài toán được tạo ra gần như không khác bài gốc, và mô hình học gần sát ca kiểm thử trong trạng thái đã biết đáp án
Trông giống như học trên tập kiểm thử, dù phần còn lại của bài báo thì ổn
- Tôi nghĩ nhiệm vụ mà mô hình giải là tích phân ký hiệu
  Đây là loại bài toán khó giải ngay cả khi mô hình có thể dùng công cụ tích phân số cho chính bài toán gốc
LADDER đã cho thấy hiệu quả trong tích phân toán học, và được nói là đã nâng độ chính xác của Llama 3.2 3B trên các bài toán trình độ đại học từ 1% lên 82%
- Cũng cần tính đến việc các hệ thống viết lại hạng tử hiện đại có hiệu năng rất tốt trong tích phân ký hiệu: https://rulebasedintegration.org/
Frank Herbert đã biết điều này rồi
Về cơ bản, đây gần như là một hiện thực hóa tự kiểm tra đệ quy của Mentat trong Dune
Học/học tăng cường tại thời điểm kiểm thử chắc chắn có vẻ là cách tiếp cận phù hợp cho AI toán học trong tương lai
Đây là một trong số ít cách có thể đổ một lượng tài nguyên tính toán phi lý vào một bài toán cụ thể, chẳng hạn 10^5 GPU trong vài ngày, và vẫn có thể kỳ vọng tiến bộ ngay cả khi việc mở rộng suy luận tại thời điểm kiểm thử ban đầu không hiệu quả lắm
Có thể hình dung, chẳng hạn, việc chạy MCTS trên một thế cờ vây với mạng giá trị/chính sách kém
AlphaProof đã làm những việc như vậy rồi, nhưng thật vui khi lại thấy kết quả tốt
- Điểm thú vị là có thể chưng cất hiệu năng được cải thiện này vào một LLM kích thước nhỏ đến mức nào
  Khi đó ta sẽ có một bộ cải thiện chính sách, tức học tăng cường tại thời điểm kiểm thử cho các bài toán tương tự, qua đó mô phỏng tốt hơn cách AlphaZero hoạt động
  Và cũng có thể thấy về mặt lý thuyết một mạng nơ-ron nhỏ như 32B có thể mạnh đến đâu
Để tham khảo, đội ngũ Tufa Labs có bao gồm nhóm MindsAI, được biết đến nhờ ARC-AGI
https://tufalabs.ai/team.html
Có những cái tên quá hấp dẫn: https://arxiv.org/abs/1507.02672
Ở cuối bài báo, họ nhắc đến hai bài vòng loại 2025 MIT Integration Bee mà hệ thống liên tục làm sai
Họ nói đó là những trục phức tạp nhất trong kỳ thi, nhưng bài đầu tiên chỉ là ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx, và rốt cuộc chỉ cần tính 1/3 + 1/(34) + 1/(34*5) + ...
Vì vậy khó có thể xem đó là toán rất cao cấp
- Dù sao thì đó cũng là mô hình 7B
  Bài toán không cao cấp, nhưng mô hình cũng không cao cấp lắm
Việc thứ này hoạt động dù chỉ một chút thôi cũng đã khá thú vị, và việc nó dường như hoạt động rất tốt trong toán học còn thú vị hơn
Tuy nhiên bài báo này là một phần của xu hướng đang diễn ra về làm mờ ranh giới giữa huấn luyện và suy luận
Một phần phương pháp là phân rã các câu hỏi chưa biết đáp án thành các câu hỏi dễ hơn, rồi dùng GRPO với bộ kiểm tra số để học tăng cường trên các câu hỏi đó
Mô hình được tăng cường như vậy sẽ có thể trả lời nhiều câu hỏi hơn
Tôi thích cách tiếp cận này
Con người cũng thường làm rất nhiều việc kiểu như nghiền ngẫm điều gì đó, lật qua lật lại trong đầu và suy luận bằng tương tự
Nếu thêm học tại thời điểm kiểm thử, ta có thể suy nghĩ nhiều hơn rất nhiều so với suy luận cố định bằng cách chỉ nối thêm token vào ngữ cảnh
Cũng như DeepSeek và o1/o3 đã cho thấy có thể tăng năng lực bằng cách sinh và đánh giá token ở thời điểm suy luận, có vẻ cũng có thể tăng năng lực bằng fine-tune tự động ở thời điểm suy luận
Tôi hy vọng khi các kỹ thuật này định hình, chúng ta sẽ có những cách mới để nói và nghĩ về chúng
Ở một mức nào đó, tất cả dường như là một phần của cùng một quá trình nền tảng, và dù sao thì điều đó thật sự rất tuyệt

LADDER: LLM tự cải thiện bằng cách phân rã vấn đề đệ quy

Nút thắt học tập mà LADDER nhắm tới

Học tự chủ và điều kiện kiểm chứng

Benchmark tích phân và kết quả TTRL

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News