1 điểm bởi GN⁺ 2025-03-08 | 1 bình luận | Chia sẻ qua WhatsApp

LADDER: Nâng cao năng lực giải quyết vấn đề của LLM thông qua tự cải thiện

  • Giới thiệu LADDER: LADDER là một framework giúp mô hình ngôn ngữ lớn (LLM) tự nâng cao khả năng giải quyết vấn đề bằng cách dần biến đổi các bài toán phức tạp thành những dạng đơn giản hơn. Không cần bộ dữ liệu có sẵn hay phản hồi từ con người, hệ thống tận dụng chính năng lực của mô hình để tạo ra các biến thể bài toán dễ hơn.

  • Hiệu quả: LADDER đã nâng độ chính xác của Llama 3.2 3B trong lĩnh vực tích phân toán học từ 1% lên 82%, đồng thời giúp Qwen2.5 7B Deepseek-R1 Distilled đạt 73% trong vòng loại MIT Integration Bee.

  • Giới thiệu TTRL: TTRL (Test-Time Reinforcement Learning) là phương pháp thực hiện học tăng cường trong lúc suy luận thông qua các biến thể của bài toán kiểm tra. Nhờ đó, Qwen2.5 7B Deepseek-R1 Distilled đạt mức điểm dẫn đầu mới là 90% trong vòng loại MIT Integration Bee, vượt qua hiệu năng của OpenAI o1.

  • Ý nghĩa của kết quả: Những kết quả này cho thấy việc học tập tự chủ và có chiến lược có thể mang lại cải thiện năng lực đáng kể ngay cả khi không cần mở rộng kiến trúc hay giám sát từ con người.

1 bình luận

 
GN⁺ 2025-03-08
Ý kiến Hacker News
  • Tò mò không biết tuần này đang có chuyện gì. Trong hai ngày gần đây tôi đã chứng kiến nhiều đột phá thú vị trong machine learning

    • Nhóm nghiên cứu của Google phát hiện rằng có thể kết hợp NN và CLA thông qua các cổng logic số. Điều này cho phép rút gọn nhiều bài toán phi tuyến thành các mạch số đơn giản và hiệu quả
    • Các phát hiện mới liên quan đến mạng nơ-ron và logic/trí tuệ vẫn liên tục xuất hiện, khiến tôi tiếp tục hình dung xem chúng ta đã tiến gần đến mức nào trong việc hiểu các nguyên lý của trí tuệ
  • Tôi nhớ đến một câu trích dẫn của nhà toán học lý thuyết số nổi tiếng Hendrik Lenstra

    • Có câu nói rằng: "Với mỗi bài toán không thể giải, luôn có một bài toán đơn giản hơn cũng không thể giải"
  • Tôi hơi nghi ngờ về cách tiếp cận reinforcement learning ở thời điểm kiểm thử của họ

    • TTRL hoạt động bằng cách yêu cầu mô hình ngôn ngữ tạo ra các phiên bản đơn giản hơn của test case. Khi có được bài toán đơn giản, họ thực hiện reinforcement learning trên bài toán đó để cố gắng tăng cường hiệu năng của mô hình đối với bài toán gốc
    • Vấn đề là họ dùng một bộ tích phân số để xác minh bài toán đơn giản. Tôi có thể hình dung các kịch bản trong đó những bài toán gần như không hề đơn giản được tạo ra, và mô hình thực chất có thể được huấn luyện trực tiếp trên test case. Điều đó chẳng khác gì huấn luyện trên test set
    • Phần còn lại của bài báo thì ổn
  • Họ đã chứng minh hiệu quả của LADDER trên chủ đề tích phân toán học. Nâng độ chính xác của Llama 3.2 3B từ 1% lên 82%

    • Bản thân việc phương pháp này hoạt động đã rất thú vị. Đặc biệt thú vị là nó hoạt động tốt với toán học
    • Bài báo này là một phần của xu hướng hiện nay làm mờ ranh giới giữa huấn luyện và suy luận. Một phần phương pháp của họ là phân rã các câu hỏi chưa biết đáp án thành các câu hỏi đơn giản hơn, rồi dùng một 'checker' số để thực hiện GRPO. Mô hình được tăng cường này sau đó có thể trả lời nhiều câu hỏi hơn
    • Tôi nghĩ con người cũng suy nghĩ rất nhiều theo cách này. Suy ngẫm về điều gì đó, xoay đi xoay lại trong đầu, liên tưởng bằng phép loại suy, v.v. Việc bổ sung huấn luyện tại thời điểm kiểm thử là một cách để suy nghĩ nhiều hơn, thay vì chỉ thêm token vào ngữ cảnh cho một quá trình suy luận cố định
    • Cũng như DeepSeek và o1/o3 cho thấy có thể mở rộng năng lực bằng cách sinh và đánh giá token trong thời gian suy luận, có vẻ như cũng có thể mở rộng năng lực bằng fine-tuning tự động trong thời gian suy luận
    • Hy vọng khi các kỹ thuật này trở nên vững chắc hơn, chúng ta sẽ có thể nói và nghĩ về chúng theo những cách mới. Ở một mức độ nào đó, tất cả chúng đều là một phần của cùng một quy trình nền tảng
    • Dù sao thì cũng rất ngầu
  • Frank Herbert đã biết điều này. Đây là một cách hiện thực hóa việc tự kiểm tra đệ quy của các mentat được mô tả trong Dune

  • Huấn luyện/reinforcement learning ở thời điểm kiểm thử là một cách tiếp cận phù hợp cho AI toán học trong tương lai. Đây có thể là một trong số ít cách để sử dụng lượng tính toán khổng lồ cho một bài toán cụ thể. Alphaproof đã làm điều này rồi, nhưng thật tốt khi thấy nó được làm lại và cho kết quả tốt

  • Hơi lạc đề, nhưng trang web của họ rất đẹp. Cảm giác như vừa tìm thấy một mỏ vàng

  • Có những cái tên hấp dẫn quá mức

  • Ở cuối bài báo họ nhắc đến hai bài trong kỳ thi sơ loại MIT Integration Bee 2025. Họ nói hệ thống liên tục đưa ra đáp án sai

    • Họ nói rằng đây là một trong những câu phức tạp nhất của đề thi, nhưng câu đầu tiên chỉ là
    • tính ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • Việc này tương đương tính 1/3 + 1/(34) + 1/(34*5) + ... Không phải toán quá cao siêu