- Tiny Recursion Model (TRM) là một mạng nơ-ron quy mô nhỏ chỉ khoảng 7M tham số nhưng vẫn đạt hiệu năng cao: 45% trên ARC-AGI-1 và 8% trên ARC-AGI-2
- Công trình này chứng minh rằng ngay cả khi không phải là mô hình ngôn ngữ lớn, vẫn có thể giải quyết các bài toán khó bằng cách áp dụng phương thức suy luận đệ quy
- Mô hình này đơn giản hóa cấu trúc phức tạp của Hierarchical Reasoning Model (HRM) hiện có, chỉ giữ lại quy trình suy luận đệ quy cốt lõi
- TRM liên tục cải thiện chất lượng câu trả lời bằng một mô hình nhỏ gọn và hiệu quả, không cần mô phỏng não người, các định lý toán học phức tạp hay cấu trúc phân cấp
- Bài báo này nhấn mạnh rằng cách tiếp cận mới quan trọng hơn kích thước mô hình trong việc giải quyết các vấn đề khó
Tổng quan
- Bài báo này đề xuất một mô hình suy luận đệ quy mới mang tên Tiny Recursion Model (TRM)
- Dù chỉ là một mạng nơ-ron rất nhỏ với 7M tham số, TRM vẫn đạt các mức độ chính xác đáng chú ý: 45% trên ARC-AGI-1 và 8% trên ARC-AGI-2
- Mô hình này cho thấy bằng thực nghiệm rằng ngay cả khi không phải là mô hình lớn được các tập đoàn huấn luyện với chi phí hàng triệu đô la, vẫn có thể giải tốt các bài toán phức tạp nhờ suy luận đệ quy hiệu quả
- Trong bối cảnh hiện nay khi ngành công nghiệp đang quá tập trung vào việc ứng dụng LLM, TRM gợi mở rằng hướng đi mới về suy luận và học tập mới là điều quan trọng
Điểm khác biệt so với nghiên cứu trước
- Hierarchical Reasoning Model (HRM) trước đây phụ thuộc nhiều vào logic sinh học, cấu trúc phân cấp phức tạp và các định lý toán học như định lý điểm bất động
- TRM loại bỏ sự phức tạp đó, chỉ giữ lại cơ chế cốt lõi của suy luận đệ quy đã được đơn giản hóa tối đa, giúp cả thiết kế lẫn triển khai trở nên trực quan và đơn giản hơn
- Cốt lõi ở đây là khả năng liên tục nâng cao độ chính xác của câu trả lời thông qua quá trình tự lặp đệ quy, ngay cả khi không dựa vào cấu trúc não người hay nền tảng lý thuyết cầu kỳ
Cách TRM hoạt động
- Mô hình bắt đầu bằng cách nhúng câu hỏi đầu vào x, câu trả lời khởi tạo y và trạng thái ẩn z
- Trong tối đa K bước cải thiện, hai giai đoạn sau được lặp đi lặp lại:
- i) Từ trạng thái hiện tại gồm câu hỏi x, câu trả lời y và trạng thái ẩn z, giá trị ẩn z được cập nhật lặp lại n lần (suy luận đệ quy)
- ii) Từ câu trả lời hiện tại y và trạng thái ẩn z mới, câu trả lời y được cập nhật lại để tạo ra câu trả lời tốt hơn
- Quá trình lặp đệ quy này liên tục cải thiện chất lượng câu trả lời mà không cần tăng số tham số của mô hình, đồng thời giảm rủi ro overfitting
Kết luận
- Nghiên cứu về TRM chứng minh rằng kích thước mô hình không nhất thiết là yếu tố bắt buộc để thành công
- Thực nghiệm cho thấy chỉ với nguyên lý suy luận đệ quy, một mạng nơ-ron quy mô nhỏ vẫn có thể đạt kết quả tiệm cận các mô hình lớn
- Công trình này nhấn mạnh tầm quan trọng của việc phát triển những hướng đi mới hiệu quả và sáng tạo cho nghiên cứu trí tuệ nhân tạo trong tương lai
- Có thể xem chi tiết hơn trong bài báo
1 bình luận
Ý kiến Hacker News
Tôi thực sự khuyên mọi người nên đọc kỹ bài blog của ban tổ chức ARC-AGI về HRM
Với cùng điều kiện data augmentation/“test time training”, Transformer cơ bản cũng cho kết quả gần chạm tới những “thành tích ấn tượng” được báo cáo cho HRM
Có vẻ bài báo này cũng đang so sánh chính nó trên ARC-AGI dưới các điều kiện tương tự
Bản thân tôi cũng muốn đạt được năng lực suy luận tốt với mô hình nhỏ hơn
Nhưng trước hết cần hiểu ARC-AGI đang đánh giá điều gì, thiết lập thông thường dùng để so sánh các LLM thương mại là gì, và các thiết lập đặc thù mà HRM hay bài báo này sử dụng là gì
Tên gọi benchmark có xu hướng tạo ra kỳ vọng quá mức, và tôi thấy điều đó ở cả HRM lẫn bài báo này
Không cần soi bài phân tích HRM quá chi li, và TRM có cấu trúc disentangled hơn so với HRM nên việc ablation dễ hơn nhiều
Tôi nghĩ giá trị thật sự của bài blog HRM từ arcprize là nhấn mạnh tầm quan trọng của kiểm thử ablation
ARC-AGI được thiết kế như một challenge cho mọi loại mô hình
Đã từng giả định rằng phải có năng lực suy luận ở mức LLM thì mới giải được, nhưng có vẻ đó là một hiểu lầm
Tôi muốn hỏi liệu điểm khác biệt có phải là HRM và TRM được huấn luyện chuyên biệt trên bộ dữ liệu nhỏ gồm các mẫu ARC-AGI, còn LLM thì không
Hay bạn đang muốn nhấn mạnh điểm khác biệt nào khác
Chính xác hơn thì đây không hẳn là “Transformer cơ bản”, mà là “kiến trúc kiểu Transformer có cấu trúc recurrent”
Dù vậy đây vẫn là một chủ đề thí nghiệm thú vị
Chắc chắn nó có ưu điểm, nhưng tôi không nghĩ đó thực sự là một Transformer tốt hơn
Mức độ chú ý quá lớn mà nó đang nhận được hiện giờ có phần hơi quá đà
Đọc cái này lại làm tôi nhớ tới sự tương đồng giữa bộ lọc Finite Impulse Response (FIR) (LLM truyền thống) và bộ lọc Infinite Impulse Response (IIR) (mô hình đệ quy)
Không phải phép so sánh quá xuất sắc hay nguyên bản, nhưng với FIR thì để đạt được đặc tính cutoff tương tự thường cần nhiều hệ số hơn IIR rất nhiều
Ví dụ, có thể chuyển IIR thành FIR bằng window design method, khi đó cấu trúc đệ quy được unfold ra và dừng ở độ sâu hữu hạn
Tương tự, nếu unroll TRM thì nó trở thành cấu trúc lặp lại attention+ff block trong kiến trúc LLM truyền thống, chỉ là bỏ global feedback
Hơn nữa, khác với IIR thực thụ, TRM triển khai một cutoff hữu hạn nên về mặt cấu trúc có lẽ nó còn gần FIR/LLM hơn
So sánh TRM với một cấu trúc được unfold tương tự cũng có thể sẽ rất thú vị
Nhưng cũng có thể đây chỉ là ý nghĩ khi thiếu ngủ
Nó xuất phát từ quan sát rằng hidden layer trong phần lớn mô hình deep sequence hiện có hội tụ về một điểm cố định nào đó, nên thay vì thế người ta tìm trực tiếp điểm cố định bằng root finding
Cách tiếp cận này tương đương với việc chạy một mạng feedforward độ sâu vô hạn (weight-tied), đồng thời vẫn có thể backprop bằng implicit differentiation
(liên kết bài báo arXiv)
Điểm thú vị của deep equilibrium model là chỉ với một layer cũng có thể tương đương với mạng deep learning nhiều layer xếp chồng
Chỉ cần có tính đệ quy
Nó tự điều chỉnh số lần lặp tùy theo độ khó của tác vụ
Tôi đã triển khai HRM cho mục đích học tập và đạt hiệu năng tốt trong bài toán tìm đường
Sau đó làm thí nghiệm ablation thì đi tới cùng kết luận như nhóm ARC-AGI (tức là bản thân kiến trúc HRM không đóng vai trò lớn)
Cảm giác hơi đáng tiếc
Tôi nghĩ latent space reasoning vẫn có gì đó đầy tiềm năng
Kho lưu trữ triển khai
Việc tái hiện và chia sẻ kinh nghiệm thực sự rất quan trọng
Tôi tò mò liệu kết quả được nêu trong bài báo arXiv có thực sự mở rộng được không
Nếu điều này cũng đúng trong ứng dụng thực tế thì đúng là mang tính đột phá
Mặt khác, nếu đúng vậy thì cũng khiến người ta tưởng tượng khá thú vị rằng các khoản đầu tư khổng lồ hiện nay vào hạ tầng data center AI có thể trở nên vô nghĩa chỉ trong chốc lát
(dĩ nhiên chắc cũng không lâu đâu)
Khi nói về HRM thì bắt buộc phải tham khảo bài phân tích HRM của arcprize
Bài báo lần này có vẻ là một phiên bản đơn giản hóa của HRM, và dường như cũng tham chiếu trực tiếp nghiên cứu ablation trong bài phân tích đó
Điều quan trọng nữa là HRM không phải kiểu kiến trúc có thể áp dụng rộng rãi như transformer LLM thông thường
Hiện vẫn chưa có bằng chứng rằng HRM hiệu quả cho các công việc generative AI tổng quát
Tôi đang đọc bài báo, nhưng có vẻ kiến trúc lần này cũng phù hợp với các tác vụ tương tự HRM (ví dụ suy luận không gian kiểu ARC-AGI), và vẫn cần được tích hợp vào một kiến trúc đa dụng hơn
Tôi nghĩ trong trường hợp này nghịch lý Jevons (Jevon’s paradox) sẽ xuất hiện
Nếu chi phí AI/điện năng giảm thì nhu cầu sẽ còn tăng cao hơn
Kịch bản bong bóng AI vỡ vì công nghệ AI trở nên quá tốt, hiệu suất tăng đến mức cực đoan, nghe cũng khá hợp lý
Về ý nói đầu tư hạ tầng data center AI có thể trở nên vô nghĩa
Tính toán GPU đâu chỉ dùng cho suy luận văn bản, và đặc biệt nhu cầu tạo video dù có đột phá thì chắc vẫn khó bão hòa trong một thời gian dài
Nếu thực sự đạt được kiểu thành quả đó, ngành này gần như sẽ lập tức áp dụng phương pháp ấy để huấn luyện các mô hình còn lớn hơn và mạnh hơn nữa
“Với 7M tham số, TRM đạt độ chính xác kiểm thử 45% trên ARC-AGI-1 và 8% trên ARC-AGI-2, cao hơn hầu hết các LLM như Deepseek R1, o3-mini, Gemini 2.5 Pro, trong khi số tham số chưa đến 0.01%”
Thật sự rất ấn tượng
Nhân tiện, về mặt cấu trúc nó khiến tôi thấy khá giống Hierarchical Temporal Memory mà Jeff Hawkins đề xuất trong “On Intelligence”
(dĩ nhiên không có đặc tính sparsity, nhưng các yếu tố phân cấp/thời gian thì khá tương đồng)
Wiki HTM, Numenta
Tóm tắt
Hierarchical Reasoning Model (HRM) là một cách tiếp cận mới lạ, vận hành đệ quy hai mạng nơ-ron nhỏ theo các nhịp khác nhau
Lấy cảm hứng từ sinh học, nó vượt qua các LLM lớn trên những bài toán dạng puzzle khó như Sudoku, Maze, ARC-AGI với mô hình nhỏ (27M tham số) cùng lượng dữ liệu nhỏ và ít (khoảng 1000 mẫu)
Kiến trúc này vẫn chưa được hiểu hoàn toàn và hiệu năng có thể chưa phải tối ưu
Chúng tôi đề xuất một cách suy luận đệ quy đơn giản hơn nhiều (TRM, Tiny Recursive Model), và mô hình này cho thấy khả năng tổng quát hóa vượt xa HRM chỉ với một mạng nhỏ 2 layer
Chỉ với 7M tham số, nó vượt qua các LLM lớn (45% trên ARC-AGI-1 và 8% độ chính xác kiểm thử trên ARC-AGI-2, với số tham số chưa đến 0.01%)
Nhưng tôi cũng tự hỏi liệu có giới hạn ẩn nào đó không
Thật thú vị khi thấy recurrence cho kết quả tốt trên các bài toán ARC
Nếu bạn quan tâm tới recurrence, có thể tham khảo thêm các bài báo dưới đây áp dụng mô hình này vào những bài toán khác
Nhìn chung tôi khá thích họ Transformer RNN này
Về bản chất, nó giống như EBM học một energy landscape rồi bị hút về phía lời giải
Cảm giác như đang giải bài toán rời rạc theo hướng dần trở nên convex hơn
Nó gợi nhớ tới neural cellular automata, flow matching/diffusion và những hướng tương tự
Cách làm này cũng có vẻ hứa hẹn cho các bài toán điều khiển
Nó liên tục lăn trong không gian trạng thái và ở mỗi bước chỉ chọn những hành động hợp lệ
Tôi có cảm giác cái này về bản chất chẳng phải chính là Chain-of-Thought (CoT) kiểu neuralese sao
z/z_L được gọi rõ ràng là reasoning embedding, và nó thay đổi hoặc được giữ lại trong quá trình đệ quy để dần tinh chỉnh output embedding (z_H/y)
Có vẻ đúng là một chuỗi suy luận neuralese/chuỗi suy luận thực thụ