Mô hình suy luận phân cấp

(arxiv.org)

6 điểm bởi GN⁺ 2025-07-28 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình suy luận phân cấp (Hierarchical Reasoning Model, HRM) vượt qua các giới hạn của kỹ thuật Chain-of-Thought dựa trên LLM hiện nay trong quá trình thực thi hành vi định hướng mục tiêu phức tạp của AI, như phân rã tác vụ kém ổn định, đòi hỏi nhiều dữ liệu và độ trễ cao
Lấy cảm hứng từ khái niệm xử lý phân cấp của não người, HRM giới thiệu một cấu trúc hồi quy mới gồm mô-đun cấp cao phụ trách lập kế hoạch trừu tượng bậc cao và mô-đun cấp thấp xử lý nhanh các phép toán chi tiết
HRM cho thấy hiệu năng vượt trội trên các bài toán suy luận độ khó cao chỉ với khoảng 27 triệu tham số và 1.000 mẫu huấn luyện
Không cần tiền huấn luyện hay dữ liệu Chain-of-Thought, mô hình vẫn đạt độ chính xác gần như hoàn hảo trong các bài toán như Sudoku phức tạp và tìm đường tối ưu trong mê cung lớn
HRM cho thấy hiệu quả và hiệu năng cao hơn so với các mô hình lớn hiện có, đồng thời gợi mở khả năng trở thành bước ngoặt cho điện toán đa dụng và các hệ thống trí tuệ tổng quát

Tổng quan

Trong lĩnh vực AI, suy luận (reasoning) là một bài toán quan trọng trong quá trình thiết kế và thực thi hành vi định hướng mục tiêu phức tạp. Các mô hình ngôn ngữ lớn (LLM) hiện nay chủ yếu sử dụng kỹ thuật Chain-of-Thought (CoT), nhưng cách này có những hạn chế như phân rã tác vụ mong manh, yêu cầu nhiều dữ liệu và độ trễ cao.

Dựa trên cấu trúc xử lý phân cấp và đa thang thời gian của não người, Hierarchical Reasoning Model (HRM) được đề xuất
HRM gồm hai mô-đun hồi quy phụ thuộc lẫn nhau (cấp cao/cấp thấp), thực hiện suy luận tuần tự trong một lượt truyền tiến duy nhất mà không cần giám sát tường minh cho các bước trung gian
Với 27 triệu tham số, mô hình đạt hiệu năng hàng đầu khi chỉ sử dụng 1.000 mẫu

Giới hạn cấu trúc của deep learning và LLM hiện nay

Deep learning khởi đầu từ cách tăng năng lực biểu đạt bằng cách xếp chồng độ sâu mạng, nhưng trên thực tế LLM dựa trên Transformer có cấu trúc nông, nên có giới hạn về độ sâu
Transformer với độ sâu cố định chịu ràng buộc căn bản về độ phức tạp tính toán trong các bài toán suy luận logic phức tạp hoặc bài toán thuật toán
Chain-of-Thought phụ thuộc vào việc phân rã từng bước bằng ngôn ngữ do con người trực tiếp xác định, nên chỉ cần sai sót hoặc sai thứ tự là toàn bộ quá trình suy luận có thể sụp đổ dễ dàng
CoT cũng gây ra các vấn đề như cần nhiều dữ liệu, sinh nhiều token và hoạt động chậm

Nguyên lý thiết kế của HRM

Được thiết kế bằng cách mô phỏng xử lý phân cấp và đa thang thời gian của não người

Xử lý phân cấp: não bộ xử lý thông tin theo từng vùng trên-dưới theo cách phân cấp và tách biệt về thời gian
Tách biệt thang thời gian: vùng cấp cao hoạt động chậm, vùng cấp thấp hoạt động nhanh, nhờ đó cho phép điều phối hiệu quả
Kết nối hồi quy: hiện thực suy luận sâu bằng cách tinh chỉnh biểu diễn nội bộ thông qua phản hồi ngược lặp đi lặp lại

Kiến trúc mô hình HRM

Gồm mạng đầu vào, mô-đun hồi quy cấp thấp, mô-đun hồi quy cấp cao và mạng đầu ra
Đầu vào được nhúng thành vector
Mô-đun cấp thấp được cập nhật nhiều lần dựa trên trạng thái trước đó của chính nó, trạng thái hiện tại của mô-đun cấp cao và đầu vào
Mô-đun cấp cao chỉ được cập nhật một lần vào cuối mỗi cycle, sau khi nhận trạng thái cuối cùng của mô-đun cấp thấp
Ở bước cuối, mô hình tạo ra giá trị dự đoán từ trạng thái của mô-đun cấp cao

Cơ chế hội tụ phân cấp (hierarchical convergence)

RNN truyền thống hội tụ quá nhanh, khiến các phép tính bổ sung trở nên vô nghĩa
HRM cho mô-đun RNN cấp thấp hội tụ ổn định đến điểm cân bằng cục bộ trong mỗi cycle, sau đó mô-đun cấp cao cung cấp ngữ cảnh mới để mô-đun cấp thấp khởi động lại
Nhờ cấu trúc hội tụ phân cấp, mô hình có thể thực hiện phép tính sâu (nhiều bước), đồng thời tốc độ hội tụ cũng được kiểm soát phù hợp

Huấn luyện gradient xấp xỉ 1 bước

Nếu phụ thuộc vào BPTT (Backpropagation Through Time), cần lưu trạng thái của nhiều bước nên gánh nặng bộ nhớ rất lớn
HRM học bằng cách xấp xỉ gradient chỉ từ trạng thái cuối cùng ở mỗi mô-đun cấp cao/cấp thấp, nhờ đó duy trì mức dùng bộ nhớ O(1) và hiện thực hóa một cách làm gần với sinh học hơn
Về mặt toán học, cách này dựa trên nguyên lý của Deep Equilibrium Model (DEQ)

Deep supervision & Adaptive Computation Time (ACT)

Deep supervision

Cung cấp phản hồi theo chu kỳ, tạo đầu ra ở mỗi forward pass (segment) và tính riêng loss huấn luyện của từng segment
Khi chuyển sang segment tiếp theo, trạng thái được tách khỏi đồ thị (detach) để tăng độ ổn định và hiệu năng của cấu trúc hồi quy sâu

Adaptive Computation Time (ACT)

Áp dụng nguyên lý chuyển đổi giữa tư duy tự động và tư duy có chủ đích của con người, từ đó dùng Q-learning để quyết định động số lần lặp segment dựa trên học tập
Q-head dự đoán Q-value cho hành động halt/continue ở mỗi segment
Q-learning tính tổng loss bằng cách đồng thời xét đến độ chính xác dự đoán và điểm dừng tối ưu

Hiệu năng và đặc điểm kiến trúc

Trong các bài toán như Sudoku-Extreme (9x9), mê cung lớn (30x30) mà các mô hình dùng CoT trước đây thất bại, HRM vẫn giải gần như hoàn hảo chỉ với khoảng 1.000 mẫu dữ liệu
Trên benchmark ARC-AGI (Abstraction and Reasoning Corpus), mô hình đạt 40,3% chỉ với 27M tham số (o3-mini-high dựa trên CoT đạt 34,5%, Claude 3.7 8K đạt 21,2%)
Chỉ cần tăng lượng tính toán (steps) ở giai đoạn inference là có thể cải thiện thêm hiệu năng mà không cần chỉnh sửa thêm kiến trúc hay huấn luyện lại, qua đó tận dụng trực tiếp tài nguyên tính toán
Quảng cáo
HRM nội bộ sử dụng cấu trúc sequence-to-sequence dựa trên Transformer, trong đó
- sau tầng embedding, cả mô-đun cấp thấp và cấp cao đều dùng các khối Transformer encoder-only
- áp dụng các thành phần phổ biến của LLM hiện đại như Rotary Positional Encoding, Gated Linear Units, RMSNorm
- tham số dùng cách khởi tạo truncated LeCun Normal, cùng optimizer Adam-atan2 và learning rate cố định

Kết luận

HRM, với cấu trúc hồi quy phân cấp lấy cảm hứng sinh học và phương pháp học hiệu quả, chuyên sâu, đã chứng minh năng lực suy luận đa dụng vượt trội so với cách tiếp cận hiện có ngay cả khi chỉ dùng ít dữ liệu và ít tham số
Đây là một ví dụ quan trọng cho thấy khả năng phát triển hướng tới các hệ thống điện toán và trí tuệ đa dụng vượt qua giới hạn độ sâu của deep learning/LLM

1 bình luận

GN⁺ 2025-07-28

Ý kiến trên Hacker News

Khi chỉ lướt qua phần tóm tắt và mở đầu, kết quả của mô hình suy luận phân cấp (HRM) thực sự trông rất đáng kinh ngạc
- Điều ấn tượng là chỉ với 1.000 ví dụ đầu vào-đầu ra, không cần tiền huấn luyện hay giám sát Chain-of-Thought (CoT), HRM vẫn giải được những bài toán mà ngay cả các LLM tối tân hiện nay cũng không xử lý nổi
- Ví dụ, nó đạt độ chính xác gần như hoàn hảo ở Sudoku phức tạp (Extreme Full) và bài toán tìm đường đi tối ưu trong mê cung 30x30 (trong khi cách CoT dừng ở mức 0% độ chính xác)
- Ở thử thách ARC AGI (Abstraction and Reasoning Corpus), HRM với 27M tham số và lưới 30x30 (900 token) đạt 40,3%, vượt qua các mô hình lớn hơn nhiều như o3-mini-high, Claude 3.7 8K
- Tôi định sẽ đọc kỹ bài báo này
Việc một mô hình 27M tham số được huấn luyện "từ đầu" chỉ với 1.000 điểm dữ liệu khiến tôi rất nghi ngờ
- Tôi cũng không hiểu vì sao họ không so sánh với các mô hình khác được huấn luyện trong cùng điều kiện (chuẩn bị dữ liệu giống nhau)
- Thay vào đó, họ chỉ so với các LLM bên ngoài mang tính tổng quát, trong khi các LLM đó có thể chưa từng dùng 1.000 ví dụ kia để huấn luyện
- Cách tiếp cận này khiến tôi có cảm giác bị overfit
Đúng vậy!
- HRM sử dụng hai mô-đun hồi quy phụ thuộc lẫn nhau (mô-đun cấp cao: lập kế hoạch trừu tượng và chậm; mô-đun cấp thấp: thao tác nhanh và chi tiết)
- Nhờ cấu trúc này, HRM có khả năng tính toán sâu dù chỉ có ít tham số (27 triệu) và tập dữ liệu nhỏ (~1.000 ví dụ)
- HRM vượt qua các mô hình CoT hiện đại trên những benchmark khó như Extreme Sudoku, Maze-Hard, ARC-AGI
- Chẳng hạn, nó đạt 96% ở Sudoku và 40,3% trên ARC-AGI-2, vượt cả các mô hình lớn như Claude 3.7, DeepSeek R1
- Cần có lời giải thích cho việc những kết quả này xuất hiện như thế nào... tôi chắc phải tự chạy thử trên máy mới được
"Sau khi giai đoạn T kết thúc, mô-đun cấp cao (mô-đun H) nhận trạng thái kết quả từ mô-đun cấp thấp để cập nhật; khi đó nó khởi động lại đường tính toán của mô-đun cấp thấp và dẫn tới một giai đoạn hội tụ mới"
- Khi RNN cấp thấp hoàn tất tính toán, mô-đun cấp cao sẽ đánh giá kết quả, cung cấp ngữ cảnh mới cho RNN cấp thấp rồi lặp lại vòng này
- RNN cấp thấp thực hiện học backpropagation lặp đi lặp lại, còn mô-đun cấp cao can thiệp định kỳ để điều chỉnh cho tới khi đầu ra tốt hơn
- "Bằng chứng khoa học thần kinh cho thấy các chế độ nhận thức như vậy chia sẻ cùng những mạch thần kinh như vỏ não trước trán, mạng chế độ mặc định. Nói cách khác, não bộ điều chỉnh động 'thời gian chạy' của mạch này tùy theo độ phức tạp của nhiệm vụ và khả năng phần thưởng"
- Các tác giả đã đưa vào HRM chiến lược 'dừng thích ứng' lấy cảm hứng từ cơ chế này của não bộ, tức áp dụng chiến lược 'nghĩ nhanh/nghĩ chậm'
- Nói cách khác, đây là một bộ lập lịch tự động điều chỉnh lượng tài nguyên tính toán theo độ khó của bài toán và dữ liệu được đưa vào
- Tôi rất thích việc bài báo liên tục viện dẫn những điểm tương đồng với não bộ thực
- Tôi nghĩ AGI chỉ có thể đạt được bằng cách kết hợp những primitive nguyên thủy này ở độ phức tạp cực cao, đồng thời tận dụng vô số 'mô-đun' chuyên biệt cho hợp tác, cạnh tranh, giao tiếp, đồng thời tính
- Bộ não con người hẳn cũng phải vận hành theo kiểu này mới có thể tiến hóa để đạt được chức năng nhận thức; với mô sinh học chậm và tiêu thụ điện thấp thì đây dường như là lời giải duy nhất
Ngay khi đọc về việc tách cấu trúc hlm/llm, tôi đã liên tưởng tới cấu trúc não người
Cần có một góc nhìn hoài nghi
- Đặc biệt, các ý tưởng như đi vòng qua backpropagation quả thật rất thú vị
- Tuy vậy, có vẻ bài này vẫn chưa qua peer review, phần kết quả cũng không mô tả cụ thể phương pháp đánh giá, còn số liệu thì chỉ nằm trong hình chính
- Các con số cũng khác với leaderboard Benchmarks (ARC2) thực tế (hiện top đầu là 19%, còn HRM cỡ 5%)
- Có thể tự kiểm tra tại https://www.kaggle.com/competitions/arc-prize-2025/leaderboard
Mã nguồn của tác giả đã được công khai tại https://github.com/sapientinc/HRM
- Trong lĩnh vực AI/ML, một preprint có kèm mã nguồn chạy được thường được coi là giá trị hơn nhiều so với bài báo peer review chính thức
- Preprint cho phép bất kỳ ai cũng có thể kiểm chứng và tái lập, trong khi peer review tiêu chuẩn lại phụ thuộc vào số rất ít reviewer bận rộn (thậm chí còn không được trả công xứng đáng)
- Nếu tác giả nói đúng thì cuối cùng nó sẽ tự nhiên được công nhận, còn nếu không thì sẽ bị lãng quên
- Về thực chất, đây là kiểu kiểm chứng phân tán toàn cầu theo phong cách nguồn mở; có thể lộn xộn nhưng hiệu quả hơn nhiều so với phản biện học thuật truyền thống
Với các bài báo machine learning, một thái độ hoài nghi là điều thiết yếu
- Khi số lượng bài báo tăng lên, peer review truyền thống trở nên bất lực
- Reviewer nhiều khi thực tế không đủ chuyên môn trong đúng lĩnh vực, hoặc thậm chí là sinh viên
- Peer review thực sự là quá trình các chuyên gia khác tự triển khai trên arXiv và nơi tương tự, rồi độc lập tái hiện kết quả và trích dẫn trong các bài sau
- Chính thread bình luận này mới là peer review thực sự
Tôi nghĩ cách tốt nhất là kiểm chứng bằng các thử nghiệm tái lập và so sánh kết quả
- Tháng sau tôi có 10 ngày nghỉ, nên sẽ xem tác giả đã công bố những gì như mã nguồn và dataset rồi tự thử tái lập
Chỉ vì chưa có peer review mà đã vội đưa ra đánh giá thì hơi hấp tấp
- Các bài mamba1, mamba2 ban đầu cũng chưa qua peer review
- Tuy vậy, tôi đồng ý rằng tuyên bố mạnh thì cần bằng chứng mạnh, và hiện tôi cũng đang thử tái hiện kết quả trên máy local
Vừa mới công bố bài báo mà đã kỳ vọng có peer review ngay thì có vẻ là chưa hiểu quy trình
- Muốn đưa nghiên cứu vào peer review thì trước hết phải 'xuất bản' nó đã
Tôi là một nhà tâm lý học nhận thức, và từ lâu tôi đã nghĩ nhìn chung AI cần đi theo hướng này
- Xem Fuzzy Trace Theory [1]; trí nhớ tạo ra và kết hợp/truy xuất các biểu diễn ở nhiều mức, từ theo từng từ (chi tiết) tới tóm lược (gist)
- Việc kết hợp biểu diễn tóm lược với thông tin chi tiết cho phép khái quát hóa mạnh và các đường truy hồi linh hoạt
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
Nếu tôi hiểu đúng thì HRM nhìn vào 1.000 cặp Sudoku (câu đố, lời giải) và tự học các quy tắc
- Sau đó nó có thể giải những câu đố mới chưa từng thấy với độ chính xác 55%
- Nếu huấn luyện với một triệu ví dụ thì gần như đạt mức hoàn hảo
- Điều đáng ngạc nhiên là hoàn toàn không có tiền huấn luyện
- Trong khi AlphaZero được nạp sẵn luật chơi (cờ vua, cờ vây) và chỉ học chiến lược, HRM còn tự học cả luật
- Tôi định sẽ tự kiểm tra trong kho GitHub
- AlphaZero được nạp sẵn luật, nhưng MuZero và các mô hình kế tiếp thì hoạt động mà không cần nạp sẵn luật
  - MuZero đạt hiệu năng vượt AlphaZero, còn EfficientZero còn giảm cả lượng huấn luyện cần thiết
  - Chúng rất mạnh trong các môi trường như game Atari
- Tôi đã trực tiếp thử nghiệm với mã nguồn và kết quả là:
  - Vì khả năng tái lập khoa học, tôi muốn họ ghi rõ phiên bản thư viện dùng, tốt nhất là có pyproject.toml
  - 1.000 ví dụ Sudoku thực chất được mở rộng dữ liệu bằng một thuật toán hoán vị viết tay, nên bộ dữ liệu thực tế vào khoảng một triệu mẫu
    (không thật sự là 1.000)
Tôi vừa kỳ vọng vừa hơi sợ HRM sẽ sớm được kết hợp với MoE (Mixture of Experts)
- Áp lực kinh tế nhằm làm LLM mạnh hơn là rất lớn, nên tôi nghĩ kiểu kết hợp này có thể xuất hiện chỉ trong vòng một tháng
- Bài báo chỉ xử lý các bài toán dạng puzzle như giải sudoku, chứ không đụng đến hỏi đáp hay các ứng dụng chính của LLM
- Tôi thấy tiếc vì họ không bàn tới việc kết hợp với thế hệ LLM tiếp theo
- MoE có liên hệ với các cụm khái niệm, nhưng về sau có lẽ còn phải đưa cả độ sâu của khái niệm, số tầng phân cấp, thời gian học... vào latent space; điều này giống như việc ta đọc sách toán và đọc một mẩu tin ngắn theo hai cách khác nhau
- HRM được thiết kế cho các bài toán đố nơi chỉ có ít quy tắc nhưng chúng đan xen phức tạp
  - Vì ít quy tắc nên có thể học bằng mô hình nhỏ, và vì mô hình nhỏ nên có thể lặp đi lặp lại nhiều lần để xử lý mọi tương tác
  - Mô hình ngôn ngữ thì phải lưu trữ vô số cụm từ và quan hệ của chúng, nên tôi nghĩ khó có thể làm tương tự bằng một mô hình nhỏ
  - May mắn là trong ngôn ngữ, nhìn chung chỉ cần vài bước tính toán cũng cho ra kết quả dùng được
  - Nếu đưa một mô hình cỡ LLM vào vòng lặp lặp lại theo kiểu HRM thì sẽ quá chậm để ứng dụng thực tế
  - Có thể tưởng tượng việc kết hợp LLM lõi với một HRM nhỏ để chỉ xử lý riêng các tác vụ thỏa mãn ràng buộc
- Tôi cũng hơi nghi ngờ vì hầu như không có thảo luận nào về ứng dụng khác ngoài Sudoku hay về các giới hạn của mô hình
Lướt qua bài báo, tôi thấy hệ thống MoE LLM (dù là autoregressive, diffusion, energy-based hay cách nào khác) cũng có thể được lồng tầng theo cấu trúc HRM
- Tôi nghĩ có thể kết hợp chúng để tạo ra các benchmark mới về hiệu quả và chất lượng
Tôi đánh giá cao việc nó được truyền cảm hứng từ khoa học thần kinh, và nhìn chung không thấy gì đặc biệt có vấn đề trong bài báo
- Dù chưa tự làm thí nghiệm sao chép, có vẻ thứ tác giả tạo ra là một bộ giải constraint-satisfaction có thể khá tổng quát
- Đây là một hệ thống học cả quy tắc ràng buộc chỉ từ ít ví dụ, và nếu đúng thì riêng điều đó đã đủ thú vị
- Tuy nhiên, so sánh trực tiếp với các mô hình CoT thì tôi không thấy quá thuyết phục
- Về nguyên tắc, mô hình CoT có thể giải mọi bài toán phức tạp, nhưng HRM phải huấn luyện riêng cho từng loại puzzle chuyên biệt, nên khó mà nói là tổng quát
- Ví dụ, việc engine cờ vua Stockfish chơi cờ tốt hơn LLM không có nghĩa Stockfish 'thông minh' hơn
- Ý tưởng thì hay, nhưng bài báo có hơi mang mùi cường điệu marketing
- Đồng ý! Thực ra chỉ riêng điều này cũng đã là một thành tựu rất lớn
  - Cần kiềm chế cơn hype quá mức, nhưng đạt được kết quả như vậy với một mô hình nhỏ thế này vẫn rất đáng kinh ngạc
  - Với những bài toán cụ thể, mô hình tùy biến vừa hiệu quả hơn vừa đáng tin cậy hơn, nên không cần ép mọi thứ vào một cấu trúc kém hiệu quả chỉ vì cái tên 'tổng quát'
- Bạn nói rằng mô hình CoT về bản chất có thể giải bất kỳ tác vụ phức tạp nào, tôi muốn biết cơ sở cho nhận định đó là gì
  - Tôi cũng nghi ngờ liệu có bằng chứng toán học nào cho điều đó không
  - Cá nhân tôi thấy CoT bản thân nó giống một kiểu mẹo lách để né các giới hạn của LLM hiện tại
Nếu bài báo này là thật, tác động của nó sẽ rất lớn nên tôi đang tiếp tục theo dõi sát
- Ý tưởng cơ bản nghe có lý, nhưng tôi sẽ thận trọng quan sát cho tới khi có xác minh từ bên thứ ba
- Tôi muốn tự kiểm tra nó trong công việc thực tế