Mô hình suy luận phân cấp
(arxiv.org)- Mô hình suy luận phân cấp (Hierarchical Reasoning Model, HRM) vượt qua các giới hạn của kỹ thuật Chain-of-Thought dựa trên LLM hiện nay trong quá trình thực thi hành vi định hướng mục tiêu phức tạp của AI, như phân rã tác vụ kém ổn định, đòi hỏi nhiều dữ liệu và độ trễ cao
- Lấy cảm hứng từ khái niệm xử lý phân cấp của não người, HRM giới thiệu một cấu trúc hồi quy mới gồm mô-đun cấp cao phụ trách lập kế hoạch trừu tượng bậc cao và mô-đun cấp thấp xử lý nhanh các phép toán chi tiết
- HRM cho thấy hiệu năng vượt trội trên các bài toán suy luận độ khó cao chỉ với khoảng 27 triệu tham số và 1.000 mẫu huấn luyện
- Không cần tiền huấn luyện hay dữ liệu Chain-of-Thought, mô hình vẫn đạt độ chính xác gần như hoàn hảo trong các bài toán như Sudoku phức tạp và tìm đường tối ưu trong mê cung lớn
- HRM cho thấy hiệu quả và hiệu năng cao hơn so với các mô hình lớn hiện có, đồng thời gợi mở khả năng trở thành bước ngoặt cho điện toán đa dụng và các hệ thống trí tuệ tổng quát
Tổng quan
Trong lĩnh vực AI, suy luận (reasoning) là một bài toán quan trọng trong quá trình thiết kế và thực thi hành vi định hướng mục tiêu phức tạp. Các mô hình ngôn ngữ lớn (LLM) hiện nay chủ yếu sử dụng kỹ thuật Chain-of-Thought (CoT), nhưng cách này có những hạn chế như phân rã tác vụ mong manh, yêu cầu nhiều dữ liệu và độ trễ cao.
- Dựa trên cấu trúc xử lý phân cấp và đa thang thời gian của não người, Hierarchical Reasoning Model (HRM) được đề xuất
- HRM gồm hai mô-đun hồi quy phụ thuộc lẫn nhau (cấp cao/cấp thấp), thực hiện suy luận tuần tự trong một lượt truyền tiến duy nhất mà không cần giám sát tường minh cho các bước trung gian
- Với 27 triệu tham số, mô hình đạt hiệu năng hàng đầu khi chỉ sử dụng 1.000 mẫu
Giới hạn cấu trúc của deep learning và LLM hiện nay
- Deep learning khởi đầu từ cách tăng năng lực biểu đạt bằng cách xếp chồng độ sâu mạng, nhưng trên thực tế LLM dựa trên Transformer có cấu trúc nông, nên có giới hạn về độ sâu
- Transformer với độ sâu cố định chịu ràng buộc căn bản về độ phức tạp tính toán trong các bài toán suy luận logic phức tạp hoặc bài toán thuật toán
- Chain-of-Thought phụ thuộc vào việc phân rã từng bước bằng ngôn ngữ do con người trực tiếp xác định, nên chỉ cần sai sót hoặc sai thứ tự là toàn bộ quá trình suy luận có thể sụp đổ dễ dàng
- CoT cũng gây ra các vấn đề như cần nhiều dữ liệu, sinh nhiều token và hoạt động chậm
Nguyên lý thiết kế của HRM
Được thiết kế bằng cách mô phỏng xử lý phân cấp và đa thang thời gian của não người
- Xử lý phân cấp: não bộ xử lý thông tin theo từng vùng trên-dưới theo cách phân cấp và tách biệt về thời gian
- Tách biệt thang thời gian: vùng cấp cao hoạt động chậm, vùng cấp thấp hoạt động nhanh, nhờ đó cho phép điều phối hiệu quả
- Kết nối hồi quy: hiện thực suy luận sâu bằng cách tinh chỉnh biểu diễn nội bộ thông qua phản hồi ngược lặp đi lặp lại
Kiến trúc mô hình HRM
- Gồm mạng đầu vào, mô-đun hồi quy cấp thấp, mô-đun hồi quy cấp cao và mạng đầu ra
- Đầu vào được nhúng thành vector
- Mô-đun cấp thấp được cập nhật nhiều lần dựa trên trạng thái trước đó của chính nó, trạng thái hiện tại của mô-đun cấp cao và đầu vào
- Mô-đun cấp cao chỉ được cập nhật một lần vào cuối mỗi cycle, sau khi nhận trạng thái cuối cùng của mô-đun cấp thấp
- Ở bước cuối, mô hình tạo ra giá trị dự đoán từ trạng thái của mô-đun cấp cao
Cơ chế hội tụ phân cấp (hierarchical convergence)
- RNN truyền thống hội tụ quá nhanh, khiến các phép tính bổ sung trở nên vô nghĩa
- HRM cho mô-đun RNN cấp thấp hội tụ ổn định đến điểm cân bằng cục bộ trong mỗi cycle, sau đó mô-đun cấp cao cung cấp ngữ cảnh mới để mô-đun cấp thấp khởi động lại
- Nhờ cấu trúc hội tụ phân cấp, mô hình có thể thực hiện phép tính sâu (nhiều bước), đồng thời tốc độ hội tụ cũng được kiểm soát phù hợp
Huấn luyện gradient xấp xỉ 1 bước
- Nếu phụ thuộc vào BPTT (Backpropagation Through Time), cần lưu trạng thái của nhiều bước nên gánh nặng bộ nhớ rất lớn
- HRM học bằng cách xấp xỉ gradient chỉ từ trạng thái cuối cùng ở mỗi mô-đun cấp cao/cấp thấp, nhờ đó duy trì mức dùng bộ nhớ O(1) và hiện thực hóa một cách làm gần với sinh học hơn
- Về mặt toán học, cách này dựa trên nguyên lý của Deep Equilibrium Model (DEQ)
Deep supervision & Adaptive Computation Time (ACT)
Deep supervision
- Cung cấp phản hồi theo chu kỳ, tạo đầu ra ở mỗi forward pass (segment) và tính riêng loss huấn luyện của từng segment
- Khi chuyển sang segment tiếp theo, trạng thái được tách khỏi đồ thị (detach) để tăng độ ổn định và hiệu năng của cấu trúc hồi quy sâu
Adaptive Computation Time (ACT)
- Áp dụng nguyên lý chuyển đổi giữa tư duy tự động và tư duy có chủ đích của con người, từ đó dùng Q-learning để quyết định động số lần lặp segment dựa trên học tập
- Q-head dự đoán Q-value cho hành động halt/continue ở mỗi segment
- Q-learning tính tổng loss bằng cách đồng thời xét đến độ chính xác dự đoán và điểm dừng tối ưu
Hiệu năng và đặc điểm kiến trúc
-
Trong các bài toán như Sudoku-Extreme (9x9), mê cung lớn (30x30) mà các mô hình dùng CoT trước đây thất bại, HRM vẫn giải gần như hoàn hảo chỉ với khoảng 1.000 mẫu dữ liệu
-
Trên benchmark ARC-AGI (Abstraction and Reasoning Corpus), mô hình đạt 40,3% chỉ với 27M tham số (o3-mini-high dựa trên CoT đạt 34,5%, Claude 3.7 8K đạt 21,2%)
-
Chỉ cần tăng lượng tính toán (steps) ở giai đoạn inference là có thể cải thiện thêm hiệu năng mà không cần chỉnh sửa thêm kiến trúc hay huấn luyện lại, qua đó tận dụng trực tiếp tài nguyên tính toán
-
HRM nội bộ sử dụng cấu trúc sequence-to-sequence dựa trên Transformer, trong đó
- sau tầng embedding, cả mô-đun cấp thấp và cấp cao đều dùng các khối Transformer encoder-only
- áp dụng các thành phần phổ biến của LLM hiện đại như Rotary Positional Encoding, Gated Linear Units, RMSNorm
- tham số dùng cách khởi tạo truncated LeCun Normal, cùng optimizer Adam-atan2 và learning rate cố định
Kết luận
- HRM, với cấu trúc hồi quy phân cấp lấy cảm hứng sinh học và phương pháp học hiệu quả, chuyên sâu, đã chứng minh năng lực suy luận đa dụng vượt trội so với cách tiếp cận hiện có ngay cả khi chỉ dùng ít dữ liệu và ít tham số
- Đây là một ví dụ quan trọng cho thấy khả năng phát triển hướng tới các hệ thống điện toán và trí tuệ đa dụng vượt qua giới hạn độ sâu của deep learning/LLM
1 bình luận
Ý kiến trên Hacker News
Khi chỉ lướt qua phần tóm tắt và mở đầu, kết quả của mô hình suy luận phân cấp (HRM) thực sự trông rất đáng kinh ngạc
Việc một mô hình 27M tham số được huấn luyện "từ đầu" chỉ với 1.000 điểm dữ liệu khiến tôi rất nghi ngờ
Đúng vậy!
"Sau khi giai đoạn T kết thúc, mô-đun cấp cao (mô-đun H) nhận trạng thái kết quả từ mô-đun cấp thấp để cập nhật; khi đó nó khởi động lại đường tính toán của mô-đun cấp thấp và dẫn tới một giai đoạn hội tụ mới"
Ngay khi đọc về việc tách cấu trúc hlm/llm, tôi đã liên tưởng tới cấu trúc não người
Cần có một góc nhìn hoài nghi
Mã nguồn của tác giả đã được công khai tại https://github.com/sapientinc/HRM
Với các bài báo machine learning, một thái độ hoài nghi là điều thiết yếu
Tôi nghĩ cách tốt nhất là kiểm chứng bằng các thử nghiệm tái lập và so sánh kết quả
Chỉ vì chưa có peer review mà đã vội đưa ra đánh giá thì hơi hấp tấp
Vừa mới công bố bài báo mà đã kỳ vọng có peer review ngay thì có vẻ là chưa hiểu quy trình
Tôi là một nhà tâm lý học nhận thức, và từ lâu tôi đã nghĩ nhìn chung AI cần đi theo hướng này
Nếu tôi hiểu đúng thì HRM nhìn vào 1.000 cặp Sudoku (câu đố, lời giải) và tự học các quy tắc
Sau đó nó có thể giải những câu đố mới chưa từng thấy với độ chính xác 55%
Nếu huấn luyện với một triệu ví dụ thì gần như đạt mức hoàn hảo
Điều đáng ngạc nhiên là hoàn toàn không có tiền huấn luyện
Trong khi AlphaZero được nạp sẵn luật chơi (cờ vua, cờ vây) và chỉ học chiến lược, HRM còn tự học cả luật
Tôi định sẽ tự kiểm tra trong kho GitHub
AlphaZero được nạp sẵn luật, nhưng MuZero và các mô hình kế tiếp thì hoạt động mà không cần nạp sẵn luật
Tôi đã trực tiếp thử nghiệm với mã nguồn và kết quả là:
pyproject.toml(không thật sự là 1.000)
Tôi vừa kỳ vọng vừa hơi sợ HRM sẽ sớm được kết hợp với MoE (Mixture of Experts)
Áp lực kinh tế nhằm làm LLM mạnh hơn là rất lớn, nên tôi nghĩ kiểu kết hợp này có thể xuất hiện chỉ trong vòng một tháng
Bài báo chỉ xử lý các bài toán dạng puzzle như giải sudoku, chứ không đụng đến hỏi đáp hay các ứng dụng chính của LLM
Tôi thấy tiếc vì họ không bàn tới việc kết hợp với thế hệ LLM tiếp theo
MoE có liên hệ với các cụm khái niệm, nhưng về sau có lẽ còn phải đưa cả độ sâu của khái niệm, số tầng phân cấp, thời gian học... vào latent space; điều này giống như việc ta đọc sách toán và đọc một mẩu tin ngắn theo hai cách khác nhau
HRM được thiết kế cho các bài toán đố nơi chỉ có ít quy tắc nhưng chúng đan xen phức tạp
Tôi cũng hơi nghi ngờ vì hầu như không có thảo luận nào về ứng dụng khác ngoài Sudoku hay về các giới hạn của mô hình
Lướt qua bài báo, tôi thấy hệ thống MoE LLM (dù là autoregressive, diffusion, energy-based hay cách nào khác) cũng có thể được lồng tầng theo cấu trúc HRM
Tôi đánh giá cao việc nó được truyền cảm hứng từ khoa học thần kinh, và nhìn chung không thấy gì đặc biệt có vấn đề trong bài báo
Dù chưa tự làm thí nghiệm sao chép, có vẻ thứ tác giả tạo ra là một bộ giải constraint-satisfaction có thể khá tổng quát
Đây là một hệ thống học cả quy tắc ràng buộc chỉ từ ít ví dụ, và nếu đúng thì riêng điều đó đã đủ thú vị
Tuy nhiên, so sánh trực tiếp với các mô hình CoT thì tôi không thấy quá thuyết phục
Về nguyên tắc, mô hình CoT có thể giải mọi bài toán phức tạp, nhưng HRM phải huấn luyện riêng cho từng loại puzzle chuyên biệt, nên khó mà nói là tổng quát
Ví dụ, việc engine cờ vua Stockfish chơi cờ tốt hơn LLM không có nghĩa Stockfish 'thông minh' hơn
Ý tưởng thì hay, nhưng bài báo có hơi mang mùi cường điệu marketing
Đồng ý! Thực ra chỉ riêng điều này cũng đã là một thành tựu rất lớn
Bạn nói rằng mô hình CoT về bản chất có thể giải bất kỳ tác vụ phức tạp nào, tôi muốn biết cơ sở cho nhận định đó là gì
Nếu bài báo này là thật, tác động của nó sẽ rất lớn nên tôi đang tiếp tục theo dõi sát