Cỗ máy tư duy liên tục

(pub.sakana.ai)

2 điểm bởi GN⁺ 2025-05-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Continuous Thought Machine (CTM) là một kiến trúc mới nhằm đưa động lực học thần kinh theo thời gian một cách tường minh vào tính toán mạng nơ-ron, triển khai bên trong mô hình “sự triển khai của suy nghĩ” vốn khó xử lý chỉ bằng xử lý feed-forward tĩnh
Trọng tâm của cấu trúc gồm internal ticks tách biệt với thứ tự dữ liệu, neuron-level models trong đó MLP theo từng nơ-ron xử lý lịch sử pre-activation gần đây, và cách dùng sự đồng bộ theo thời gian giữa các cặp nơ-ron làm biểu diễn
Trong các thí nghiệm ImageNet, mê cung 2D, parity, Q&A MNIST, CIFAR-10/100, sắp xếp số thực và học tăng cường, CTM cho thấy khả năng áp dụng bằng cách giữ nguyên cấu trúc cốt lõi và chỉ thay đổi các module đầu vào/đầu ra
Trong thí nghiệm mê cung, mô hình dự đoán trực tiếp đường đi L/R/U/D/W mà không dùng embedding vị trí; mô hình được huấn luyện trên mê cung 39×39 và đường đi dài tới 100 đã cho thấy trường hợp tổng quát hóa sang mê cung 99×99 và đường đi dài hơn khoảng 6 lần
CTM thể hiện các hành vi như hồi tưởng bộ nhớ, tính toán thích ứng, dịch chuyển chú ý có thể diễn giải và hình thành mô hình thế giới nội tại thông qua biểu diễn đồng bộ, nhưng không phải là mô hình mô phỏng nơ-ron thực theo nghĩa đen

Vấn đề CTM nhắm tới

Các mạng nơ-ron hiện có đã cố ý đơn giản hóa động lực học thần kinh theo thời gian xuất hiện trong não sinh học, xử lý chủ yếu quanh các giá trị kích hoạt tĩnh phù hợp với deep learning quy mô lớn
Trong não có spike-timing-dependent plasticity (STDP), dao động thần kinh, mã hóa thời gian dựa trên spike timing và synchrony, nhưng các mạng nơ-ron hiện đại chủ yếu ưu tiên sự đơn giản và hiệu quả tính toán
So với tính linh hoạt và tính tổng quát của nhận thức con người, AI hiện nay vẫn còn thiếu sót, và một phần trong đó có thể liên quan đến xử lý thời gian
Đóng góp của CTM có thể tóm tắt thành ba yếu tố
- Chiều nội tại tách biệt: trục thời gian để suy nghĩ có thể triển khai trong hệ thần kinh nhân tạo
- neuron-level models (NLMs): mỗi nơ-ron được kích hoạt bằng cách xử lý lịch sử tín hiệu đầu vào, thay vì một hàm tĩnh như ReLU cố định
- neural synchronization: biểu diễn tiềm ẩn được dùng trực tiếp cho quan sát và dự đoán

Mô hình suy luận và recurrence

Cách mở rộng kích thước các mô hình hiện có đã tạo ra tiến bộ lớn, nhưng chi phí tính toán và nhu cầu dữ liệu tăng cao khiến tính bền vững dài hạn vẫn còn là dấu hỏi
Với dữ liệu tuần tự, họ RNN đã được dùng trong thời gian dài nhưng phần lớn bị thay thế bởi các cách tiếp cận dựa trên Transformer; gần đây recurrence lại được chú ý như một con đường mở rộng độ phức tạp mô hình
Các reasoning models trong sinh văn bản dùng một dạng recurrence bằng cách tăng tính toán tại thời điểm kiểm thử thông qua các sinh trung gian
CTM xem trọng không phải bản thân recurrence, mà là thời điểm chính xác và sự tương tác của hoạt động thần kinh mà recurrence mở ra
Khác biệt với các cách tiếp cận hiện có gồm ba điểm
- Có thể suy nghĩ tuần tự trên một chiều nội tại tách biệt với modality dữ liệu
- private model theo từng nơ-ron xử lý timing thần kinh tinh vi
- Dùng trực tiếp sự đồng bộ thần kinh làm biểu diễn để giải quyết tác vụ

Ba cơ chế cốt lõi của CTM

CTM là cấu trúc triển khai hoạt động thần kinh nội bộ qua nhiều tick trong khi xử lý dữ liệu
Ở mỗi internal tick, lịch sử pre-activation gần đây được thu thập, và NLMs xử lý chúng để tạo post-activation
Lịch sử post-activation theo thời gian được dùng để tính sự đồng bộ giữa các nơ-ron, và kết quả này trở thành Synchronization Representation
Chi tiết kỹ thuật có trong Technical Report, và GitHub repository cũng đã được công bố
Internal ticks: chiều nội tại nơi suy nghĩ triển khai
- CTM đưa vào một chiều nội tại liên tục dạng t ∈ {1, …, T}
- Thay vì xử lý theo thứ tự của chính dữ liệu như từ, frame như RNN hay Transformer, CTM hoạt động theo các internal ticks do chính nó tạo ra
- Nhờ sự triển khai nội tại này, ngay cả với dữ liệu tĩnh hoặc phi tuần tự như hình ảnh hay mê cung, mô hình vẫn có thể lặp lại việc tạo và tinh chỉnh biểu diễn
- Demo mê cung tương tác ở đầu trang sử dụng 75 ticks
Recurrent weights và neuron-level models
- Synapse model của CTM là một recurrent MLP dạng U-NET, tạo pre-activation ở mỗi tick
- M pre-activation gần nhất được gom lại thành lịch sử đầu vào của từng nơ-ron
- Mỗi nơ-ron d xử lý lịch sử pre-activation của riêng mình bằng một private MLP có tham số riêng θd và tạo post-activation
- Post-activation của toàn bộ nơ-ron được kết hợp với attention output và đưa vào tính toán recurrent của tick tiếp theo
Synchronization representation
- CTM được thiết kế để tiêu thụ đầu vào và tạo đầu ra theo động lực học hoạt động nơ-ron theo thời gian, chứ không phải theo ảnh chụp trạng thái nơ-ron tại một thời điểm cụ thể
- Ma trận synchronization giữa các nơ-ron được tính bằng tích trong St = Zt · (Zt)^T của lịch sử post-activation Zt
- Vì ma trận này tăng theo O(D²), khi dùng thực tế, các cặp nơ-ron (i, j) được lấy mẫu một phần để tạo biểu diễn Sout và Saction
- Sout được chiếu sang không gian đầu ra để tạo dự đoán như logits, còn Saction được dùng cho hành động quan sát, giống attention query
- Khi độ rộng mô hình D tăng, số biểu diễn đồng bộ khả dĩ tăng theo quy mô D × (D+1) / 2
Cách đưa dữ liệu vào
- Dữ liệu được quan sát bằng attention ở mỗi internal tick dựa trên synchronization hiện tại
- Hầu hết thí nghiệm dùng cross attention tiêu chuẩn
- FeatureExtractor tạo các đặc trưng cục bộ từ dữ liệu để dùng làm key và value, còn query được chiếu từ synchronization sẽ truy vấn chúng
- Attention output được dùng cùng post-activation trong chu kỳ recurrence tiếp theo

Hàm mất mát huấn luyện: tối ưu toàn bộ internal ticks

CTM tạo đầu ra ở mỗi internal tick
Với dự đoán của từng tick, mô hình tính loss tiêu chuẩn như cross-entropy, và certainty được tính bằng 1 - normalized entropy
Loss cuối cùng là trung bình của hai tick được chọn động
- Tick có loss nhỏ nhất t1 = argmin(L)
- Tick có độ chắc chắn lớn nhất t2 = argmax(C)
Cách này không chỉ phụ thuộc vào một step cuối cùng, khiến tính toán có ý nghĩa diễn ra ở nhiều internal ticks
Thiết kế loss tự nhiên tạo hiệu ứng curriculum và cho phép điều chỉnh lượng tính toán theo độ khó của bài toán

Thí nghiệm ImageNet

Mục tiêu của thí nghiệm ImageNet không phải là đạt state-of-the-art mới, mà là cho thấy CTM tương tác với dữ liệu theo cách nào
CTM quan sát hình ảnh trong khi dần xây dựng dự đoán, và trong quá trình này dùng trực tiếp neural synchronization làm biểu diễn
Có thể ngắt internal steps giữa chừng, cho phép adaptive compute
- Sau một điểm nhất định, mức tăng độ chính xác nhỏ nhưng vẫn có thêm lợi ích
Demo hiển thị attention weights của 16 attention heads, dự đoán lớp và certainty theo thời gian
Hoạt động thần kinh được trực quan hóa 2D bằng phép chiếu UMAP; mỗi nơ-ron được biểu thị bằng một điểm, kích thước thể hiện giá trị tuyệt đối, màu thể hiện dấu và độ lớn của giá trị

Thí nghiệm mê cung 2D

Giải mê cung được đặt thành tác vụ trong đó mô hình phải từng bước xây dựng đường đi từ điểm xuất phát đến điểm đích
CTM được huấn luyện để dự đoán trực tiếp đường đi dưới dạng chuỗi bước L/R/U/D/W, không phải dưới dạng hình ảnh
Ở đầu trang có một phiên bản nhỏ của demo tương tác, và cũng có demo của mô hình lớn hơn
Demo cho thấy quá trình tạo đường đi trong 75 internal ticks; các dự đoán đi xuyên tường bị loại khỏi hiển thị đường đi hợp lệ
Trọng số của 16 attention heads và attention trung bình được hiển thị cùng nhau để có thể thấy mô hình tập trung vào đâu
Tổng quát hóa và mô hình thế giới
- CTM được huấn luyện để giải các đường đi dài tới 100 trong mê cung 39×39, rồi được áp dụng cho mê cung 99×99 lớn hơn
- Đường đi đầy đủ của mê cung ví dụ dài hơn điều kiện huấn luyện khoảng 6 lần
- CTM không sử dụng embedding vị trí và phải dự đoán trực tiếp đường đi dưới dạng chuỗi lớp
- Vì không có embedding vị trí, CTM phải tạo internal world model để truy vấn dữ liệu và khám phá mê cung
- Nhóm nghiên cứu cho biết họ muốn xem CTM tìm đường thế nào trong các môi trường phức tạp hơn như game hoặc video mà không cần mã hóa vị trí tường minh

Thí nghiệm Parity

Parity task được cấu hình là tác vụ dự đoán parity tích lũy tại từng vị trí trong 64 vị trí của một chuỗi nhị phân
Toàn bộ binary vector độ dài 64 được đưa vào cùng lúc, nên đây là thiết lập khó hơn so với đầu vào tuần tự đơn giản
CTM được huấn luyện với số internal ticks khác nhau và được so sánh với LSTM có số tham số tương đương
CTM vượt quá 75 internal ticks có thể giải tác vụ này ổn định, và một số lần chạy đạt độ chính xác 100%
LSTM gặp khó khăn khi huấn luyện vượt quá 10 internal ticks, cho thấy nó không phù hợp để triển khai chiều suy nghĩ nội tại
Trong demo, một số attention heads quét dữ liệu từ sau ra trước, còn attention head đầu tiên chỉ attend vào các vị trí negative parity, cho thấy hành vi có thể diễn giải
Hai ví dụ CTM học các chiến lược khác nhau
- Một mô hình attend dữ liệu theo thứ tự ngược rồi dự đoán parity tích lũy trong một lần
- Mô hình khác attend theo chiều xuôi và dự đoán parity dần dần
- Cả hai đều đạt độ chính xác hoàn hảo

Thí nghiệm Q&A MNIST

Q&A MNIST là tác vụ nhằm đánh giá năng lực ghi nhớ và hồi tưởng của CTM
Mô hình trước tiên xem một chuỗi digit MNIST, sau đó nhận index và operator embedding chỉ định digit nào cần hồi tưởng và modular operation nào cần áp dụng
Sau khi tất cả digit và index/operator embedding được đưa vào, zero-tensor flag sẽ ra lệnh tạo câu trả lời cuối cùng
Trong thí nghiệm, memory length của CTM được đặt sao cho digit MNIST nằm ngoài activation history window của neuron-level models
Vì vậy, để hồi tưởng digit về sau, CTM phải tổ chức activation để bảo toàn thông tin
Kết quả và tổng quát hóa
- LSTM có hiệu năng cao hơn CTM khi chỉ có một internal tick cho mỗi input, nhưng trở nên kém ổn định hơn khi internal ticks tăng
- CTM mạnh hơn khi internal ticks tăng và đạt độ chính xác trên 95% ở tác vụ in-distribution khó nhất
- CTM có thể hồi tưởng giá trị digit đã thấy ở timestep rất xa trước đó, và điều này được diễn giải là kết quả từ sự tổ chức và đồng bộ của nơ-ron
- Trong thí nghiệm tổng quát hóa, độ chính xác được đo khi số digits hoặc index-operator embeddings đầu vào nhiều hơn so với lúc huấn luyện
- Cả CTM và baseline LSTM đều có thể tổng quát hóa khi số operation tăng
- Theo kết quả empirical, mỗi khi index embedding mới được đưa vào, mô hình tính và lưu kết quả của operation được chỉ định, nên có thể tiếp tục xử lý mà không cần chờ final answer flag
- CTM có hiệu năng tăng khi có nhiều internal ticks hơn, còn LSTM cho thấy xu hướng ngược lại

Thí nghiệm bổ sung

CIFAR-10: so sánh với con người, feed-forward và LSTM
- Thí nghiệm CIFAR-10 được thiết lập để so sánh CTM với human performance, feed-forward baseline và LSTM baseline
- Một backbone hạn chế được dùng để làm nổi bật khác biệt
- CIFAR-10D và CIFAR-10H được dùng làm bộ dữ liệu nhãn của con người
- CIFAR-10D liên quan đến hiệu chỉnh mức độ khó
- CIFAR-10H là bộ dữ liệu dùng để định lượng bất định của con người
- CIFAR-10D ở đây, CIFAR-10H ở đây
- Xác suất của CIFAR-10H được dùng để tính calibration, và CTM cho thấy calibration tốt nhất ngay cả khi so với con người
- Hoạt động thần kinh của CTM có động lực học phong phú, đa dạng và phức tạp; periodic behavior xuất hiện ngay cả khi không có periodic driving function
- Khác biệt về hoạt động thần kinh giữa CTM và LSTM là bằng chứng cho thấy neuron-level models và synchronization representation cho phép động lực học thần kinh như một cơ chế tính toán
CIFAR-100 ablation
- Trong thí nghiệm CIFAR-100, số nơ-ron, tức độ rộng mô hình, được thay đổi trong khi giữ cố định các điều kiện khác và thời gian huấn luyện
- Mạng rộng hơn có thể cần thời gian huấn luyện dài hơn hoặc hyper-parameters khác, nên có một số suy giảm độ chính xác
- Để xem neuron-level models trở nên độc nhất đến mức nào, cosine similarity của động lực học giữa các nơ-ron được đo
- Quan sát thấy khi độ rộng mô hình tăng, sự đa dạng giữa các nơ-ron không giảm mà còn tăng
- Mối quan hệ giữa số internal ticks và dự đoán cũng được phân tích
- Với các thiết lập 25, 50, 100 internal ticks, phân bố của step mà CTM chắc chắn nhất được kiểm tra
- Ở mỗi thiết lập đều xuất hiện hai vùng tập trung, được diễn giải là CTM đi theo các quá trình nội tại riêng tùy theo dữ liệu
Sắp xếp số thực
- CTM được huấn luyện để sắp xếp 30 số thực lấy từ N(0, I30)
- Mục tiêu là xem trong môi trường được kiểm soát, khi nào CTM áp dụng nhiều hay ít tính toán hơn, và kiểm tra liệu có thể học đầu ra tuần tự bằng CTC loss hay không
- CTM này có thể sắp xếp danh sách số thực độ dài 30 với xác suất khoảng 80%
Học tăng cường
- CTM không chỉ xử lý dữ liệu phi tuần tự bằng continuous thought dimension, mà còn được áp dụng cho các tác vụ tương tác với môi trường bên ngoài
- Mô hình học navigation task và các biến thể CartPole, Acrobot quan sát một phần bằng proximal policy optimization
- Trong thiết lập này, CTM nhận quan sát, xử lý bằng một số internal thought steps cố định rồi xuất action tiếp theo
- Activation history được duy trì liên tục giữa các environment step, nên activation của các environment step trước có thể ảnh hưởng đến quyết định hiện tại
- Kết quả là CTM đạt hiệu năng có thể so sánh với baseline LSTM và cho thấy có thể học trong continuous environment

Kết luận và giới hạn

CTM thay thế pointwise activation function bằng private neuron-level models để tạo động lực học nơ-ron phong phú hơn, và dùng neural synchronization làm biểu diễn mới thay vì activation vector
Cách tiếp cận này cho phép xây dựng biểu diễn theo thời gian trong phân loại ảnh, attention trong mê cung không cần embedding vị trí và hình thành bản đồ nội tại, adaptive computation, cũng như lưu trữ và hồi tưởng ký ức nằm ngoài activation history
Kiến trúc CTM cốt lõi phần lớn được giữ nguyên trên nhiều tác vụ, chủ yếu chỉ cần điều chỉnh module đầu vào/đầu ra
Trong các kịch bản phức tạp như khám phá mê cung, CTM hoạt động với ít tinh chỉnh, còn LSTM gặp khó khăn ngay cả sau khi tinh chỉnh đáng kể
CTM không phải là mô hình nhằm mô phỏng nghiêm ngặt nơ-ron sinh học theo nghĩa đen
- Nơ-ron thực có thể không truy cập activation history như CTM
- Dù vậy, các emergent phenomena như traveling waves vẫn xuất hiện
CTM là cách dung hòa giữa tính thực dụng và cảm hứng sinh học bằng việc mượn khái niệm từ sinh học, và có thể trở thành một hướng nghiên cứu mở ra các năng lực mà AI hiện nay còn thiếu

Cỗ máy tư duy liên tục

Vấn đề CTM nhắm tới

Mô hình suy luận và recurrence

Ba cơ chế cốt lõi của CTM

Internal ticks: chiều nội tại nơi suy nghĩ triển khai

Recurrent weights và neuron-level models

Synchronization representation

Cách đưa dữ liệu vào

Hàm mất mát huấn luyện: tối ưu toàn bộ internal ticks

Thí nghiệm ImageNet

Thí nghiệm mê cung 2D

Tổng quát hóa và mô hình thế giới

Thí nghiệm Parity

Thí nghiệm Q&A MNIST

Kết quả và tổng quát hóa

Thí nghiệm bổ sung

CIFAR-10: so sánh với con người, feed-forward và LSTM

CIFAR-100 ablation

Sắp xếp số thực

Học tăng cường

Kết luận và giới hạn

Bài viết liên quan

Chưa có bình luận nào.