- Kiến trúc Titans và khung MIRAS được thiết kế để các mô hình AI có thể cập nhật bộ nhớ cốt lõi ngay cả trong lúc chạy và xử lý nhanh lượng ngữ cảnh khổng lồ
- Titans kết hợp tốc độ của RNN với độ chính xác của Transformer, chọn lọc lưu vào trí nhớ dài hạn những thông tin có mức ‘ngạc nhiên (surprise)’ cao trong đầu vào
- MIRAS là bản thiết kế lý thuyết giúp diễn giải thống nhất nhiều mô hình chuỗi khác nhau, hệ thống hóa cấu trúc bộ nhớ, độ lệch, quên và quá trình tối ưu hóa
- Kết quả thực nghiệm cho thấy Titans và các biến thể MIRAS (YAAD, MONETA, MEMORA) đạt hiệu năng vượt trội về xử lý ngữ cảnh dài và hiệu quả so với các mô hình mới nhất như Transformer++·Mamba-2
- Nghiên cứu này cho thấy sự chuyển dịch sang thế hệ mô hình AI ngữ cảnh dài mới, kết hợp hiệu quả của RNN và khả năng biểu đạt của Transformer
Tổng quan về Titans và MIRAS
- Kiến trúc Titans và khung MIRAS được thiết kế để AI cập nhật bộ nhớ theo thời gian thực trong lúc chạy và xử lý ngữ cảnh quy mô lớn
- Cơ chế attention của Transformer truyền thống làm chi phí tính toán tăng vọt theo độ dài chuỗi
- Titans và MIRAS vượt qua giới hạn này để cho phép hiểu ngữ cảnh dài và thích nghi theo thời gian thực
- Titans là cấu trúc mô hình cụ thể, còn MIRAS đóng vai trò là bản thiết kế lý thuyết khái quát hóa nó
- Hai hệ thống này phát triển khái niệm test-time memorization để tích hợp thông tin mới trong quá trình chạy mà không cần huấn luyện lại
Titans: học ngữ cảnh theo thời gian thực
- Titans mô phỏng cấu trúc trí nhớ của con người bằng cách tách trí nhớ ngắn hạn (cơ chế attention) và trí nhớ dài hạn (mô-đun dựa trên mạng nơ-ron)
- Mô-đun trí nhớ dài hạn có dạng MLP, sử dụng mạng nơ-ron sâu thay cho vector cố định để có thể tóm tắt thông tin phong phú hơn
- Khái niệm cốt lõi là ‘chỉ số ngạc nhiên (surprise metric)’
- Đầu vào càng khác biệt nhiều so với ký ức hiện có thì càng được coi là có độ ngạc nhiên cao và được lưu vào trí nhớ dài hạn
- Ví dụ: từ dự đoán được như
cat có độ ngạc nhiên thấp, còn đầu vào bất ngờ như banana peel được xử lý là có độ ngạc nhiên cao
- Titans kết hợp cơ chế momentum và quên (weight decay)
- Momentum phản ánh tính liên tục của ngữ cảnh gần đây, nhờ đó các thông tin liên quan cũng được lưu cùng nhau
- Cơ chế quên loại bỏ thông tin không cần thiết để duy trì dung lượng bộ nhớ một cách hiệu quả
MIRAS: góc nhìn thống nhất về các mô hình chuỗi
- MIRAS diễn giải mọi mô hình chuỗi như một hệ thống trí nhớ kết hợp (associative memory)
- MIRAS định nghĩa rằng các mô hình khác nhau rốt cuộc đều giải cùng một bài toán: ‘kết hợp hiệu quả thông tin mới với ký ức hiện có’
- MIRAS định nghĩa mô hình bằng bốn yếu tố thiết kế
- Cấu trúc bộ nhớ: hình thức lưu trữ thông tin (vector, ma trận, MLP, v.v.)
- Độ lệch chú ý: quyết định mô hình ưu tiên thông tin nào
- Cổng duy trì (retention gate): cách chuẩn hóa để điều khiển việc quên
- Thuật toán bộ nhớ: phương pháp tối ưu hóa việc cập nhật bộ nhớ
- Vượt qua giới hạn của các mô hình hiện có vốn phụ thuộc vào MSE hay độ tương đồng tích vô hướng, MIRAS khám phá các hàm mục tiêu và chuẩn hóa phi Euclid (non-Euclidean)
Các mô hình dựa trên MIRAS
- YAAD: cấu trúc sử dụng Huber loss để ít nhạy hơn với lỗi đầu vào hoặc ngoại lệ
- MONETA: áp dụng generalized norms để duy trì trí nhớ dài hạn ổn định
- MEMORA: ràng buộc bộ nhớ như một bản đồ xác suất để bảo đảm tích hợp thông tin cân bằng
- Cả ba mô hình đều đạt hiệu năng trí nhớ dài hạn mạnh mẽ ngay cả không dùng attention
Kết quả thực nghiệm và hiệu năng
- Titans và các biến thể MIRAS được đánh giá so sánh với các kiến trúc mới nhất như Transformer++, Mamba-2, Gated DeltaNet
- Đạt độ chính xác cao hơn và perplexity thấp hơn trong mô hình ngôn ngữ (C4, WikiText) và suy luận zero-shot (HellaSwag, PIQA)
- Cũng chứng minh khả năng khái quát hóa trong mô hình hóa bộ gen (DNA) và dự báo chuỗi thời gian
- Độ sâu bộ nhớ (Depth) có ảnh hưởng quyết định tới hiệu năng
- Ngay cả với bộ nhớ cùng kích thước, cấu trúc càng sâu thì perplexity càng thấp và khả năng mở rộng càng tốt
- Về hiệu quả, Titans duy trì huấn luyện song song và tốc độ suy luận tuyến tính, cho phép xử lý nhanh hơn các mô hình hiện có
- Trên BABILong benchmark, mô hình đạt hiệu năng suy luận ngữ cảnh dài vượt trội dù có ít tham số hơn GPT-4
- Xử lý hiệu quả cửa sổ ngữ cảnh lên tới hơn 2 triệu token
Kết luận
- Titans và MIRAS đưa ra cấu trúc bộ nhớ mới có thể vượt qua giới hạn của trạng thái hồi quy kích thước cố định và học theo thời gian thực trong lúc dữ liệu được đưa vào
- MIRAS cung cấp một khung lý thuyết mạnh mẽ, tích hợp tối ưu hóa trực tuyến, trí nhớ kết hợp và thiết kế kiến trúc
- Thông qua không gian thiết kế phi Euclid, nghiên cứu đặt nền tảng cho kỷ nguyên mô hình AI ngữ cảnh dài kết hợp hiệu quả của RNN với khả năng biểu đạt của Transformer
1 bình luận
Ý kiến Hacker News
Giới thiệu bài báo Titans: Learning to Memorize at Test Time
Bản gốc có tại liên kết arXiv
Có thể xem các bài liên quan tại liên kết thứ nhất, liên kết thứ hai. Cho rằng Google xứng đáng nhận được nhiều niềm tin nhờ mức độ minh bạch này
Các bài báo từ những phòng nghiên cứu lớn của Mỹ thường có khoảng cách với hiệu năng thực tế. Lấy DeepSeek làm ví dụ với bài này và bài này
Meta với Llama, Qwen, DeepSeek đều đi trước khá xa. Hiện tại chỉ có bản triển khai không chính thức
Gần đây dự án gây ấn tượng nhất là lumine, và có chia sẻ liên kết bài báo cùng trang nghiên cứu chính thức
Không nghĩ Google có lý do gì để được ghi công đặc biệt nhiều hơn
Đùa rằng: “Cuối cùng chúng ta cũng đã tạo ra ‘Torment Nexus’”
Nhắc đến việc trong thế giới Eclipse Phase, TITAN là mạng lưới AI đã hủy diệt loài người
Điểm cốt lõi của kiến trúc Titans là dùng tín hiệu lỗi nội bộ (gradient) để đánh giá mức độ bất ngờ và tầm quan trọng, rồi cập nhật trí nhớ dài hạn theo đó
Tò mò liệu với cấu trúc như vậy có thể làm nhiễu mô hình bằng đầu vào nhiễu ngẫu nhiên hay không
Mô hình học ngay trong quá trình suy luận, còn ở giai đoạn huấn luyện thì nó học ‘nên học cái gì’
Những đầu vào vô nghĩa sẽ được gán embedding surprise thấp nên gần như không ảnh hưởng đến việc học
Con người ghi nhớ theo cường độ cảm xúc hơn là theo độ mới lạ. AI cũng cần có trạng thái nội tại kiểu như ‘muốn gì’
Nhưng trong môi trường giữ được ngữ cảnh như phát triển codebase, nó có thể nhớ các quyết định thiết kế và nội dung thảo luận trước đó để đưa ra phán đoán tốt hơn
Khi đọc bài Titans lần đầu, có cảm giác “đây sẽ là một bước tiến lớn”
Không làm trong ngành AI nhưng đã suy nghĩ lâu về AI tư duy kiểu con người
LLM vẫn còn cách rất xa tiêu chuẩn đó, nhưng Titans có vẻ là một bước tiến theo hướng ấy
Muốn viết lại những suy nghĩ này trên blog, nhưng không chắc có được quan tâm hay không vì mình không phải người có tiếng
Dù vậy, nếu có bản triển khai thực tế của Titans thì có lẽ mọi người sẽ đều ngạc nhiên
Những bài chỉ ra bức tranh lớn đôi khi lại mang đến góc nhìn hữu ích hơn
Đã từng viết một bài blog về Titans
Ngoài tuyên bố của Google ra thì không có bản triển khai nào được kiểm chứng, và nghiên cứu tiếp nối cũng gần như không có
Tò mò không biết cấu trúc Titans sẽ dễ bị hay ít bị prompt injection hơn
Học theo thời gian thực có thể tăng khả năng phòng vệ, nhưng ngược lại đầu vào độc hại cũng có thể bám sâu hơn
Khi đọc phần giải thích về cơ chế attention của Transformer, đã tự hỏi các IDE như Cursor quản lý bộ nhớ như thế nào
Có vẻ chúng ngày càng hiểu codebase và ngữ cảnh tốt hơn
Nó chỉ đơn giản giải thích cách context window của Transformer hoạt động
Hỏi liệu có thể hình dung Titans như một cấu trúc tiếp tục thích nghi kiểu LoRA hay không
Nếu vậy thì có bước nào hợp nhất lại LoRA vào mô hình chính không? Mô tả điều đó giống như quá trình ngủ
Titans không có cấu trúc hạng thấp như vậy
Thay vào đó, nó học toàn bộ MLP trong lúc xử lý các chunk đầu vào
Tò mò liệu việc học dựa trên độ bất ngờ có giúp mô hình căn chỉnh (alignment) chính xác hơn với prompt của người dùng hay không