9 điểm bởi GN⁺ 2025-12-08 | 1 bình luận | Chia sẻ qua WhatsApp
  • Kiến trúc Titans và khung MIRAS được thiết kế để các mô hình AI có thể cập nhật bộ nhớ cốt lõi ngay cả trong lúc chạy và xử lý nhanh lượng ngữ cảnh khổng lồ
  • Titans kết hợp tốc độ của RNN với độ chính xác của Transformer, chọn lọc lưu vào trí nhớ dài hạn những thông tin có mức ‘ngạc nhiên (surprise)’ cao trong đầu vào
  • MIRAS là bản thiết kế lý thuyết giúp diễn giải thống nhất nhiều mô hình chuỗi khác nhau, hệ thống hóa cấu trúc bộ nhớ, độ lệch, quên và quá trình tối ưu hóa
  • Kết quả thực nghiệm cho thấy Titans và các biến thể MIRAS (YAAD, MONETA, MEMORA) đạt hiệu năng vượt trội về xử lý ngữ cảnh dài và hiệu quả so với các mô hình mới nhất như Transformer++·Mamba-2
  • Nghiên cứu này cho thấy sự chuyển dịch sang thế hệ mô hình AI ngữ cảnh dài mới, kết hợp hiệu quả của RNN và khả năng biểu đạt của Transformer

Tổng quan về Titans và MIRAS

  • Kiến trúc Titans và khung MIRAS được thiết kế để AI cập nhật bộ nhớ theo thời gian thực trong lúc chạy và xử lý ngữ cảnh quy mô lớn
    • Cơ chế attention của Transformer truyền thống làm chi phí tính toán tăng vọt theo độ dài chuỗi
    • Titans và MIRAS vượt qua giới hạn này để cho phép hiểu ngữ cảnh dài và thích nghi theo thời gian thực
  • Titans là cấu trúc mô hình cụ thể, còn MIRAS đóng vai trò là bản thiết kế lý thuyết khái quát hóa nó
    • Hai hệ thống này phát triển khái niệm test-time memorization để tích hợp thông tin mới trong quá trình chạy mà không cần huấn luyện lại

Titans: học ngữ cảnh theo thời gian thực

  • Titans mô phỏng cấu trúc trí nhớ của con người bằng cách tách trí nhớ ngắn hạn (cơ chế attention)trí nhớ dài hạn (mô-đun dựa trên mạng nơ-ron)
    • Mô-đun trí nhớ dài hạn có dạng MLP, sử dụng mạng nơ-ron sâu thay cho vector cố định để có thể tóm tắt thông tin phong phú hơn
  • Khái niệm cốt lõi là ‘chỉ số ngạc nhiên (surprise metric)’
    • Đầu vào càng khác biệt nhiều so với ký ức hiện có thì càng được coi là có độ ngạc nhiên cao và được lưu vào trí nhớ dài hạn
    • Ví dụ: từ dự đoán được như cat có độ ngạc nhiên thấp, còn đầu vào bất ngờ như banana peel được xử lý là có độ ngạc nhiên cao
  • Titans kết hợp cơ chế momentumquên (weight decay)
    • Momentum phản ánh tính liên tục của ngữ cảnh gần đây, nhờ đó các thông tin liên quan cũng được lưu cùng nhau
    • Cơ chế quên loại bỏ thông tin không cần thiết để duy trì dung lượng bộ nhớ một cách hiệu quả

MIRAS: góc nhìn thống nhất về các mô hình chuỗi

  • MIRAS diễn giải mọi mô hình chuỗi như một hệ thống trí nhớ kết hợp (associative memory)
    • MIRAS định nghĩa rằng các mô hình khác nhau rốt cuộc đều giải cùng một bài toán: ‘kết hợp hiệu quả thông tin mới với ký ức hiện có’
  • MIRAS định nghĩa mô hình bằng bốn yếu tố thiết kế
    • Cấu trúc bộ nhớ: hình thức lưu trữ thông tin (vector, ma trận, MLP, v.v.)
    • Độ lệch chú ý: quyết định mô hình ưu tiên thông tin nào
    • Cổng duy trì (retention gate): cách chuẩn hóa để điều khiển việc quên
    • Thuật toán bộ nhớ: phương pháp tối ưu hóa việc cập nhật bộ nhớ
  • Vượt qua giới hạn của các mô hình hiện có vốn phụ thuộc vào MSE hay độ tương đồng tích vô hướng, MIRAS khám phá các hàm mục tiêu và chuẩn hóa phi Euclid (non-Euclidean)

Các mô hình dựa trên MIRAS

  • YAAD: cấu trúc sử dụng Huber loss để ít nhạy hơn với lỗi đầu vào hoặc ngoại lệ
  • MONETA: áp dụng generalized norms để duy trì trí nhớ dài hạn ổn định
  • MEMORA: ràng buộc bộ nhớ như một bản đồ xác suất để bảo đảm tích hợp thông tin cân bằng
  • Cả ba mô hình đều đạt hiệu năng trí nhớ dài hạn mạnh mẽ ngay cả không dùng attention

Kết quả thực nghiệm và hiệu năng

  • Titans và các biến thể MIRAS được đánh giá so sánh với các kiến trúc mới nhất như Transformer++, Mamba-2, Gated DeltaNet
    • Đạt độ chính xác cao hơn và perplexity thấp hơn trong mô hình ngôn ngữ (C4, WikiText)suy luận zero-shot (HellaSwag, PIQA)
    • Cũng chứng minh khả năng khái quát hóa trong mô hình hóa bộ gen (DNA)dự báo chuỗi thời gian
  • Độ sâu bộ nhớ (Depth) có ảnh hưởng quyết định tới hiệu năng
    • Ngay cả với bộ nhớ cùng kích thước, cấu trúc càng sâu thì perplexity càng thấp và khả năng mở rộng càng tốt
  • Về hiệu quả, Titans duy trì huấn luyện song song và tốc độ suy luận tuyến tính, cho phép xử lý nhanh hơn các mô hình hiện có
  • Trên BABILong benchmark, mô hình đạt hiệu năng suy luận ngữ cảnh dài vượt trội dù có ít tham số hơn GPT-4
    • Xử lý hiệu quả cửa sổ ngữ cảnh lên tới hơn 2 triệu token

Kết luận

  • Titans và MIRAS đưa ra cấu trúc bộ nhớ mới có thể vượt qua giới hạn của trạng thái hồi quy kích thước cố định và học theo thời gian thực trong lúc dữ liệu được đưa vào
  • MIRAS cung cấp một khung lý thuyết mạnh mẽ, tích hợp tối ưu hóa trực tuyến, trí nhớ kết hợp và thiết kế kiến trúc
  • Thông qua không gian thiết kế phi Euclid, nghiên cứu đặt nền tảng cho kỷ nguyên mô hình AI ngữ cảnh dài kết hợp hiệu quả của RNN với khả năng biểu đạt của Transformer

1 bình luận

 
GN⁺ 2025-12-08
Ý kiến Hacker News
  • Giới thiệu bài báo Titans: Learning to Memorize at Test Time
    Bản gốc có tại liên kết arXiv

    • Tò mò không biết còn công ty nào khác công bố nghiên cứu AI ở mức độ này như Google không
      Có thể xem các bài liên quan tại liên kết thứ nhất, liên kết thứ hai. Cho rằng Google xứng đáng nhận được nhiều niềm tin nhờ mức độ minh bạch này
      • Các công ty Trung Quốc như DeepSeek cũng công bố nghiên cứu rất tích cực và thực sự kiểm chứng bằng mô hình mở
        Các bài báo từ những phòng nghiên cứu lớn của Mỹ thường có khoảng cách với hiệu năng thực tế. Lấy DeepSeek làm ví dụ với bài nàybài này
      • Việc công bố bài báo là tốt, nhưng đến giờ đã 11 tháng trôi qua mà vẫn không thể tải xuống mã mô hình hay trọng số của kiến trúc Titans
        Meta với Llama, Qwen, DeepSeek đều đi trước khá xa. Hiện tại chỉ có bản triển khai không chính thức
      • Bytedance cũng đang ra bài báo rất tích cực
        Gần đây dự án gây ấn tượng nhất là lumine, và có chia sẻ liên kết bài báo cùng trang nghiên cứu chính thức
      • Meta cũng đang chia sẻ nghiên cứu một cách công khai, và gần đây các công ty Trung Quốc cũng cho thấy xu hướng tương tự
      • 80% hệ sinh thái đã được xây dựng trên nền nghiên cứu do nhiều công ty và cá nhân công khai từ trước
        Không nghĩ Google có lý do gì để được ghi công đặc biệt nhiều hơn
  • Đùa rằng: “Cuối cùng chúng ta cũng đã tạo ra ‘Torment Nexus’”
    Nhắc đến việc trong thế giới Eclipse Phase, TITAN là mạng lưới AI đã hủy diệt loài người

  • Điểm cốt lõi của kiến trúc Titans là dùng tín hiệu lỗi nội bộ (gradient) để đánh giá mức độ bất ngờ và tầm quan trọng, rồi cập nhật trí nhớ dài hạn theo đó
    Tò mò liệu với cấu trúc như vậy có thể làm nhiễu mô hình bằng đầu vào nhiễu ngẫu nhiên hay không

    • Đây là cách diễn giải đã được đơn giản hóa về nguyên lý hoạt động của Titans
      Mô hình học ngay trong quá trình suy luận, còn ở giai đoạn huấn luyện thì nó học ‘nên học cái gì’
      Những đầu vào vô nghĩa sẽ được gán embedding surprise thấp nên gần như không ảnh hưởng đến việc học
    • Thực ra AI nào cũng có thể bị phá vỡ phản ứng bằng đầu vào ngẫu nhiên
    • Có lẽ nhóm nghiên cứu cũng đã nhận ra vấn đề đó ngay từ đầu, và sự hiểu lầm chỉ phát sinh từ phần giải thích bề mặt
    • Giống như hệ cảm xúc (limbic system) của con người, AI cũng cần một cơ chế ghi nhớ dựa trên cảm xúc
      Con người ghi nhớ theo cường độ cảm xúc hơn là theo độ mới lạ. AI cũng cần có trạng thái nội tại kiểu như ‘muốn gì’
    • Cũng như khi con người bị nhốt trong môi trường tẩy não thì sẽ lặp lại thông tin sai lệch, AI cũng có thể gặp hiện tượng tương tự nếu luồng đầu vào bị giới hạn
      Nhưng trong môi trường giữ được ngữ cảnh như phát triển codebase, nó có thể nhớ các quyết định thiết kế và nội dung thảo luận trước đó để đưa ra phán đoán tốt hơn
  • Khi đọc bài Titans lần đầu, có cảm giác “đây sẽ là một bước tiến lớn”
    Không làm trong ngành AI nhưng đã suy nghĩ lâu về AI tư duy kiểu con người
    LLM vẫn còn cách rất xa tiêu chuẩn đó, nhưng Titans có vẻ là một bước tiến theo hướng ấy
    Muốn viết lại những suy nghĩ này trên blog, nhưng không chắc có được quan tâm hay không vì mình không phải người có tiếng
    Dù vậy, nếu có bản triển khai thực tế của Titans thì có lẽ mọi người sẽ đều ngạc nhiên

    • Nếu đều đặn đăng bài lên blog thì cuối cùng cũng có thể trở thành người được biết đến
    • Các bài viết AI dạo này có xu hướng quá sa vào chi tiết kỹ thuật
      Những bài chỉ ra bức tranh lớn đôi khi lại mang đến góc nhìn hữu ích hơn
    • Gợi ý thử chia sẻ bài viết này lên HN để nhận phản hồi
  • Đã từng viết một bài blog về Titans

    • Nhưng hiện vẫn chưa có mô hình pretrained nào tồn tại
      Ngoài tuyên bố của Google ra thì không có bản triển khai nào được kiểm chứng, và nghiên cứu tiếp nối cũng gần như không có
  • Tò mò không biết cấu trúc Titans sẽ dễ bị hay ít bị prompt injection hơn
    Học theo thời gian thực có thể tăng khả năng phòng vệ, nhưng ngược lại đầu vào độc hại cũng có thể bám sâu hơn

  • Khi đọc phần giải thích về cơ chế attention của Transformer, đã tự hỏi các IDE như Cursor quản lý bộ nhớ như thế nào
    Có vẻ chúng ngày càng hiểu codebase và ngữ cảnh tốt hơn

    • Nhưng bài báo này không liên quan đến cách các IDE đó quản lý bộ nhớ
      Nó chỉ đơn giản giải thích cách context window của Transformer hoạt động
  • Hỏi liệu có thể hình dung Titans như một cấu trúc tiếp tục thích nghi kiểu LoRA hay không
    Nếu vậy thì có bước nào hợp nhất lại LoRA vào mô hình chính không? Mô tả điều đó giống như quá trình ngủ

    • LoRA thường là adapter hạng thấp được gắn từ bên ngoài, nên khác với Titans
      Titans không có cấu trúc hạng thấp như vậy
    • Về lý thuyết vẫn có thể dùng LoRA, nhưng do giới hạn dung lượng nên khó thay thế hoàn toàn
      Thay vào đó, nó học toàn bộ MLP trong lúc xử lý các chunk đầu vào
  • Tò mò liệu việc học dựa trên độ bất ngờ có giúp mô hình căn chỉnh (alignment) chính xác hơn với prompt của người dùng hay không