Mamba: mô hình không gian trạng thái thách thức Transformer

(kolaayonrinde.com)

11 điểm bởi GN⁺ 2024-02-27 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mamba là mô hình không gian trạng thái (State Space Model) thách thức Transformer

AI hiện đang thống trị thế giới, và ở trung tâm của nó là Transformer
Mamba thuộc về một lớp mô hình thay thế có tên là mô hình không gian trạng thái (SSM)
Mamba có hiệu năng và khả năng mở rộng tương tự Transformer, đồng thời có thể chạy trên các chuỗi rất dài
Điểm đáng chú ý là Mamba loại bỏ “nút thắt cổ chai bậc hai” của “cơ chế attention”, nhờ đó hỗ trợ ngữ cảnh dài
Mamba chạy nhanh hơn Transformer tới 5 lần

Vấn đề của Transformer - chỉ attention thôi có thể là chưa đủ

Transformer cho phép mọi token tham chiếu tới các token trước đó, nên khi ngữ cảnh tăng lên thì mô hình sẽ chậm hơn
Việc lưu trữ KV cache này cũng đòi hỏi độ phức tạp không gian O(n)
Đã có các kỹ thuật giúp giảm nút thắt cổ chai của Transformer hiện tại, nhưng để giải quyết tận gốc thì cần một cách tiếp cận khác

Backbone của mô hình nền tảng

Hai thành phần quan trọng của một backbone kiến trúc ML tốt
- Giao tiếp (Communication) giữa các token
- Tính toán (Computation) bên trong token
Khối Transformer được cấu thành từ attention và MLPs
Mamba sử dụng SSM lấy cảm hứng từ lý thuyết điều khiển cho phần giao tiếp, đồng thời giữ lại kiểu chiếu MLP cho phần tính toán

Động lực của Mamba - quay lại với Temple Run

Trạng thái (state) là các biến cần thiết để xác định hành vi tương lai của một hệ thống
Trạng thái là phần nén của mọi thứ cần biết về quá khứ, và được chuyển thành một quá trình quyết định Markov

Rời rạc hóa - sống trong một thế giới đã được lượng tử hóa

Quá trình chuyển phương trình vi phân theo thời gian liên tục thành phương trình sai phân theo thời gian rời rạc được gọi là rời rạc hóa (discretisation)
Mamba sử dụng phương pháp rời rạc hóa zero-order hold (ZOH)

Hiểu các ma trận SSM

Các ma trận A, B, C, D lần lượt đảm nhiệm vai trò chuyển trạng thái, ánh xạ đầu vào mới vào trạng thái, ánh xạ trạng thái sang đầu ra SSM, và truyền đầu vào mới sang đầu ra

Hiệu quả và hiệu năng: Attention is Focus, Selectivity is Prioritisation (Attention là tập trung, Selectivity là ưu tiên hóa)

Transformer rất hiệu quả về mặt kết quả nhưng không thật sự hiệu quả về mặt tính toán
Kiến trúc Mamba đưa ra một lời giải giúp đẩy đường biên Pareto giữa hiệu quả và hiệu năng

Cơ chế chọn lọc

Tính chọn lọc (Selectivity) cho phép mỗi token được chuyển thành trạng thái theo đúng nhu cầu của nó
Mamba biến các ma trận A, B, C thành hàm của x, khiến chúng không còn tĩnh mà phụ thuộc vào ngữ cảnh

Vấn đề của tính chọn lọc

Khi áp dụng cơ chế chọn lọc, việc tính toán có thể chậm hơn so với SSM không chọn lọc
Nhờ tối ưu hóa phần cứng, Mamba có thể chạy nhanh hơn Transformer có kích thước tương đương

Học máy và kinh tế chính trị - kích thước trạng thái nên lớn đến mức nào?

Sự đánh đổi giữa hiệu năng và hiệu quả của mô hình chuỗi được đặc trưng bởi mức độ nén trạng thái tốt đến đâu
Biểu diễn trạng thái là yếu tố quan trọng, và việc nén trạng thái một cách chọn lọc, động là chìa khóa

Luồng thông tin của Transformer so với Mamba

Transformer học thông qua dữ liệu huấn luyện và dữ liệu ngữ cảnh
Với Mamba, dữ liệu huấn luyện và dữ liệu ngữ cảnh được nén/lọc để có thể truy cập

Thay thế trạng thái như một mô hình prompting mới

Khi dùng các mô hình như Mamba, có thể chia sẻ thư viện trạng thái được tạo ra từ dữ liệu chuyên môn
Trạng thái cho phép áp dụng việc học ngữ cảnh vô hạn trong thời gian suy luận mà không cần backprop

Mamba và khả năng diễn giải cơ chế

Khả năng diễn giải của Mamba tập trung vào việc hiểu cách thông tin di chuyển giữa các token

Mamba và SSM sẽ làm gì tiếp theo

Các mô hình như Mamba có khả năng thể hiện xuất sắc trong các kịch bản cần ngữ cảnh rất dài và bộ nhớ dài hạn

Tác nhân và an toàn AI

Các mô hình ngôn ngữ về bản chất là an toàn, nhưng khả năng suy luận chuỗi dài hạn làm sống lại tầm quan trọng của an toàn AI dựa trên tác nhân

Sự phối hợp tốt nhất giữa Transformer và Mamba

Việc kết hợp ngữ cảnh dài của Mamba với độ phân giải cao của Transformer trên các chuỗi ngắn là điều có giá trị

Ý kiến của GN⁺

Mamba giải quyết nút thắt cổ chai của Transformer và đưa ra một phương án thay thế hiệu quả cho xử lý chuỗi dài
Công nghệ này có thể đặc biệt hữu ích trong các lĩnh vực mà chuỗi dữ liệu dài là quan trọng, như y tế, di truyền học và xử lý ngôn ngữ tự nhiên
Cần thêm nghiên cứu để xác minh liệu cơ chế chọn lọc của Mamba có thực sự hiệu quả hay không
Tính chọn lọc của Mamba có thể giúp tìm ra điểm cân bằng giữa độ chính xác cao và hiệu suất mà Transformer mang lại

Mamba: mô hình không gian trạng thái thách thức Transformer

Mamba là mô hình không gian trạng thái (State Space Model) thách thức Transformer

Vấn đề của Transformer - chỉ attention thôi có thể là chưa đủ

Backbone của mô hình nền tảng

Động lực của Mamba - quay lại với Temple Run

Rời rạc hóa - sống trong một thế giới đã được lượng tử hóa

Hiểu các ma trận SSM

Hiệu quả và hiệu năng: Attention is Focus, Selectivity is Prioritisation (Attention là tập trung, Selectivity là ưu tiên hóa)

Cơ chế chọn lọc

Vấn đề của tính chọn lọc

Học máy và kinh tế chính trị - kích thước trạng thái nên lớn đến mức nào?

Luồng thông tin của Transformer so với Mamba

Thay thế trạng thái như một mô hình prompting mới

Mamba và khả năng diễn giải cơ chế

Mamba và SSM sẽ làm gì tiếp theo

Tác nhân và an toàn AI

Sự phối hợp tốt nhất giữa Transformer và Mamba

Ý kiến của GN⁺

Bài viết liên quan

Chưa có bình luận nào.