- Giả thuyết Biểu diễn Platon (Platonic Representation Hypothesis) cho rằng khi các mô hình AI ngày càng lớn và thông minh hơn, chúng sẽ hội tụ về những không gian biểu diễn tương tự nhau ở bên trong
- Thông qua khái niệm nén (compression) của mô hình ngôn ngữ, bài viết diễn giải trí tuệ như năng lực nén dữ liệu và giải thích vì sao khi mô hình tổng quát hóa, mức độ tương đồng về phương pháp lại tăng lên
- Bài viết phân tích bài toán đảo ngược embedding (embedding inversion), và theo PRH, không gian embedding giữa các mô hình khác nhau có thể được căn chỉnh bằng các phương pháp như CycleGAN
- Các thí nghiệm với Sparse Autoencoder cho thấy những mạng rất khác nhau vẫn có thể khám phá ra cùng một hoặc các khái niệm và mạch tương tự nhau
- Từ những insight này, tiềm năng ứng dụng thực tiễn như giải mã chữ viết cổ chưa được giải mã hoặc ngôn ngữ động vật trở nên rất đáng chú ý
Mở đầu: trò chơi Mussolini hoặc Bread và sự chia sẻ ý nghĩa
- Tác giả dùng trò chơi "Mussolini hoặc Bread" làm ví dụ để giới thiệu cách liên tục thu hẹp câu hỏi nhằm suy ra đối tượng mà đối phương đang nghĩ tới
- Lý do trò chơi này khả thi là vì tồn tại một không gian ngữ nghĩa (semantics) chung giữa con người với nhau
- Bài viết nhấn mạnh rằng nhiều người, ngay cả không có quy tắc rõ ràng, vẫn thường trực giác hiểu được sự "gần nhau" về mặt ý nghĩa
Ngữ nghĩa phổ quát: nén thế giới và mô hình
- Tương tự trò chơi này, bộ não con người xây dựng một mô hình phức tạp của thế giới thực theo những cách khá giống nhau
- AI dưới góc nhìn thuật toán học bằng cách nén dữ liệu của thế giới nhiều nhất có thể
- Tác vụ sinh ngôn ngữ tự nhiên cũng có thể được xem là một quá trình nén dựa trên phân phối xác suất (lý thuyết thông tin của Shannon)
- Mô hình nén dữ liệu càng tốt thì càng cho thấy nó hiểu thế giới thực sâu hơn
- Trên thực tế, các mô hình ngôn ngữ lớn hơn thể hiện khả năng nén dữ liệu tốt hơn và mức độ thông minh cao hơn
- Khi bộ dữ liệu trở nên quá lớn đến mức không thể ghi nhớ từng điểm dữ liệu riêng lẻ, mô hình bắt đầu tổng quát hóa bằng cách kết hợp dữ liệu
Giả thuyết Biểu diễn Platon (Platonic Representation Hypothesis)
- Các nhà nghiên cứu MIT đã chính thức hóa "Platonic Representation Hypothesis" vào năm 2024
- Theo giả thuyết này, khi quy mô mô hình AI tăng lên, số lượng đặc trưng (feature) được chia sẻ cũng tăng theo, và các không gian biểu diễn sẽ được căn chỉnh theo cách tương tự
- Điều này đã được quan sát thực nghiệm trong nhiều lĩnh vực như ngôn ngữ và thị giác
- Bài viết dự đoán rằng khi mô hình mỗi năm một lớn hơn và hiệu quả hơn, mức độ tương đồng của không gian biểu diễn giữa các mô hình sẽ tiếp tục tăng lên
Bài toán đảo ngược embedding (embedding inversion)
- Tác giả kể lại kinh nghiệm nghiên cứu bài toán đảo ngược embedding, tức suy luận ngược văn bản đầu vào thực tế từ vector embedding
- Trước đây, trong ImageNet và các lĩnh vực tương tự, đã có các trường hợp khôi phục được thông tin gần với ảnh gốc chỉ từ các giá trị xác suất
- Embedding ngôn ngữ tự nhiên có vẻ chứa nhiều thông tin, nhưng vì các văn bản tương tự có embedding tương tự nhau, việc suy luận ngược một cách rõ ràng là rất khó
- Để xử lý điều này, tác giả xác nhận rằng kỹ thuật iterative refinement bằng cách lặp lại việc tìm kiếm và tối ưu embedding giúp dần tiếp cận văn bản chính xác hơn
- Với cách làm đó, tác giả chứng minh khả năng đảo ngược với độ chính xác trên 94% ở mức câu dài
Phổ quát hóa đảo ngược embedding bằng giả thuyết Platon
- Tuy nhiên, phương pháp trước đây chỉ áp dụng được cho một mô hình embedding cụ thể và có giới hạn với các mô hình mới hoặc mô hình riêng
- Nếu PRH là đúng, có thể tạo ra bộ đảo ngược embedding phổ quát dùng được giữa nhiều mô hình khác nhau
- Trong nhiều năm, tác giả đã nghiên cứu cách căn chỉnh không gian bằng CycleGAN khi có hai tập embedding khác nhau (A, B) mà không biết cặp tương ứng
- Kết quả là tác giả đã thành công trong việc chuyển đổi giữa hai không gian embedding theo phương pháp ghép cặp không giám sát (unsupervised matching) mà không cần fine-tuning riêng (vec2vec)
- Qua đó, bài viết chứng minh rằng ngay cả khi không có thông tin riêng cho từng embedding, vẫn có thể dịch hoặc suy luận ngược embedding của một cơ sở dữ liệu bất kỳ
Khả năng diễn giải của máy: Universal Circuits
- Trong lĩnh vực Mechanistic Interpretability, các nghiên cứu phân tích mạch cũng phát hiện các chức năng nội bộ chung ngay cả khi cấu trúc mô hình khác nhau
- Kết quả áp dụng Sparse Autoencoder (SAE) cho thấy ngay cả khi huấn luyện độc lập trên các mô hình khác nhau, vẫn có mức độ trùng lặp đáng kể ở các đặc trưng (feature) có thể diễn giải được
- Bằng cách so sánh các đặc trưng của hai SAE, có thể căn chỉnh khái niệm liên mô hình
- Nếu PRH chính xác hơn nữa, hiện tượng này được kỳ vọng sẽ nổi bật hơn ở các mô hình mạnh hơn
Hàm ý thực tiễn và triển vọng
- Giả thuyết biểu diễn Platon, ngoài hàm ý triết học sâu sắc, còn có khả năng ứng dụng thực tiễn trong diễn giải mô hình, đảo ngược, giải mã tín hiệu, khôi phục ngôn ngữ và nhiều lĩnh vực khác
- Khi các kỹ thuật diễn giải tiếp tục phát triển, bài viết dự đoán rằng ở các mô hình lớn hơn, việc căn chỉnh không gian biểu diễn và phát hiện điểm chung nội tại sẽ trở nên phổ biến hơn
- Những mục tiêu từng bị xem là không thể như giải mã chữ viết cổ (Linear A) hay diễn giải ngôn ngữ động vật (ví dụ âm thanh của cá voi) cũng có thể trở thành hiện thực trong tương lai
- Dù các phương pháp hiện tại như vec2vec vẫn còn điểm yếu, chúng đã cho thấy thành công đáng kể trong embedding dựa trên internet và ảnh-văn bản
- Điều này cũng gợi ý rằng việc chuyển đổi không gian giữa các ngôn ngữ, hay chuyển từ ngôn ngữ cá voi sang ngôn ngữ con người, đều có khả năng được giải mã trong tương lai
1 bình luận
Ý kiến trên Hacker News