1 điểm bởi GN⁺ 2025-07-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Giả thuyết Biểu diễn Platon (Platonic Representation Hypothesis) cho rằng khi các mô hình AI ngày càng lớn và thông minh hơn, chúng sẽ hội tụ về những không gian biểu diễn tương tự nhau ở bên trong
  • Thông qua khái niệm nén (compression) của mô hình ngôn ngữ, bài viết diễn giải trí tuệ như năng lực nén dữ liệu và giải thích vì sao khi mô hình tổng quát hóa, mức độ tương đồng về phương pháp lại tăng lên
  • Bài viết phân tích bài toán đảo ngược embedding (embedding inversion), và theo PRH, không gian embedding giữa các mô hình khác nhau có thể được căn chỉnh bằng các phương pháp như CycleGAN
  • Các thí nghiệm với Sparse Autoencoder cho thấy những mạng rất khác nhau vẫn có thể khám phá ra cùng một hoặc các khái niệm và mạch tương tự nhau
  • Từ những insight này, tiềm năng ứng dụng thực tiễn như giải mã chữ viết cổ chưa được giải mã hoặc ngôn ngữ động vật trở nên rất đáng chú ý

Mở đầu: trò chơi Mussolini hoặc Bread và sự chia sẻ ý nghĩa

  • Tác giả dùng trò chơi "Mussolini hoặc Bread" làm ví dụ để giới thiệu cách liên tục thu hẹp câu hỏi nhằm suy ra đối tượng mà đối phương đang nghĩ tới
  • Lý do trò chơi này khả thi là vì tồn tại một không gian ngữ nghĩa (semantics) chung giữa con người với nhau
  • Bài viết nhấn mạnh rằng nhiều người, ngay cả không có quy tắc rõ ràng, vẫn thường trực giác hiểu được sự "gần nhau" về mặt ý nghĩa

Ngữ nghĩa phổ quát: nén thế giới và mô hình

  • Tương tự trò chơi này, bộ não con người xây dựng một mô hình phức tạp của thế giới thực theo những cách khá giống nhau
  • AI dưới góc nhìn thuật toán học bằng cách nén dữ liệu của thế giới nhiều nhất có thể
  • Tác vụ sinh ngôn ngữ tự nhiên cũng có thể được xem là một quá trình nén dựa trên phân phối xác suất (lý thuyết thông tin của Shannon)
  • Mô hình nén dữ liệu càng tốt thì càng cho thấy nó hiểu thế giới thực sâu hơn
  • Trên thực tế, các mô hình ngôn ngữ lớn hơn thể hiện khả năng nén dữ liệu tốt hơn và mức độ thông minh cao hơn
  • Khi bộ dữ liệu trở nên quá lớn đến mức không thể ghi nhớ từng điểm dữ liệu riêng lẻ, mô hình bắt đầu tổng quát hóa bằng cách kết hợp dữ liệu

Giả thuyết Biểu diễn Platon (Platonic Representation Hypothesis)

  • Các nhà nghiên cứu MIT đã chính thức hóa "Platonic Representation Hypothesis" vào năm 2024
  • Theo giả thuyết này, khi quy mô mô hình AI tăng lên, số lượng đặc trưng (feature) được chia sẻ cũng tăng theo, và các không gian biểu diễn sẽ được căn chỉnh theo cách tương tự
  • Điều này đã được quan sát thực nghiệm trong nhiều lĩnh vực như ngôn ngữ và thị giác
  • Bài viết dự đoán rằng khi mô hình mỗi năm một lớn hơn và hiệu quả hơn, mức độ tương đồng của không gian biểu diễn giữa các mô hình sẽ tiếp tục tăng lên

Bài toán đảo ngược embedding (embedding inversion)

  • Tác giả kể lại kinh nghiệm nghiên cứu bài toán đảo ngược embedding, tức suy luận ngược văn bản đầu vào thực tế từ vector embedding
  • Trước đây, trong ImageNet và các lĩnh vực tương tự, đã có các trường hợp khôi phục được thông tin gần với ảnh gốc chỉ từ các giá trị xác suất
  • Embedding ngôn ngữ tự nhiên có vẻ chứa nhiều thông tin, nhưng vì các văn bản tương tự có embedding tương tự nhau, việc suy luận ngược một cách rõ ràng là rất khó
  • Để xử lý điều này, tác giả xác nhận rằng kỹ thuật iterative refinement bằng cách lặp lại việc tìm kiếm và tối ưu embedding giúp dần tiếp cận văn bản chính xác hơn
  • Với cách làm đó, tác giả chứng minh khả năng đảo ngược với độ chính xác trên 94% ở mức câu dài

Phổ quát hóa đảo ngược embedding bằng giả thuyết Platon

  • Tuy nhiên, phương pháp trước đây chỉ áp dụng được cho một mô hình embedding cụ thể và có giới hạn với các mô hình mới hoặc mô hình riêng
  • Nếu PRH là đúng, có thể tạo ra bộ đảo ngược embedding phổ quát dùng được giữa nhiều mô hình khác nhau
  • Trong nhiều năm, tác giả đã nghiên cứu cách căn chỉnh không gian bằng CycleGAN khi có hai tập embedding khác nhau (A, B) mà không biết cặp tương ứng
  • Kết quả là tác giả đã thành công trong việc chuyển đổi giữa hai không gian embedding theo phương pháp ghép cặp không giám sát (unsupervised matching) mà không cần fine-tuning riêng (vec2vec)
  • Qua đó, bài viết chứng minh rằng ngay cả khi không có thông tin riêng cho từng embedding, vẫn có thể dịch hoặc suy luận ngược embedding của một cơ sở dữ liệu bất kỳ

Khả năng diễn giải của máy: Universal Circuits

  • Trong lĩnh vực Mechanistic Interpretability, các nghiên cứu phân tích mạch cũng phát hiện các chức năng nội bộ chung ngay cả khi cấu trúc mô hình khác nhau
  • Kết quả áp dụng Sparse Autoencoder (SAE) cho thấy ngay cả khi huấn luyện độc lập trên các mô hình khác nhau, vẫn có mức độ trùng lặp đáng kể ở các đặc trưng (feature) có thể diễn giải được
  • Bằng cách so sánh các đặc trưng của hai SAE, có thể căn chỉnh khái niệm liên mô hình
  • Nếu PRH chính xác hơn nữa, hiện tượng này được kỳ vọng sẽ nổi bật hơn ở các mô hình mạnh hơn

Hàm ý thực tiễn và triển vọng

  • Giả thuyết biểu diễn Platon, ngoài hàm ý triết học sâu sắc, còn có khả năng ứng dụng thực tiễn trong diễn giải mô hình, đảo ngược, giải mã tín hiệu, khôi phục ngôn ngữ và nhiều lĩnh vực khác
  • Khi các kỹ thuật diễn giải tiếp tục phát triển, bài viết dự đoán rằng ở các mô hình lớn hơn, việc căn chỉnh không gian biểu diễn và phát hiện điểm chung nội tại sẽ trở nên phổ biến hơn
  • Những mục tiêu từng bị xem là không thể như giải mã chữ viết cổ (Linear A) hay diễn giải ngôn ngữ động vật (ví dụ âm thanh của cá voi) cũng có thể trở thành hiện thực trong tương lai
  • Dù các phương pháp hiện tại như vec2vec vẫn còn điểm yếu, chúng đã cho thấy thành công đáng kể trong embedding dựa trên internet và ảnh-văn bản
  • Điều này cũng gợi ý rằng việc chuyển đổi không gian giữa các ngôn ngữ, hay chuyển từ ngôn ngữ cá voi sang ngôn ngữ con người, đều có khả năng được giải mã trong tương lai

1 bình luận

 
GN⁺ 2025-07-19
Ý kiến trên Hacker News
  • Việc mọi người đều học những khái niệm tương tự như "chó", "nhà", "người", "thuyền" là một hiện tượng rất thú vị, giống như thuyết ý niệm của Plato; dù lớn lên trong những môi trường khác nhau và dù trải nghiệm quan sát không trùng lặp, cuối cùng vẫn đi đến đồng thuận về cùng một khái niệm; mô hình ngôn ngữ lớn (LLM) cũng cho thấy kiểu học tương tự, nhưng vì dữ liệu huấn luyện của LLM chồng lấn rất nhiều nên không kỳ diệu bằng con người; nếu những giá trị phổ quát như đạo đức hay đức hạnh thật sự tồn tại, như 'ý niệm về cái thiện' mà Plato từng nói đến, thì có thể kỳ vọng rằng cũng sẽ khiến LLM học được các giá trị đó để tuân theo, hoặc từ chối những yêu cầu đi ngược lại
    • Những khái niệm như "điều tốt" hay "công bằng" phức tạp hơn nhiều tùy theo bối cảnh; chúng ta có thể đồng thuận về các vật đơn giản như thuyền hay nhà, nhưng với các vấn đề đạo đức như phá thai, an tử, thí nghiệm trên động vật và tế bào gốc, thì ngay trong cùng một xã hội quan điểm cũng khác biệt rất nghiêm trọng; xem ví dụ ở hình kết quả thăm dò Gallup năm 2010
    • Từ "đại khái" đang gánh quá nhiều để bảo vệ cho lập luận rằng Plato đúng; chúng ta sống trong cùng một thực tại với các định luật vật lý và áp lực tiến hóa giống nhau, nên cách một con thuyền nổi trên nước tất yếu bị giới hạn; nhưng điều đó không có nghĩa là các ý niệm kiểu Plato thật sự tồn tại để mọi người đều đi đến đúng cùng một khái niệm; trên thực tế, ngay cả những từ như "tự do", "kinh tế", "chính phủ" cũng có định nghĩa và cách diễn giải khác nhau ở mỗi người, và dù ngữ pháp giống nhau nên bề ngoài có vẻ tương tự, khái niệm thực tế lại khác nhau
    • Cuối cùng tôi hiểu chuyện này như khái niệm nguyên mẫu (archetype) của Jung
  • Ví dụ biến embedding trở lại thành văn bản không hỗ trợ cho khái niệm "mô hình thống kê của thực tại được chia sẻ"; rất khó thậm chí tưởng tượng ra phiên bản ngôn ngữ cá voi của câu "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby", và Kentucky, Derby, lịch Gregory, Mỹ, giống ngựa đều là những tạo tác chỉ trở nên quan trọng nhờ các ngẫu nhiên lịch sử và văn hóa của loài người; rốt cuộc đây chỉ là hiện tượng các mô hình trở nên giống nhau về mặt thống kê vì đều được huấn luyện trên cùng một đống dữ liệu
    • Bất kể Kentucky Derby có phải là "cốt lõi của thực tại" hay không, nếu muốn mô hình hóa thực tại chính xác 100% thì vẫn phải biết về Kentucky Derby; tác giả lập luận rằng các mô hình cuối cùng đang hội tụ đến một dạng biểu diễn gần hơn với ý niệm kiểu Plato; nếu là một mô hình hoàn toàn tự chủ với khả năng chuyển đổi hoàn hảo, thì có lẽ vẫn có thể truyền đạt các khái niệm như "cuộc đua của ngựa" hay "con ngựa thắng cuộc đua" ở cấp độ cao hơn; dù thuyết ý niệm của Plato có đúng hay không, đó vẫn là chuyện khác với việc liệu các LLM hiện nay có làm được đến mức đó hay không
    • Việc cho rằng mọi thứ trong thực tại đều là văn hóa là vô nghĩa, vì điều đó cũng áp dụng tương tự cho các sự thật khoa học; dù cá voi không biết từ khoa học thì lực hấp dẫn vẫn tồn tại; nếu một LLM chỉ học lý thuyết hấp dẫn của Newton rồi sau đó xuất hiện thuyết tương đối rộng (GR) của Einstein, thì dù dữ liệu huấn luyện không có GR, khả năng giải thích thực tại của GR vẫn không thay đổi; hơn nữa, dù không thể dịch GR sang bài hát cá voi, nó vẫn có thể được truyền đạt qua tiếng Anh - tiếng Trung - mô hình ML - khái niệm trong não, và đó chính là "mô hình thống kê của thực tại được chia sẻ"; dù không thể dịch GR sang tiếng bập bẹ của trẻ sơ sinh thì tính hiện thực của GR cũng không đổi
    • Khó mà nói LLM đang hội tụ đến một mô hình thống kê của thực tại; thực ra chúng chỉ đang hội tụ đến mô hình thống kê của dữ liệu huấn luyện; chẳng qua dữ liệu huấn luyện quá lớn nên có vẻ như chúng tìm ra được thứ gì đó chung cho mọi văn bản; điều này có lẽ không giúp hé lộ chân lý cốt lõi của thực tại, nhưng có thể giúp giải thích hiện tượng như "khi chúng ta dùng thành ngữ này thì mọi người đều hiểu theo nghĩa này"
    • Ngay cả việc dịch câu "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby" sang tiếng Hy Lạp hoặc một số ngôn ngữ bản địa hiện đại cũng gần như bất khả thi; vì hoàn toàn không có ngữ cảnh chung về nền văn hóa đó, nên cần có bảng thuật ngữ, hoặc LLM phải tự đóng vai trò bảng thuật ngữ thì mới hiểu được; tuy vậy, các LLM hàng đầu hiện nay vẫn có thể giải thích từ QCD, lực hấp dẫn đến các hiện tượng văn hóa ở cả cấp vi mô lẫn vĩ mô, và nếu thật sự phải dịch sang một ngôn ngữ hoàn toàn mới thì có lẽ vẫn có thể bắt đầu từ các khái niệm nền tảng rồi dần dần xây dựng cấu trúc; suy cho cùng, việc LLM về cơ bản có thể dịch ngôn ngữ con người mà không cần giám sát riêng cũng là nhờ năng lực này
    • Vấn đề này có thể được kiểm chứng khá dễ bằng cách huấn luyện hai mô hình với tập dữ liệu hoàn toàn khác nhau, ví dụ một mô hình chỉ dành cho văn bản Trung Hoa cổ và một mô hình chỉ dành cho tiếng Hy Lạp cổ, rồi xem có xuất hiện cấu trúc tương tự hay không
  • Kỳ vọng rằng "chúng ta có thể dịch ngôn ngữ cá voi hay ngôn ngữ cổ" là quá lạc quan; điều quan trọng nhất trong ngôn ngữ là ngữ cảnh; AI làm tốt ngôn ngữ vì con người có hàng tỷ văn bản được để lại từ kinh nghiệm sống, còn cá voi thì không có dữ liệu như thế
    • Nêu ra câu hỏi: "Nếu sư tử biết nói, liệu chúng ta có hiểu được nó không?"
    • Thế giới quanh ta là trải nghiệm được chia sẻ giữa con người, cá voi và các loài động vật khác; xét theo điểm đó, vẫn tồn tại phần giao nhau giữa cá voi và con người
    • Điều quan trọng là liệu có một "không gian biểu diễn được chia sẻ giữa các ngôn ngữ" hay không; nếu có, ta có thể học tách biệt giữa cấu trúc riêng của từng ngôn ngữ và ánh xạ dịch; phần sau, gọi là "universal embedding inverter", có thể dễ học hơn, và nếu cấu trúc đủ đặc trưng thì có thể ánh xạ nó vào không gian biểu diễn chung để khai thác; nếu thật sự có thể dịch mà không cần ngữ cảnh — dù hiện giờ vẫn chỉ là suy đoán có phần hy vọng — thì đây là hướng đáng nghiên cứu một cách không định kiến
    • Nếu dạy khỉ đột hay voi (đều rất thông minh) cách gọi tên sự vật và dùng ký hiệu, thì có lẽ chúng cũng có thể truyền lại kinh nghiệm và trí tuệ qua nhiều thế hệ, và lặng lẽ thể hiện trí thông minh không kém gì chúng ta; tôi cũng quan tâm đến dự án cá heo của Google Gemma, nhưng vì con người là động vật sống trên cạn nên tôi mong người ta chọn voi làm đối tượng nghiên cứu hơn là cá heo, để có thể nhận phản hồi nghiên cứu ngay trên đất liền và tập trung nhiều hơn vào nghiên cứu nền tảng
  • Cách tiếp cận này chỉ hiệu quả khi phân bố đặc trưng và quan hệ ngữ nghĩa của từng nguồn đủ giống nhau; trò chơi MB (so sánh suy luận như Mussolini vs Bread) sẽ thất bại nếu đối phương chọn một nhân vật mà tôi không biết; có thể tôi không bắt được tham chiếu, hoặc đánh giá khoảng cách ngữ nghĩa khác đi; phải chơi đúng tầm giữa chuyên gia với chuyên gia, người bình thường với người bình thường thì mới vận hành ổn; việc giải mã văn bản cổ cũng gặp vấn đề tương tự, vì nếu nền văn minh cổ tập trung vào những khái niệm hoàn toàn khác hiện tại thì embedding ngữ nghĩa hiện đại gần như không thể giúp hiểu được
    • Chơi MB với bạn bè thì — nếu là nhân vật, tôi chưa từng đoán đúng đến cùng được lần nào
  • Trong ví dụ trò chơi Mussolini vs Bread, suy luận rằng "đây chắc chắn là một con người" không đứng vững về mặt logic; ngay cả trong nhóm động vật cũng có thể có nhiều đáp án như vậy hơn
    • Trò đùa này mang ý rằng David Beckham không hẳn là một con người theo nghĩa nhân tính, mà giống một kiểu hài hước nói rằng anh ấy kém tính người đến mức có thể bị đem so với hiện thân của cái ác
    • Logic thì lỏng lẻo, nhưng điểm mấu chốt là trong thực tế con người vẫn suy ra được đáp án khá tốt ngay cả khi giải thích thiếu chặt chẽ như vậy; điều đó cho thấy con người có một không gian ngữ nghĩa mờ được chia sẻ
    • Tôi cũng nghĩ giống tác giả; từ của tôi có lẽ sẽ là "súng" hay "pháo binh", và nó cũng có thể xuyên qua lỗ hổng logic kiểu đó; đồng thời điều này gợi ý vì sao chỉ tìm kiếm embedding thuần túy thì không thể giải quyết bài toán RAG (retrieval-augmented generation)
    • Xin bỏ qua các lỗi logic nhỏ nhặt
    • Cũng có thể xuất hiện đáp án lạc quẻ như Oswald Mosley
  • Tôi không đồng ý với nhận định rằng "trò chơi này hoạt động vì các sự vật trên thế giới chỉ liên hệ với nhau theo đúng một cách"; tồn tại rất nhiều kiểu quan hệ khác nhau, và những quan hệ đó cũng bắt nguồn từ thực tại mà chúng ta đang sống; có vẻ từ "cách" đã được dùng theo nhiều nghĩa, và cách trích dẫn quá mơ hồ nên gây nhầm lẫn
  • Tôi đồng ý rằng LLM đang hội tụ đến biểu diễn của thực tại hiện tại thông qua sản phẩm lao động tập thể của nhân loại; giờ chỉ còn phải cấp cho AI đầu vào cảm giác thời gian thực, các hormone ảo có half-life khác nhau dựa trên hội thoại và mức tiêu hao năng lượng, vòng lặp suy nghĩ thường trực, và cả psilocybin nhân tạo để kích hoạt các kết nối thần kinh sáng tạo; nếu loài người có giả thuyết stoned ape, thì AI cũng cần một giả thuyết stoned AI
    • Hay là biến AI thành một attraction cho khách trong công viên giải trí, rồi trao quyền quản lý mã nguồn cho Anthony Hopkins luôn, biết đâu lại chẳng có gì sai xảy ra?
    • Tôi bắt đầu chán đọc bài về AI rồi, nhưng nếu thấy một bài kiểu "chúng tôi đã cho AI ăn nấm" thì tôi sẽ bấm vào ngay
  • Đọc đoạn "khi Ilya nói về trí tuệ và nén thông tin, tôi hoàn toàn không hiểu" khiến tôi tự hỏi có phải Marcus Hutter đã bị lãng quên không; nếu vậy thì tôi nghĩ Hutter Prize rất đáng được xem lại
  • Tôi đã hỏi Grok, o3-pro và Claude về hiệu ứng áp điện (piezoelectric effect); cả ba đều trả lời đúng, nhưng chỉ Claude là chỉ ra được cả các hiệu ứng bậc hai phát sinh trong ca sử dụng thực tế; có thể ba mô hình đang khám phá cùng một không gian, nhưng Claude đưa ra được một góc nhìn sâu hơn một bậc
    • Có một điều tôi tò mò là liệu đó là Grok 3 hay 4
  • Đạo khả đạo, phi thường đạo; nếu hỏi Đạo là gì, tôi cho rằng đó là 'ý chí' — ý chí có thể được con người biểu đạt bằng ngôn ngữ; cùng một ý chí có thể được thể hiện bằng tiếng Trung, tiếng Nhật hay tiếng Anh, còn ngôn ngữ chỉ là những biểu diễn khác nhau; mô hình ngôn ngữ lớn cũng học ý chí thông qua token từ ngữ, và khi nó có thể biểu đạt điều đó thì tức là nó đang hiện thực hóa Đạo; theo nghĩa ấy, tôi đồng ý với nhận định rằng “các mô hình AI về bản chất có thể đều giống nhau”