Deep learning là tô pô học ứng dụng

(theahura.substack.com)

7 điểm bởi GN⁺ 2025-05-21 | 1 bình luận | Chia sẻ qua WhatsApp

Có thể xem deep learning là quá trình đặt dữ liệu lên một manifold trong không gian nhiều chiều, rồi dùng các phép biến đổi qua các tầng mạng nơ-ron để uốn hoặc kéo giãn bề mặt đó nhằm tìm ra cấu trúc có thể phân tách
Một tầng như tanh(Wx+b) là một phép biến đổi liên tục ghép từ biến đổi ma trận, dịch chuyển vectơ và hàm phi tuyến; khi chồng nhiều tầng, ngay cả tập dữ liệu phức tạp cũng có thể được biến đổi sang hình dạng khác
Ngay cả dữ liệu hình tròn vốn không thể bị chia bằng một đường thẳng trong không gian chiều thấp cũng có thể trở nên phân tách được nếu nâng lên không gian chiều cao hơn, và mạng nơ-ron có thể học được không gian biểu diễn như vậy
Vectơ embedding biểu diễn văn bản, hình ảnh và khái niệm dưới dạng các điểm trong không gian số; trên một bề mặt được hình thành tốt, các phép toán khái niệm như king - man + woman = queen trở nên khả thi
Việc huấn luyện các mô hình suy luận hiện nay có thể được diễn giải là quá trình di chuyển trên manifold suy luận bằng cách chọn ra các reasoning trace tốt, và học tăng cường kiểu DeepSeek R1 được xem là cách giảm chi phí lựa chọn thủ công của con người

Mạng nơ-ron nhìn từ góc độ tô pô học

Tô pô học là ngành toán học nghiên cứu những tính chất được bảo toàn qua các biến dạng như uốn, xoắn, kéo giãn, miễn là bề mặt không bị xé rách hay đục lỗ
Một vòng tròn vẽ trên bề mặt đất sét, dù bị xoay hay uốn cong, cũng không đột nhiên biến thành một đường thẳng, thành hai vòng tròn, hay tự cắt chính nó
Bài toán phân loại dữ liệu cũng có thể được nhìn theo cách tương tự
- Dù dữ liệu trên mặt phẳng 2D không thể được tách gọn bằng một đường thẳng, nếu biến dạng bề mặt phù hợp thì có thể xuất hiện cấu trúc có thể phân tách
- Đây là góc nhìn cho rằng thao tác trên không gian nằm ở cốt lõi của deep learning

Các tầng mạng nơ-ron là những phép biến đổi liên tục làm biến dạng bề mặt

Cách giải thích mạng nơ-ron như một chồng các phép đại số tuyến tính nhìn chung là đúng, và ma trận có thể được diễn giải như các phép toán biến đổi bề mặt hình học
Bài viết năm 2014 của Chris Olah cũng bàn về manifold trong deep learning theo cách này
Tầng tanh(Wx+b) gồm ba bước
- Biến đổi tuyến tính bởi W
- Dịch chuyển bởi vectơ b
- Biến dạng phi tuyến sinh ra bởi việc áp dụng tanh theo từng điểm
Khi chồng các phép biến đổi này qua nhiều tầng, ngay cả tập dữ liệu phức tạp cũng có thể được biến thành dạng có thể phân tách
Tuy nhiên, vẫn có những trường hợp khó tách bằng một đường thẳng về mặt tô pô, chẳng hạn các điểm nằm trong một vòng tròn và các điểm bao quanh bên ngoài nó
- Khi đó, nếu nâng từ 2 chiều lên 3 chiều, dữ liệu có thể được phân tách gọn gàng
- Sự phân tách bất khả thi ở chiều thấp có thể trở nên dễ dàng ở chiều cao hơn

Embedding và manifold ngữ nghĩa

Mạng nơ-ron lớn có thể được xem như một bộ sinh tô pô (topology generator)
- Nó nhận dữ liệu đầu vào và tìm ra một bề mặt thỏa mãn các tính chất mà hàm mất mát yêu cầu
- Trong tác vụ phân loại, nó học để chó và mèo nằm ở các vùng khác nhau trong không gian
- Trong tác vụ dịch, nó học để các mục như bread và pan, hay ảnh con mèo và cat, nằm gần nhau
- Trong dự đoán token tiếp theo, nó học một bề mặt nơi các token được nhóm lại theo cách chúng được sử dụng
Dữ liệu nằm trên những manifold có số chiều cao và có liên hệ ngữ nghĩa, và việc tạo ra manifold gắn chặt với việc biểu diễn tập dữ liệu theo nghĩa ngữ nghĩa
Ví dụ về màu sắc cho thấy cấu trúc này có thể nội tại trong chính dữ liệu
- [128, 0, 0] biểu thị màu đỏ, [0, 0, 128] biểu thị màu xanh dương
- Cộng hai vectơ này có thể tạo ra màu tím
- Tính nhiều chiều của màu sắc, độ tương đồng giữa các màu và cách trộn màu có thể được xem là cấu trúc nội tại của dữ liệu
Hình ảnh cũng có thể được xử lý như các điểm trên một manifold
- Hình ảnh được biểu diễn bằng các giá trị pixel RGB kích thước Height x Width x 3
- Nếu trải phẳng thành một vectơ, mọi hình ảnh ở một kích thước nhất định có thể được xem là các điểm trong không gian nhiều chiều
- Vùng hình ảnh Brad Pitt ăn sandwich và hình Mona Lisa có thể là những điểm khác nhau trong cùng một không gian ảnh
Phần lớn không gian ảnh là nhiễu, và việc chỉ nhóm theo độ giống nhau của pixel là không hữu ích
- Mô hình deep learning có thể uốn và kéo giãn bề mặt ảnh để những hình ảnh đáng quan tâm ở gần nhau, còn nhiễu thì ở xa nhau
Bên trong mô hình, thông tin như văn bản và hình ảnh được biểu diễn bằng các danh sách số gọi là vectơ embedding
- Mỗi embedding vừa gắn với một khái niệm, vừa là một điểm trong không gian
- Trên một bề mặt được hình thành tốt, có thể thực hiện các phép toán khái niệm toán học như king - man + woman = queen

Nhìn việc học suy luận như sự di chuyển trên manifold

Theo góc nhìn mọi thứ đều nằm trên manifold, suy luận cũng có thể được xem là một manifold
- Có thể hình dung suy luận tốt tụ lại ở một phía của không gian, còn suy luận kém tụ lại ở phía khác
- Dù không thể định nghĩa tốt và xấu như các thuật ngữ toán học chặt chẽ, chỉ cần phân biệt được chúng thì vẫn có thể huấn luyện mạng nơ-ron
Có thể diễn giải rằng các công ty AI lớn như Google, Anthropic, OAI và DeepSeek cũng đang đi theo hướng này
Trong ngành AI, có vẻ tồn tại đồng thuận rằng những gì có thể lấy được chỉ từ thống kê ngôn ngữ thuần túy thì phần lớn đã được khai thác gần hết
- Hầu hết LLM được huấn luyện trên hàng nghìn tỷ token
- Ngay cả khi tăng lên hàng triệu tỷ token, lợi ích bổ sung có thể cũng không lớn
- Dự đoán token tiếp theo giống với suy luận, nhưng bản thân nó chủ yếu làm mô hình giỏi dự đoán token tiếp theo hơn là tự đạt tới suy luận
instruction tuning và RLHF có thể được diễn giải là cách di chuyển từ vùng dự đoán token tiếp theo sang vùng suy luận hỏi đáp
Chain of Thought là cách di chuyển rõ ràng hơn vào vùng suy luận của manifold suy luận
- Quá trình suy nghĩ hiển thị dưới dạng Thinking… trong các mô hình như o3 hay Gemini 2.5 được gọi là reasoning trace
- Nếu chạy rất nhiều truy vấn, có thể phân biệt reasoning trace tốt và reasoning trace xấu
- Ví dụ, nếu từ 1 triệu truy vấn thu được 10.000 trace rất tốt, có thể dùng chúng để huấn luyện một mô hình mới chỉ tạo ra các trace tốt hơn
Nếu lặp lại quá trình này, có thể bootstrap mô hình tiếp theo từ mô hình trước đó
- Chỉ cần có cách phán đoán trace suy luận nào tốt hơn giữa hai trace thì có thể tiếp tục di chuyển trên manifold suy luận
- Điều này cũng có thể được xem là lấy 10.000 mẫu tốt như thể chúng đến từ một mô hình giả định tiên tiến hơn rồi distill-train mô hình hiện tại
Có quan điểm cho rằng cách tiếp cận này đủ để đạt AGI, dù có kèm chú thích rằng việc nói AGI đã tồn tại là điều gây tranh cãi
Nhưng được cho là chưa đủ để đạt ASI
- Khả năng chọn ra suy luận tốt nhất trở thành giới hạn
- Việc thu thập reasoning trace tốt rất tốn tiền và thời gian
- Ngay cả khi có nhiều người thông minh lựa chọn cả ngày, kết quả vẫn có thể chủ quan và nhiều nhiễu

DeepSeek R1, học tăng cường và mô hình tạo ra mô hình

DeepSeek R1 và các phương pháp học tăng cường khác xuất hiện theo hướng không để con người trực tiếp chọn suy luận tốt
Cách tiếp cận của DeepSeek tập trung vào việc tạo ra các heuristic định lượng cho suy luận tốt
- Có thể tạo các bài kiểm thử đơn vị hoặc các bài toán mà AI phải vượt qua
- Nếu mã nguồn vượt qua kiểm thử hoặc giải đúng bài toán, reasoning trace tạo ra đầu ra đó có thể được xem là tốt hơn trace tạo ra đầu ra sai
- Không cần phân tích chủ quan chính reasoning trace đó
Có thể xem đây là đã thành công trong việc huấn luyện mô hình làm khá tốt trên một nhóm tác vụ suy luận chỉ bằng RL
Tuy vậy, chỉ riêng cách tiếp cận RL vẫn chưa thể đạt ASI
- Các mô hình RL cuối cùng cũng đụng phải giới hạn tiệm cận
- Sau đó, reasoning trace do mô hình RL tạo ra sẽ được tuyển chọn để fine-tune một mô hình thứ hai hoàn toàn khác
- Kết quả là DeepSeek gần với một phương pháp tạo ra nhiều reasoning trace chất lượng cao rẻ hơn cách con người tự làm, hơn là bản thân RL
Đây là góc nhìn cho rằng việc xây dựng một hệ thống phân biệt suy luận xấu và suy luận tốt dễ hơn việc xây dựng một hệ thống biết suy luận tốt ngay từ đầu
Bản thân mạng nơ-ron cũng có thể được biểu diễn như một manifold
- Mạng nơ-ron là một danh sách các con số trọng số được sắp xếp theo một cách nhất định
- Nếu trải toàn bộ tham số thành một vectơ, có thể ánh xạ nó thành một điểm trên bề mặt
- Một vùng có thể tương ứng với semantic segmentation, vùng khác với text translation, và vùng khác nữa với autoencoding
- Vì các trọng số đầu ra có thể dễ dàng biểu diễn dưới dạng tensor, có thể áp dụng backprop trực tiếp lên đầu ra
Có đề xuất rằng phương pháp diffusion trong tạo ảnh cũng có thể được áp dụng cho việc tạo mô hình
- diffusion thêm nhiễu vào ảnh từng bước, rồi huấn luyện mô hình đảo ngược quá trình thêm nhiễu đó
- Có thể thêm nhiễu vào nhiều checkpoint transformer layer pretrained của Hugging Face để tạo tập huấn luyện cho diffusion
- Nếu đưa mô tả mô hình pretrained làm điều kiện văn bản, có thể hình dung một mô hình dùng diffusion để tạo ra các mô hình pretrained khác từ mô tả văn bản
- Khả năng được nêu ra là chỉ cần đưa prompt như "Spanish to English" là nhận về một mô hình đã được huấn luyện hoàn chỉnh mà không cần huấn luyện riêng
Hiện nay phần lớn mô hình bắt đầu từ khởi tạo ngẫu nhiên, nhưng mô hình diffusion tạo ra mô hình khác có thể tốt hơn khởi tạo ngẫu nhiên và rút ngắn đáng kể thời gian huấn luyện
Deep learning vẫn là một lĩnh vực mang tính phi hình thức vì thiếu một lý thuyết vận hành tốt về việc mô hình đang làm gì và vì sao nó hoạt động; việc hiểu không gian embedding theo góc độ tô pô giúp kết nối nhiều khái niệm

1 bình luận

GN⁺ 2025-05-21

Các ý kiến trên Hacker News

Vì bài này dựa trên bài blog năm 2014 của tôi (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/), tôi xin để lại vài lời
Tôi đã thật sự cố gắng dùng tô pô học như một cách để hiểu mạng nơ-ron, và cũng đã viết các bài tiếp theo: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
Có những điểm mà góc nhìn tô pô tỏ ra hữu ích, nhưng sau hơn 10 năm bám sát để xem điều gì đang diễn ra bên trong mạng nơ-ron, tôi không thu được nhiều thành quả lớn
Hướng đem lại nhiều kết quả hơn hẳn là giả thuyết biểu diễn tuyến tính, rằng “khái niệm/đặc trưng tương ứng với các hướng trong mạng nơ-ron”, và khái niệm mạch như một mạng lưới các khái niệm được liên kết đó
Các bài liên quan gồm https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio...
- Có một hiểu lầm thường gặp liên quan đến cách hiểu mạng nơ-ron: ý nghĩ rằng LLM về cơ bản chỉ là mô hình n-gram được cải tiến đôi chút, và vì chúng chỉ dự đoán token tiếp theo nên mô hình hẳn phải ngốc nghếch
  Tôi tự hỏi liệu phản ứng nổi tiếng[1] đối với bài viết về RNN của Karpathy[2] có phần nào chịu trách nhiệm trong việc khiến người ta đồng nhất mạng nơ-ron ngôn ngữ với mô hình n-gram hay không
  Bài báo Stochastic Parrots[3] cũng phần nào đồng nhất LLM với mô hình n-gram theo kiểu “chủ yếu nghĩ đến mô hình n-gram, nhưng kết luận vẫn phù hợp và liên quan”
  Trước khi mạng nơ-ron thật sự trở nên tốt hơn, có lẽ đã từng có một thời kỳ hai thứ này giống nhau hơn
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- Tôi đã theo dõi dòng nghiên cứu circuits trong vài năm qua, và giả thuyết biểu diễn tuyến tính trông rất thuyết phục
  Tôi cũng đã lưu bản nháp review Toy Models of Superposition trong ghi chú
  Tuy nhiên, circuits có cảm giác kém thuyết phục hơn vì việc phân tích dường như bị gắn quá chặt, đặc biệt với kiến trúc Transformer
  Tôi nghĩ giả thuyết biểu diễn tuyến tính có lẽ phụ thuộc vào kiến trúc. GAN, VAE, CLIP, v.v. trông như đang mô hình hóa đa tạp một cách tường minh
  Ngay cả một mô hình đơn giản, do áp lực tối ưu hóa, cũng sẽ nhét các đặc trưng đủ tương tự vào cùng một hướng tuyến tính
  Dù khó dung hòa bằng chứng thực nghiệm rằng mô hình đơn giản đặt các đặc trưng tương tự ở những hướng trực giao với giả thuyết đa tạp, điều đó cuối cùng có vẻ liên quan nhiều hơn đến hàm mất mát đang được tối ưu hóa
  Trong Toy Models of Superposition, họ dùng MSE để khiến mô hình về cơ bản học một nhiệm vụ hồi quy/nén kiểu autoencoder, nên việc các mẫu giao thoa giữa các đặc trưng cùng xuất hiện trở nên quan trọng là điều tự nhiên
  Ngược lại, với các mục tiêu khác như contrastive loss, tôi không nghĩ hành vi giảm thiểu giao thoa tương tự sẽ xuất hiện
- Sau khi lần đầu học tô pô học vào năm 2011, tôi đã nhiều lần thử “áp dụng” tô pô học vào các vấn đề thực tế, và trải nghiệm của tôi cũng tương tự
  Giờ đây tôi cũng trở nên dè dặt với cách nói quen thuộc rằng “dữ liệu thực tế trơn và gần với một đa tạp số chiều thấp”
  Tôi muốn khảo sát kỹ xem mệnh đề này đúng đến mức nào với dữ liệu thực, và nó bị bóp méo bao nhiêu bởi các phương pháp giảm chiều mà ta dùng để xử lý hiệu quả các tập dữ liệu tự nhiên, nhưng lại không đủ thời gian
- Trong vật lý, điều thú vị là các đối xứng toàn cục hoặc đa tạp tô pô khác nhau có thể thỏa mãn cùng một cấu trúc metric, tức hình học cục bộ
  Ví dụ, cùng một nghiệm tensor metric của phương trình trường Einstein có thể tồn tại trên các đa tạp khác nhau về mặt tô pô
  Ngược lại, nếu nhìn vào nghiệm của Ising Model, cùng một tô pô mạng có thể có nhiều nghiệm khác nhau, và nếu hệ ở gần điểm tới hạn thì bản thân tô pô mạng đôi khi cũng không quan trọng
  Dù chỉ là phép ví von, điều này gợi ý rằng các chi tiết thú vị của động lực học không nằm cố định trong tô pô của hệ. Vấn đề phức tạp hơn thế
- Đã có vài cuộc thảo luận nhỏ trên HN về bài viết cũ
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - tháng 2 năm 2019, 25 bình luận
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - tháng 7 năm 2015, 7 bình luận
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - tháng 4 năm 2014, 29 bình luận
Nếu thật sự là tô pô thì hẳn đã không cần bẻ cong đa tạp để tìm kiếm độ tương đồng. Cái này gần với hình học có metric hơn
Cũng như trong thực tế, chúng ta phải có khả năng so sánh các sự vật
Trong quá trình học cũng xảy ra các phép biến đổi tô pô của đa tạp, nên tôi tò mò tô pô tiến hóa thế nào trong khi học
Ban đầu có vẻ sẽ thay đổi dữ dội rồi ổn định, sau đó tiếp tục tinh chỉnh các chi tiết hình học
Các bài liên quan gồm Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042), Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9)
- Nếu từng động đến GAN hay VAE thì thực ra có thể trả lời câu hỏi này. Câu trả lời nhìn chung gần với “đúng”
  Có thể xem GAN ở nhiều checkpoint trong quá trình học, rồi dùng các công cụ như UMAP hoặc t-SNE để kiểm tra các điểm khác nhau trong không gian nhiều chiều di chuyển thế nào
  Việc sau những thay đổi dữ dội ban đầu là ổn định rồi diễn ra tinh chỉnh chi tiết hình học cũng đúng, nhưng các thay đổi ban đầu còn chịu ảnh hưởng của learning rate và lựa chọn optimizer
- Nếu phải nói thì tôi thấy nó gần với đại số tuyến tính ứng dụng hơn. Chỉ là gọi như vậy nghe kém lạ tai hơn thôi
Bản thân bài viết thì hay, nhưng tôi không hiểu vì sao ý tưởng tìm một bề mặt phân tách chia giữa hai tập điểm lại được gọi là “tô pô”
Có câu kiểu “nếu học dịch Anh-Tây Ban Nha hoặc biến đổi ảnh-văn bản, nó học một tô pô trong đó bread gần pan và ảnh mèo gần từ cat”, nhưng điều này gần như không phải thứ tô pô học xử lý
Khái niệm các điểm “gần” hay “xa” nhau thuộc về metric, không phải tô pô
Trong một không gian tô pô nào đó, nếu hai điểm gần nhau, ta có thể kéo giãn không gian để vẫn giữ cùng không gian tô pô mà khiến hai điểm đó xa nhau
Trọng tâm của câu đùa rằng cốc cà phê và bánh donut là giống nhau chính là điểm đó
Tổng thể thì nó trông giống ứng dụng thực tế của hình học đại số hơn, như việc tìm một thứ gì đó kiểu đa tạp đại số nơi các điểm nằm gần nhau. Rốt cuộc có vẻ là vấn đề về hình học và khoảng cách giữa các điểm
- Câu “đây không phải thứ tô pô học xử lý” là đúng 100%
  Tuy nhiên, vì bài viết bàn cả tô pô học lẫn deep learning, tôi chỉ mong sự nhầm lẫn rõ ràng chỉ nằm ở một trong hai thứ, tức là tô pô học mà thôi
- Trong câu đó, từ “topology” được dùng theo nghĩa khẩu ngữ hơn. Lẽ ra phải nói là “surface” mới đúng
- Nếu định nghĩa lỏng lẻo, tô pô học thực ra có thể được xem là ngành nghiên cứu các không gian có một khái niệm nào đó về gần và xa. Ngay cả khi không có metric cũng vậy
  Khái niệm cốt lõi về lân cận trong tô pô tập điểm nắm bắt ý tưởng ở gần một điểm nào đó, và cho phép định nghĩa những thứ cần khái niệm gần, như tính liên tục hay sự hội tụ của dãy
  Wikipedia [0] cũng giải thích rằng thông qua khái niệm tập mở, ta có thể làm cho các ý niệm “gần”, “nhỏ tùy ý” và “xa nhau” trở nên chính xác
  Nếu thay đổi định nghĩa tập mở thì hàm liên tục, tập compact và tập liên thông cũng thay đổi; mỗi lựa chọn về định nghĩa tập mở được gọi là một tô pô
  Không gian metric là một lớp không gian tô pô quan trọng, nơi có thể định nghĩa khoảng cách thực không âm, tức metric, giữa các cặp điểm
  Tôi không có ý nói tô pô học là lăng kính tốt nhất để hiểu mạng nơ-ron, và tác giả cũng nói trong bình luận rằng họ đã đổi ý. Ở đây tôi chỉ muốn sửa lại hiểu lầm
  [0] https://en.wikipedia.org/wiki/General_topology
Tiêu đề, nếu giữ nguyên như hiện tại, thì sáo mòn và sai; còn bản thân bài viết thì dễ đọc
Tô pô học là cấu trúc rất nhỏ còn lại sau khi loại bỏ khỏi hình học khoảng cách, góc, hướng và mọi kiểu kéo giãn không làm rách
Đó là phần tối thiểu vẫn còn hợp lệ sau những biến dạng dữ dội như vậy
Đúng là các khái niệm tô pô hữu ích trong machine learning, nhưng những thứ như tỉ lệ, khoảng cách và góc thường cung cấp rất nhiều thông tin thiết yếu về dữ liệu
Nếu đang cố phân biệt mèo mướp với hổ mà lại bỏ qua kích thước thì thật ngớ ngẩn
Tô pô học đặc biệt hữu ích khi không thể tin cậy chiều dài, khoảng cách, góc và các biến dạng tùy ý
Có những trường hợp như vậy, nhưng khẳng định deep learning là tô pô học ứng dụng thì phi lý và gần như ngu ngốc
- Dữ liệu đầu vào nằm trên một đa tạp không đáng tin cậy. Việc trong không gian pixel, ảnh lon Coca-Cola và ảnh biển báo dừng ở gần nhau tiên nghiệm chẳng có ý nghĩa gì
  Mạng nơ-ron áp dụng chính tất cả những biến đổi dữ dội như vậy
- Đi vào chi tiết thì có nhiều thứ sẽ không quan trọng nếu đây là tô pô học thuần túy, nhưng thực tế lại rất quan trọng. Từ số lớp cho đến quantization/độ phân giải fp đều có ảnh hưởng
- Từ “topology” cũng có một định nghĩa từ điển hợp lệ hoàn toàn không có các điều kiện mà bạn đang yêu cầu. Có vẻ bạn đã bỏ lỡ việc có hai định nghĩa
Cảm ơn vì đã chia sẻ, và tôi cũng có xu hướng nhìn việc học từ góc độ đa tạp. Đó là một cách biểu diễn mạnh mẽ
Về đoạn “trong một không gian có số chiều đủ cao, điều này không thể phân biệt với suy luận”, tôi đã viết nhật ký khá nhiều và cũng từng đăng trên HN một bài với tên “đa tạp suy luận xác suất”
Đa tạp này được xây dựng bằng cách học không gian mẫu hình đã tách khỏi ngữ cảnh từ một tập đầu vào cho trước
Do tính xác suất nội tại của việc lấy mẫu, suy luận thực sự được biểu diễn bằng xác suất chứ không phải bằng tiên đề
Có thể tìm các điểm cố định hoặc attractor trên đa tạp để phát hiện tiên đề, nhưng rốt cuộc thứ ta đang nhìn vào là một đa tạp xác suất được xây dựng từ tập đầu vào
Tuy nhiên tôi cho rằng không thể tách “suy luận” này khỏi dữ liệu đầu vào
Với một đa tạp suy luận đủ cao cấp, có thể tìm được các cấu trúc kiểu “meta-reasoning” xuất hiện ở mọi nơi, nhưng các cấu trúc đã bị tách ngữ cảnh ở mức cao như vậy có thể hoàn toàn vô dụng nếu không được tái ngữ cảnh hóa phù hợp
Cuối cùng, để trở thành một đa tạp hữu ích cho việc xử lý một loại đầu vào nào đó, các mẫu hình của đầu vào đó phải tuân theo underlying rule có thể học được

Nếu phi ngữ cảnh hóa là học, tức là phân rã các khía cạnh của đầu vào thành những quan hệ độc lập với ngữ cảnh, thì tái ngữ cảnh hóa là nửa còn lại: năng lực biến các quan hệ độc lập với ngữ cảnh rất trừu tượng, đôi khi không thể biểu diễn, thành những phân tích hữu ích trong một miền mới
Toàn bộ bình luận: https://news.ycombinator.com/item?id=42871894

Không rõ ở đây có đang nói về suy luận nói chung, tức suy luận như một quá trình tinh thần vận hành trên biểu diễn của các mệnh đề hay không
Nếu vậy thì câu “suy luận thật sự được biểu diễn bằng xác suất chứ không phải tiên đề” rất khó hiểu
Một trong những đặc điểm của suy luận là nó không vận hành theo cách đó
Khả năng một con vật hoàn toàn không có năng lực vận hành theo cách phi xác suất trên các mệnh đề mà nó biểu diễn là rất thấp. Đây là năng lực thiết yếu cho suy luận đúng, và cũng tương đối tầm thường để cung cấp
Ví dụ như “nếu con nhện ở trong boxA thì nó không ở bất kỳ nơi nào khác”
Dữ liệu thực ra không nằm trên một đa tạp. Đó chỉ là một xấp xỉ để suy nghĩ về dữ liệu
Gần như mọi thứ từng hữu ích trong deep learning, có lẽ là 100%, đều xuất hiện mà không hề nghĩ đến topology
Deep learning không hẳn là ứng dụng của thứ gì đó, mà phần lớn là một lĩnh vực thực nghiệm phát triển nhờ thử-sai và thí nghiệm
Có một chút trực giác đến từ lý thuyết, nhưng lý thuyết đó không phải topology
- Hoàn toàn không đồng ý. Đúng là có nhiều thử-sai, nhưng deep learning giống hơn với một sự pha trộn lý thuyết từ nhiều ngành toán học, bao gồm topology, hình học, lý thuyết trò chơi, giải tích, thống kê, v.v.
  Ngay cả thứ cơ bản nhất là lan truyền ngược cũng chỉ là áp dụng quy tắc dây chuyền cho các trọng số
  Khác biệt nằm ở chỗ deep learning trở nên quá dễ tiếp cận, chính xác hơn là trở thành một lĩnh vực sinh lợi, khiến nhiều người thực hành có thể học chủ đề này mà không cần học nguồn gốc của các hình thức luận
  Kết quả là họ dùng hoặc “phát minh lại” các lý thuyết và kỹ thuật đã tồn tại từ lâu trong những lĩnh vực khác mà không biết nguồn gốc của chúng
- “Trực giác” đến từ lý thuyết có vẻ là chuyện hậu nghiệm. Deep learning tạo ra một phương pháp nào đó rồi sau đó các nhà nghiên cứu trong những ngành khoa học khác mới nhận ra sự tương đồng giữa cách tiếp cận deep learning và các phương pháp cũ của họ
  Ví dụ, có một bài viết phát hiện rằng GPT thực ra giống với một bài toán tính toán mà tác giả đã giải trong vật lý: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- Từ góc nhìn của tôi, người đã làm deep learning hơn 10 năm, nhận định này khá sai. Việc dữ liệu sống trên một đa tạp là hiển nhiên, và điều đó cũng đúng với các ứng dụng deep learning
  Ví dụ có bài blog năm 2014 của Chris Olah được liên kết trong bài của tôi: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  Có lý do người ta gọi không gian embedding là “không gian”
  GAN, VAE, loss tương phản đều là bài toán xây dựng các đa tạp vector mà ta có thể đi lại trên đó và tạo ra các loại dữ liệu khác nhau
- Đây là giả kim thuật
  Deep learning ở dạng hiện nay có quan hệ với một lý thuyết nền tảng giả định giống như giả kim thuật đối với hóa học
  Vài trăm năm nữa, học sinh trung học nói tiếng Inuktitut của nền văn minh sau chúng ta sẽ được học rằng từ kỳ lạ “deep learning” là tàn dư của ngôn ngữ chung cổ xưa
- Nếu nới lỏng định nghĩa để cho phép sai số xấp xỉ, có thể xem dữ liệu là nằm trên một đa tạp. Ví dụ có thể tham khảo Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
Ngay lúc đọc câu “chừng này đã đủ để đạt tới AGI”, độ tin cậy của tôi sụt mạnh
Nhìn chung ý tưởng thì ổn, nhưng bài viết khá mơ hồ, đặc biệt là phần liên hệ với suy luận
Trong lĩnh vực này có những công trình kỹ thuật nghiêm túc mở rộng và cụ thể hóa ý tưởng này hơn, như https://arxiv.org/abs/1402.1869
Một dạng topology khác gặp trong mạng nơ-ron sâu là network topology. Nó chỉ cấu trúc mạng, tức các nút được kết nối ra sao và dữ liệu chảy như thế nào
Đã có những ví dụ nổi tiếng lấy cảm hứng từ sinh học như autoencoder, mạng nơ-ron tích chập (CNN), và mạng đối nghịch sinh (GAN)
Nhưng chúng ta vẫn còn nhiều điều phải học về topology và kết nối chức năng của não
Trong tương lai, rất có khả năng chúng ta sẽ phát hiện các cấu trúc mới, cả trong cấu trúc bên trong của từng lớp/nút lẫn trong cách các mạng chuyên biệt được kết nối và tương tác với nhau
Não không dựa vào một mạng duy nhất, mà vận hành song song nhiều mạng thường được gọi là “Big 7” và liên kết chúng sâu với nhau
Chúng bao gồm Default Mode Network(DMN), Central Executive Network(CEN), Limbic Network, v.v.
Trên thực tế, một nơ-ron đơn lẻ cũng có thể thuộc nhiều mạng và thực hiện các chức năng khác nhau
Các hệ thống nhân tạo vẫn chưa tái tạo đủ mức độ phức tạp này, và còn rất nhiều điều để học hỏi cũng như lấy cảm hứng từ “network topology” như vậy
Vì thế “Topology is all you need” :-)
Vấn đề nằm ở tiền đề rằng “chỉ cần có thể phân biệt tốt và xấu, ta có thể huấn luyện mạng nơ-ron để nó tự sắp xếp topology”
Khoảng 10 năm trước tôi từng thấy một dự án huấn luyện mạng đoán giới tính sinh học từ ảnh khuôn mặt
Để giảm thiên lệch, họ cẩn thận loại bỏ trang điểm, ria mép, tóc, v.v., nhưng độ chính xác chỉ khoảng 70–80%
Khi đó nó trông như một kết quả tuyệt vời, và họ đang nhắm tới 99%
Việc đầu tiên tôi làm sau khi đọc bài báo là tìm các bài báo về việc con người đoán giới tính sinh học từ những bức ảnh tương tự
Con người cũng không làm tốt hơn nhiều, và chênh lệch giữa người và máy chỉ khoảng 1–2%
Tôi hỏi những người vận hành dự án rằng họ đã chứng minh thế nào rằng có thể phân biệt như vậy chỉ từ ảnh, nhưng họ không hiểu chính câu hỏi và chỉ mặc định rằng điều đó là khả thi
Cuối cùng họ không thể cải thiện kết quả. Có thể họ đã dạy mạng nơ-ron chưa đúng, nhưng nếu loại bỏ các dấu hiệu giới tính thì nhiều khuôn mặt có thể đơn giản là trung tính về giới
Lý do tôi nêu giai thoại này là vì giả định của họ trong mắt tôi trông khá hợp lý

Trong phần lớn tình huống, nhìn khuôn mặt là có thể đoán được trong quần của ai đó có gì, nên người ta cho rằng thông tin đó nằm trên khuôn mặt
Nhưng trong bối cảnh chúng ta phải viết lại sách giáo khoa hằng năm, cố tính “chu kỳ bán rã của tri thức”, ngành triết học vẫn chưa kết thúc, và mỗi ngày đều có các tranh luận chính trị・ý thức hệ về điều gì là tốt nhất, giả định rằng bằng cách nào đó ta có thể tách biệt tốt và xấu là cực kỳ, cực kỳ phi lý

Rốt cuộc, ngay cả việc giả định rằng có tồn tại một sự phân biệt như vậy giữa “tốt” và “xấu” cũng không hợp lý
Sơ đồ cho rằng AGI/ASI là các điểm trên cùng một đa tạp như dự đoán token tiếp theo, mô hình chat, và mô hình CoT khiến tôi bối rối
Có thể chứng minh ba thứ phía sau là một phần của cùng một đa tạp, nhưng tôi không biết có cơ sở gì để đặt cả AGI/ASI vào đó
Chẳng phải các mô hình có khả năng CoT, dù thao tác tô pô thế nào, cũng có thể không bao giờ đạt tới một quá trình có thể xem là AGI sao
Ví dụ, trí tuệ con người — thứ gần với AGI nhất mà chúng ta biết — đòi hỏi các vòng lặp phản hồi cảm giác và nội bộ cực kỳ phức tạp cùng xử lý liên tục, khác với xử lý rời rạc của mô hình tự hồi quy
Theo trực giác của một người ngoại đạo, LLM có vẻ hoàn toàn không cùng họ với các hệ thống có thể tạo ra trí tuệ hay ý thức
- Có thể. AGI/ASI được định nghĩa rất kém. Cá nhân tôi nghiêng về việc cho rằng chúng ta đã đạt tới AGI rồi, dĩ nhiên nhiều người sẽ không đồng ý
  Tôi nghĩ cách mô tả rằng trí tuệ con người cần các vòng lặp phản hồi cảm giác・nội bộ phức tạp và xử lý liên tục đã che khuất những cách mà mạng nơ-ron và mạng sinh học thực ra khá giống nhau
  Tôi đã nghiên cứu connectomics khá nhiều; chẳng hạn trong hệ khứu giác của chuột, tùy những nơ-ron nào phát xung mà xuất hiện một thứ giống như vector đặc trưng
  Kiểu như khi một tập hợp nơ-ron nhất định phát xung thì nó mang nghĩa “sô cô la” hoặc “chanh”
  Nói rộng hơn, biểu diễn nơ-ron trông có vẻ khá giống biểu diễn embedding ở một mức độ nào đó, và cũng có thể tưởng tượng việc xây dựng không gian embedding dựa trên việc nơ-ron nào phát xung ở đâu
  Mọi thứ trên embedding “chỉ là” xử lý mà thôi