- Deep Learning có thể được hiểu là một chuỗi các phép biến đổi tô-pô giúp biến đổi dữ liệu theo cách có ý nghĩa
- Mạng nơ-ron hoạt động như một bộ tạo tô-pô, biến đổi dữ liệu trong không gian nhiều chiều để khiến dữ liệu vốn không thể tách biệt trở nên có thể phân tách được
- Dữ liệu tồn tại trên các đa tạp (manifold) nhiều chiều, và mạng nơ-ron học cấu trúc của các đa tạp đó để phục vụ các tác vụ phân loại, dịch thuật và suy luận có ý nghĩa
- Trong nghiên cứu AI hiện đại, nhiều kỹ thuật học có giám sát và học tăng cường (như RLHF) được đưa vào để di chuyển tới những điểm tốt hơn trên đa tạp suy luận
- Bản thân mạng nơ-ron, hình ảnh, văn bản, logic suy luận và mọi loại thông tin khác đều có thể được biểu diễn dưới dạng đa tạp, và mạng nơ-ron hoạt động như một bộ khám phá tô-pô phổ quát
Mối quan hệ giữa Deep Learning và tô-pô học
- Tô-pô học là một nhánh toán học nghiên cứu các tính chất không đổi của sự vật trong quá trình biến dạng
- Mạng nơ-ron deep learning lặp đi lặp lại việc áp dụng các phép biến đổi tuyến tính và phi tuyến lên dữ liệu đầu vào qua nhiều chiều khác nhau (ví dụ: phép nhân ma trận, tanh), từ đó dần thay đổi phân bố và cấu trúc của dữ liệu
- Mỗi phép toán trong các tầng của mạng nơ-ron có thể được diễn giải như một phép biến đổi hình học, và khi các phép biến đổi này tích lũy lại, chúng cho phép tách và phân loại những cấu trúc dữ liệu phức tạp
- Đặc tính này giúp phân biệt được các lớp dữ liệu phức tạp vốn không thể bị chia tách chỉ bằng một đường thẳng hay một mặt phẳng duy nhất trong nhiều bộ dữ liệu khác nhau
Mở rộng số chiều và phân tách dữ liệu
- Ngay cả dữ liệu chồng lấn lên nhau và không thể phân biệt trên mặt phẳng hai chiều cũng có thể dễ dàng được tách ra khi chuyển sang chiều cao hơn (không gian nhiều chiều)
- Không giống con người, mạng nơ-ron có thể tính toán trong số chiều cao tùy ý, nên có thể xử lý cả những mẫu dữ liệu cực kỳ phức tạp
- Ví dụ, các bài toán phân loại như chó và mèo trong ảnh cũng được tái cấu trúc thành những cấu trúc (đa tạp) có thể phân biệt bằng toán học trong không gian nhiều chiều
Ý nghĩa và vai trò của mạng nơ-ron sâu
- Mạng nơ-ron là một "công cụ tạo ra tô-pô", sắp xếp lại dữ liệu đầu vào thành cấu trúc có ý nghĩa
- Hàm mất mát (loss function) xác định mạng sẽ học tính chất nào của dữ liệu, từ đó tạo ra bề mặt (topology) phù hợp với nhiều tác vụ như phân loại, dịch thuật, dự đoán
- Mọi dạng dữ liệu có ý nghĩa (văn bản, hình ảnh, âm thanh, v.v.) đều được lưu dưới dạng vector số nhiều chiều (embedding vector), cho phép thực hiện các phép toán linh hoạt trong không gian này
Đa tạp (manifold) và biểu diễn ý nghĩa
- Mọi thông tin và khái niệm, như màu sắc, hình ảnh, từ ngữ, thậm chí cả phân loại đồ nội thất, đều tồn tại trong một không gian gọi là đa tạp nhiều chiều
- Ví dụ, mọi giá trị pixel của ảnh RGB đều được biểu diễn thành một vector khổng lồ, nhờ đó có thể phân tích các phép biến đổi có ý nghĩa và độ tương đồng trên đa tạp hình ảnh
- Thông qua phép nhúng (embedding), các khái niệm có liên quan về mặt ngữ nghĩa (ví dụ: "king" - "man" + "woman" = "queen") có thể được đặt ở những vị trí gần nhau
Mạng nơ-ron, suy luận và cách tiếp cận đa tạp trong chiến lược học
- Bản thân suy luận của con người cũng có thể được mô hình hóa như các cụm trên đa tạp nhiều chiều, và mạng nơ-ron dần di chuyển dọc theo đó tới các dạng suy luận tốt hơn
- Hạn chế hiện tại của các mô hình ngôn ngữ lớn (LLM) là chỉ riêng thống kê ngôn ngữ thuần túy (next-token prediction) thì không đủ để đạt tới mức suy luận như con người
- Để vượt qua điều này, nhiều cách tiếp cận dựa trên học tăng cường đang được sử dụng như học có giám sát, RLHF, Chain-of-Thought và thu thập reasoning trace chất lượng cao
- Gần đây, để xây dựng các mô hình suy luận mạnh hơn, những bài báo như Deepseek R1 đã cố gắng tự động sàng lọc "suy luận tốt" bằng các tiêu chí khách quan (ví dụ: unit test, đáp án đúng của bài toán), qua đó khắc phục giới hạn và chi phí của việc đánh giá bởi con người trước đây
Tận dụng cấu trúc đa tạp của mạng nơ-ron và chính mô hình
- Mọi tham số (trọng số) của mạng nơ-ron cũng được biểu diễn như một vector khổng lồ, và có thể được diễn giải như một đa tạp trong các không gian ngữ nghĩa (semantic space) khác nhau
- Có thể mở rộng khái niệm mô hình diffusion dùng cho sinh ảnh sang cả không gian tham số của mạng nơ-ron, nhằm tái sử dụng hiệu quả các đặc tính đa dạng của những mô hình pretrained hiện có, hoặc thúc đẩy khởi tạo nhanh và tạo ra mô hình mới
- Sự phát triển của các kỹ thuật khám phá không gian embedding của mô hình có thể giúp việc phát triển AI trong tương lai trở nên nhanh hơn và hiệu quả hơn
Kết luận và hàm ý
- Lĩnh vực Deep Learning vẫn còn có xu hướng phi chính thức và phụ thuộc nhiều vào trực giác, nhưng tư duy tô-pô học mang lại trợ giúp lớn trong việc hiểu nguyên lý vận hành của các mô hình phức tạp
- Khi nhận thức về không gian embedding và cấu trúc đa tạp ngày càng được mở rộng, việc phát triển và phân tích AI thực tiễn, có hệ thống hơn sẽ trở nên khả thi
1 bình luận
Ý kiến Hacker News
Với bài viết này, được viết dựa trên bài blog của tôi năm 2014, tôi đã từng rất nỗ lực thử dùng topology như một công cụ để hiểu mạng nơ-ron. Sau đó tôi đã chia sẻ kết quả trong hai bài viết tiếp theo dưới đây
Trong quá trình cố hiểu bên trong mạng nơ-ron, có những điểm mà góc nhìn topological thực sự hữu ích, nhưng nhìn lại gần 10 năm tìm tòi thì tôi cảm thấy cách tiếp cận topological đã không giúp được quá nhiều
Điều tôi học được hiệu quả hơn là như sau
Tôi khuyến nghị các bài viết liên quan dưới đây
Liên quan đến cách hiểu mạng nơ-ron, tôi thường nghĩ về những hiểu lầm kiểu sau
Ta thường thấy phản ứng phổ biến với bài viết về RNN của Karpathy, hoặc sắc thái đồng nhất LLM với mô hình n-gram trong bài báo “stochastic parrot”. Trước đây hai cách tiếp cận này có thể từng được xem là khá giống nhau, nhưng sau khi các mô hình gần đây tiến bộ vượt bậc thì phép đồng nhất đó không còn phù hợp nữa
Tôi nhớ lại trải nghiệm cá nhân khi cố áp dụng topology vào tình huống thực tế. Từ khi lần đầu học topology năm 2011 tới nay, tôi đã thử gián đoạn nhiều lần, nhưng vẫn hoài nghi về nhận định phổ biến rằng “dữ liệu thực tế tiến gần tới các manifold trơn và có số chiều thấp”. Tôi muốn đào sâu hơn để xem liệu đặc tính này có thật sự đúng với dữ liệu thực tế hay chỉ là kết quả bị bóp méo do chúng ta cố ý dùng các phương pháp giảm chiều để tối ưu hiệu quả, nhưng tiếc là không có đủ thời gian
Tôi đã rất thích thú khi thấy bạn theo đuổi chuỗi bài về 'circuits' trong thời gian dài. Linear representation hypothesis đặc biệt thuyết phục, đến mức tôi còn viết cả bản nháp review cho Toy Models of Superposition. Tuy vậy, tôi thấy phân tích theo “circuits” quá thiên về kiến trúc Transformer nên kém hấp dẫn hơn một chút.
Các mô hình như GAN, VAE, CLIP dường như đang mô hình hóa manifold một cách tường minh. Các mô hình đơn giản cũng có thể gom các đặc trưng tương tự về cùng một hướng trong quá trình tối ưu hóa, nhưng đôi khi vẫn có hiện tượng thực nghiệm là các đặc trưng tương tự lại nằm ở những hướng trực giao. Điều này có lẽ liên quan nhiều hơn đến hàm loss được tối ưu
Toy Models of Superposition dùng MSE, nên nó hành xử như một bài toán hồi quy/nén kiểu autoencoder. Mẫu hình can nhiễu lẫn nhau giữa các đặc trưng đồng xuất hiện dễ trở nên quan trọng. Nhưng nếu mục tiêu là contrastive loss, tôi nghĩ hành vi tối thiểu hóa can nhiễu kiểu này sẽ thay đổi
Tôi muốn chia sẻ rằng đã từng có các cuộc thảo luận trên Hacker News về bài viết cũ của tôi
Neural Networks, Manifolds, and Topology (2014)
Trong vật lý, điều thú vị là các đối xứng toàn cục khác nhau (topological manifold) vẫn có thể thỏa cùng một cấu trúc metric (hình học cục bộ). Ví dụ, trong phương trình trường Einstein, cùng một nghiệm metric tensor có thể tồn tại trên các manifold khác nhau về topology.
Ngược lại, nếu nhìn vào nghiệm của Ising Model, thì ngay cả với cùng một cấu trúc topology của lưới vẫn có thể có nhiều nghiệm, và gần điểm tới hạn thì topology của lưới trên thực tế có thể không còn quan trọng.
Đây chỉ là một phép so sánh đơn giản, nhưng nó gợi ý rằng những chi tiết động học quan trọng không nằm sẵn trong topology của hệ. Câu chuyện phức tạp hơn nhiều
Nếu topology thực sự là cốt lõi, chúng ta đã không cố làm phẳng manifold để việc tìm kiếm tương tự trở nên dễ hơn. Trên thực tế, trọng tâm là “geometry” và phép đo phù hợp với nó. Trong đời sống thật, chúng ta cũng muốn có một cấu trúc cho phép so sánh sự vật
Trong quá trình huấn luyện mạng nơ-ron, manifold cũng bị biến dạng về mặt topology. Từ đó nảy ra câu hỏi: “rốt cuộc topology thay đổi thế nào trong lúc huấn luyện?” Cá nhân tôi hình dung rằng ban đầu topology dao động dữ dội, rồi dần ổn định, sau đó mới đến giai đoạn tinh chỉnh hình học. Có thể tham khảo các bài sau
Nếu từng dùng GAN hoặc VAE, bạn có thể quan sát trực tiếp quá trình thay đổi topology này. Trong lúc huấn luyện, tại các checkpoint khác nhau, có thể dùng các công cụ như UMAP, TSNE để xem các điểm trong không gian nhiều chiều di chuyển ra sao
Quá trình bạn hình dung là “ban đầu thay đổi dữ dội rồi ổn định, sau đó tinh chỉnh hình học” thực sự là đúng. Khi đó, mức độ biến động mạnh ban đầu cũng chịu ảnh hưởng lớn từ learning rate, lựa chọn optimizer, v.v.
Nếu nhất định phải gọi tên, thì có lẽ những gì bàn ở đây là đại số tuyến tính ứng dụng, nhưng gọi vậy nghe kém ngầu đi một chút
Tiêu đề hiện tại vừa sáo mòn vừa thiếu chính xác. Nhưng tôi đọc nội dung khá thấy thú vị
Topology là ngành toán học nghiên cứu cấu trúc tối thiểu còn lại sau khi xóa bỏ các ràng buộc hình học như khoảng cách, góc, hướng, v.v. Góc nhìn topological là chỉ xét các mối liên hệ vẫn còn giữ bản chất ngay cả sau những biến dạng dữ dội như vậy
Trong machine learning, các khái niệm topological có thể hữu ích, nhưng trên thực tế thì thông tin hình học như scale, khoảng cách, góc lại quan trọng hơn nhiều đối với bản chất của dữ liệu. Ví dụ, nếu bỏ qua scale khi phân biệt mèo nhà và hổ thì sẽ cho ra kết quả ngớ ngẩn
Chỉ khi có quá nhiều thông tin không đáng tin cậy thì cách tiếp cận topological mới hữu ích; nói rằng deep learning dựa trên topology là đi quá xa
Tôi đồng ý với ý bạn rằng topology hữu ích khi khoảng cách, góc, độ dài, v.v. không đáng tin cậy, nhưng thực tế là chúng ta đang xử lý loại dữ liệu như vậy. Trong không gian pixel của ảnh, việc một lon Coca và một biển báo dừng nằm tương đối gần nhau chẳng có ý nghĩa gì. Mạng nơ-ron thực sự thực hiện các “biến dạng dữ dội” mà bạn nói đến
Khi bước vào triển khai thực tế, những chi tiết lẽ ra không cần quan tâm “nếu thật sự chỉ là topology”, ví dụ như số lớp, lượng tử hóa, độ phân giải số thực dấu phẩy động, lại đóng vai trò quan trọng
Từ “topology” trong từ điển thực ra có hai định nghĩa. Việc chỉ xem các thuộc tính bạn nêu là khái niệm topology là một quan điểm chỉ giới hạn trong một phần định nghĩa
Tôi không hiểu vì sao ý tưởng tìm mặt phân tách trong bài này lại được gọi là “topology”.
Ví dụ có đoạn nói rằng “nếu học dịch thuật thì model sẽ học topology đặt bread gần pan, ảnh mèo gần từ cat”, nhưng chính chuyện “gần hay xa” như vậy lại khá xa lạ với topology
Trong một không gian topo, chỉ vì hai điểm gần nhau không có nghĩa là khi kéo giãn không gian đó, ta không thể tách chúng ra thật xa mà vẫn là “cùng một không gian topo” (đó chính là ý cốt lõi của câu đùa “cốc cà phê và bánh donut có cùng topology”)
Thực ra, cách tiếp cận theo algebraic geometry — cấu trúc trong đó các điểm nằm gần một algebraic variety nào đó — có vẻ phù hợp hơn. Cuối cùng điều quan trọng vẫn là hình học và khoảng cách
Nếu phải đưa ra một định nghĩa khá lỏng về topology, tôi sẽ xem đó là ngành nghiên cứu các không gian toán học xử lý khái niệm “gần và xa” (neighborhood) ngay cả khi không có “khoảng cách”. Việc chọn một định nghĩa cho tập mở chính là chọn topology, từ đó quyết định các tính chất như continuity, compactness và connectedness.
Không gian metric là một trường hợp của không gian topo.
Tuy nhiên điều đó không có nghĩa topology luôn là góc nhìn tốt nhất để hiểu mạng nơ-ron. Chính tác giả gốc hiện nay cũng đã đổi lập trường
Tôi chỉ muốn làm rõ hiểu lầm. Xem thêm https://en.wikipedia.org/wiki/General_topology
Tôi đồng ý 100% rằng đây là câu chuyện chẳng liên quan gì đến topology. Nếu một bài viết nói về topology và deep learning, tôi chỉ mong sự lẫn lộn đó được giới hạn ở phía topology thôi
Tôi vừa dùng từ 'topology' theo nghĩa hơi thành ngữ một chút. Chính xác ra đáng lẽ tôi nên nói là “surface” phân tách
Tôi nghĩ việc nhìn học máy theo góc độ manifold là một cách diễn đạt có sức mạnh
Trong không gian nhiều chiều, tôi thường có cảm giác reasoning gần như không thể tách biệt với chính dữ liệu thực tế
Tôi đã viết khá nhiều về những “probabilistic reasoning manifolds” này trong nhật ký hoặc bình luận tin tức.
Ý tôi là các manifold cấu thành từ không gian mẫu hình về bản chất được tạo ra thông qua quá trình học mang tính xác suất, và suy luận thực tế cũng diễn ra theo xác suất chứ không phải mệnh đề thuần túy. Ta có thể tìm một số “tiên đề” bằng cách tìm fixed point hay attractor, nhưng rốt cuộc vẫn là đang phân tích một manifold xác suất được hình thành từ dữ liệu đầu vào
Suy luận và dữ liệu đan cài vào nhau nên không thể tách rời hoàn toàn
Việc học (phân rã) các quan hệ phi ngữ cảnh — đó chính là 'decontextualization'. Nhưng để việc phân tích có ý nghĩa trong hoàn cảnh hay miền mới, nhất thiết phải có 'recontextualization' đi kèm.
Giải thích dài hơn xem tại https://news.ycombinator.com/item?id=42871894
Nếu động vật hoàn toàn không thể xử lý phát biểu mệnh đề theo cách phi xác suất, thì điều đó đồng nghĩa chúng không thể suy luận logic, và như vậy không giải thích được khả năng suy luận có thật của động vật
Ví dụ: “nếu con nhện ở trong hộp A thì nó không ở trong hộp khác”, một cấu trúc suy luận logic khá đơn giản
Dữ liệu thực tế không thật sự nằm trên manifold. Đó chỉ là một khái niệm gần đúng để dễ suy nghĩ về dữ liệu hơn
Gần như toàn bộ thành tựu hữu ích của deep learning đều được tạo ra mà không liên quan đến topology. Deep learning là một lĩnh vực thực nghiệm phát triển nhanh dựa trên thử nghiệm, sai số và một lượng rất nhỏ cảm hứng toán học — mà cũng không phải topology
Tôi hoàn toàn phản đối nhận định này. Đúng là có nhiều thử-sai, nhưng đó là kết quả tổng hợp của rất nhiều lý thuyết toán học như topology, geometry, game theory, calculus, statistics, v.v. Chỉ riêng backpropagation đã là chain rule rồi
Lĩnh vực này đã trở nên phổ biến và sinh lợi đến mức nhiều người làm thực tế có thể sử dụng dễ dàng mà không hề biết nguồn gốc lý thuyết của chủ đề
Cuối cùng, khi nghĩ ra lý thuyết hay kỹ thuật mới, người ta cũng thường vô thức “tái khám phá” và áp dụng những lý thuyết vốn đã tồn tại ở các lĩnh vực khác
Về nhận định “mọi cảm hứng này vốn không phải topology”, theo tôi thì những “trực giác toán học” kiểu đó phần lớn được áp vào sau này. Sau khi deep learning tạo ra một bước đột phá nào đó, các nhà nghiên cứu vật lý hay toán học mới nhìn lại và nhận ra sự tương đồng với phương pháp trong lĩnh vực của họ
Ví dụ có bài viết nói GPT gần như giống hệt thuật toán tôi từng dùng để giải bài toán vật lý trước đây
https://ondrejcertik.com/blog/2023/…
Tôi đã ở trong lĩnh vực deep learning hơn 10 năm, và khẳng định rằng nói “dữ liệu không nằm trên manifold” là sai. Việc gọi embedding space là “space” không phải ngẫu nhiên. GAN, VAE, contrastive loss thực sự xây dựng nên cấu trúc manifold vector mà ta có thể đi dọc theo hoặc thao tác trực tiếp
Nếu chấp nhận định nghĩa có cho phép sai số xấp xỉ, thì có thể nói dữ liệu thực sự nằm trên manifold. Tham khảo: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
Tôi nghĩ deep learning ở giai đoạn hiện tại giống như thuật giả kim (alchemy)
Tương tự thuật giả kim của thời kỳ trước khi hóa học (chemistry) ra đời với nền tảng lý thuyết rõ ràng. Đôi khi tôi nghĩ rằng một ngày nào đó hậu thế có thể chỉ còn giữ lại chính từ “deep learning” như một di tích ngôn ngữ của quá khứ
Khi thấy câu “đến mức này thì đã đạt AGI”, độ tin cậy của tôi giảm đi rõ rệt
Nhìn chung ý tưởng của bài viết khá thú vị, nhưng tôi thấy tiếc vì phần gắn với reasoning và thảo luận kỹ thuật chuyên sâu hơi fluffy. Đã có những nghiên cứu cụ thể hơn nhiều tồn tại từ trước (ví dụ https://arxiv.org/abs/1402.1869)
Một loại topology khác cũng được bàn khá nhiều trong DNN là network topology. Tức là cấu trúc node được kết nối ra sao và dữ liệu chảy qua như thế nào
Autoencoder, CNN, GAN đều nhận cảm hứng từ sinh học
Chúng ta vẫn còn rất nhiều điều để học từ topology của não bộ và connectivity chức năng của nó
Trong tương lai rất có thể sẽ xuất hiện các kiến trúc hoàn toàn mới, xét theo cấu trúc kết nối/tương tác bên trong từng layer/node riêng lẻ hoặc giữa các mạng chuyên biệt với nhau
Não người thực ra cũng không phải một mạng duy nhất mà là nhiều mạng như “Big 7” hoạt động song song và tương tác qua lại. Có DMN(Default Mode Network), CEN(Central Executive Network), Limbic Network cùng nhiều mạng khác, và một nơ-ron cũng thường thuộc về nhiều mạng cùng lúc
Vì trong AI chúng ta vẫn chưa tái hiện đầy đủ mức độ phức tạp này, nên vẫn còn vô vàn điều có thể học hỏi từ network topologies
Tôi đồng ý với câu “Topology is all you need”
Topology trong toán học xử lý các đối tượng hình học và phép biến đổi của chúng, nhưng trong máy tính, khái niệm “topology” để định nghĩa quan hệ giữa các đối tượng trừu tượng cũng rất quan trọng
Ví dụ, trong cấu trúc dữ liệu đồ thị, ta lưu tập các đối tượng (đỉnh) và tập các quan hệ giữa chúng (cạnh), từ đó bản thân đồ thị trở thành một cấu trúc topology rời rạc
Cấu trúc dữ liệu mạng cũng tương tự, nhưng trên mỗi cạnh còn lưu thêm giá trị. Tức là ta có tập đỉnh (đối tượng), quan hệ giữa chúng (cạnh), và có thể có giá trị trên từng cạnh (trọng số). Cuối cùng có thể hiểu mạng nơ-ron nhân tạo theo hướng này, như một cấu trúc được xây trên topology rời rạc
Trong sơ đồ của tác giả, phần AGI/ASI được vẽ như một điểm trên cùng manifold với next token prediction, chat, và mô hình CoT khiến tôi thấy bối rối. Ba loại sau rõ ràng có thể xem là thuộc cùng một hệ liên thông, nhưng tôi nghi ngờ liệu có đủ căn cứ để bao gồm cả AGI/ASI hay không
Tôi tự hỏi nếu các mô hình dựa trên CoT, dù có thực hiện bao nhiêu thao tác topological đi nữa, vẫn không bao giờ chạm tới loại “trí tuệ” mà AGI sở hữu thì sao
Ví dụ, trí tuệ con người có thể đòi hỏi các chức năng cảm giác/phản hồi nội tại ở mức cao và xử lý liên tục, trong khi các mô hình autoregressive kiểu GPT về bản chất là rời rạc
Ở góc nhìn người không chuyên, có trực giác rằng LLM gần như thuộc về một họ hệ thống hoàn toàn khác với thứ có thể sinh ra “intelligence” hay “consciousness” thực sự
Thực ra tôi cho rằng chúng ta đã đạt AGI rồi, nhưng nhiều người không đồng ý
Bạn có nhắc đến việc bản chất trí tuệ con người nằm ở các vòng lặp cảm giác/phản hồi mức cao và xử lý liên tục; với kinh nghiệm khá nhiều trong nghiên cứu connectomics, tôi thấy sự tương đồng giữa sinh học và mạng nơ-ron cũng không thể xem nhẹ
Ví dụ, trong hệ khứu giác của chuột, khi một tập nơ-ron nào đó được kích hoạt thì một mùi nhất định (“sô-cô-la”, “chanh”, v.v.) sẽ được phát hiện. Cấu trúc này khá giống feature vector
Biểu diễn bằng nơ-ron trong não cũng có điểm tương tự với embedding representation. Gần như việc những nơ-ron nào bật lên sẽ tạo thành một embedding space.
Những gì diễn ra trên embedding không phải là “cái gì vượt lên trên nó”, mà tất cả chỉ là xử lý bổ sung thêm mà thôi