Versor: framework PyTorch dùng phép quay hình học (Rotor) thay cho phép nhân ma trận
(github.com/Concode0)Đằng sau những thành tựu đáng kinh ngạc của deep learning luôn là “phép nhân ma trận (Wx+b)”. Nhưng Versor đặt dấu hỏi cho tiêu chuẩn này. Lập luận của họ là: “ma trận gây ra những biến dạng như xé rách hoặc vò nhàu manifold trong quá trình xử lý dữ liệu”.
Versor là một framework PyTorch dựa trên Đại số Hình học (Geometric Algebra), được phát triển để vượt qua “trần tuyến tính đại số (Linear Algebra Ceiling)” này. Thay vì ma trận, nó dùng rotor để đưa ra một mô hình deep learning mới, bảo toàn cấu trúc tô-pô nội tại của dữ liệu.
Triết lý cốt lõi: Unbending (duỗi thẳng) rồi Filtering (lọc)
Cách tiếp cận của Versor không đơn giản là “giữ lại toàn bộ mà không giảm chiều”. Điểm cốt lõi là “căn chỉnh dữ liệu mà không làm hỏng nó, rồi gọt lấy chỉ những thông tin cần thiết một cách gọn gàng”.
-
Unbending (Rotor)
Ma trận thông thường đi kèm với shear và stretch, nhưng phép nhân sandwich của rotor là một phép đẳng cự (isometry). Giống như là phẳng một tờ giấy bị vò, nó xoay và duỗi dữ liệu ra trong khi vẫn bảo toàn hoàn hảo khoảng cách và góc.
-
Geometric Filtering (BladeSelector)
Khi dữ liệu đã được duỗi đúng về mặt hình học, thông tin sẽ được căn thẳng theo các trục cụ thể (basis blade) hoặc cấp (grade). Lúc này,
BladeSelectorloại bỏ nhiễu và chỉ giữ lại thông tin hình học cốt lõi (ví dụ: thành phần vector) để giảm chiều. Đây là một kiểu nén khác về bản chất so với cách truyền thống là ép méo rồi mới giảm chiều (projection).
Các đặc điểm chính
-
Metric-Agnostic Kernel: Từ Euclid (Cl(3,0)) đến không-thời gian (Cl(1,3)) và hình học đẳng giác (Cl(4,1)), chỉ cần đổi signature là cùng một đoạn mã có thể chạy được.
-
White-Box AI: Tham số học được không còn là những con số khó hiểu mà là “mặt phẳng quay (bivector)”. Có thể diễn giải mô hình đã “xoay dữ liệu theo mặt phẳng nào và bao nhiêu để căn chỉnh”.
-
Hiệu năng cao, gọn nhẹ: Hỗ trợ scaling O(n), và đủ nhẹ để suy luận thời gian thực (5.8ms/phân tử) ngay cả trên CPU M4.
Nếu các hướng như GATr đang được giới học thuật chú ý gần đây chọn “cách tiếp cận ở cấp kiến trúc”, tức là dùng GA bên trong cấu trúc transformer, thì Versor lại tập trung vào “bản chất hình học” bằng cách đưa rotor vào từ đơn vị tính toán nhỏ nhất để chặn méo không gian ngay từ gốc. Nhờ đó, nó đạt được sự gọn nhẹ cho phép suy luận thời gian thực với số tham số ít hơn nhiều.
Kết quả benchmark
-
QM9 (thuộc tính phân tử): Khi áp dụng hình học Euclid 3D (Cl(3,0)), đạt MAE 14.42 meV chỉ với 1 giờ huấn luyện trên một GPU 4090 duy nhất.
-
Motion Alignment (UCI-HAR): Căn chỉnh dữ liệu chuyển động nhiều chiều vào một không gian tiềm ẩn có thể tách tuyến tính chỉ bằng phép quay, đạt độ chính xác khoảng 100%.
-
Semantic Disentanglement (NLP): Trên tập dữ liệu 20 Newsgroups, đạt Grade Purity 100% thông qua phân tách hình học. (Grade Purity 100% nghĩa là dữ liệu phức tạp bị đan xen đã được phân tách và căn chỉnh hoàn hảo mà không có nhiễu, chỉ còn dưới dạng thành phần “vector” thuần túy; điều này chứng minh bằng toán học rằng việc học cấu trúc hình học đã thành công.)
Có phải là overfitting không?
Tốc độ hội tụ nhanh và độ chính xác cao có thể khiến bạn nghi ngờ, nhưng điều đó đến từ geometric inductive bias mạnh mẽ.
-
Ma trận thông thường (n x n) có bậc tự do quá cao nên học luôn cả nhiễu,
-
Trong khi rotor của Versor bị ràng buộc về mặt toán học để chỉ có thể thực hiện “phép quay (rotation)”.
-
Vì là một cấu trúc không thể thực hiện shear hay stretch, mô hình không thể học bất cứ thứ gì ngoài cấu trúc bản chất của dữ liệu, kể cả khi nó muốn. Nhờ đó, dù có ít tham số, nó vẫn cho khả năng khái quát hóa rất tốt.
Vì Versor chạy trên PyTorch nên có thể dùng gần như nguyên vẹn giao diện quen thuộc. Và hiện tại nhóm đang tích cực phát triển thêm các tác vụ và metric mới, nên rất mong nhận được nhiều phản hồi từ mọi người.
10 bình luận
Bạn có thể giải thích giúp dự án bạn đăng có liên quan như thế nào đến bài báo sau không?
Versor: A Geometric Sequence Architecture
https://arxiv.org/abs/2602.10195
https://github.com/VersorAI/Versor
Tên cũng giống hệt nhau và có vẻ các khái niệm sử dụng cũng tương tự, nhưng đây không phải lĩnh vực tôi hiểu rõ nên tôi chưa nắm được chúng liên hệ với nhau theo cách nào.
Nhìn vào việc các bản demo cụ thể lại khác nhau thì có lẽ đây là trường hợp những ý tưởng tương tự xuất hiện gần như đồng thời trong cùng một thời điểm; vì vậy tôi muốn hỏi liệu xu hướng mới nhất của chính lĩnh vực này có đang đi theo hướng như vậy hay không.
Cảm ơn bạn đã quan tâm. Tôi đã biết về bài báo mà bạn hỏi và cũng đã trực tiếp tiến hành một đợt rà soát kỹ thuật kỹ lưỡng.
Kết quả rà soát cho thấy tôi đã xác nhận được nhiều dấu hiệu sai phạm nghiên cứu nghiêm trọng (Research Misconduct), bao gồm tính bất khả thi về mặt vật lý của các chỉ số hiệu năng được bài báo này tuyên bố và cả việc thao túng dữ liệu. Theo đó, tôi đã hoàn tất việc báo cáo chính thức tới ủy ban đạo đức nghiên cứu của QMUL (Queen Mary University of London), cơ quan chủ quản của các tác giả.
Hiện tại, tôi đã nhận được phản hồi từ phía trường rằng báo cáo đã được tiếp nhận hợp lệ và quy trình điều tra chính thức (giai đoạn Triage) đã được khởi động. Vì vậy, tôi mong bạn hiểu rằng bài báo này không phải là trường hợp ý tưởng vô tình trùng lặp, mà là một vấn đề đang được điều tra chính thức do đã phát hiện các sai sót về đạo đức nghiên cứu.
Một lần nữa xin cảm ơn bạn đã ghi nhận giá trị của dự án gốc và để lại câu hỏi.
Đúng vậy. Dù sao thì tôi cũng hy vọng mọi việc sẽ diễn ra suôn sẻ theo lẽ tự nhiên.
Ồ, thú vị đấy.
Có kết quả nào có thể chứng minh bằng số liệu, thay vì những thước đo mơ hồ như “xuất sắc” không?
Cảm ơn bạn đã phản hồi. Các con số nêu trong bài có thể hơi xa lạ nên bạn có thể cảm thấy chúng “mơ hồ”, nhưng Versor được phát triển hoàn toàn dựa trên các chứng minh định lượng. Xin tóm tắt lại các chỉ số cốt lõi một lần nữa.
Trong tác vụ QM9, hệ thống đạt 14.42 meV trong chưa đến 1 giờ với một chiếc 4090 duy nhất. So với các mô hình SOTA trước đây cần tính toán trên cụm máy lớn trong nhiều ngày, đây là con số chứng minh hiệu quả tài nguyên cao hơn hàng chục lần.
Ngay cả trong môi trường CPU (M4), hệ thống cũng ghi nhận tốc độ suy luận 5.8ms/molecule, qua đó xác nhận hiệu quả so với nhiều mô hình khác.
Ở tác vụ UCI-HAR, hệ thống cũng đạt 100% độ chính xác và Grade Purity thông qua căn chỉnh hình học. Đây là con số rõ ràng nhất cho thấy không phải suy đoán thống kê đơn thuần, mà là đã căn chỉnh hoàn hảo cấu trúc topo của dữ liệu.
Versor đang chứng minh một thực thể toán học mang tên các ràng buộc hình học. Chúng tôi sẽ tiếp tục trả lời bằng các con số trong những benchmark sẽ được công bố sắp tới, mong nhận được nhiều sự quan tâm.
Bạn đã nêu các con số khá rõ, nhưng sẽ tốt hơn nếu có thêm phần so sánh giữa các con số đó. Điều nhiều người muốn biết là khi làm tác vụ tương tự trên cùng phần cứng thì tốc độ đã nhanh hơn bao nhiêu, còn việc tốc độ là “bao nhiêu” thì thật ra khá khó hình dung và cũng có lẽ không quá nhiều người quan tâm.
Dữ liệu so sánh chắc chắn sẽ được bổ sung. Tuy vậy, chúng tôi cho rằng chỉ riêng chỉ số hiệu suất theo giờ trên một GPU đã được đưa ra cũng đủ để giải thích tính đột phá của kiến trúc này. Nếu bạn muốn một phép so sánh trực quan hơn, chúng tôi sẽ rất cảm kích nếu bạn chờ biểu đồ sẽ sớm được cập nhật.
Mình thấy cách tiếp cận này thực sự rất hay
Ban đầu mình nghĩ phía tô pô đại số có lẽ sẽ có ý nghĩa hơn, nhưng hướng này đơn giản hơn nhiều.
Cảm ơn bạn rất nhiều vì đã đồng cảm. Trong quá trình nghiên cứu, tôi cũng đã cân nhắc cách tiếp cận từ phía tô pô đại số, nhưng cuối cùng đi đến kết luận rằng, từ góc độ kỹ thuật, sự sáng rõ của đại số hình học hòa hợp với deep learning tốt hơn. Nhờ bạn nhận ra giá trị của sự “đơn giản” đó, tôi càng có thêm sự tự tin lớn vào cách tiếp cận của mình.