- Các thí nghiệm quy mô lớn xác nhận rằng nhiều mô hình học sâu dù được huấn luyện trên dữ liệu và với giá trị khởi tạo khác nhau vẫn hội tụ về một không gian con tham số thấp chiều chung
- Kết quả phân tích phổ trên hơn 1.100 mô hình (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B, v.v.) cho thấy phần lớn phương sai tập trung vào một số ít hướng thành phần chính
- Không gian con phổ quát (Universal Subspace) này được hình thành theo kiến trúc mô hình và lặp lại một cách nhất quán bất kể dữ liệu hay cách khởi tạo
- Cấu trúc này có tiềm năng lớn trong nén mô hình, học hiệu quả tham số, hợp nhất mô hình, suy luận nhanh và nhiều lĩnh vực khác
- Nghiên cứu mang lại manh mối mới để hiểu cấu trúc nội tại và khả năng khái quát hóa của mạng nơ-ron, đồng thời có thể trở thành nền tảng quan trọng cho việc thiết kế thuật toán học hiệu quả trong tương lai
Phát hiện về không gian con phổ quát
- Quan sát cho thấy các mạng học sâu được huấn luyện với nhiều bộ dữ liệu, cách khởi tạo và siêu tham số khác nhau vẫn hội tụ về một không gian con thấp chiều chung
- Hiện tượng này xuất hiện dưới dạng cấu trúc hạng thấp tương tự theo từng kiến trúc và từng lớp
- Dù dữ liệu huấn luyện hay hàm mất mát khác nhau, chúng vẫn thể hiện cùng một xu hướng cấu trúc
- Kết quả phân tích phổ cho thấy không gian trọng số của từng tác vụ có vẻ khác nhau, nhưng trên thực tế lại tồn tại như một phần của không gian thấp chiều dùng chung
- Những kết quả này được đưa ra như cơ sở có thể giải thích vì sao các mô hình quá khớp vẫn có thể khái quát hóa, vì sao các cách khởi tạo khác nhau lại hội tụ về các biểu diễn tương tự, và vì sao tinh chỉnh hiệu quả tham số lại thành công
Thí nghiệm và phân tích quy mô lớn
- Nghiên cứu phân tích hơn 1.100 mô hình, bao gồm 500 bộ điều hợp Mistral-7B LoRA, 500 Vision Transformer và 50 mô hình LLaMA3-8B
- Mỗi mô hình được huấn luyện trên các bộ dữ liệu và điều kiện khởi tạo khác nhau
- Kết quả phân tích thành phần chính (PCA) cho thấy một số ít thành phần chính giải thích phần lớn phương sai, gợi ý sự tồn tại của một không gian con hạng thấp dùng chung
- Đặc biệt, ngay cả 500 mô hình ViT được khởi tạo ngẫu nhiên cũng hội tụ về cùng một không gian con thấp chiều, điều này được diễn giải là một tính chất nền tảng của mạng nơ-ron
Mô hình hóa lý thuyết và hình thức hóa toán học
- Nghiên cứu mô hình hóa bộ dự đoán như các phần tử trong không gian Hilbert (Hilbert space) để phân tích các điều kiện khôi phục không gian con chung giữa nhiều tác vụ
- Từ bộ dự đoán của từng tác vụ ( f_t^* ), nghiên cứu định nghĩa toán tử mômen bậc hai chung S, và chứng minh rằng toán tử xấp xỉ ( \tilde{S} ) được xây dựng từ bộ dự đoán đã học ( \hat{f_t} ) sẽ hội tụ về S
- Định lý 2.5 (Theorem 2.5) cho thấy không gian con đã học hội tụ về không gian con chung thực sự, với tốc độ hội tụ được quyết định bởi số lượng tác vụ (T) và độ chính xác ước lượng của từng tác vụ (η)
- Khoảng cách trị riêng (γₖ) càng lớn thì việc khôi phục không gian con càng ổn định
Khả năng ứng dụng và tác động
- Việc tận dụng không gian con dùng chung cho phép các ứng dụng như sau
- Nén mô hình bằng cách chỉ lưu các hệ số trong không gian con thay vì toàn bộ trọng số
- Thích nghi nhanh với tác vụ mới trong phạm vi không gian con đã học
- Cung cấp hiểu biết lý thuyết về giới hạn khái quát hóa và địa hình tối ưu hóa
- Giảm chi phí tính toán cho huấn luyện và suy luận, từ đó có thể giảm phát thải carbon
- Cấu trúc này cũng có thể nâng cao hiệu quả trong khả năng tái sử dụng mô hình, học đa tác vụ, hợp nhất mô hình và các lĩnh vực liên quan
Các bài toán nghiên cứu trong tương lai
- Sự khác biệt của không gian con phổ quát giữa các kiến trúc và khả năng tối ưu hóa hình học của chúng vẫn là những vấn đề chưa được giải quyết
- Nếu mọi mạng đều hội tụ về cùng một không gian con, thì sự chia sẻ thiên lệch và các chế độ thất bại có thể khiến sự thiếu đa dạng trở thành một nút thắt mới
- Các nghiên cứu trong tương lai cần phát triển những phương pháp cố ý phân tán sự hội tụ này
Tóm tắt các đóng góp chính
- Thực chứng sự tồn tại của không gian con thấp chiều phổ quát trong không gian tham số của các mạng học sâu
- Đề xuất phương pháp học không gian con dùng chung xấp xỉ từ nhiều tập tác vụ đa dạng
- Xác minh rằng có thể thích nghi hiệu quả với tác vụ mới bằng ít tham số nhờ sử dụng không gian con đã học
- Chỉ ra tiềm năng ứng dụng trong nén mô hình, học và suy luận nhanh, mở rộng quy mô hiệu quả
1 bình luận
Ý kiến trên Hacker News
Cụm từ “500 Vision Transformers” gây khó hiểu
Thực ra nó có nghĩa là 500 phiên bản đã được fine-tune từ cùng một mô hình nền tảng
Các mô hình này được tải xuống từ các tài khoản người dùng ẩn danh trên Hugging Face, và cách gọi “phổ quát” thực chất chỉ áp dụng cho một mô hình đã tiền huấn luyện duy nhất
Việc các mô hình đã fine-tune như LoRA giống nhau không phải là điều đáng ngạc nhiên
Tham khảo thêm, một trong các mô hình được trích dẫn trong bài báo là CheXpert-ViT-U-MultiClass hiển thị cảnh báo mã độc trên Hugging Face
Ban đầu tôi đã bối rối vì tưởng họ tìm ra một không gian con chung giữa các kiến trúc mô hình khác nhau, nhưng rốt cuộc họ đang nói về tính ổn định trong cùng một lớp mô hình
Tuy vậy, xét cho cùng điều này chỉ xác nhận một sự thật hiển nhiên là “hàm mất mát có một điểm cực tiểu được xác định tốt”, nên cái tên “giả thuyết không gian con trọng số phổ quát” nghe có phần cường điệu
Dù chưa thực dụng ngay như LoRA, nó vẫn có tiềm năng cho các nghiên cứu tiếp theo
Nếu fine-tune trên 500 bộ dữ liệu thì có vẻ sẽ tạo thành một không gian 500 chiều, nhưng thực tế lại hội tụ vào một không gian con khoảng 40 chiều
Tức là có thể nén các trọng số đã fine-tune thành 40 số thực
Biết đâu một ngày nào đó trên Hugging Face kích thước mô hình sẽ được hiển thị theo đơn vị “160 byte”
Tuy nhiên, các vector cơ sở này vẫn lớn bằng chính kích thước mô hình, và cần giả định rằng số chiều sẽ không tăng lên khi số bộ dữ liệu tăng thêm
Thật tiếc là các tác giả dùng mô hình ngẫu nhiên, nhưng hy vọng nghiên cứu này sẽ dẫn tới các nghiên cứu tiếp theo huấn luyện mô hình lớn từ đầu
Hơn nữa, tôi nghĩ bài báo cũng đã phân tích cả các mô hình được huấn luyện từ đầu
Tôi nghĩ phần quan trọng nhất của bài báo là hai câu sau
Thứ nhất, ngay cả khi chiếu trọng số của 5 mô hình ViT mới vào một không gian con phổ quát 16 chiều thì cũng không mất độ chính xác
Thứ hai, có thể thay thế 500 mô hình ViT bằng một mô hình không gian con phổ quát duy nhất, và mức dùng bộ nhớ giảm 100 lần
Nói cách khác, họ đã tìm ra cấu trúc chung trong 50 mô hình LLaMA3-8B, 177 mô hình GPT-2 và 8 mô hình Flan-T5, và hiệu năng vẫn được giữ nguyên ngay cả khi dùng cấu trúc này thay cho mô hình gốc
Ví như đã tìm ra một từ điển bzip2 có thể nén 99% mọi tệp
Nội dung là các mô hình hội tụ về cùng một không gian, trừ một phép biến đổi tuyến tính
Ví dụ, các encoder sinh đôi kiểu Siamese dùng mất mát MSE sẽ hội tụ về cùng một không gian tiềm ẩn ngay cả khi không có decoder
Vì vậy, các Transformer được huấn luyện trên dữ liệu tương tự cũng rất có thể đạt tới cùng một không gian ở mức biến đổi tuyến tính
Theo nghĩa đó thì kết quả lần này không quá bất ngờ; ngược lại, tôi cho rằng chứng minh toán học như trong bài này còn quan trọng hơn
Ví dụ, có thể dùng tập con trọng số phổ quát này để khởi tạo mô hình mới hay không, và liệu điều đó chỉ áp dụng cho một kiến trúc cụ thể hay không
Có khi đó là lỗi code hoặc một giá trị được chọn tùy ý
Tôi có cảm giác bài báo đã thổi phồng tính “phổ quát”
Với CNN, việc các bộ lọc hội tụ về dạng Laplacian/Gabor là do thiên kiến quy nạp rất mạnh
Transformer không có ràng buộc tính cục bộ như vậy, nên họ chỉ có thể tìm ra không gian con thông qua khởi tạo dùng chung (fine-tuning)
Rốt cuộc, “tính phổ quát” không phải là thuộc tính bản chất của việc học, mà là kết quả của ràng buộc cấu trúc + tính ổn định của tiền huấn luyện
Cách tiếp cận này vượt xa LoRA, và có vẻ cũng có thể dùng để tăng tốc suy luận
Có thể các mô hình lớn đã đang dùng nó ở nội bộ
Điểm cốt lõi là họ đã tìm ra tập con tham số liên quan đến chuyển giao năng lực sang các tác vụ mới
Nó không áp dụng cho các tác vụ hoàn toàn mới, nhưng trong cùng một miền thì rất hiệu quả
Giống như phép ẩn dụ của GPT 5.1, nó tương tự biểu cảm cơ sở (basis expression) dùng để chỉnh “biểu cảm” trong rigging nhân vật 3D
Ý kiến là các tác vụ khả dĩ trong các định luật vật lý là hữu hạn, và phần lớn trong số đó là vô nghĩa
Khái niệm “không gian con phổ quát” mà bài báo mô tả không thật sự rõ ràng
Vì họ chỉ so sánh trong cùng một họ mô hình, nên không tồn tại không gian con chung giữa các mô hình có kiến trúc khác nhau như ViT và GPT2
Việc kết quả phân tích thành phần chính giảm theo dạng log là hiện tượng đương nhiên
Hơn nữa, trong phép nhân ma trận, dù đổi hàng/cột vẫn có thể khôi phục lại kết quả, nên các mô hình được huấn luyện hoàn toàn độc lập không thể chia sẻ cùng các hướng không gian con
Nếu các mô hình tự nhiên hội tụ vào không gian thấp chiều, thì có thể bắt đầu huấn luyện ngay trong không gian đó để tăng tốc huấn luyện đáng kể
Transformer cũng có khả năng vận hành theo nguyên lý tương tự
Về mặt lý thuyết, cần các chứng minh toán học như bài này
Điều ấn tượng là họ đạt được kết quả này với nguồn lực ít hơn nhiều so với OpenAI hay Google
Tôi tự hỏi nếu phát triển cấu trúc này bằng giải thuật di truyền (GA) thì sẽ thế nào
Thật ra cứ hễ nói đến mạng nơ-ron là tôi lại nghĩ đến GA
Lai ghép (crossover) và đột biến (mutation) thì trực quan dễ hiểu, nhưng lan truyền ngược (backpropagation) vẫn luôn khó cảm thấy tự nhiên
Cách làm là phân rã ma trận trọng số thành các mẫu phổ rồi tìm kiếm trong không gian nén
Có vẻ cũng có thể mã hóa các mô hình lớn sẵn có dưới dạng nén để làm điểm xuất phát cho đột biến
Nếu cách tiếp cận này phát triển hơn nữa, biết đâu nó có thể tiến hóa để khám phá các cơ chế mới
Liên kết EvoLisa
Nó hoàn toàn khác với việc huấn luyện LLM, nhưng ở vài khía cạnh lại cho cảm giác tương tự
Tôi tò mò mối liên hệ với “Platonic Representation Hypothesis”
Nhìn việc các thảo luận kiểu Plato đang thịnh hành trở lại gần đây, có vẻ như mọi thứ đang hội tụ về một dạng trực giác nền tảng nào đó
Cấu trúc biểu diễn dùng chung có thể là ứng viên tốt cho các phạm trù kiểu Plato
Có lẽ tồn tại một ánh xạ thú vị giữa hai khái niệm này
Có thể xem như nó đưa ra bằng chứng thực nghiệm hỗ trợ cho giả thuyết trước đó
Cũng có một suy đoán nửa đùa nửa thật rằng “có lẽ mọi mô hình thực ra đều là phiên bản fine-tune của LLaMA”
Các tác giả cho rằng họ đã phân tích nhiều mô hình fine-tune hạng thấp (low-rank fine-tune) khác nhau và phát hiện cấu trúc hạng thấp chung
Điều này phụ thuộc vào mô hình nền tảng, và tương tự việc biến dị di truyền của con người có thể được biểu diễn bằng một số ít thành phần chính
Cuối cùng, có lẽ hiện tượng này xuất hiện là vì chúng có cùng một nền tảng tổ tiên (ancestry)