2 điểm bởi GN⁺ 2025-12-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các thí nghiệm quy mô lớn xác nhận rằng nhiều mô hình học sâu dù được huấn luyện trên dữ liệu và với giá trị khởi tạo khác nhau vẫn hội tụ về một không gian con tham số thấp chiều chung
  • Kết quả phân tích phổ trên hơn 1.100 mô hình (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B, v.v.) cho thấy phần lớn phương sai tập trung vào một số ít hướng thành phần chính
  • Không gian con phổ quát (Universal Subspace) này được hình thành theo kiến trúc mô hình và lặp lại một cách nhất quán bất kể dữ liệu hay cách khởi tạo
  • Cấu trúc này có tiềm năng lớn trong nén mô hình, học hiệu quả tham số, hợp nhất mô hình, suy luận nhanh và nhiều lĩnh vực khác
  • Nghiên cứu mang lại manh mối mới để hiểu cấu trúc nội tại và khả năng khái quát hóa của mạng nơ-ron, đồng thời có thể trở thành nền tảng quan trọng cho việc thiết kế thuật toán học hiệu quả trong tương lai

Phát hiện về không gian con phổ quát

  • Quan sát cho thấy các mạng học sâu được huấn luyện với nhiều bộ dữ liệu, cách khởi tạo và siêu tham số khác nhau vẫn hội tụ về một không gian con thấp chiều chung
    • Hiện tượng này xuất hiện dưới dạng cấu trúc hạng thấp tương tự theo từng kiến trúc và từng lớp
    • Dù dữ liệu huấn luyện hay hàm mất mát khác nhau, chúng vẫn thể hiện cùng một xu hướng cấu trúc
  • Kết quả phân tích phổ cho thấy không gian trọng số của từng tác vụ có vẻ khác nhau, nhưng trên thực tế lại tồn tại như một phần của không gian thấp chiều dùng chung
  • Những kết quả này được đưa ra như cơ sở có thể giải thích vì sao các mô hình quá khớp vẫn có thể khái quát hóa, vì sao các cách khởi tạo khác nhau lại hội tụ về các biểu diễn tương tự, và vì sao tinh chỉnh hiệu quả tham số lại thành công

Thí nghiệm và phân tích quy mô lớn

  • Nghiên cứu phân tích hơn 1.100 mô hình, bao gồm 500 bộ điều hợp Mistral-7B LoRA, 500 Vision Transformer50 mô hình LLaMA3-8B
    • Mỗi mô hình được huấn luyện trên các bộ dữ liệu và điều kiện khởi tạo khác nhau
  • Kết quả phân tích thành phần chính (PCA) cho thấy một số ít thành phần chính giải thích phần lớn phương sai, gợi ý sự tồn tại của một không gian con hạng thấp dùng chung
  • Đặc biệt, ngay cả 500 mô hình ViT được khởi tạo ngẫu nhiên cũng hội tụ về cùng một không gian con thấp chiều, điều này được diễn giải là một tính chất nền tảng của mạng nơ-ron

Mô hình hóa lý thuyết và hình thức hóa toán học

  • Nghiên cứu mô hình hóa bộ dự đoán như các phần tử trong không gian Hilbert (Hilbert space) để phân tích các điều kiện khôi phục không gian con chung giữa nhiều tác vụ
  • Từ bộ dự đoán của từng tác vụ ( f_t^* ), nghiên cứu định nghĩa toán tử mômen bậc hai chung S, và chứng minh rằng toán tử xấp xỉ ( \tilde{S} ) được xây dựng từ bộ dự đoán đã học ( \hat{f_t} ) sẽ hội tụ về S
  • Định lý 2.5 (Theorem 2.5) cho thấy không gian con đã học hội tụ về không gian con chung thực sự, với tốc độ hội tụ được quyết định bởi số lượng tác vụ (T)độ chính xác ước lượng của từng tác vụ (η)
  • Khoảng cách trị riêng (γₖ) càng lớn thì việc khôi phục không gian con càng ổn định

Khả năng ứng dụng và tác động

  • Việc tận dụng không gian con dùng chung cho phép các ứng dụng như sau
    • Nén mô hình bằng cách chỉ lưu các hệ số trong không gian con thay vì toàn bộ trọng số
    • Thích nghi nhanh với tác vụ mới trong phạm vi không gian con đã học
    • Cung cấp hiểu biết lý thuyết về giới hạn khái quát hóa và địa hình tối ưu hóa
    • Giảm chi phí tính toán cho huấn luyện và suy luận, từ đó có thể giảm phát thải carbon
  • Cấu trúc này cũng có thể nâng cao hiệu quả trong khả năng tái sử dụng mô hình, học đa tác vụ, hợp nhất mô hình và các lĩnh vực liên quan

Các bài toán nghiên cứu trong tương lai

  • Sự khác biệt của không gian con phổ quát giữa các kiến trúckhả năng tối ưu hóa hình học của chúng vẫn là những vấn đề chưa được giải quyết
  • Nếu mọi mạng đều hội tụ về cùng một không gian con, thì sự chia sẻ thiên lệch và các chế độ thất bại có thể khiến sự thiếu đa dạng trở thành một nút thắt mới
  • Các nghiên cứu trong tương lai cần phát triển những phương pháp cố ý phân tán sự hội tụ này

Tóm tắt các đóng góp chính

  • Thực chứng sự tồn tại của không gian con thấp chiều phổ quát trong không gian tham số của các mạng học sâu
  • Đề xuất phương pháp học không gian con dùng chung xấp xỉ từ nhiều tập tác vụ đa dạng
  • Xác minh rằng có thể thích nghi hiệu quả với tác vụ mới bằng ít tham số nhờ sử dụng không gian con đã học
  • Chỉ ra tiềm năng ứng dụng trong nén mô hình, học và suy luận nhanh, mở rộng quy mô hiệu quả

1 bình luận

 
GN⁺ 2025-12-11
Ý kiến trên Hacker News
  • Cụm từ “500 Vision Transformers” gây khó hiểu
    Thực ra nó có nghĩa là 500 phiên bản đã được fine-tune từ cùng một mô hình nền tảng
    Các mô hình này được tải xuống từ các tài khoản người dùng ẩn danh trên Hugging Face, và cách gọi “phổ quát” thực chất chỉ áp dụng cho một mô hình đã tiền huấn luyện duy nhất
    Việc các mô hình đã fine-tune như LoRA giống nhau không phải là điều đáng ngạc nhiên
    Tham khảo thêm, một trong các mô hình được trích dẫn trong bài báo là CheXpert-ViT-U-MultiClass hiển thị cảnh báo mã độc trên Hugging Face

    • Nhờ phần giải thích này mà ý nghĩa của “không gian con phổ quát (subspace)” trong bài báo trở nên rõ ràng hơn
      Ban đầu tôi đã bối rối vì tưởng họ tìm ra một không gian con chung giữa các kiến trúc mô hình khác nhau, nhưng rốt cuộc họ đang nói về tính ổn định trong cùng một lớp mô hình
      Tuy vậy, xét cho cùng điều này chỉ xác nhận một sự thật hiển nhiên là “hàm mất mát có một điểm cực tiểu được xác định tốt”, nên cái tên “giả thuyết không gian con trọng số phổ quát” nghe có phần cường điệu
    • Kết quả fine-tune thì đúng như dự đoán, nhưng thí nghiệm ResNet được huấn luyện từ đầu (Figure 2, Section 3.2.1) thú vị hơn một chút
      Dù chưa thực dụng ngay như LoRA, nó vẫn có tiềm năng cho các nghiên cứu tiếp theo
    • Mỗi lần fine-tune sẽ dịch chuyển trọng số của mô hình nền tảng theo một hướng nhất định
      Nếu fine-tune trên 500 bộ dữ liệu thì có vẻ sẽ tạo thành một không gian 500 chiều, nhưng thực tế lại hội tụ vào một không gian con khoảng 40 chiều
      Tức là có thể nén các trọng số đã fine-tune thành 40 số thực
      Biết đâu một ngày nào đó trên Hugging Face kích thước mô hình sẽ được hiển thị theo đơn vị “160 byte”
      Tuy nhiên, các vector cơ sở này vẫn lớn bằng chính kích thước mô hình, và cần giả định rằng số chiều sẽ không tăng lên khi số bộ dữ liệu tăng thêm
      Thật tiếc là các tác giả dùng mô hình ngẫu nhiên, nhưng hy vọng nghiên cứu này sẽ dẫn tới các nghiên cứu tiếp theo huấn luyện mô hình lớn từ đầu
    • Tôi thắc mắc vì sao lại xem chúng là giống nhau khi chúng được huấn luyện trên dữ liệu khác nhau
      Hơn nữa, tôi nghĩ bài báo cũng đã phân tích cả các mô hình được huấn luyện từ đầu
    • Họ có xử lý các mô hình Mistral và LLaMA, nhưng cách gọi “phổ quát” vẫn có phần cường điệu
  • Tôi nghĩ phần quan trọng nhất của bài báo là hai câu sau
    Thứ nhất, ngay cả khi chiếu trọng số của 5 mô hình ViT mới vào một không gian con phổ quát 16 chiều thì cũng không mất độ chính xác
    Thứ hai, có thể thay thế 500 mô hình ViT bằng một mô hình không gian con phổ quát duy nhất, và mức dùng bộ nhớ giảm 100 lần
    Nói cách khác, họ đã tìm ra cấu trúc chung trong 50 mô hình LLaMA3-8B, 177 mô hình GPT-2 và 8 mô hình Flan-T5, và hiệu năng vẫn được giữ nguyên ngay cả khi dùng cấu trúc này thay cho mô hình gốc
    Ví như đã tìm ra một từ điển bzip2 có thể nén 99% mọi tệp

    • Về nền tảng lý thuyết liên quan, có bài arXiv:2007.00810
      Nội dung là các mô hình hội tụ về cùng một không gian, trừ một phép biến đổi tuyến tính
      Ví dụ, các encoder sinh đôi kiểu Siamese dùng mất mát MSE sẽ hội tụ về cùng một không gian tiềm ẩn ngay cả khi không có decoder
      Vì vậy, các Transformer được huấn luyện trên dữ liệu tương tự cũng rất có thể đạt tới cùng một không gian ở mức biến đổi tuyến tính
      Theo nghĩa đó thì kết quả lần này không quá bất ngờ; ngược lại, tôi cho rằng chứng minh toán học như trong bài này còn quan trọng hơn
    • Tôi tò mò “tính chung (commonality)” này có thể được tận dụng cụ thể như thế nào
      Ví dụ, có thể dùng tập con trọng số phổ quát này để khởi tạo mô hình mới hay không, và liệu điều đó chỉ áp dụng cho một kiến trúc cụ thể hay không
    • Nếu các mô hình tự nhiên chiếm cùng một không gian con phổ dùng chung, thì chi phí huấn luyện và dung lượng lưu trữ có thể giảm rất nhiều
    • Câu “chỉ cần 16 chiều là đủ” thật ấn tượng
    • Nhưng con số 16 quá tròn trịa nên cũng đáng nghi
      Có khi đó là lỗi code hoặc một giá trị được chọn tùy ý
  • Tôi có cảm giác bài báo đã thổi phồng tính “phổ quát”
    Với CNN, việc các bộ lọc hội tụ về dạng Laplacian/Gabor là do thiên kiến quy nạp rất mạnh
    Transformer không có ràng buộc tính cục bộ như vậy, nên họ chỉ có thể tìm ra không gian con thông qua khởi tạo dùng chung (fine-tuning)
    Rốt cuộc, “tính phổ quát” không phải là thuộc tính bản chất của việc học, mà là kết quả của ràng buộc cấu trúc + tính ổn định của tiền huấn luyện

    • Dù vậy, chỉ riêng việc hướng nghiên cứu như thế này tồn tại cũng đã rất đáng ngạc nhiên và thú vị
  • Cách tiếp cận này vượt xa LoRA, và có vẻ cũng có thể dùng để tăng tốc suy luận
    Có thể các mô hình lớn đã đang dùng nó ở nội bộ
    Điểm cốt lõi là họ đã tìm ra tập con tham số liên quan đến chuyển giao năng lực sang các tác vụ mới
    Nó không áp dụng cho các tác vụ hoàn toàn mới, nhưng trong cùng một miền thì rất hiệu quả
    Giống như phép ẩn dụ của GPT 5.1, nó tương tự biểu cảm cơ sở (basis expression) dùng để chỉnh “biểu cảm” trong rigging nhân vật 3D

    • Cũng có phản biện mang tính triết học rằng “liệu có tồn tại tác vụ hoàn toàn mới không?”
      Ý kiến là các tác vụ khả dĩ trong các định luật vật lý là hữu hạn, và phần lớn trong số đó là vô nghĩa
    • Trên thực tế, dường như nó vẫn hoạt động ở mức độ nào đó ngay cả với tác vụ mới
  • Khái niệm “không gian con phổ quát” mà bài báo mô tả không thật sự rõ ràng
    Vì họ chỉ so sánh trong cùng một họ mô hình, nên không tồn tại không gian con chung giữa các mô hình có kiến trúc khác nhau như ViT và GPT2
    Việc kết quả phân tích thành phần chính giảm theo dạng log là hiện tượng đương nhiên
    Hơn nữa, trong phép nhân ma trận, dù đổi hàng/cột vẫn có thể khôi phục lại kết quả, nên các mô hình được huấn luyện hoàn toàn độc lập không thể chia sẻ cùng các hướng không gian con

    • Cuối cùng thì điều này gần với một kỹ thuật nén mô hình hơn, chứ không phải “tính phổ quát” theo nghĩa triết học
  • Nếu các mô hình tự nhiên hội tụ vào không gian thấp chiều, thì có thể bắt đầu huấn luyện ngay trong không gian đó để tăng tốc huấn luyện đáng kể

    • Nếu dùng cùng một hàm mất mát như encoder sinh đôi kiểu Siamese thì chúng sẽ đạt tới cùng một không gian tiềm ẩn ở mức biến đổi tuyến tính
      Transformer cũng có khả năng vận hành theo nguyên lý tương tự
      Về mặt lý thuyết, cần các chứng minh toán học như bài này
    • Việc JHU thực hiện nghiên cứu như vậy khá thú vị
      Điều ấn tượng là họ đạt được kết quả này với nguồn lực ít hơn nhiều so với OpenAI hay Google
    • Nhưng nếu một không gian chung như vậy thực sự tồn tại, thì cũng có thể tồn tại giới hạn về năng lực biểu đạt của mô hình
    • Hoặc thậm chí có thể thiết kế một kiến trúc mới lấy chính các thuộc tính của không gian con đó làm thiên kiến quy nạp (inductive bias)
  • Tôi tự hỏi nếu phát triển cấu trúc này bằng giải thuật di truyền (GA) thì sẽ thế nào
    Thật ra cứ hễ nói đến mạng nơ-ron là tôi lại nghĩ đến GA

    • Tôi có tình cảm đặc biệt với GA nhờ từng đọc cuốn Artificial Life của Levy khi còn nhỏ
      Lai ghép (crossover) và đột biến (mutation) thì trực quan dễ hiểu, nhưng lan truyền ngược (backpropagation) vẫn luôn khó cảm thấy tự nhiên
    • Gần đây tôi đang thử nghiệm GA kiểu mã hóa gián tiếp, và bài báo này dường như ủng hộ hướng đó
      Cách làm là phân rã ma trận trọng số thành các mẫu phổ rồi tìm kiếm trong không gian nén
      Có vẻ cũng có thể mã hóa các mô hình lớn sẵn có dưới dạng nén để làm điểm xuất phát cho đột biến
      Nếu cách tiếp cận này phát triển hơn nữa, biết đâu nó có thể tiến hóa để khám phá các cơ chế mới
    • Giờ đã có mục tiêu như vậy, tôi nghĩ đây là thời điểm tốt để tận dụng lại GA hay các phương pháp khác không dựa trên học
    • Trước đây tôi từng mê mẩn dự án EvoLisa
      Liên kết EvoLisa
      Nó hoàn toàn khác với việc huấn luyện LLM, nhưng ở vài khía cạnh lại cho cảm giác tương tự
    • Còn tôi thì bị thu hút bởi vector quantization hơn là GA
  • Tôi tò mò mối liên hệ với “Platonic Representation Hypothesis”

    • Mong ai đó thông minh hơn tôi trả lời chuyện này
      Nhìn việc các thảo luận kiểu Plato đang thịnh hành trở lại gần đây, có vẻ như mọi thứ đang hội tụ về một dạng trực giác nền tảng nào đó
    • Hai giả thuyết này có liên quan chặt chẽ với nhau
      Cấu trúc biểu diễn dùng chung có thể là ứng viên tốt cho các phạm trù kiểu Plato
      Có lẽ tồn tại một ánh xạ thú vị giữa hai khái niệm này
    • Bài arXiv:2405.07987 nằm trên cùng mạch đó
      Có thể xem như nó đưa ra bằng chứng thực nghiệm hỗ trợ cho giả thuyết trước đó
  • Cũng có một suy đoán nửa đùa nửa thật rằng “có lẽ mọi mô hình thực ra đều là phiên bản fine-tune của LLaMA”

  • Các tác giả cho rằng họ đã phân tích nhiều mô hình fine-tune hạng thấp (low-rank fine-tune) khác nhau và phát hiện cấu trúc hạng thấp chung
    Điều này phụ thuộc vào mô hình nền tảng, và tương tự việc biến dị di truyền của con người có thể được biểu diễn bằng một số ít thành phần chính
    Cuối cùng, có lẽ hiện tượng này xuất hiện là vì chúng có cùng một nền tảng tổ tiên (ancestry)