- Đạt vị trí số 1 trên bảng xếp hạng bằng cách sao chép và tái tổ hợp 7 lớp giữa của một LLM 72B tham số khổng lồ mà không cần bất kỳ quá trình huấn luyện nào
- Thí nghiệm được thực hiện với hai chiếc RTX 4090, chỉ thay đổi cấu trúc để chạy lặp lại các lớp trung gian mà không sửa trọng số của mô hình
- Tìm kiếm phạm vi lớp tối ưu thông qua hai tác vụ proxy quy mô nhỏ: suy luận toán học và suy luận cảm xúc (EQ)
- Kết quả, mô hình RYS-XLarge dựa trên Qwen2-72B cải thiện trung bình +2.61%, đặc biệt MuSR +17.72% và MATH +8.16%
- Cách tiếp cận này cho thấy khả năng tồn tại của “mạch chức năng (circuit)” bên trong LLM, mở ra nghiên cứu về “cấu trúc giải phẫu thần kinh” của các mô hình lớn
Open LLM Leaderboard và bối cảnh thí nghiệm
- Vào giữa năm 2024, Open LLM Leaderboard của HuggingFace là đấu trường cạnh tranh của các mô hình có trọng số mở
- Hạng mục đánh giá: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- Tác giả tiến hành thí nghiệm bằng cách sao chép một phần các lớp trung gian của mô hình hiện có, không huấn luyện mô hình mới hay fine-tuning
- Các lớp được sao chép được cho là phần đảm nhiệm quá trình “tư duy” của mô hình
Manh mối 1 – thí nghiệm hội thoại Base64
- Quan sát hiện tượng LLM có thể hiểu câu hỏi được mã hóa Base64 và trả về đáp án đúng cũng dưới dạng Base64
- Từ việc mô hình vẫn suy luận được dù hình thức đầu vào thay đổi, tác giả đưa ra giả thuyết rằng các lớp đầu xử lý việc diễn giải đầu vào (translation), còn các lớp cuối đảm nhiệm chuyển đổi đầu ra (re-translation)
- Theo đó, các lớp giữa có thể là vùng thực hiện tư duy trừu tượng
Manh mối 2 – cấu trúc bất thường của mô hình Goliath-120B
- Goliath-120B trên HuggingFace có cấu trúc kết hợp xen kẽ hai mô hình Llama-2 70B, với cơ chế phản hồi đầu ra của các lớp cuối vào đầu vào của các lớp đầu
- Xác nhận rằng mô hình vẫn hoạt động dù có cấu trúc nằm ngoài phân bố huấn luyện thông thường
- Điều này gợi ý rằng biểu diễn giữa các lớp có thể tương thích lẫn nhau, và biểu diễn bên trong Transformer mang tính đồng nhất (homogenous)
Xây dựng “máy quét não”
- Xây dựng pipeline thử toàn bộ các tổ hợp đoạn lớp (i, j) của mô hình Qwen2-72B (tổng cộng 3.241 tổ hợp)
- Ở mỗi tổ hợp, mô hình được tái cấu trúc theo cách cho một đoạn lớp cụ thể đi qua hai lần
- Tiêu chí đánh giá phải thỏa mãn ba điều kiện
- Giảm thiểu độ dài đầu ra (để đảm bảo tốc độ)
- Có thể chấm điểm khách quan
- Tính độc lập nhận thức (nếu cả hai tác vụ cùng được cải thiện thì xem là cải thiện mang tính cấu trúc)
Thiết kế tác vụ proxy
- Hard Math Probe: ước lượng trực tiếp đáp án của các bài toán số học phức tạp
- EQ-Bench Probe: dự đoán cường độ cảm xúc từ 0~100 trong các tình huống xã hội
- Cả hai tác vụ đều có đầu ra ngắn và đáp án rõ ràng, phù hợp để đo lường thay đổi cấu trúc
Hàm chấm điểm toán và đánh giá đáp án đúng một phần
- Phát triển hàm tính điểm khớp một phần để xét đến các lỗi số học của LLM như thiếu chữ số, đảo vị trí, v.v.
- Bằng cách đệm các câu trả lời ngắn và tính sai số tương đối, tác giả chuyển tỷ lệ đúng thành điểm số liên tục
- Nhờ đó có thể phân biệt định lượng các chênh lệch hiệu năng rất nhỏ
Cấu hình của mô hình RYS-XLarge
- Tổ hợp tối ưu là (45, 52), tức lặp thêm một lần các lớp từ 45 đến 51
- Kết quả là sao chép 7 lớp trung gian, nâng tổng tham số từ 72B lên 78B
- Chỉ sửa cấu trúc, không thay đổi trọng số, được triển khai theo cách sao chép con trỏ nên không dùng thêm VRAM
Thành tích trên leaderboard
| Hạng mục |
Điểm |
Cải thiện so với mốc chuẩn |
| Trung bình |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- Cải thiện ở 5 hạng mục, đạt vị trí số 1 trên leaderboard theo điểm trung bình
- Vì trong quá trình phát triển không sử dụng các hạng mục trên leaderboard, kết quả này được xem là hiệu ứng khái quát hóa cấu trúc thuần túy
Phát hiện “mạch chức năng” của Transformer
- Việc lặp lại một lớp đơn lẻ không có hiệu quả, nhưng lặp theo khối liên tiếp thì mới cải thiện hiệu năng
- Điều này có nghĩa các lớp giữa không hoạt động như phép lặp độc lập, mà như một mạch tính toán nhiều bước (circuit)
- Ví dụ: các lớp 46~52 thực hiện suy luận theo từng bước như một “công thức”
- Khi lặp lại toàn bộ khối, sẽ tạo ra hiệu ứng thực hiện suy luận thêm một lần nữa
Phân tích heatmap và “LLM Neuroanatomy”
- Heatmap trực quan hóa hiệu năng của từng tổ hợp (i, j) cho thấy mẫu hình tương tự fMRI
- Ở tác vụ toán, hiệu năng tăng khi lặp các lớp giữa; với tác vụ EQ, hiệu năng tăng ở vùng khác
- Điều này cho thấy bên trong Transformer tồn tại các mạch chức năng theo từng loại nhiệm vụ
Tác dụng phụ của việc sao chép sai
- Một số tổ hợp khiến mô hình xuất hiện lặp ngôn ngữ bất thường, đầu ra mang tính hoang tưởng
- Đây được ví như “tổn thương não nhân tạo”, do mở rộng quá mức một số mạch nhất định
- Ví dụ: mạch về sự phù hợp xã hội bị tổn hại, dẫn đến mẫu hội thoại bất thường
Nghiên cứu tiếp theo và các mô hình phái sinh
- Dựa trên RYS-XLarge, nhiều nhà nghiên cứu tiếp tục bổ sung fine-tuning và huấn luyện ORPO
- Tính đến đầu năm 2026, cả 4 mô hình đứng đầu leaderboard đều là mô hình 78B dựa trên cấu trúc RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, v.v.
Mở rộng theo cấu trúc và ý nghĩa
- Việc sao chép lớp độc lập với fine-tuning và có thể tiến hành song song
- Đây không phải cách thay đổi mô hình “biết gì”, mà là cách thay đổi “nó suy nghĩ như thế nào”
- Mô hình càng lớn thì các vùng chức năng càng phân hóa, nên việc sao chép theo đơn vị mạch càng hiệu quả
- Với mô hình nhỏ, các chức năng mã hóa, suy luận và giải mã đan xen nhau nên hiệu quả tương tự bị hạn chế
Kế hoạch sắp tới
- Đang áp dụng cùng kỹ thuật này cho các mô hình mới như Qwen, MiniMax, GLM
- Xác nhận rằng mỗi mô hình đều có “cấu trúc giải phẫu thần kinh” riêng
- Dự kiến công bố mã nguồn và phát hành thêm các phiên bản trong dòng RYS
- Tác giả mô tả rằng: “Giờ đây chúng tôi đang giải phẫu bộ não nhân tạo thay vì não chuột.”
Kết luận
- Một thí nghiệm cải thiện hiệu năng LLM chỉ bằng cách sao chép lớp mà không thay đổi trọng số
- Thực nghiệm này chứng minh bên trong Transformer tồn tại các mạch chức năng và sự phân hóa cấu trúc
- Điều này mở ra một hướng đi mới cho khả năng diễn giải cơ chế của mô hình (mechanistic interpretability) và mở rộng kiến trúc hiệu quả
1 bình luận
Ý kiến trên Hacker News
Thật ngạc nhiên khi số bình luận lại mất cân đối như vậy so với số điểm
Nội dung bài viết thực sự rất phong phú, và tôi ấn tượng với cách tác giả diễn giải các vấn đề kỹ thuật sao cho cả người không chuyên cũng có thể hiểu được
Đặc biệt, tôi nghĩ điểm mấu chốt là câu “bản thân việc Goliath hoạt động được đã là điều đáng ngạc nhiên”. Tôi tự hỏi vì sao không có nhiều nhà nghiên cứu chú ý hơn đến chuyện này
Ngoài ra, hành trình tác giả từ nghiên cứu não bộ trong công nghệ sinh học sang làm AI trong “tầng hầm GPU” cũng rất thú vị
Giống như kernel ở các tầng đầu của CNN hội tụ về bộ lọc Gabor, tôi cho rằng các tầng bên trong LLM cũng hội tụ về những tối ưu toán học phổ quát như hiệu quả năng lượng, nén thông tin và tối ưu entropy
Tôi thực sự thích việc bài viết cho thấy chi tiết quá trình khám phá. Chính quá trình đó còn thú vị hơn cả kết quả
Đặc biệt ấn tượng với phần xếp chồng suy luận trừu tượng để tăng hiệu năng, và phần trực quan hóa phân bố xác suất bằng heatmap
Các bài báo liên quan cũng đang dần bắt kịp hướng này
Tuy vậy, tôi nghĩ các mô hình như SOLAR cuối cùng sẽ chạm trần. Nhìn vào heatmap có thể thấy transformer stack lúc đầu khởi tạo từ trọng số ngẫu nhiên, rồi dần biến thành một cấu trúc chuyên biệt như “cơ quan” trong quá trình huấn luyện
Những “cơ quan” như ‘token-to-thought’ và ‘thought-to-token’ chỉ nên tồn tại một bản. Cuối cùng tôi nghĩ cấu trúc chuyên môn hóa sẽ luôn chiến thắng
Tôi đồng ý với câu “việc Goliath hoạt động được thật đáng ngạc nhiên”
Trước đây cũng từng có nhiều thử nghiệm ghép nhiều mô hình lại với nhau, nhưng phần lớn chỉ ở mức thí nghiệm cộng đồng trên Reddit hay Discord. Giới học thuật và các nhà nghiên cứu trong công ty không thực sự chú ý nhiều
Dù vậy, tôi vẫn tò mò liệu có thể trộn các tầng của những mô hình hoàn toàn khác nhau như Llama và Qwen mà vẫn chạy được hay không
Ngoài ra, cũng rất thú vị khi LLM thường tạo ra các lỗi kỳ lạ trong bài toán số học, như bỏ sót chữ số cuối hoặc đảo thứ tự. Tôi muốn thử xem liệu ép buộc phân tích cú pháp ngữ pháp có giúp cải thiện điều này không
Ý tưởng rằng bên trong LLM có thể ẩn một ngôn ngữ chung nhận thức (cognitive lingua franca) thật hấp dẫn
Có lẽ có thể tận dụng điều đó để tạo ra ngân hàng tri thức cắm-rút.
Nếu làm được các mô hình gọn nhẹ chỉ cắm thêm phần tri thức cần thiết, ta có thể giữ kiến thức luôn mới mà không cần huấn luyện lại toàn bộ
Điều tác giả gọi là suy luận trong không gian tiềm ẩn (latent space reasoning) thực sự gây ấn tượng
Thật ngạc nhiên khi chỉ cần sao chép các tầng thôi mà việc học vẫn lan truyền ngược được.
Tôi cũng tò mò nếu cho các tầng đã sao chép chạy lặp (loop) thì hiệu năng sẽ thay đổi thế nào. So với mô hình MoE, điều đó có thể giúp kiểm tra xem mỗi tầng có hoạt động như một chuyên gia độc lập hay không
Tuy vậy, các thí nghiệm sao chép nhiều tầng ở nhiều đoạn khác nhau, rồi dùng siêu mô hình dựa trên XGBoost để dự đoán cách hợp nhất, lại khá thú vị. Nó cũng hoạt động tốt với MoE
Chỉ là vợ tôi không thích kiểu lãng phí thời gian (?) này lắm
Khái niệm “phẫu thuật não” với LLM thật mê hoặc. Khi llama.cpp bắt đầu hỗ trợ mô hình thị giác, tôi đã thử đặt một phần embedding do projector tạo ra về 0 rồi yêu cầu LLM mô tả hình ảnh
Kết quả là nó thực sự bịa ra những con người hay bối cảnh không hề tồn tại, cho ra các kết quả rất bất ngờ.
Một ngày nào đó tôi muốn thử nghiệm có hệ thống mối tương quan giữa các chiều vector và ý nghĩa của chúng
Tôi cũng từng có trực giác tương tự về việc tận dụng các tầng giữa.
Sau khi xem video YouTube này, tôi sắp xếp lại suy nghĩ và đi đến kết luận rằng khi lặp (loop) các tầng, thứ tự tầng không nhất thiết phải cố định
Nếu trong lúc lặp có những tầng không cần thiết thì có thể bỏ qua, còn những tầng cần thì lặp lại, thì cuối cùng có thể dẫn đến một mô hình MOE một tầng.
Cũng có thể có khái niệm như núm chỉnh cường độ suy luận để điều khiển “suy nghĩ sâu đến mức nào”
Dù sao, thử ngẫu nhiên hóa thứ tự gọi các khối transformer rồi đo biến động hiệu năng chắc cũng sẽ rất hay
Khi đọc bài, tôi thấy đồng cảm với cấu trúc hình học của tri thức.
Có cảm giác lối tư duy của người tổng hợp đa lĩnh vực phản ánh chính kiểu cấu trúc thần kinh này.
Nhờ đó mà ngày hôm nay của tôi trở nên vui hơn
Việc chỉ khoảng 7 khối tầng hoạt động còn nhiều hơn hay ít hơn thì không được là điều rất thú vị
Điều này gợi ý rằng bên trong transformer tồn tại những đơn vị chức năng (“cơ quan”) mà chúng ta vẫn chưa hiểu rõ
Tôi tự hỏi ngoài Qwen ra, ở các kiến trúc khác như Llama hay Mistral có xuất hiện cùng kiểu “phép màu 7 tầng” này hay không
Nhìn vào ý tưởng này, tôi nghĩ đến hai câu hỏi
Nếu mô hình dễ thích nghi với các biến đổi ở tầng trong như vậy, thì không cần phải cho mọi token đi qua mọi tầng
Nếu xây dựng mô hình điều chỉnh số vòng lặp theo độ khó của bài toán, thì bài dễ có thể xử lý nhanh, còn bài khó thì suy luận sâu hơn
Thậm chí trong lúc huấn luyện có thể dạy nó dự đoán độ tự tin (confidence) của chính mình để quyết định có cần thêm tính toán hay không