1 điểm bởi GN⁺ 2026-03-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Đạt vị trí số 1 trên bảng xếp hạng bằng cách sao chép và tái tổ hợp 7 lớp giữa của một LLM 72B tham số khổng lồ mà không cần bất kỳ quá trình huấn luyện nào
  • Thí nghiệm được thực hiện với hai chiếc RTX 4090, chỉ thay đổi cấu trúc để chạy lặp lại các lớp trung gian mà không sửa trọng số của mô hình
  • Tìm kiếm phạm vi lớp tối ưu thông qua hai tác vụ proxy quy mô nhỏ: suy luận toán học và suy luận cảm xúc (EQ)
  • Kết quả, mô hình RYS-XLarge dựa trên Qwen2-72B cải thiện trung bình +2.61%, đặc biệt MuSR +17.72% và MATH +8.16%
  • Cách tiếp cận này cho thấy khả năng tồn tại của “mạch chức năng (circuit)” bên trong LLM, mở ra nghiên cứu về “cấu trúc giải phẫu thần kinh” của các mô hình lớn

Open LLM Leaderboard và bối cảnh thí nghiệm

  • Vào giữa năm 2024, Open LLM Leaderboard của HuggingFace là đấu trường cạnh tranh của các mô hình có trọng số mở
    • Hạng mục đánh giá: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • Tác giả tiến hành thí nghiệm bằng cách sao chép một phần các lớp trung gian của mô hình hiện có, không huấn luyện mô hình mới hay fine-tuning
  • Các lớp được sao chép được cho là phần đảm nhiệm quá trình “tư duy” của mô hình

Manh mối 1 – thí nghiệm hội thoại Base64

  • Quan sát hiện tượng LLM có thể hiểu câu hỏi được mã hóa Base64 và trả về đáp án đúng cũng dưới dạng Base64
  • Từ việc mô hình vẫn suy luận được dù hình thức đầu vào thay đổi, tác giả đưa ra giả thuyết rằng các lớp đầu xử lý việc diễn giải đầu vào (translation), còn các lớp cuối đảm nhiệm chuyển đổi đầu ra (re-translation)
  • Theo đó, các lớp giữa có thể là vùng thực hiện tư duy trừu tượng

Manh mối 2 – cấu trúc bất thường của mô hình Goliath-120B

  • Goliath-120B trên HuggingFace có cấu trúc kết hợp xen kẽ hai mô hình Llama-2 70B, với cơ chế phản hồi đầu ra của các lớp cuối vào đầu vào của các lớp đầu
  • Xác nhận rằng mô hình vẫn hoạt động dù có cấu trúc nằm ngoài phân bố huấn luyện thông thường
  • Điều này gợi ý rằng biểu diễn giữa các lớp có thể tương thích lẫn nhau, và biểu diễn bên trong Transformer mang tính đồng nhất (homogenous)

Xây dựng “máy quét não”

  • Xây dựng pipeline thử toàn bộ các tổ hợp đoạn lớp (i, j) của mô hình Qwen2-72B (tổng cộng 3.241 tổ hợp)
  • Ở mỗi tổ hợp, mô hình được tái cấu trúc theo cách cho một đoạn lớp cụ thể đi qua hai lần
  • Tiêu chí đánh giá phải thỏa mãn ba điều kiện
    • Giảm thiểu độ dài đầu ra (để đảm bảo tốc độ)
    • Có thể chấm điểm khách quan
    • Tính độc lập nhận thức (nếu cả hai tác vụ cùng được cải thiện thì xem là cải thiện mang tính cấu trúc)

Thiết kế tác vụ proxy

  • Hard Math Probe: ước lượng trực tiếp đáp án của các bài toán số học phức tạp
  • EQ-Bench Probe: dự đoán cường độ cảm xúc từ 0~100 trong các tình huống xã hội
  • Cả hai tác vụ đều có đầu ra ngắn và đáp án rõ ràng, phù hợp để đo lường thay đổi cấu trúc

Hàm chấm điểm toán và đánh giá đáp án đúng một phần

  • Phát triển hàm tính điểm khớp một phần để xét đến các lỗi số học của LLM như thiếu chữ số, đảo vị trí, v.v.
  • Bằng cách đệm các câu trả lời ngắn và tính sai số tương đối, tác giả chuyển tỷ lệ đúng thành điểm số liên tục
  • Nhờ đó có thể phân biệt định lượng các chênh lệch hiệu năng rất nhỏ

Cấu hình của mô hình RYS-XLarge

  • Tổ hợp tối ưu là (45, 52), tức lặp thêm một lần các lớp từ 45 đến 51
  • Kết quả là sao chép 7 lớp trung gian, nâng tổng tham số từ 72B lên 78B
  • Chỉ sửa cấu trúc, không thay đổi trọng số, được triển khai theo cách sao chép con trỏ nên không dùng thêm VRAM

Thành tích trên leaderboard

Hạng mục Điểm Cải thiện so với mốc chuẩn
Trung bình 44.75 +2.61%
MATH Lvl 5 38.97 +8.16%
MuSR 23.72 +17.72%
BBH +2.51%
GPQA +2.58%
IFEval -2.05%
  • Cải thiện ở 5 hạng mục, đạt vị trí số 1 trên leaderboard theo điểm trung bình
  • Vì trong quá trình phát triển không sử dụng các hạng mục trên leaderboard, kết quả này được xem là hiệu ứng khái quát hóa cấu trúc thuần túy

Phát hiện “mạch chức năng” của Transformer

  • Việc lặp lại một lớp đơn lẻ không có hiệu quả, nhưng lặp theo khối liên tiếp thì mới cải thiện hiệu năng
  • Điều này có nghĩa các lớp giữa không hoạt động như phép lặp độc lập, mà như một mạch tính toán nhiều bước (circuit)
  • Ví dụ: các lớp 46~52 thực hiện suy luận theo từng bước như một “công thức”
    • Khi lặp lại toàn bộ khối, sẽ tạo ra hiệu ứng thực hiện suy luận thêm một lần nữa

Phân tích heatmap và “LLM Neuroanatomy”

  • Heatmap trực quan hóa hiệu năng của từng tổ hợp (i, j) cho thấy mẫu hình tương tự fMRI
  • Ở tác vụ toán, hiệu năng tăng khi lặp các lớp giữa; với tác vụ EQ, hiệu năng tăng ở vùng khác
  • Điều này cho thấy bên trong Transformer tồn tại các mạch chức năng theo từng loại nhiệm vụ

Tác dụng phụ của việc sao chép sai

  • Một số tổ hợp khiến mô hình xuất hiện lặp ngôn ngữ bất thường, đầu ra mang tính hoang tưởng
  • Đây được ví như “tổn thương não nhân tạo”, do mở rộng quá mức một số mạch nhất định
  • Ví dụ: mạch về sự phù hợp xã hội bị tổn hại, dẫn đến mẫu hội thoại bất thường

Nghiên cứu tiếp theo và các mô hình phái sinh

  • Dựa trên RYS-XLarge, nhiều nhà nghiên cứu tiếp tục bổ sung fine-tuning và huấn luyện ORPO
  • Tính đến đầu năm 2026, cả 4 mô hình đứng đầu leaderboard đều là mô hình 78B dựa trên cấu trúc RYS
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, v.v.

Mở rộng theo cấu trúc và ý nghĩa

  • Việc sao chép lớp độc lập với fine-tuning và có thể tiến hành song song
  • Đây không phải cách thay đổi mô hình “biết gì”, mà là cách thay đổi “nó suy nghĩ như thế nào”
  • Mô hình càng lớn thì các vùng chức năng càng phân hóa, nên việc sao chép theo đơn vị mạch càng hiệu quả
  • Với mô hình nhỏ, các chức năng mã hóa, suy luận và giải mã đan xen nhau nên hiệu quả tương tự bị hạn chế

Kế hoạch sắp tới

  • Đang áp dụng cùng kỹ thuật này cho các mô hình mới như Qwen, MiniMax, GLM
  • Xác nhận rằng mỗi mô hình đều có “cấu trúc giải phẫu thần kinh” riêng
  • Dự kiến công bố mã nguồn và phát hành thêm các phiên bản trong dòng RYS
  • Tác giả mô tả rằng: “Giờ đây chúng tôi đang giải phẫu bộ não nhân tạo thay vì não chuột.”

Kết luận

  • Một thí nghiệm cải thiện hiệu năng LLM chỉ bằng cách sao chép lớp mà không thay đổi trọng số
  • Thực nghiệm này chứng minh bên trong Transformer tồn tại các mạch chức năng và sự phân hóa cấu trúc
  • Điều này mở ra một hướng đi mới cho khả năng diễn giải cơ chế của mô hình (mechanistic interpretability)mở rộng kiến trúc hiệu quả

1 bình luận

 
GN⁺ 2026-03-11
Ý kiến trên Hacker News
  • Thật ngạc nhiên khi số bình luận lại mất cân đối như vậy so với số điểm
    Nội dung bài viết thực sự rất phong phú, và tôi ấn tượng với cách tác giả diễn giải các vấn đề kỹ thuật sao cho cả người không chuyên cũng có thể hiểu được
    Đặc biệt, tôi nghĩ điểm mấu chốt là câu “bản thân việc Goliath hoạt động được đã là điều đáng ngạc nhiên”. Tôi tự hỏi vì sao không có nhiều nhà nghiên cứu chú ý hơn đến chuyện này
    Ngoài ra, hành trình tác giả từ nghiên cứu não bộ trong công nghệ sinh học sang làm AI trong “tầng hầm GPU” cũng rất thú vị

    • Tôi cũng dự định sẽ đăng lên blog các dự án optogeneticsCRISPR/Cas9 trước đây
      1. Các bài báo khác (như Solar10.7B) cũng đã thử những hướng tương tự, nhưng bằng thực nghiệm tôi xác nhận rằng việc sao chép toàn bộ transformer stack không phải là ý tưởng hay. Nó giống như nhân đôi các “cơ quan”, nên hiệu quả giảm đi
      2. Nghiên cứu sinh học rất vui, nhưng tôi không hợp với phản biện bài báo và xin tài trợ nghiên cứu. Vì vậy tôi bắt đầu viết blog với tư cách một nhà nghiên cứu độc lập. Hy vọng một ngày nào đó sẽ có ai đó trích dẫn nó
    • Phép ví von lấy não mèo cấy vào đầu chó thật vui. Thực ra tôi không thấy quá ngạc nhiên
      Giống như kernel ở các tầng đầu của CNN hội tụ về bộ lọc Gabor, tôi cho rằng các tầng bên trong LLM cũng hội tụ về những tối ưu toán học phổ quát như hiệu quả năng lượng, nén thông tin và tối ưu entropy
  • Tôi thực sự thích việc bài viết cho thấy chi tiết quá trình khám phá. Chính quá trình đó còn thú vị hơn cả kết quả
    Đặc biệt ấn tượng với phần xếp chồng suy luận trừu tượng để tăng hiệu năng, và phần trực quan hóa phân bố xác suất bằng heatmap
    Các bài báo liên quan cũng đang dần bắt kịp hướng này

    • SOLAR / DUS (Kim et al., 2023): sao chép các tầng transformer để tạo ra mô hình 10.7B, và cho hiệu năng tốt hơn mô hình 30B
    • The Curse of Depth (2025): giải thích rằng kiến trúc Pre-LN khiến các tầng sâu hội tụ về identity function, nên các tầng giữa mới là nơi đảm nhiệm phần tính toán thực sự
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): đề xuất cách mở rộng độ sâu suy luận bằng cách lặp lại một khối recurrent duy nhất
    • Cảm ơn lời khen!
      Tuy vậy, tôi nghĩ các mô hình như SOLAR cuối cùng sẽ chạm trần. Nhìn vào heatmap có thể thấy transformer stack lúc đầu khởi tạo từ trọng số ngẫu nhiên, rồi dần biến thành một cấu trúc chuyên biệt như “cơ quan” trong quá trình huấn luyện
      Những “cơ quan” như ‘token-to-thought’ và ‘thought-to-token’ chỉ nên tồn tại một bản. Cuối cùng tôi nghĩ cấu trúc chuyên môn hóa sẽ luôn chiến thắng
  • Tôi đồng ý với câu “việc Goliath hoạt động được thật đáng ngạc nhiên”
    Trước đây cũng từng có nhiều thử nghiệm ghép nhiều mô hình lại với nhau, nhưng phần lớn chỉ ở mức thí nghiệm cộng đồng trên Reddit hay Discord. Giới học thuật và các nhà nghiên cứu trong công ty không thực sự chú ý nhiều
    Dù vậy, tôi vẫn tò mò liệu có thể trộn các tầng của những mô hình hoàn toàn khác nhau như Llama và Qwen mà vẫn chạy được hay không
    Ngoài ra, cũng rất thú vị khi LLM thường tạo ra các lỗi kỳ lạ trong bài toán số học, như bỏ sót chữ số cuối hoặc đảo thứ tự. Tôi muốn thử xem liệu ép buộc phân tích cú pháp ngữ pháp có giúp cải thiện điều này không

    • Tôi nghĩ việc trộn các mô hình khác nhau sẽ khó vì kích thước embedding hay khác biệt về từ vựng. Ngay cả khi cùng kiến trúc, dữ liệu huấn luyện khác nhau cũng có thể dẫn đến biểu diễn nội bộ khác nhau. Nhưng thử nghiệm thì chắc sẽ rất vui
    • Đây là một chủ đề rất hợp để nhà nghiên cứu nghiệp dư đào sâu. Doanh nghiệp thường tập trung vào tinh chỉnh (fine-tune) các mô hình sẵn có
    • Các con số nhiều chữ số phức tạp vì có quá nhiều tổ hợp token khả dĩ. Đoạn mã trong blog giúp trích xuất các chỉ số hữu ích từ những đáp án đúng một phần
  • Ý tưởng rằng bên trong LLM có thể ẩn một ngôn ngữ chung nhận thức (cognitive lingua franca) thật hấp dẫn
    Có lẽ có thể tận dụng điều đó để tạo ra ngân hàng tri thức cắm-rút.
    Nếu làm được các mô hình gọn nhẹ chỉ cắm thêm phần tri thức cần thiết, ta có thể giữ kiến thức luôn mới mà không cần huấn luyện lại toàn bộ

    • Cách nói “cắm ngân hàng tri thức” nghe vui thật — LLM: “...giờ thì tôi đã biết kung fu”
    • LLM trong tương lai có thể trở thành cấu trúc nơi các lớp mã hóa/giải mã được chuẩn hóa được cắm vào các lớp logic
    • Với kiến trúc như vậy, khả năng ảo giác (hallucination) cũng có thể giảm đi
    • Thực ra tôi tự hỏi liệu cách tiếp cận này có khá giống với điều LoRA vốn đang làm hay không
  • Điều tác giả gọi là suy luận trong không gian tiềm ẩn (latent space reasoning) thực sự gây ấn tượng
    Thật ngạc nhiên khi chỉ cần sao chép các tầng thôi mà việc học vẫn lan truyền ngược được.
    Tôi cũng tò mò nếu cho các tầng đã sao chép chạy lặp (loop) thì hiệu năng sẽ thay đổi thế nào. So với mô hình MoE, điều đó có thể giúp kiểm tra xem mỗi tầng có hoạt động như một chuyên gia độc lập hay không

    • Tôi đã thử sao chép từng tầng riêng lẻ, nhưng không có hiệu quả lớn. Thậm chí phản hồi đầu ra → đầu vào phần lớn còn có hại
      Tuy vậy, các thí nghiệm sao chép nhiều tầng ở nhiều đoạn khác nhau, rồi dùng siêu mô hình dựa trên XGBoost để dự đoán cách hợp nhất, lại khá thú vị. Nó cũng hoạt động tốt với MoE
      Chỉ là vợ tôi không thích kiểu lãng phí thời gian (?) này lắm
    • LoopLM dường như cũng bàn về một ý tưởng tương tự
  • Khái niệm “phẫu thuật não” với LLM thật mê hoặc. Khi llama.cpp bắt đầu hỗ trợ mô hình thị giác, tôi đã thử đặt một phần embedding do projector tạo ra về 0 rồi yêu cầu LLM mô tả hình ảnh
    Kết quả là nó thực sự bịa ra những con người hay bối cảnh không hề tồn tại, cho ra các kết quả rất bất ngờ.
    Một ngày nào đó tôi muốn thử nghiệm có hệ thống mối tương quan giữa các chiều vector và ý nghĩa của chúng

    • Bây giờ đúng là thời đại tuyệt vời để làm hacker
  • Tôi cũng từng có trực giác tương tự về việc tận dụng các tầng giữa.
    Sau khi xem video YouTube này, tôi sắp xếp lại suy nghĩ và đi đến kết luận rằng khi lặp (loop) các tầng, thứ tự tầng không nhất thiết phải cố định
    Nếu trong lúc lặp có những tầng không cần thiết thì có thể bỏ qua, còn những tầng cần thì lặp lại, thì cuối cùng có thể dẫn đến một mô hình MOE một tầng.
    Cũng có thể có khái niệm như núm chỉnh cường độ suy luận để điều khiển “suy nghĩ sâu đến mức nào”

    • Ý tưởng rất thú vị. Tuy vậy, nếu làm ngẫu nhiên hoàn toàn thứ tự tầng thì có thể gặp vấn đề bùng nổ tổ hợp
      Dù sao, thử ngẫu nhiên hóa thứ tự gọi các khối transformer rồi đo biến động hiệu năng chắc cũng sẽ rất hay
  • Khi đọc bài, tôi thấy đồng cảm với cấu trúc hình học của tri thức.
    Có cảm giác lối tư duy của người tổng hợp đa lĩnh vực phản ánh chính kiểu cấu trúc thần kinh này.
    Nhờ đó mà ngày hôm nay của tôi trở nên vui hơn

    • Cảm ơn
  • Việc chỉ khoảng 7 khối tầng hoạt động còn nhiều hơn hay ít hơn thì không được là điều rất thú vị
    Điều này gợi ý rằng bên trong transformer tồn tại những đơn vị chức năng (“cơ quan”) mà chúng ta vẫn chưa hiểu rõ
    Tôi tự hỏi ngoài Qwen ra, ở các kiến trúc khác như Llama hay Mistral có xuất hiện cùng kiểu “phép màu 7 tầng” này hay không

  • Nhìn vào ý tưởng này, tôi nghĩ đến hai câu hỏi

    1. Có nên huấn luyện mô hình theo cấu trúc lặp như thế này ngay từ đầu không?
    2. Có nhất thiết phải dùng số tầng cố định không?
      Nếu mô hình dễ thích nghi với các biến đổi ở tầng trong như vậy, thì không cần phải cho mọi token đi qua mọi tầng
      Nếu xây dựng mô hình điều chỉnh số vòng lặp theo độ khó của bài toán, thì bài dễ có thể xử lý nhanh, còn bài khó thì suy luận sâu hơn
      Thậm chí trong lúc huấn luyện có thể dạy nó dự đoán độ tự tin (confidence) của chính mình để quyết định có cần thêm tính toán hay không