Qwen2-72B đứng đầu bảng xếp hạng nhờ nhân bản 7 lớp giữa, không hề đụng tới dù chỉ một trọng số

(dnhkng.github.io)

11 điểm bởi davespark 2026-03-11 | 1 bình luận | Chia sẻ qua WhatsApp

Nhà phát triển David Noel Ng đã dùng một cách cực kỳ đơn giản là cho mô hình Qwen2-72B đi lặp lại qua đúng 7 lớp trung gian để giành vị trí số 1 trên bảng xếp hạng HuggingFace Open LLM năm 2024, hoàn toàn không cần chỉnh trọng số hay fine-tune.

Các điểm chính

Trên Qwen2-72B (tổng cộng 80 lớp), mô hình được sửa theo cách cho đi qua thêm một lần một đoạn lớp trung gian cụ thể (lớp 45~51, gồm 7 lớp)
→ Số tham số tăng từ 72B → khoảng 78B nhưng không thêm bất kỳ trọng số mới nào
Kết quả benchmark
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- Hiệu năng tăng trên 5/6 benchmark chính → đứng số 1 bảng xếp hạng theo điểm trung bình

Vì sao lại hiệu quả?

Giả thuyết cho rằng bên trong mô hình transformer tồn tại các "mạch (circuit)" được phân hóa theo chức năng (LLM Neuroanatomy)
Các lớp đầu: mã hóa đầu vào
Các lớp giữa: phần thực hiện suy luận/tư duy thực sự (tồn tại các mạch chuyên biệt cho toán học, hiểu cảm xúc, v.v.)
Các lớp cuối: giải mã đầu ra
→ Nếu cho mạch suy luận ở giữa chạy thêm một lần, chức năng đó sẽ được tăng cường

Cách thực nghiệm
Dùng 2 chiếc RTX 4090 để khảo sát toàn diện 3.241 tổ hợp đoạn lớp khác nhau → phân tích bằng heatmap
→ Phát hiện mẫu cho thấy hiệu năng tăng vọt nếu chỉ lặp lại đoạn cụ thể (45~52)

Những insight bổ sung

Lặp lại một lớp đơn lẻ → hiệu năng giảm
Lặp lại một block gồm nhiều lớp → tăng cường một số chức năng cụ thể
Sau đó, các mô hình dựa trên ý tưởng này (RYS-XLarge → calme-3.2, v.v.) cũng từng lọt nhóm đầu bảng xếp hạng vào đầu năm 2026

Kết luận
LLM không đơn thuần chỉ là chồng nhiều lớp lên nhau, mà có các mạch được phân hóa chức năng như não bộ.
Phát hiện này cho thấy chỉ cần tìm ra các mạch đó rồi cho chúng chạy lặp lại cũng có thể tăng mạnh hiệu năng mà không cần động tới trọng số.

https://aisparkup.com/posts/9997

1 bình luận

sygys10293 2026-03-13

Mô hình càng nhỏ thì có vẻ càng phức tạp hơn. Các chức năng mã hóa, suy luận và giải mã đan xen với nhau phức tạp hơn và lan rộng trên toàn bộ mô hình. Tôi không tìm thấy bất kỳ vùng chồng lấn chức năng nào có thể khái quát hóa qua nhiều tác vụ, nhưng rõ ràng là việc tăng cường một "năng lực" có thể làm suy yếu một năng lực khác. Tuy nhiên, khi mô hình trở nên lớn hơn, cấu trúc chức năng cũng tách biệt hơn. Mô hình lớn có nhiều "không gian" hơn để phát triển các mạch "tư duy" mang tính khái quát, và đó có thể là lý do vì sao phương pháp của tôi lại rất hiệu quả với mô hình 72B. Dưới một ngưỡng tham số nhất định, "vỏ não suy luận" chưa phân hóa hoàn toàn khỏi phần còn lại của bộ não.

Nếu đúng là như vậy thì khoảng cách hiệu năng giữa mô hình nhỏ và mô hình lớn có thể còn bị nới rộng cực đoan hơn nữa nhỉ

Qwen2-72B đứng đầu bảng xếp hạng nhờ nhân bản 7 lớp giữa, không hề đụng tới dù chỉ một trọng số

Bài viết liên quan

1 bình luận