Qwen2-72B đứng đầu bảng xếp hạng nhờ nhân bản 7 lớp giữa, không hề đụng tới dù chỉ một trọng số
(dnhkng.github.io)Nhà phát triển David Noel Ng đã dùng một cách cực kỳ đơn giản là cho mô hình Qwen2-72B đi lặp lại qua đúng 7 lớp trung gian để giành vị trí số 1 trên bảng xếp hạng HuggingFace Open LLM năm 2024, hoàn toàn không cần chỉnh trọng số hay fine-tune.
Các điểm chính
-
Trên Qwen2-72B (tổng cộng 80 lớp), mô hình được sửa theo cách cho đi qua thêm một lần một đoạn lớp trung gian cụ thể (lớp 45~51, gồm 7 lớp)
→ Số tham số tăng từ 72B → khoảng 78B nhưng không thêm bất kỳ trọng số mới nào -
Kết quả benchmark
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- Hiệu năng tăng trên 5/6 benchmark chính → đứng số 1 bảng xếp hạng theo điểm trung bình
Vì sao lại hiệu quả?
- Giả thuyết cho rằng bên trong mô hình transformer tồn tại các "mạch (circuit)" được phân hóa theo chức năng (LLM Neuroanatomy)
- Các lớp đầu: mã hóa đầu vào
- Các lớp giữa: phần thực hiện suy luận/tư duy thực sự (tồn tại các mạch chuyên biệt cho toán học, hiểu cảm xúc, v.v.)
- Các lớp cuối: giải mã đầu ra
→ Nếu cho mạch suy luận ở giữa chạy thêm một lần, chức năng đó sẽ được tăng cường
Cách thực nghiệm
Dùng 2 chiếc RTX 4090 để khảo sát toàn diện 3.241 tổ hợp đoạn lớp khác nhau → phân tích bằng heatmap
→ Phát hiện mẫu cho thấy hiệu năng tăng vọt nếu chỉ lặp lại đoạn cụ thể (45~52)
Những insight bổ sung
- Lặp lại một lớp đơn lẻ → hiệu năng giảm
- Lặp lại một block gồm nhiều lớp → tăng cường một số chức năng cụ thể
- Sau đó, các mô hình dựa trên ý tưởng này (RYS-XLarge → calme-3.2, v.v.) cũng từng lọt nhóm đầu bảng xếp hạng vào đầu năm 2026
Kết luận
LLM không đơn thuần chỉ là chồng nhiều lớp lên nhau, mà có các mạch được phân hóa chức năng như não bộ.
Phát hiện này cho thấy chỉ cần tìm ra các mạch đó rồi cho chúng chạy lặp lại cũng có thể tăng mạnh hiệu năng mà không cần động tới trọng số.
1 bình luận
Nếu đúng là như vậy thì khoảng cách hiệu năng giữa mô hình nhỏ và mô hình lớn có thể còn bị nới rộng cực đoan hơn nữa nhỉ