Tóm tắt
- Các tầng chuẩn hóa từ lâu được xem là thiết yếu trong mạng nơ-ron hiện đại.
- Nghiên cứu này cho thấy có thể đạt hiệu năng tương đương hoặc tốt hơn ngay cả khi không dùng chuẩn hóa.
- Giới thiệu một kỹ thuật đơn giản tên là Dynamic Tanh (DyT), có thể thay thế các tầng chuẩn hóa.
- DyT nhìn chung cho hiệu năng tương đương hoặc tốt hơn các mô hình đã chuẩn hóa mà hầu như không cần tinh chỉnh siêu tham số.
- Hiệu quả của DyT đã được kiểm chứng trong nhiều thiết lập khác nhau, qua đó đặt lại câu hỏi về tính tất yếu của các tầng chuẩn hóa.
Triển khai
- Mô-đun DyT có thể được triển khai chỉ với vài dòng mã PyTorch.
Phát hiện chính
- Layer normalization hoạt động tương tự như một hàm
tanh có scale.
- Ở các tầng đầu, nó chủ yếu mang tính tuyến tính, nhưng ở các tầng sâu thì có đường cong hình chữ S đặc trưng của hàm
tanh.
Đánh giá
- Đánh giá hiệu quả và tính khái quát của DyT trên nhiều kiến trúc và tác vụ khác nhau.
- Trong mọi trường hợp, Transformers dùng DyT cho hiệu năng tương đương hoặc tốt hơn các mô hình đã chuẩn hóa.
Tài liệu
- Có thể xem chi tiết nghiên cứu bằng cách tải bài báo.
- Có thể xem chi tiết triển khai trong kho lưu trữ GitHub.
Chưa có bình luận nào.