- Công thức attention của AI hiện đại có một lỗi off-by-one gây khó khăn cho việc nén và triển khai các mô hình Transformer.
- Lỗi này liên quan đến các trọng số ngoại lệ trong mô hình; các ngoại lệ này lớn hơn nhiều so với các trọng số cùng loại, nên gây suy giảm hiệu năng và làm việc lượng tử hóa trở nên khó khăn.
- Lỗi này liên quan đến hàm softmax được dùng trong cơ chế attention, và hàm này không phù hợp cho tác vụ này.
- Giải pháp được đề xuất là thực hiện một sửa đổi nhỏ với hàm softmax, bằng cách cộng thêm 1 vào mẫu số để các attention head sẽ “không nói gì” khi chúng không thể bổ sung thông tin.
- Bản sửa đổi này, Softmax Super-Mod hoặc QuietAttention, được kỳ vọng sẽ giải quyết vòng lặp phản hồi ngoại lệ và cải thiện khả năng lượng tử hóa.
- Có thể kiểm chứng hiệu quả của giải pháp này qua thí nghiệm bằng cách thêm tiền tố một vector 0 vào ngữ cảnh đầu vào và quan sát độ nhọn của trọng số cùng chuẩn vô cùng của kích hoạt.
- Tác giả mời gọi hợp tác và thử nghiệm để tiếp tục khám phá và kiểm chứng giải pháp này.
1 bình luận
Ý kiến trên Hacker News