1 điểm bởi GN⁺ 2023-07-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Công thức attention của AI hiện đại có một lỗi off-by-one gây khó khăn cho việc nén và triển khai các mô hình Transformer.
  • Lỗi này liên quan đến các trọng số ngoại lệ trong mô hình; các ngoại lệ này lớn hơn nhiều so với các trọng số cùng loại, nên gây suy giảm hiệu năng và làm việc lượng tử hóa trở nên khó khăn.
  • Lỗi này liên quan đến hàm softmax được dùng trong cơ chế attention, và hàm này không phù hợp cho tác vụ này.
  • Giải pháp được đề xuất là thực hiện một sửa đổi nhỏ với hàm softmax, bằng cách cộng thêm 1 vào mẫu số để các attention head sẽ “không nói gì” khi chúng không thể bổ sung thông tin.
  • Bản sửa đổi này, Softmax Super-Mod hoặc QuietAttention, được kỳ vọng sẽ giải quyết vòng lặp phản hồi ngoại lệ và cải thiện khả năng lượng tử hóa.
  • Có thể kiểm chứng hiệu quả của giải pháp này qua thí nghiệm bằng cách thêm tiền tố một vector 0 vào ngữ cảnh đầu vào và quan sát độ nhọn của trọng số cùng chuẩn vô cùng của kích hoạt.
  • Tác giả mời gọi hợp tác và thử nghiệm để tiếp tục khám phá và kiểm chứng giải pháp này.

1 bình luận

 
GN⁺ 2023-07-25
Ý kiến trên Hacker News
  • Tác giả đề xuất cộng thêm 1 vào mẫu số của softmax.
  • Thay đổi này cho phép mạng không nhất thiết phải chọn mức độ tin cậy cao cho một thứ bằng cách gán trọng số cao hoặc thấp.
  • Một số người bình luận nghi ngờ tầm quan trọng của thay đổi này và cho rằng các thủ thuật tương tự đã từng được օգտագործ dụng trước đây.
  • Những người khác khen ngợi giọng điệu phi học thuật của bài viết và sự sẵn sàng khám phá các ý tưởng mới.
  • Một người bình luận chia sẻ trải nghiệm cá nhân về việc phát hiện lỗi trong một thuật toán phổ biến mà ban đầu đã bị những người khác phớt lờ.
  • Một người khác khen tác giả vì đã xác định đúng vấn đề thực tế và đề xuất một giải pháp đơn giản.
  • Tuy nhiên, họ yêu cầu tác giả đưa ra thêm bằng chứng và giải thích cho tuyên bố rằng giải pháp này sẽ xử lý được vòng lặp phản hồi của ngoại lệ.
  • Một số người bình luận cho rằng cần thêm thí nghiệm và tinh chỉnh chi tiết để kiểm chứng giải pháp được đề xuất.
  • Một người bình luận nhắc đến một bài báo năm 2020 và đề xuất một công thức attention khác có thể giải quyết vấn đề lượng tử hóa.
  • Có ý kiến cho rằng cách cộng 1 vào mẫu số này từng được dùng thường xuyên trước khi việc sử dụng dummy token trở nên phổ biến.
  • Một số người bình luận chỉ trích giọng điệu của tác giả và bày tỏ sự ngạc nhiên trước việc cộng đồng nghiên cứu thiếu nhận thức về kỹ thuật này.