Phân bổ tính toán động trong mô hình ngôn ngữ dựa trên Transformer
- Các mô hình ngôn ngữ dựa trên Transformer thường phân phối FLOPs (phép toán dấu chấm động) đồng đều trên toàn bộ chuỗi đầu vào.
- Nhóm nghiên cứu cho thấy Transformer có thể được huấn luyện để phân bổ FLOPs một cách động cho các vị trí cụ thể.
- Phương pháp này tối ưu hóa việc phân bổ cho chuỗi ở các lớp khác nhau trên toàn bộ độ sâu của mô hình.
Phương pháp mới: Mixture-of-Depths
- Để giới hạn tổng ngân sách tính toán, số lượng token có thể tham gia vào tính toán self-attention và MLP được giới hạn ở mức (k).
- Mạng sử dụng cơ chế định tuyến top-k để quyết định các token sẽ được xử lý.
- Vì k được xác định trước, nên khác với các kỹ thuật tính toán có điều kiện khác, phương pháp này sử dụng đồ thị tính toán tĩnh với kích thước tensor đã biết.
Hiệu quả và hiệu năng
- Vì danh tính của token là linh hoạt, phương pháp này có thể tiêu thụ FLOPs không đồng đều theo chiều thời gian và độ sâu mô hình.
- Mức chi tiêu tính toán hoàn toàn có thể dự đoán ở tổng thể, nhưng ở cấp độ token thì mang tính động và nhạy theo ngữ cảnh.
- Các mô hình được huấn luyện bằng phương pháp này không chỉ phân bổ tính toán một cách động mà còn phân bổ hiệu quả.
- Các mô hình này đạt hiệu năng tương đương chuẩn tham chiếu với cùng số FLOPs và cùng thời gian huấn luyện thực tế, nhưng chỉ yêu cầu một phần FLOPs cho mỗi lần truyền xuôi, đồng thời có thể nhanh hơn tới 50% trong quá trình lấy mẫu sau huấn luyện.
Ý kiến của GN⁺
- Nghiên cứu này đề cập đến một chủ đề quan trọng về hiệu quả trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), đồng thời đưa ra một cách tiếp cận mới để giảm chi phí tính toán của mô hình Transformer.
- Phân bổ tính toán động có thể giúp giảm mức tiêu thụ năng lượng và chi phí, đặc biệt khi sử dụng các mô hình ngôn ngữ quy mô lớn.
- Tuy nhiên, để công nghệ này được tích hợp vào các ứng dụng thực tế, sẽ cần thêm quá trình kiểm chứng và tối ưu hóa.
- Nghiên cứu này mang đến những ý tưởng mới cho cộng đồng học máy, và có thể ảnh hưởng đến việc triển khai mô hình ngôn ngữ trong các môi trường hạn chế tài nguyên như điện toán đám mây.
- Từ góc nhìn phản biện, cần có thêm nghiên cứu về việc liệu phương pháp này có cho thấy hiệu quả tương tự với mọi loại mô hình ngôn ngữ và bộ dữ liệu hay không, cũng như nó hiệu quả hơn với những loại tác vụ nào.
Chưa có bình luận nào.