Mô hình ngôn ngữ lớn có hiệu năng tốt hơn và tốc độ nhanh hơn thông qua dự đoán nhiều token
(arxiv.org)Huấn luyện mô hình ngôn ngữ quy mô lớn tốt hơn nhờ dự đoán nhiều token
- Các mô hình ngôn ngữ quy mô lớn như GPT và Llama được huấn luyện bằng hàm mất mát dự đoán token tiếp theo.
- Nghiên cứu này đề xuất rằng nếu huấn luyện mô hình ngôn ngữ để dự đoán cùng lúc nhiều token trong tương lai thì hiệu quả sử dụng mẫu sẽ tăng lên.
- Cụ thể, tại mỗi vị trí trong corpus huấn luyện, mô hình được yêu cầu dự đoán n token tiếp theo bằng cách sử dụng n head đầu ra độc lập chạy trên cùng một phần lõi mô hình dùng chung.
- Xem dự đoán nhiều token như một nhiệm vụ huấn luyện phụ, nghiên cứu này đo được năng lực nhiệm vụ phụ được cải thiện cho cả mô hình mã và mô hình ngôn ngữ tự nhiên mà không gây thêm chi phí thời gian huấn luyện.
Càng hữu ích hơn với mô hình lớn và vẫn có lợi khi học nhiều epoch
- Cách tiếp cận này càng hữu ích hơn khi mô hình lớn hơn, và vẫn giữ được hiệu quả ngay cả khi huấn luyện qua nhiều epoch.
- Lợi thế đặc biệt rõ ràng trên các benchmark sinh như coding; mô hình này liên tục vượt baseline mạnh hơn từ vài điểm phần trăm.
- Mô hình 13B tham số giải được nhiều bài hơn 12% trên HumanEval và 17% trên MBPP.
Có lợi cho phát triển induction head và khả năng suy luận thuật toán
- Các thí nghiệm trên bài toán thuật toán nhỏ cho thấy dự đoán nhiều token có lợi cho việc phát triển induction head và khả năng suy luận thuật toán.
- Một lợi thế khác là mô hình được huấn luyện với dự đoán 4 token có tốc độ suy luận nhanh hơn tối đa 3 lần kể cả với batch size lớn.
Ý kiến của GN⁺
-
Đây là một nghiên cứu thú vị đề xuất một phương pháp huấn luyện mới nhằm nâng cao hiệu quả mô hình ngôn ngữ; đặc biệt đáng chú ý là mức cải thiện càng rõ rệt khi mô hình có quy mô lớn.
-
Sẽ rất có ích nếu có thêm thí nghiệm về tác động của dự đoán nhiều token đến học phụ thuộc dài hạn. Chẳng hạn, việc xem xét sự thay đổi hiệu năng trên các bài toán phụ thuộc xa như giải quyết tham chiếu liên câu cũng có giá trị.
-
Nghiên cứu cho rằng cải thiện ở các nhiệm vụ sinh của một số miền như coding hoặc giải toán rất lớn, nhưng vẫn băn khoăn liệu tác động sẽ ra sao trong các tác vụ hiểu ngôn ngữ tự nhiên hay QA thông thường. Sẽ tốt hơn nếu có thêm kết quả từ các benchmark đa dạng.
-
Việc tăng tốc suy luận có thể là lợi thế thực tế lớn, đặc biệt thuận lợi khi áp dụng cho chatbot hay hệ thống hỏi đáp có yêu cầu thời gian thực.
-
Trong bối cảnh các mô hình dựa trên RLHF như Constitutional AI của Anthropic hay InstructGPT của OpenAI đang được chú ý, nghiên cứu này có ý nghĩa vì đề xuất cách nâng cao hiệu năng mô hình ngôn ngữ chỉ bằng học có giám sát. Tất nhiên, các vấn đề về căn chỉnh giá trị đạo đức vẫn còn là thách thức, nhưng về mặt hiệu quả huấn luyện đây vẫn là một hướng tiếp cận đủ cạnh tranh.
1 bình luận
Ý kiến trên Hacker News
Tóm tắt: