Dự đoán nhiều token cải thiện hiệu quả mẫu và hiệu suất của mô hình ngôn ngữ lớn

(arxiv.org)

2 điểm bởi brainer 2024-05-01 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

• Bài báo này đề xuất một phương pháp huấn luyện mới cho mô hình ngôn ngữ lớn (LLM) gọi là dự đoán nhiều token, trong đó mô hình được huấn luyện để dự đoán đồng thời nhiều token trong tương lai. Tác giả cho rằng cách tiếp cận này dẫn đến hiệu quả mẫu cao hơn, nghĩa là mô hình có thể học hiệu quả hơn từ một lượng dữ liệu huấn luyện đã cho.

• Họ cho thấy phương pháp hoạt động hiệu quả trên nhiều tác vụ downstream khác nhau, bao gồm cả tạo mã và xử lý ngôn ngữ tự nhiên, và chứng minh dự đoán nhiều token liên tục vượt qua các baseline mạnh mẽ theo mức vài điểm phần trăm. Đặc biệt, mô hình 13B tham số của họ đạt được cải thiện đáng kể trên các benchmark mã hóa khó như HumanEval và MBPP.

• Ngoài hiệu suất được cải thiện, dự đoán nhiều token còn mang lại lợi thế về tính toán. Mô hình được huấn luyện với dự đoán 4 token có tốc độ suy luận nhanh hơn tới 3 lần trong trường hợp kích thước batch lớn, giúp hiệu quả hơn cho ứng dụng thực tế.

Dự đoán nhiều token cải thiện hiệu quả mẫu và hiệu suất của mô hình ngôn ngữ lớn

Bài viết liên quan

Chưa có bình luận nào.