- Bài viết về tính không xác định được quan sát thấy trong GPT-4, mô hình ngôn ngữ do OpenAI phát triển
- GPT-4/GPT-3.5-turbo là không xác định ngay cả trong các mô hình decoder-only dày đặc, nơi
temp=0 lẽ ra phải có nghĩa là hoàn toàn xác định
- Ban đầu, tính không xác định được cho là một lỗi tiềm ẩn hoặc là hệ quả của tính không xác định trong các phép tính dấu phẩy động được tối ưu hóa
- Giả thuyết mới của tác giả: tính không xác định của GPT-4 chủ yếu bắt nguồn từ việc kiến trúc Sparse Mixture of Experts (MoE) không thể áp đặt tính xác định theo từng chuỗi
- Cách tiếp cận Sparse MoE gây ra tính không xác định ở mức chuỗi bằng cách định tuyến token trong các nhóm có kích thước cố định và duy trì sự cân bằng trong từng nhóm
- Để kiểm tra giả thuyết này, tác giả yêu cầu GPT-4 viết một script và quan sát thấy rất nhiều kết quả hoàn thành khác nhau từ GPT-4, qua đó xác nhận rằng có một nguyên nhân khiến GPT-4 không xác định hơn nhiều so với các mô hình khác
- Tác giả cũng suy đoán rằng GPT-3.5-turbo có thể cũng là một mô hình MoE do tốc độ, tính không xác định và việc loại bỏ
logprobs
- Hàm ý của các phát hiện này là rất quan trọng: nếu tính không xác định là một đặc tính nội tại của suy luận theo lô khi dùng Sparse MoE, thì thực tế này cần phải được thể hiện rõ ràng với bất kỳ ai làm việc với các mô hình như vậy
- Khi kết luận, tác giả cho rằng tính không xác định trong các mô hình GPT của OpenAI thường được quy cho sự thiếu chính xác của các phép toán dấu phẩy động CUDA được tối ưu hóa nhưng vốn không xác định, trong khi nguyên nhân gốc rễ có thể là suy luận theo lô trong các mô hình Sparse MoE
1 bình luận
Ý kiến trên Hacker News