- Bài viết về việc triển khai các ứng dụng phát trực tuyến của mô hình ngôn ngữ lớn (Large Language Models, LLMs), vốn đầy thách thức do mức tiêu thụ bộ nhớ và việc LLMs thiếu khả năng khái quát hóa với văn bản dài hơn độ dài chuỗi huấn luyện của chúng.
- Các tác giả giới thiệu khái niệm 'attention sink', chỉ hiện tượng điểm chú ý mạnh vào các token ban đầu, ngay cả khi chúng không quan trọng về mặt ngữ nghĩa.
- Các tác giả trình bày StreamingLLM, một framework hiệu quả cho phép các LLMs được huấn luyện với cửa sổ chú ý có độ dài hữu hạn có thể khái quát hóa sang độ dài chuỗi vô hạn mà không cần tinh chỉnh.
- StreamingLLM cho phép các mô hình như Llama-2, MPT, Falcon và Pythia thực hiện mô hình hóa ngôn ngữ ổn định và hiệu quả với tối đa hơn 4 triệu token.
- Các tác giả cũng phát hiện rằng việc thêm token giữ chỗ làm attention sink chuyên dụng trong giai đoạn tiền huấn luyện có thể cải thiện hơn nữa việc triển khai phát trực tuyến.
- Trong thiết lập phát trực tuyến, StreamingLLM vượt trội hơn baseline tái tính toán sliding window với tốc độ nhanh hơn tới 22,2 lần.
- Các tác giả làm rõ rằng cửa sổ ngữ cảnh của LLMs không được mở rộng trong StreamingLLM, và mô hình chỉ có thể xử lý các token mới nhất.
- StreamingLLM là lựa chọn lý tưởng cho các ứng dụng phát trực tuyến như hội thoại nhiều vòng, nơi mô hình cần tiếp tục hoạt động mà không phụ thuộc vào bộ nhớ lớn hoặc dữ liệu quá khứ.
- Các tác giả có kế hoạch công bố mã cốt lõi của StreamingLLM, bao gồm Llama-2, MPT, Falcon, Pythia, cùng với mã tính perplexity, demo Streaming Llama Chatbot, bộ dữ liệu StreamEval và mã đánh giá.
Chưa có bình luận nào.