- Bài báo về một phương pháp mới nhằm cải thiện trí nhớ dài hạn của các mô hình ngôn ngữ lớn (LLM) được օգտագործված trong các hệ thống hội thoại mở
- Một vấn đề quan trọng của các hệ thống hội thoại mở là quên mất thông tin quan trọng trong các cuộc hội thoại dài
- Các giải pháp hiện có thường huấn luyện bộ truy xuất hoặc bộ tóm tắt chuyên biệt để lấy thông tin cốt lõi từ nội dung hội thoại, nhưng cách này tốn nhiều thời gian và phụ thuộc lớn vào chất lượng của dữ liệu được gán nhãn
- Phương pháp được đề xuất cố gắng giảm nhẹ vấn đề này bằng cách dùng LLM để tạo tóm tắt hoặc ký ức theo cách đệ quy
- Phương pháp này trước tiên để LLM ghi nhớ các ngữ cảnh hội thoại nhỏ, rồi dùng ký ức trước đó và ngữ cảnh tiếp theo để tạo ra ký ức mới một cách đệ quy
- Với sự hỗ trợ của ký ức mới nhất, LLM có thể tạo ra các phản hồi rất nhất quán
- Phương pháp này được đánh giá bằng ChatGPT và text-davinci-003; kết quả thực nghiệm trên các bộ dữ liệu công khai được sử dụng rộng rãi cho thấy nó có thể tạo ra phản hồi nhất quán hơn trong các cuộc hội thoại có ngữ cảnh dài
- Đây là một lời giải tiềm năng giúp LLM có thể mô hình hóa các ngữ cảnh cực dài
- Mã nguồn và các script cho phương pháp này dự kiến sẽ được công bố trong tương lai
- Nghiên cứu này nhận được sự hỗ trợ từ Simons Foundation, các tổ chức thành viên và tất cả những người đóng góp
1 bình luận
Ý kiến trên Hacker News