1 điểm bởi GN⁺ 2023-09-04 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài báo về một phương pháp mới nhằm cải thiện trí nhớ dài hạn của các mô hình ngôn ngữ lớn (LLM) được օգտագործված trong các hệ thống hội thoại mở
  • Một vấn đề quan trọng của các hệ thống hội thoại mở là quên mất thông tin quan trọng trong các cuộc hội thoại dài
  • Các giải pháp hiện có thường huấn luyện bộ truy xuất hoặc bộ tóm tắt chuyên biệt để lấy thông tin cốt lõi từ nội dung hội thoại, nhưng cách này tốn nhiều thời gian và phụ thuộc lớn vào chất lượng của dữ liệu được gán nhãn
  • Phương pháp được đề xuất cố gắng giảm nhẹ vấn đề này bằng cách dùng LLM để tạo tóm tắt hoặc ký ức theo cách đệ quy
  • Phương pháp này trước tiên để LLM ghi nhớ các ngữ cảnh hội thoại nhỏ, rồi dùng ký ức trước đó và ngữ cảnh tiếp theo để tạo ra ký ức mới một cách đệ quy
  • Với sự hỗ trợ của ký ức mới nhất, LLM có thể tạo ra các phản hồi rất nhất quán
  • Phương pháp này được đánh giá bằng ChatGPT và text-davinci-003; kết quả thực nghiệm trên các bộ dữ liệu công khai được sử dụng rộng rãi cho thấy nó có thể tạo ra phản hồi nhất quán hơn trong các cuộc hội thoại có ngữ cảnh dài
  • Đây là một lời giải tiềm năng giúp LLM có thể mô hình hóa các ngữ cảnh cực dài
  • Mã nguồn và các script cho phương pháp này dự kiến sẽ được công bố trong tương lai
  • Nghiên cứu này nhận được sự hỗ trợ từ Simons Foundation, các tổ chức thành viên và tất cả những người đóng góp

1 bình luận

 
GN⁺ 2023-09-04
Ý kiến trên Hacker News
  • CodeRabbit sử dụng một cách tiếp cận tương tự như phương pháp được thảo luận trong bài viết để rà soát PR, tạo ra bản tóm tắt của các bản tóm tắt cho từng commit và cập nhật dần khi có thêm commit mới.
  • Một số người dùng bày tỏ hoài nghi về hiệu quả của việc xây dựng bộ nhớ trong "không gian văn bản", và cho rằng bộ nhớ nên được lưu trữ tốt hơn trong không gian embedding dày đặc có thể bảo toàn đầy đủ ngữ nghĩa.
  • Có yêu cầu về tính minh bạch và khả năng tái lập trong nghiên cứu, và một số người dùng không tin vào các tuyên bố nếu không có quyền truy cập vào mã và script được dùng trong thí nghiệm.
  • Việc sử dụng tóm tắt đệ quy đã được áp dụng thành công trong môi trường công việc, tóm tắt hàng nghìn "briefing" thành năm đoạn văn bản và phân loại từng briefing theo chủ đề và chủ đề con.
  • Một số người dùng đã gặp vấn đề liên quan đến tóm tắt đệ quy, chẳng hạn có những chi tiết cụ thể sống sót qua mọi vòng tóm tắt khiến mô hình bị mắc kẹt vào một chủ đề nhất định.
  • Có sự chỉ trích về việc bài báo thiếu chi tiết, và một số người dùng cho rằng điều này gây thất vọng và không mấy có giá trị đối với các nhà phát triển LLM.
  • Một số người dùng đặt câu hỏi về tính mới của kỹ thuật này, cho rằng việc tóm tắt bộ nhớ lịch sử chat dựa trên LLM đã là một kỹ thuật được thiết lập, và việc tóm tắt ở mọi tin nhắn như bài báo đề xuất là nút thắt hiệu năng chính.
  • Có nghi vấn về cách triển khai thêm văn bản bộ nhớ của bài báo như một phần của prompt, cùng với đề xuất về một hệ thống lưu trữ/truy xuất không tiêu tốn token trong cửa sổ ngữ cảnh.
  • Kỹ thuật được thảo luận trong bài báo được so sánh với tính năng bộ nhớ "summary" của Langchain, vốn được cho là đã tồn tại từ sau tháng 3 năm 2023.