Thí nghiệm về bộ nhớ của tác nhân AI: kiến thức được tóm tắt lại còn làm giảm hiệu năng
(blog.clawsouls.ai)Đây là kết quả của một thí nghiệm thực tế về cách cung cấp bộ nhớ cho tác nhân AI.
Với cùng một tác nhân AI (Claude), nghiên cứu đã áp dụng 4 cấu hình bộ nhớ khác nhau và đặt cùng 20 câu hỏi về một dự án phần mềm thực tế.
Kết quả (thang điểm 5):
• Hybrid (trải nghiệm + tổng hợp): 4.95
• Bộ nhớ trải nghiệm (log thô): 4.55
• Baseline (không có bộ nhớ): 3.30
• Bộ nhớ tổng hợp (bản tóm tắt đã được sắp xếp): 2.65
Phát hiện gây ngạc nhiên nhất: bộ nhớ tổng hợp được biên soạn cẩn thận lại cho kết quả thấp hơn cả khi hoàn toàn không có bộ nhớ.
Nhóm nghiên cứu gọi đây là "hiệu ứng quá tự tin" — kiến thức được tóm tắt gọn gàng khiến tác nhân có cảm giác chắc chắn không có cơ sở, đồng thời làm giảm khả năng thừa nhận rằng mình không biết. Ngược lại, các ghi chép trải nghiệm thô giữ lại dấu vết của sự bất định, nhờ đó tác nhân suy luận trung thực hơn.
Bài báo (preprint): https://doi.org/10.5281/zenodo.18802214
Dữ liệu thí nghiệm (công khai): https://github.com/clawsouls/experiential-memory-dataset
4 bình luận
Cũng là điều tôi phần nào cảm nhận được từ trải nghiệm, nhưng bộ nhớ tổng hợp còn tệ hại hơn tôi nghĩ rất nhiều.
Đúng vậy. Ban đầu tôi cũng nghĩ rằng ít nhất thì bộ nhớ tổng hợp sẽ tốt hơn mức cơ sở, nhưng khi thấy kết quả tôi đã rất ngạc nhiên.
Phân tích kỹ thì điểm mấu chốt là việc "bảo toàn tính bất định". Trong log thô vẫn còn lại những dấu vết như "đã thử cái này nhưng không được", "không rõ nguyên nhân", nên agent sẽ trả lời rằng điều gì không biết thì là không biết; còn bản tóm tắt thì lại xóa sạch toàn bộ ngữ cảnh đó, khiến agent ngược lại đưa ra câu trả lời sai với sự tự tin.
Vậy nếu cấu hình để bộ nhớ tổng hợp chứa quy trình của những tác vụ đó, cùng với nội dung về thất bại và thành công, thì liệu kết quả có khác đi không?
Câu hỏi rất hay. Thực ra, điều kiện “hybrid” trong thí nghiệm của chúng tôi chính xác là theo hướng đó — cấu hình cung cấp đồng thời phần tóm tắt đã được sắp xếp và nhật ký trải nghiệm thô.
Kết quả là hybrid cao nhất, đạt 4.95/5.0. Nếu chỉ đưa phần tóm tắt thì là 2.65, nhưng khi gắn thêm các ghi chép quá trình như “thất bại”, “không rõ nguyên nhân” thì điểm yếu của phần tóm tắt lại được bù đắp.
Vì vậy, kết luận là “không phải bản thân phần tóm tắt là xấu, mà là cần chứa cả quá trình và sự bất định cùng nhau”.
Tuy nhiên, vì N=1 nên vẫn cần nghiên cứu tiếp theo để xác định liệu nội dung này có thể được dùng một cách phổ quát cho nhiều nhóm người dùng khác nhau hay không.