- Mô hình ngôn ngữ lớn (LLM) cho thấy hiện tượng suy giảm hiệu năng và giảm độ tin cậy trong hội thoại nhiều lượt
- So với single-turn, trong bối cảnh multi-turn đã xác nhận bằng thực nghiệm mức giảm hiệu năng trung bình 39%
- Nguyên nhân chính là suy giảm năng lực nhỏ nhưng độ tin cậy suy giảm rất lớn, tức thiếu tính nhất quán của kết quả
- LLM có xu hướng đưa ra giả định sai từ sớm hoặc cố gắng đưa ra đáp án cuối cùng quá nhanh
- Kết quả là khi LLM mắc lỗi ở giai đoạn đầu của cuộc trò chuyện, xuất hiện hiện tượng không thể phục hồi và mất phương hướng trong cuộc hội thoại
ABSTRACT
- Mô hình ngôn ngữ lớn (LLM), với vai trò là giao diện hội thoại, có tiềm năng hỗ trợ người dùng dần xác định, khám phá và điều chỉnh yêu cầu thông qua hội thoại nhiều lượt, ngay cả khi người dùng không thể mô tả đầy đủ yêu cầu ngay từ đầu
- Tuy nhiên, dù phần lớn các đánh giá LLM chủ yếu tập trung vào môi trường chỉ dẫn đầy đủ trong single-turn, phân tích log hội thoại thực tế lại cho thấy hiện tượng chỉ dẫn chưa đủ rõ (underspecification) xuất hiện thường xuyên
- Nghiên cứu này mô phỏng và so sánh ở quy mô lớn hiệu năng của LLM trong môi trường single-turn và multi-turn (underspecified)
- Kết quả cho thấy ở cả 15 LLM chủ chốt, hiệu năng trong hội thoại nhiều lượt giảm trung bình 39%, và điều này được phân tích là do năng lực giảm nhẹ cùng với độ tin cậy suy giảm mạnh
- Khi LLM chọn sai hướng ở giai đoạn đầu cuộc hội thoại, nghiên cứu ghi nhận hiện tượng không thể phục hồi, mất phương hướng và loay hoay trong cuộc trò chuyện
Introduction
- Các LLM hiện đại (ví dụ: ChatGPT, Gemini, Claude...) là những giao diện có khả năng hội thoại nhiều lượt
- Ngay cả khi người dùng không mô tả rõ toàn bộ yêu cầu ngay từ đầu, họ vẫn có thể dần cụ thể hóa yêu cầu qua hỏi đáp lặp lại (underspecified → refined)
- Trong thực tế, nhiều người dùng đưa ra yêu cầu mơ hồ ở đầu cuộc hội thoại, nhưng phần lớn đánh giá hiện nay chỉ được thực hiện trong môi trường single-turn với đặc tả đầy đủ
- Một số nghiên cứu trước có thử đánh giá multi-turn, nhưng thường xem mỗi lượt hội thoại như một episode riêng biệt, nên đánh giá thấp tác động của tính mơ hồ vốn rất phổ biến trong hội thoại thật giữa con người
- Để thu hẹp khoảng cách này, nghiên cứu đề xuất môi trường sharded simulation (chia thông tin thành nhiều mảnh và chỉ công bố một mảnh ở mỗi lượt) để mô phỏng chính xác tình huống hội thoại nhiều lượt với chỉ dẫn mơ hồ
Tóm tắt các kết quả nghiên cứu chính
- Khi nhận toàn bộ chỉ dẫn trong một lượt, LLM đạt 90% hiệu năng ở single-turn, nhưng trong chỉ dẫn mơ hồ nhiều lượt hiệu năng giảm còn 65% (giảm trung bình 25 điểm phần trăm)
- Hiện tượng này xuất hiện chỉ sau hai lượt hội thoại (turn), và được quan sát nhất quán ở mọi LLM: open-weight, closed, cỡ lớn lẫn cỡ nhỏ
- Phân tích nguyên nhân của suy giảm hiệu năng cho thấy gồm: (1) suy giảm năng lực (aptitude loss) và (2) độ tin cậy (unreliability) tăng vọt
- Ở single-turn, mô hình có năng lực cao cũng thường có độ tin cậy cao, nhưng ở multi-turn thì độ tin cậy thấp bất kể năng lực
- Nói cách khác, khi LLM rẽ sang hướng sai trong hội thoại nhiều lượt thì gần như không thể phục hồi — hiện tượng này được đặt tên là “lost in conversation”
- Các nguyên nhân chính
- Phản hồi dài dòng và cố gắng đưa ra đáp án cuối cùng quá sớm
- Giả định sai đối với thông tin mơ hồ
- Phụ thuộc quá mức vào những lần thử sai trước đó
- Tồn tại khoảng cách lớn giữa thực tế triển khai LLM và cách đánh giá mô hình hiện nay
- Người dùng càng mới càng dễ đưa ra chỉ dẫn chưa hoàn chỉnh ở giai đoạn đầu, nên hiện tượng này là một trong những nguyên nhân chính khiến việc áp dụng thực tế trở nên khó khăn
- Giới thiệu cấu trúc bài báo: tóm tắt nghiên cứu trước, mô tả môi trường mô phỏng, 6 tác vụ tạo sinh và thước đo đánh giá, thí nghiệm quy mô lớn trên 15 LLM cùng kết quả, và các hàm ý cho triển khai thực tế/sản phẩm kèm khuyến nghị cụ thể
Background and Related Work
- Các mô hình ngôn ngữ thế hệ trước (ví dụ: BART, GPT-2, T5) thực tế không hỗ trợ tốt hội thoại nhiều lượt, nên chủ yếu được đánh giá theo single-turn
- Sau khi ChatGPT xuất hiện, sự quan tâm tới đánh giá multi-turn tăng mạnh, kéo theo các đánh giá crowdsourcing như MT-bench
- Tuy nhiên, phần lớn khung đánh giá vẫn dừng ở hội thoại mang tính episode (đánh giá từng lượt riêng rẽ), nên chưa tính đến tính liên tục của hội thoại mơ hồ ngoài đời thực
- Trong thực tế, theo “nguyên tắc nỗ lực tối thiểu”, con người thường đưa ra chỉ dẫn mơ hồ (a.k.a. underspecification), và LLM cũng suy giảm hiệu năng do rút ra kết luận quá sớm khi thiếu thông tin và thích nghi không tốt
- Nghiên cứu này được thiết kế nhằm hướng tới cách đánh giá gần hơn với môi trường thực tế, nơi tính mơ hồ là yếu tố cốt lõi
Simulating Underspecified, Multi-Turn Conversation
3.1 Sharding Process
- Chia chỉ dẫn được đặc tả đầy đủ ban đầu thành nhiều shard (mảnh thông tin)
- Ví dụ: thay vì đưa mọi điều kiện trong một câu, mỗi lượt chỉ công bố một thông tin (bối cảnh, số liệu, điều kiện...)
- Shard đầu tiên luôn mô tả mục tiêu cấp cao của chỉ dẫn, sau đó các shard tiếp theo dần cung cấp thêm thông tin (ngữ cảnh, điều kiện...) theo từng lượt
- Quá trình sharding này được xây dựng thành tập dữ liệu chỉ dẫn multi-turn chất lượng cao bằng cách để LLM (GPT-4o) đề xuất + kiểm chứng và bổ sung thủ công
- Với mỗi tác vụ, tạo 90–120 chỉ dẫn sharded (được rà soát thủ công trong nhiều giờ)
3.2 Simulating Sharded Conversations
- Mô phỏng hội thoại gồm 3 vai trò: LLM được đánh giá (assistant), user simulator biết toàn bộ shard, và hệ thống phân loại phản hồi/chấm điểm
- Lượt đầu: user simulator chỉ đưa shard đầu tiên cho assistant → assistant trả lời → hệ thống phân loại chiến lược của phản hồi đó (làm rõ, đặt câu hỏi, thử trả lời...) và trích xuất đáp án → đánh giá đáp án
- Các lượt sau: chỉ công bố thêm một shard trong số còn lại và lặp lại / ở mỗi lượt assistant có thể phản hồi tự do
- Kết thúc hội thoại khi: (1) bộ đánh giá xác nhận đúng đáp án, hoặc (2) không còn shard nào để cung cấp thêm
- User simulator được triển khai bằng LLM (GPT-4o-mini), có khả năng cung cấp shard tự nhiên và tự động diễn đạt lại
- Trong toàn bộ thí nghiệm, lỗi phân loại hoặc lỗi trích xuất của LLM phụ trợ dưới 5%, và các trường hợp bất lợi cho assistant dưới 2%
- Assistant được đánh giá ở trạng thái mặc định, không được cung cấp thông tin đặc biệt về môi trường đó (tương tự tình huống thực tế)
3.3 Simulation Types
- FULLY-SPECIFIED (FULL): cung cấp toàn bộ chỉ dẫn trong một lượt, dùng để đo hiệu năng baseline
- SHARDED: mỗi lượt chỉ công bố một mảnh thông tin, là thí nghiệm cốt lõi của nghiên cứu về hội thoại nhiều lượt mơ hồ
- CONCAT: cung cấp toàn bộ sharded instruction một lần dưới dạng bullet-point, dùng để chỉ đánh giá mức mất mát thông tin trong chỉ dẫn
- RECAP: sau hội thoại sharded, ở lượt cuối tóm tắt/cung cấp lại toàn bộ shard, là một dạng thử nghiệm can thiệp đơn giản kiểu agent
- SNOWBALL: ở mỗi lượt, ngoài shard mới còn lặp lại toàn bộ các shard đã công bố trước đó để assistant không bỏ sót thông tin, dùng cho thí nghiệm tăng cường bộ nhớ
Task and Metric Selection
4.1 Task Selection
- Tổng cộng 6 tác vụ: lập trình (Code), cơ sở dữ liệu (tạo SQL), gọi hàm API (Actions), toán học (Math), bảng → văn bản (Data-to-Text), tóm tắt dạng hỏi đáp (Summary)
- Ví dụ: viết hàm Python, chuyển truy vấn ngôn ngữ tự nhiên sang SQL...
- Với mỗi tác vụ, chọn lọc 90~120 chỉ dẫn từ benchmark chất lượng cao, sau đó sharding và kiểm chứng thủ công
- Cả 6 tác vụ đều mang tính đại diện cho cả nhóm lập trình và không lập trình, đồng thời bao gồm nhiều kịch bản khác nhau như Summary đòi hỏi long context
4.2 Metric Selection
- Các chỉ số đánh giá
- Hiệu năng trung bình (P): điểm trung bình (0~100) thu được qua nhiều mô phỏng
- Năng lực (A90): giá trị của 10% kết quả mô phỏng cao nhất (90th percentile, best-case)
- Độ tin cậy (U90_10): chênh lệch giữa điểm top 90% và bottom 10% (đo tính nhất quán/độ biến động của kết quả)
- Ví dụ: trong box-plot, phần trên cùng là năng lực, còn phạm vi từ trên xuống dưới thể hiện độ tin cậy
- Điểm số của cả 6 tác vụ đều được tổng hợp theo thước đo nhất quán (đúng/sai, độ tương tự, BLEU...)
- Phương pháp chi tiết, mã nguồn, ví dụ và thiết lập sampling cho mọi thí nghiệm đều được đưa vào phần phụ lục/Appendix
Simulation Scale and Parameters
- Xây dựng tổng cộng 600 instruction cho 6 tác vụ, rồi chạy thí nghiệm ở các kịch bản FULL/CONCAT/SHARDED
- Với 15 LLM (GPT-4, Claude, Gemini...), mỗi tổ hợp được mô phỏng 10 lần, tạo ra hơn 200.000 dữ liệu thí nghiệm
- Tất cả thí nghiệm đều chạy với temperature 1 (sampling), và ở thí nghiệm bổ sung (7.2) còn phân tích ảnh hưởng của temperature
- Tập dữ liệu mô phỏng khổng lồ này cho phép xác định các nguyên nhân và kiểu mẫu chính của hành vi trong hội thoại multi-turn underspecified cũng như suy giảm hiệu năng của LLM
Lost in Conversation Experiment
- Phần thân bài sau đó sẽ giải thích chi tiết theo thứ tự: thiết lập thí nghiệm, kết quả của từng mô hình, phân tích nguyên nhân suy giảm hiệu năng, thử nghiệm các kỹ thuật khắc phục (RECAP/SNOWBALL), và các hàm ý thực tiễn cùng khuyến nghị cụ thể
1 bình luận
Ý kiến Hacker News
Thật vui khi thấy một bài báo xác nhận điều mà bất kỳ ai từng thực sự dùng công cụ LLM đều đã biết qua trải nghiệm: khái niệm “đối thoại” là thứ được tạo ra bởi giao diện sản phẩm. Điều quan trọng là phải giữ ngữ cảnh sạch sẽ. Khi ngữ cảnh đã bị nhiễm bẩn thì không thể phục hồi, nên phải bắt đầu lại bằng một cuộc trò chuyện mới
Đây là hiện tượng bắt nguồn từ xu hướng quá tự tin đã quá quen thuộc của LLM, thiếu tự phản tỉnh, và không nhận ra khi nào cần yêu cầu thêm thông tin. Nhìn vào kết quả của các model suy luận, khi gặp tình huống mơ hồ, LLM thường không yêu cầu giải thích thêm mà chỉ lặp đi lặp lại việc đoán xem người dùng muốn nói gì. Điều này cho thấy giới hạn thực tế của ý tưởng thay thế lập trình viên bằng con người. Phần thật sự khó là “tương tác với stakeholder” để dần biến yêu cầu mơ hồ thành thứ rõ ràng
Tôi hay dùng cách yêu cầu LLM tóm tắt ngắn gọn những gì đã thảo luận cho đến lúc đó thành dạng prompt, rồi tự tay chỉnh sửa/biên tập trước khi bắt đầu cuộc trò chuyện mới. Cách này khá hiệu quả, và tôi nghĩ chẳng bao lâu nữa sẽ được tự động hóa
/compactđể tóm tắt cuộc trò chuyện và giảm lượng token sử dụngTôi tự nghĩ ra TSCE (Two-Step Contextual Enrichment). Khi dùng với 300 bài toán trên GPT-35-turbo, hiệu năng tăng +30pp. Có framework mở để tự do sử dụng. Tôi cũng làm thêm 300 thí nghiệm với gpt-4.1. Baseline thất bại 149/300 lần trong việc bỏ em-dash, còn TSCE chỉ thất bại 18/300 lần. Toàn bộ dữ liệu và script cũng đã được công khai
text.replace("—", "-")chưaTôi từng giải quyết vấn đề bằng hai hệ thống (LMM + curator tự động). Một cái là chính LLM, cái còn lại là một ‘người tuyển chọn suy nghĩ’ để quản lý việc thay thế linh hoạt từng phần của ngữ cảnh. Nó dựa vào khả năng tự lấp chỗ trống của LLM chứ không phải các quy tắc cứng. Nó giúp chia nhỏ vấn đề để xử lý, và các kết quả này kết hợp lại để đạt mục tiêu cuối cùng
Tôi thấy lạ là trong các công cụ chat chính, branching/forking lại không phải mặc định. Có thể chỉnh sửa câu trả lời, nhưng làm vậy thì lại mất đi khá nhiều ngữ cảnh khác. Workflow của tôi là 1. lập kế hoạch 2. xây dựng 3. phân nhánh 4. lặp lại. Tôi nghĩ việc cắt tỉa/phân nhánh prompt phải là công cụ cốt lõi trong cách dùng LLM
Rắc rối sẽ xuất hiện khi giao diện LLM được thiết kế xoay quanh đối thoại một lượt. Đa số người dùng kỳ vọng hội thoại tuyến tính. Vì thế tôi tạo bot Telegram experai_bot như một UI phổ quát cho LLM và dùng cách tiếp cận “không phải trả lời thì là hội thoại mới”. Muốn giữ ngữ cảnh thì nhất định phải đi theo cấu trúc cây trả lời. Người không chuyên rất khó hiểu cách này. Ngoài ra, với các model OpenAI (theo trải nghiệm với 3.5 và 4o), càng lặp lại cùng một câu hỏi thì khoảng trắng hoặc các lựa chọn càng ngắn, khiến kết quả ngày càng kém chính xác. Giảm tối thiểu system message thì kết quả giữ ổn hơn. Nếu cần thì có thể thêm system message qua tùy chọn
Lý do chính tôi làm promptdown là để có thể chỉnh sửa hoàn toàn toàn bộ lịch sử chat ở mỗi lượt. Cấu trúc ‘append-only’ của giao diện tiêu chuẩn khiến chuyện này trở nên khó khăn
Hiện tại, lĩnh vực LLM cho cảm giác như ai cũng đang lặp đi lặp lại giải cùng một vấn đề
LLM đúng là như thần đèn trong chai. Nó trả lời được ba câu hỏi, nhưng sau đó chỉ toàn nói chuyện trên trời dưới đất