Ảo tưởng về tư duy: Hiểu các giới hạn của LLM suy luận
(ml-site.cdn-apple.com)- Mô hình suy luận lớn (Large Reasoning Models, LRMs) đã cho thấy mức cải thiện hiệu năng nhất định trong việc giải quyết các bài toán phức tạp, nhưng cũng bộc lộ rõ những giới hạn mang tính nền tảng và vấn đề về khả năng mở rộng
- LRMs cho thấy hiện tượng quá trình suy luận sụp đổ nhanh chóng khi độ khó của bài toán tăng lên; kết quả phân tích cũng ghi nhận nghịch lý rằng nỗ lực suy luận (lượng token sử dụng) lại giảm xuống khi vượt qua một ngưỡng nhất định
- Khi so sánh LLM tiêu chuẩn và LRMs trong cùng mức tài nguyên tính toán, LLM tiêu chuẩn tốt hơn ở độ khó thấp, LRMs có lợi thế ở độ khó trung bình, nhưng ở độ khó cao thì cả hai đều thất bại
- LRMs bộc lộ giới hạn mang tính quyết định trong suy luận thuật toán tường minh và quy trình tư duy nhất quán, đồng thời thể hiện hành vi khác nhau hoặc thiếu nhất quán tùy theo từng môi trường câu đố
- Nghiên cứu này xác nhận vấn đề về độ tin cậy và giới hạn khả năng mở rộng của các mô hình suy luận hiện nay, qua đó cho thấy thiết kế AI thế hệ tiếp theo cần có đánh giá tinh vi hơn và cải tiến về kiến trúc
- Bài báo của Apple: "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"
Tổng quan và mục tiêu nghiên cứu
- Gần đây, cùng với sự xuất hiện của các mô hình chuyên biệt cho suy luận dựa trên mô hình ngôn ngữ lớn (LRMs), nhu cầu nghiên cứu nhằm hiểu cấu trúc “tư duy” và các giới hạn của chúng trong quá trình giải quyết vấn đề đã trở nên cấp thiết
- Phần lớn các đánh giá hiện nay tập trung vào tỷ lệ trả lời đúng trên các benchmark toán học và lập trình, nhưng cách này không đo được chính xác hiện tượng nhiễu dữ liệu hay chất lượng của quá trình “tư duy” bên trong
- Nghiên cứu này đưa vào các môi trường câu đố có thể điều chỉnh độ phức tạp một cách chính xác trong khi vẫn giữ nguyên cấu trúc logic, qua đó được thiết kế để phân tích không chỉ kết quả đúng sai mà còn cả dòng suy luận nội tại
Môi trường đánh giá và phương pháp thực nghiệm
Thiết kế môi trường câu đố
- Để điều chỉnh độ phức tạp có hệ thống và kiểm soát thực nghiệm, nghiên cứu sử dụng bốn môi trường câu đố sau
- Tháp Hà Nội: điều chỉnh độ khó bằng số lượng đĩa; không đánh giá tính tối ưu của lời giải mà chỉ xét việc có đạt được trạng thái mục tiêu hay không
- Checker Jump: kiểm soát độ phức tạp bằng số quân đỏ, quân xanh và ô trống; mục tiêu cuối cùng là hoán đổi vị trí của chúng
- Vượt sông: điều chỉnh độ khó bằng số cặp tác nhân-agent và sức chứa của thuyền; mục tiêu là đưa toàn bộ sang bờ bên kia trong điều kiện ràng buộc
- Block World: điều chỉnh bằng số lượng khối; di chuyển từ trạng thái ban đầu sang trạng thái xếp chồng mục tiêu
Mỗi môi trường đều có thể tăng độ phức tạp một cách tinh vi bằng cách điều chỉnh số lượng thành phần của câu đố.
Kết quả thực nghiệm chính
1. Ba kiểu suy luận theo mức độ phức tạp
- Độ phức tạp thấp: LLM tiêu chuẩn hiệu quả hơn (tiết kiệm token hơn) so với LRMs, và trong nhiều trường hợp cũng có tỷ lệ đúng cao hơn
- Độ phức tạp trung bình: quá trình tư duy dài (Chain-of-Thought) và tư duy tự phản tỉnh của LRMs cho thấy lợi thế về hiệu năng
- Độ phức tạp cao: cả hai loại mô hình đều sụp đổ hiệu năng ngay lập tức (tỷ lệ đúng bằng 0); với LRMs, tại điểm này còn quan sát thấy hiện tượng kém hiệu quả khi lượng token suy luận sử dụng cũng giảm xuống
2. Phân tích sâu dấu vết tư duy (Reasoning Trace)
- “Suy nghĩ quá mức (overthinking)”: ở các bài toán độ phức tạp thấp, LRMs dù tìm ra đáp án sớm nhưng sau đó vẫn tiếp tục lặp lại việc tìm kiếm sai, cho thấy mô hình lãng phí tính toán không cần thiết
- Độ khó trung bình: sau khi nhận ra đáp án sai, mô hình dần tiến tới đáp án đúng, nhưng cần nhiều bước khám phá hơn trước
- Độ khó cao: xác nhận hiện tượng “sụp đổ” khi mô hình không thể tạo ra lời giải đúng trong toàn bộ dòng suy luận
3. Giới hạn trong việc thực thi thuật toán
- Ngay cả khi cung cấp sẵn một thuật toán xác định trong prompt, mô hình vẫn không thể thực hiện đáng tin cậy ngay cả việc chạy tuần tự đơn giản
- Điều này cho thấy không chỉ là vấn đề “tìm đáp án”, mà còn là sự thiếu hụt bản chất trong năng lực thao tác ký hiệu để tuân theo chính xác cấu trúc logic
4. Benchmark và vấn đề nhiễu dữ liệu
- Trên các benchmark toán học hiện có (MATH500, AIME24, AIME25), khoảng cách hiệu năng giữa mô hình có tư duy/không có tư duy không nhất quán
- Trong trường hợp AIME25, khả năng nhiễu dữ liệu khiến việc đánh giá năng lực suy luận bản chất của mô hình trở nên khó khăn
Kết luận nghiên cứu và hàm ý
- Nghiên cứu này giới thiệu môi trường đánh giá chính xác dựa trên câu đố và cung cấp phân tích thực nghiệm chuyên sâu về việc LLM suy luận có thực sự sở hữu năng lực tư duy hay không, và giới hạn của chúng bộc lộ ở đâu
- Các mô hình suy luận hiện nay có một giới hạn nền tảng là sụp đổ hoàn toàn khi vượt qua một mức độ phức tạp nhất định, và điều này không thể được giải quyết chỉ bằng ngân sách token hay tăng cường self-reflection đơn thuần
- Đặt dấu hỏi về giới hạn của các phương pháp đánh giá hiện tại và đề xuất một môi trường đo lường mang tính thực nghiệm
- Ngay cả các mô hình suy luận SOTA hiện nay cũng chưa đạt được năng lực giải quyết vấn đề phổ quát
- Tồn tại giới hạn mở rộng trong việc sử dụng token suy luận theo độ phức tạp
- Giới thiệu phương pháp đánh giá dựa trên trace của quá trình tư duy, phân tích cơ chế tự hiệu chỉnh và dò lỗi
- Thất bại và sự thiếu nhất quán trong thực thi thuật toán tường minh
- Kết quả này nhấn mạnh tầm quan trọng của thiết kế AI thế hệ tiếp theo, đánh giá độ tin cậy, cũng như đo lường hiệu năng mô hình trong các môi trường tránh được vấn đề nhiễu dữ liệu
Xu hướng nghiên cứu liên quan
- Nhiều nỗ lực khác nhau nhằm tăng cường năng lực suy luận như CoT (Chain-of-Thought), kỹ thuật tự kiểm chứng, và thúc đẩy tư duy dựa trên học tăng cường
- Khó khăn trong việc thu thập dữ liệu CoT chất lượng cao, cùng với những giới hạn của phương pháp supervised/RL
- Các ví dụ tiêu biểu gồm DeepSeek-R1, Claude 3.7 Sonnet Thinking
- Nêu ra vấn đề về hiện tượng “suy nghĩ quá mức” (overthinking) và độ tin cậy của chỉ số đánh giá do benchmark bị nhiễu
- Nhấn mạnh sự cần thiết của đánh giá dựa trên môi trường câu đố có thể kiểm soát chặt chẽ độ phức tạp của bài toán
Nhiệm vụ tiếp theo và giới hạn
- Cần nghiên cứu thêm về những giới hạn nền tảng mà mô hình suy luận thể hiện trong việc theo dõi logic tường minh/thao tác ký hiệu
- Ngay cả theo từng trường hợp môi trường câu đố, hành vi của mô hình cũng thiếu nhất quán (ví dụ: chênh lệch hiệu năng giữa Tháp Hà Nội/vượt sông), từ đó đặt ra khả năng tồn tại giới hạn của suy luận dựa trên dữ liệu
- Khi thiết kế hệ thống AI, việc kiểm chứng chính xác bao gồm dòng suy luận trung gian và tính nhất quán logic là bắt buộc
Phân tích này không chỉ có ý nghĩa cho ứng dụng thực tiễn mà còn mang lại nhiều hàm ý lớn cho thiết kế và hệ thống đánh giá của AI suy luận thế hệ tiếp theo.
1 bình luận
Ý kiến Hacker News
Tôi nghĩ một trong những lý do khiến chúng ta cảm thấy bối rối là vì LLM sử dụng ngôn ngữ; nếu xem ‘Biology of Large Language Models’ và ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’, sẽ thấy nhiều điểm mà những gì thực sự diễn ra bên trong hoàn toàn khác với con người, nên đầu ra tạo cảm giác xa lạ
Khi thiết kế hệ thống bằng công nghệ hoặc suy nghĩ về những cấu trúc tạo ra kết quả lớn hơn tổng các phần, vẫn rất khó để hiểu rõ năng lực của chúng một cách rành mạch
Dù có biết nguyên lý vận hành, cách chúng xử lý ngôn ngữ vẫn có một sự kỳ lạ như thể là phép thuật
Vì thế tôi cũng đã viết bài này để sắp xếp lại suy nghĩ
Tôi nghĩ những nghiên cứu như vậy thực sự rất tuyệt, và trong tương lai sẽ cần nhiều nỗ lực hơn nữa để hiểu cách tận dụng token cho tốt và xây dựng cho đúng
[Liên kết tham khảo]
Biology of Large Language Models
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
Tôi đồng cảm với trăn trở muốn tạo ra một cấu trúc mà toàn bộ hệ thống lớn hơn tổng các phần, và cá nhân tôi cho rằng chính lập trình đảm nhiệm vai trò đó
Nếu chia nhỏ công việc hay vấn đề thành các đơn vị nhỏ chỉ tương tác tối thiểu với nhau, thì sự kết hợp của chúng sẽ hình thành một cấu trúc tạo ra kết quả lớn hơn
Nếu đưa tốt quá trình này vào workflow lập trình, tôi tin rằng ngay cả LLM có hiệu năng kém cũng có thể được dùng tự nhiên như một phần của lời giải
Ngược lại, tôi cũng nghĩ toàn bộ hệ thống có thể còn tệ hơn từng phần riêng lẻ
Có những bài toán mà từng tác vụ đơn lẻ làm tốt, nhưng khi ghép lại thì công việc bị rối tung
Đây là phần rồi sẽ được cải thiện, nhưng vì không thể tối ưu mọi vấn đề, tôi cũng nghĩ rằng cuối cùng các cách tiếp cận chuyên biệt có thể hiệu quả hơn
Bản thân ngôn ngữ của con người không hoàn hảo như một công cụ nhận thức, nhưng tôi tin nó được khai thác tốt ở tầng cao hơn chứ không phải tầng nền tảng (giao tiếp, suy luận bậc cao)
Ngôn ngữ con người vốn dĩ mơ hồ và không hoàn chỉnh, nên tôi cảm thấy nó không đủ để tạo ra nhận thức mạnh nếu so với cách tương tác trực tiếp với môi trường
Vì vậy, nếu chỉ lấy độ trôi chảy ngôn ngữ và khả năng truy hồi tri thức mà mô hình LLM/LRM thể hiện làm thước đo trí tuệ, ta rất dễ bị đánh lừa
Tôi thấy ý tưởng đưa vào các môi trường câu đố có thể điều chỉnh độ khó một cách có hệ thống, thay vì dùng benchmark cũ (ví dụ: bài toán toán học), thực sự rất sáng tạo
Phân tích ba vùng hiệu năng — mô hình hiện có thắng ở bài toán đơn giản, LRM thắng ở độ phức tạp trung bình, và ở độ khó cao thì tất cả đều sụp đổ — cũng rất thú vị
Tôi cảm thấy cần vẽ thêm nhiều “bản đồ” như vậy về các vùng độ phức tạp
Tôi tò mò giá trị kinh tế được ánh xạ với các vùng độ phức tạp đó như thế nào
Để biết điều này, tôi nghĩ cần các phương pháp đánh giá tinh vi hơn, không chỉ vượt ra ngoài những câu đố thông thường mà còn áp dụng được vào các công việc kinh tế thực tế
Tôi nghĩ trực giác cốt lõi mà các tác giả muốn truyền tải nằm ở niềm tin rằng mô hình là một thực thể “toàn tri nhưng kém cỏi”
Tôi chưa từng thấy bài báo nào xử lý nghi vấn này thật sự tốt bằng số liệu, nên nghiên cứu lần này có lẽ cũng khó khiến mọi người hoàn toàn đồng thuận
Người lạc quan về AI tin rằng sự ngốc nghếch của mô hình đã giảm đi, trong khi người hoài nghi cho rằng chỉ là lượng tri thức tăng lên, nên khác biệt lập trường này khó mà thu hẹp
Dù vậy, tôi vẫn nghĩ vấn đề này cần tiếp tục được thảo luận
Bởi vì một mô hình toàn tri nhưng ngốc nghếch thì AI sẽ không thể đạt siêu trí tuệ (ASI), thậm chí chỉ dừng ở vai trò trợ lý kiểu SaaS hiện có, nên tác động kinh tế cũng sẽ bị giới hạn
Tôi hy vọng một ngày nào đó các tác giả sẽ giải quyết vấn đề này thật xuất sắc
Chúng ta cứ gán cho công nghệ này những tính từ mang tính con người (toàn tri, ngốc nghếch, v.v.) và nhân cách hóa nó, nhưng tôi nghĩ thực ra đây là một công cụ thuần túy, không hề có những yếu tố đó
Việc LRM làm chỉ đơn giản là tinh chỉnh dữ liệu ngữ cảnh (dữ liệu do chính nó tạo ra) để đi đến câu trả lời cuối cùng
Bản thân quá trình này là một ý tưởng xuất sắc, nhưng vẫn chưa giải quyết được những giới hạn căn bản như vấn đề hallucination
Tôi cũng đã chứng kiến hiện tượng trong lúc hội thoại mô hình ban đầu đưa ra logic khá gần đáp án đúng, rồi kết quả lại bị phá hỏng giữa chuỗi tự phủ nhận kiểu “khoan đã!” liên tiếp
Nếu gán quá nhiều đặc tính con người như vậy, rốt cuộc chỉ khiến thị trường thổi phồng quá mức và cản trở tiến bộ
Cuối cùng thì công nghệ này không phải trí tuệ nhân tạo thật sự, mà là một cỗ máy đối sánh mẫu ở quy mô lớn và sinh dữ liệu mang tính xác suất
Nó vẫn hữu dụng, nhưng nếu nhân hóa quá mức thì cuộc thảo luận sẽ trở nên nhiễu loạn
Tôi vừa kỳ vọng vừa sợ hãi về AI, vì trong vài năm gần đây AI không hẳn đã trở nên “thông minh” hơn nhiều, nhưng năng lực thực dụng thực tế thì cải thiện khổng lồ
Khả năng tận dụng tri thức, công cụ và ngữ cảnh đã tăng lên rất mạnh
Vì vậy điều tôi sợ nhất là trạng thái chờ của “năng lực suy luận/agency”
Tức là, vượt thêm một bước từ chỗ chỉ có tri thức gần như toàn tri sang chỗ thật sự có thể thực hiện các phán đoán chiến lược chính xác theo kiểu song song; tôi đoán chỉ còn thiếu một hoặc hai đột phá nữa
Nếu hai thứ đó kết hợp với nhau thì kết quả sẽ thực sự đáng sợ
Bởi khi đó có thể xuất hiện AI dẫn dắt chính dòng suy nghĩ của tôi, giống như khi trò chuyện với một thiên tài đi trước con người 6 nước cờ
Ngay cả các nhà nghiên cứu AI tuyến đầu hiện nay cũng đang coi suy luận + agency là ưu tiên cao nhất, nên bầu không khí là thành quả có thể đến khá sớm
LLM hiện nay rất giỏi ở những phán đoán tức thời, nhưng
thì cả hai vẫn còn thiếu
Để giải quyết điều này, có thể cần suy luận System 2 thật sự ở mức nền tảng (‘System 1’ là transformer hiện nay), hoặc cũng có thể chỉ là cách khiến mô hình học “trực giác chiến lược” nhanh hơn bằng dữ liệu và thuật toán tốt hơn
Tất nhiên, cũng có thể vì độ khó của bài toán quá cao nên đây chỉ là một chuỗi rào cản theo từng bậc, hoặc cần một lượng compute áp đảo
Vì vậy tôi không dám chắc, nhưng tôi rất sợ khả năng sẽ xuất hiện một bước tiến cực kỳ mạnh
Tôi cũng không nghĩ có lý do gì mà một thực thể toàn tri nhưng ngốc nghếch lại phải dừng ở mức trí tuệ của loài người
Tôi tự hỏi liệu Apple có thực sự đang thất bại trong AI, hay chỉ đơn giản là đã chuyển hướng R&D sang niềm tin rằng AI không quan trọng đến thế
Nhìn vào hiện tượng các tính năng AI gần đây ồ ạt được đưa vào sản phẩm tiêu dùng, tôi thấy có vẻ động cơ khoe năng lực công nghệ với nhà đầu tư mạnh hơn là phục vụ người dùng
Trên thực tế, Apple, Google, Meta, Microsoft, Samsung đều đang rầm rộ marketing các tính năng AI chưa đạt kỳ vọng, trong khi kết quả thực sự lại không tốt
Theo nghĩa đó, việc Apple cân nhắc một hướng đi mới ngược lại có thể còn là tín hiệu tích cực
Nếu bớt châm biếm đi một chút, cũng có thể mục đích là hạ kỳ vọng để không đánh giá quá cao khả năng thực tế của LLM
Ngay cả “Siri thông minh hơn” trên sản phẩm Apple cũng không thể trở thành trợ lý AI thực thụ kiểu Jarvis của Iron Man, và có lẽ đây là sự nhìn nhận thực tế đó
Thực tế thì giới đầu tư đang có kỳ vọng quá mức rất nhiều
Nếu nhìn một cách cay nghiệt hơn, tôi nghĩ Apple từ lâu đã có truyền thống che giấu năng lực machine learning yếu
Ví dụ, ngay từ thời Siri tụt lại khá xa so với Google, họ đã đưa ra lời giải thích hậu kỳ rằng đó là vì bảo vệ dữ liệu nên không thể huấn luyện tốt
Bài báo liên quan
Tôi nghĩ công ty nào cũng có cái khung diễn giải của riêng mình
OpenAI và Anthropic cũng đương nhiên có động cơ thổi phồng năng lực LLM khi quảng bá, nên không thể chỉ trích riêng Apple là thiên lệch
Tôi rất đồng cảm với kết quả trong bài báo rằng khi thử nhiều loại câu đố đa dạng và phức tạp, LRM sẽ thất bại hoàn toàn nếu vượt qua một ngưỡng độ khó nhất định, và còn có một giới hạn kỳ lạ là nỗ lực suy luận tăng lên một lúc khi độ phức tạp của bài toán tăng, rồi sau đó lại giảm xuống
Tôi cũng có trải nghiệm y hệt trong lập trình: lúc đầu có thể làm mọi thứ ngày càng phức tạp hơn, nhưng đến một thời điểm vượt ngưỡng thì nó sụp đổ hoàn toàn, như thể thậm chí còn không muốn thử nữa
Muốn tận dụng tốt các LLM như Claude hay aider thì điều quan trọng là phải quản lý cẩn thận độ phức tạp của vấn đề mà mô hình phải tiếp nhận
Tôi nhớ lại cái không khí từng cho rằng AGI (trí tuệ nhân tạo tổng quát) đã ở ngay trước mắt
Cảm giác như Gartner hype cycle thực sự nắm bắt rất đúng dòng chảy của từng công nghệ
Khi tiến bộ công nghệ vẽ thành đường cong chữ S, thì cho đến ngay trước khi bẻ cong vẫn là giai đoạn tăng rất dốc, nên thực sự rất khó dự đoán chính xác khi nào nó sẽ chậm lại
Sau khi chiếc Boeing 747 đầu tiên ra đời năm 1968, hẳn chẳng ai thời đó tưởng tượng được rằng ngành hàng không sẽ gần như dậm chân tại chỗ hơn nửa thế kỷ về sau
Tình hình xe tự lái cũng y hệt
Nó đã đến rất gần “ngay trước mắt”, nhưng rốt cuộc vẫn không thể “qua được góc cua”
Thực ra cái không khí AGI “ở ngay trước mắt” cũng chỉ là chuyện của vỏn vẹn 2 năm trước
Nếu đi từ GPT2 đến AGI chỉ trong 10 năm, thì đó vẫn là tốc độ cực kỳ nhanh
Tôi có cảm giác tiến bộ công nghệ đã đi được khoảng 80%, phần dễ đã xong, còn 20% còn lại thì khó đến mức phải mất nhiều năm
Từ khi máy tính xuất hiện, AGI vẫn luôn chỉ là khẩu hiệu “sắp đến nơi rồi”
Một số vấn đề (ví dụ: dịch máy) được xem là đã “giải quyết” trên thực tế chỉ vì người ta hạ thấp dần tiêu chuẩn thế nào là giải pháp, chứ không phải vì ta thật sự tiến gần AGI hơn
Bản thân AGI gần giống một dạng cánh chung luận thế tục hơn là khoa học
Tôi nghĩ các môi trường câu đố như Tower of Hanoi, Checkers Jumping, River Crossing, Block World là những việc mà nếu thực sự cho phép viết code thì mọi LLM đều có thể giải hoàn hảo
Con người khi tự nhân số có 20 chữ số bằng tay cũng rất dễ sai, nên tôi không cho rằng việc LLM làm không được là một vấn đề
Con người từng thiết kế tên lửa hay làm kỹ thuật chính xác mà không có máy tính; chỉ cần đầu tư thêm thời gian, chiến lược, nỗ lực hoặc dùng công cụ (như giấy bút), cuối cùng vẫn giải được vấn đề
Bộ não con người không được thiết kế cho các phép tính kiểu này, nhưng điểm mạnh là với trí tuệ phổ quát, con người vẫn có thể tự tìm ra cách để xử lý bằng cách nào đó
Giới thiệu một bài báo về framework mới trong đó LLM đóng vai trò “giáo viên chính sách” cho việc huấn luyện RL agent
Nội dung là với chỉ dẫn do giáo viên LLM cung cấp, có thể huấn luyện nhanh một RL agent học sinh nhỏ; sau đó nếu tiếp tục cho học từ phản hồi môi trường thì cuối cùng học sinh có thể hoàn thành các nhiệm vụ còn giỏi hơn cả giáo viên
Bài báo liên quan
Tôi nghĩ lý do mọi LLM đều giải tốt các bài như vậy là vì có khả năng trong codebase đã lưu sẵn vô số ví dụ lời giải
Lý do con người không làm được và lý do LLM không làm được là hoàn toàn khác nhau
LLM nhiều khi thật sự không thực hiện tốt bản thân phép nhân, còn con người thì phần lớn đơn giản là không muốn làm
Tôi chú ý đến đoạn trong bài báo nói rằng “khó tính toán chính xác và thể hiện suy luận không nhất quán giữa các câu đố”
Tôi nghĩ LLM/LRM nên nhận trợ giúp từ logic, tối ưu hóa, và constraint programming (IA) — những lĩnh vực họ hàng của tự động hóa trí tuệ nhân tạo
Tôi cũng gợi ý tài liệu tham khảo gồm bài nói chuyện hợp tác của John Hooker tại CMU, bài giảng của Gerald Sussman tại MIT, Google OR-Tools, và nền tảng MiniZinc
Tôi thấy kết quả nghiên cứu cho rằng LLM thắng ở tác vụ đơn giản nhất, LRM thắng ở độ phức tạp trung bình, còn ở độ khó cao thì tất cả đều thất bại là rất ấn tượng