7 phản biện về bài báo "giới hạn của LLM suy luận" của Apple và những giới hạn của chính các phản biện đó

(garymarcus.substack.com)

15 điểm bởi GN⁺ 2025-06-15 | 2 bình luận | Chia sẻ qua WhatsApp

Bài báo Ảo tưởng về tư duy: Hiểu các giới hạn của LLM suy luận của Apple đã gây tiếng vang lớn khi đặt ra vấn đề với giả thuyết scaling trong AI
Đã có 7 phản biện tiêu biểu đối với bài báo này, nhưng tác giả bài viết Gary Marcus (giáo sư danh dự tại NYU) cho rằng tất cả đều thiếu sức thuyết phục
Các lập luận như “con người cũng mắc lỗi”, “giới hạn độ dài đầu ra”, “tác giả bài báo là thực tập sinh” chủ yếu là đánh lạc hướng và né tránh bản chất vấn đề, chưa chạm tới việc giải quyết điểm yếu cốt lõi
Một số chỉ ra như “dùng code để giải quyết vấn đề” có ý nghĩa nhất định, nhưng kết luận lại càng làm nổi bật sự cần thiết của AI thần kinh-ký hiệu
Kết quả nghiên cứu gần đây của SalesForce cũng cho thấy hiệu năng suy luận đa lượt phức tạp của LLM trong các kịch bản kinh doanh thực tế chỉ đạt 35%, phù hợp với mối lo ngại trong bài báo của Apple

7 phản biện về bài báo suy luận của Apple và những giới hạn của chúng

Mở đầu

Bài báo Illusion of Thinking: hiểu các giới hạn của LLM suy luận của Apple đã thu hút sự chú ý lớn từ ngành, truyền thông và giới học thuật khi làm lộ ra các giới hạn của mô hình ngôn ngữ lớn trong suy luận và thực thi thuật toán
Bài viết giải thích bài báo do Gary Marcus tóm tắt đã được hơn 150.000 người đọc
The Guardian đã đăng một bài bình luận tham chiếu đến bài viết liên quan, và cả ACM cùng phiên bản tiếng Pháp cũng xuất hiện, chứng minh mức độ quan tâm toàn cầu
Trước điều này, những người ủng hộ GenAI đã phản ứng chỉ trích bài báo và đưa ra nhiều phản biện, nhưng không phản biện nào chạm được tới cốt lõi

1. “Con người cũng gặp khó với bài toán phức tạp và yêu cầu ghi nhớ”

Việc nói rằng con người cũng thấy khó tự nó là đúng, nhưng lý do tạo ra máy tính và AI ngay từ đầu là để xử lý chính xác các phép tính và tác vụ lặp lại mà con người không làm nổi
Ví dụ, với bài toán Tower of Hanoi, các hệ thống AI ký hiệu truyền thống có thể thực hiện mà không mắc lỗi
Nếu là AGI thì lẽ ra phải thể hiện năng lực tiến bộ hơn; chỉ dừng ở nhóm lỗi tương tự con người có thể xem là một giới hạn
Điểm cốt lõi của bài báo Apple là khi độ phức tạp tăng lên và bài toán xa dần khỏi phân phối học, LLM không còn đáng tin để thực thi thuật toán đúng cách
“Con người cũng mắc lỗi” là một cách đánh lạc hướng

2. “LRM không giải được vì bị giới hạn số token đầu ra”

LRM (mô hình suy luận lớn) có giới hạn độ dài đầu ra, nhưng một số trường hợp trong bài (ví dụ: Hanoi 8 đĩa, 255 bước) vẫn hoàn toàn nằm trong phạm vi có thể xuất ra
AI ký hiệu được thiết kế tốt sẽ không bị ảnh hưởng bởi kiểu vấn đề này, và AGI cũng nên như vậy
Giới hạn token là một bug, không thể xem là lời giải
Nếu ngay cả thuật toán cơ bản còn không thể thực thi một cách đáng tin cậy, thì các vấn đề thực tế như chiến lược quân sự hay sinh học lại càng bất khả thi

3. “Tác giả bài báo là thực tập sinh”

Đây là ad hominem (công kích cá nhân), không liên quan đến bản chất vấn đề. Đó là một sai lầm phớt lờ thực hành khoa học
Thực tế, tác giả là một nghiên cứu sinh Ph.D. đầy triển vọng, và bài báo có tổng cộng 6 tác giả (4 người có bằng Ph.D., bao gồm cả nhà nghiên cứu nổi tiếng Samy Bengio)
Điều cốt lõi là chất lượng bài báo, không phải địa vị của tác giả

4. “Mô hình lớn hơn thì sẽ làm tốt hơn”

Có báo cáo cho thấy một số mô hình lớn hơn cải thiện kết quả, nhưng cũng không thể dự đoán kích thước nào là đủ
Ngay trong cùng kiến trúc LRM cũng xuất hiện kết quả không nhất quán, như thành công với 6 đĩa nhưng thất bại với 8 đĩa
Thiếu độ tin cậy và khả năng dự đoán của mô hình, luôn cần kiểm chứng trước với mọi bài toán → còn rất xa AGI

5. “Dùng code thì có thể giải được bài toán”

Một số LLM có thể giải vấn đề thông qua code, nhưng đây chính là ưu điểm của AI neuro-symbolic
Nếu là AGI/AI theo nghĩa thực sự, nó phải có khả năng suy luận và truy vết ngược dựa trên hiểu biết khái niệm ngay cả khi không cần code
Giống như kỳ thi dùng để đánh giá mức độ hiểu khái niệm của học sinh, LLM cũng đang ở trong tình huống cần sự hiểu biết khái niệm thực sự

6. “Thí nghiệm chỉ có 4 ví dụ, và bài toán Hanoi cũng không hoàn hảo”

Cả 4 ví dụ trong bài báo có thể không hoàn hảo, nhưng chúng phù hợp với nhiều kết quả nghiên cứu trước đó, và các ca thất bại tương tự vẫn tiếp tục được báo cáo
Tal Linzen của NYU cùng những người khác cũng đã tiếp tục chứng minh thêm các giới hạn trong cùng bối cảnh này

7. “Đây đều là chuyện ai cũng biết rồi”

Nhiều nhà nghiên cứu từ lâu đã nhận thức được điểm yếu về khả năng khái quát hóa của LLM
Nhưng trong bối cảnh đại chúng và công nghiệp, điều đáng chú ý là bài báo lần này đã kéo sự chú ý tập trung vào vấn đề
- Điều quan trọng là nó đã trở thành dịp để ngành thực sự chú ý và thảo luận nghiêm túc về khả năng AGI vốn trước nay thường bị thổi phồng hoặc đánh giá quá mức
Ngay trong giới nghiên cứu cũng xuất hiện phản ứng mâu thuẫn khi vừa nói “bài báo sai” vừa nói “đó là điều ai cũng đã biết”

Kết luận

Trong số các phản biện trên, thiếu những nội dung mang tính thuyết phục một cách quyết định
Bài báo của Apple một lần nữa đưa ra tín hiệu rõ ràng rằng mở rộng quy mô không phải là lời giải cho AGI
Công nghệ LLM hiện tại đang bộc lộ những giới hạn rõ rệt về độ tin cậy, khả năng khái quát hóa và suy luận khái niệm
Thực tế, cả những nhân vật chủ chốt như Sam Altman cũng đang hình thành một bầu không khí coi tình hình hiện tại là vấn đề nghiêm trọng

Bài báo của SalesForce và các bằng chứng hội tụ bổ sung

Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

Trong bài báo mới nhất của SalesForce, một benchmark đánh giá LLM dựa trên các kịch bản kinh doanh thực tế (bán hàng, dịch vụ khách hàng, B2B/B2C, v.v.) đã được công bố
Tỷ lệ thành công ở chế độ một lượt (1 lần hỏi-đáp) là 58%, nhưng ở chế độ đa lượt (chuỗi hỏi-đáp liên tiếp) thì giảm mạnh xuống 35%
Cụ thể, thực thi workflow đạt hơn 83%, nhưng vẫn có giới hạn trong suy luận đa bước/chuyển ngữ cảnh
Nhận thức về tính bảo mật (Confidentiality awareness) cũng gần như không có; có thể cải thiện bằng prompt nhưng đi kèm suy giảm hiệu năng
So với yêu cầu về độ phức tạp và tính thực tế của môi trường doanh nghiệp, giới hạn của LLM là rất rõ ràng, đồng thời làm nổi bật nhu cầu tích hợp suy luận đa lượt, tính bảo mật và đa dạng kỹ năng công việc

Tóm tắt

Cả bài báo của Apple và bài báo của SalesForce đều cho thấy thế hệ LLM hiện nay có các giới hạn nghiêm trọng trong suy luận phức tạp ngoài đời thực, hội thoại đa lượt và thực thi thuật toán
Để tiến gần AGI, cần vượt qua scaling để đi tới tích hợp thần kinh-ký hiệu và cải tiến có cấu trúc
Việc ngành và giới nghiên cứu bắt đầu thực sự chú ý đến cuộc thảo luận về các giới hạn này là điều có ý nghĩa

2 bình luận

fanotify 2025-06-16

Altman đã viết trong bài luận của mình rằng: "10 năm nữa, có lẽ chúng ta sẽ chuyển từ năm giải được vật lý năng lượng cao sang năm tiếp theo bắt đầu thuộc địa hóa không gian." Ông nói thêm rằng những người tìm cách "kết nối" trực tiếp với AI thông qua giao diện não-máy tính sẽ chứng kiến cuộc sống thay đổi một cách căn bản.
Lối diễn đạt này đang thúc đẩy việc áp dụng AI trên khắp xã hội của chúng ta. AI hiện đang được DOGE (Văn phòng Thủ tướng) sử dụng để tái tổ chức chính phủ, quân đội đang tận dụng nó để trở nên nguy hiểm hơn, và nó đang được giao phó việc giáo dục con em chúng ta, thường dẫn đến những hệ quả chưa được biết rõ.
Nói cách khác, một trong những rủi ro lớn nhất của AI là chúng ta đánh giá quá cao năng lực của nó, tin tưởng nó nhiều hơn mức cần thiết dù AI đã bộc lộ những khuynh hướng phản xã hội như "tống tiền cơ hội", và phụ thuộc vào nó đến mức thiếu khôn ngoan. Làm như vậy khiến chúng ta dễ tổn thương trước khả năng AI thất bại vào những thời điểm quan trọng nhất.
"AI có thể giúp tạo ra nhiều ý tưởng khác nhau, nhưng vẫn cần được kiểm tra đáng kể," Ortiz nói. "Ví dụ, nếu bạn cần làm tờ khai thuế, tốt hơn nên dùng một công cụ giống TurboTax hơn là ChatGPT."

Trích từ bài viết của WSJ: Why Superintelligent AI Isn't Taking Over Anytime Soon

GN⁺ 2025-06-15

Ý kiến trên Hacker News

Có ý kiến cho rằng đúng là con người gặp khó khăn với các vấn đề phức tạp và gánh nặng ghi nhớ, nhưng đó không phải là toàn bộ câu chuyện. Họ nhấn mạnh rằng ta kỳ vọng máy móc sẽ cho ra kết quả tốt hơn con người. Nếu thừa nhận con người cũng mắc những sai lầm này, nhưng đồng thời vẫn khăng khăng rằng định nghĩa của “khả năng tư duy” nhất thiết phải bao gồm năng lực đó, thì rốt cuộc sẽ dẫn đến kết luận rằng chính tư duy của con người cũng chỉ là một ảo tưởng
- Tôi cũng đồng ý, nhưng phần liên quan đến AGI thì theo tôi là lập luận sai. Có quan điểm cho rằng AGI được định nghĩa đơn giản là AI có thể làm mọi công việc ở mức tương đương một con người trung bình
- Tôi thấy cả hai phía đều không thật sự rõ ràng. Có cảm giác như họ đang dùng câu trả lời định lượng để đáp cho những câu hỏi mang tính định tính
Có nhận xét đây là một bài phân tích tốt về bài báo của Apple và những chỉ trích của Gary Marcus. Đề xuất đọc thêm bài viết liên quan trên LessWrong để xem thảo luận chi tiết hơn
- Nêu một điều thực sự thắc mắc: không rõ quan điểm của Gary Marcus còn giá trị đến mức nào. Cảm giác các phê phán của ông thiên về triết học hơn là khoa học, và khó thấy ông thực sự tạo ra điều gì hay kiểm chứng được logic của mình đến đâu
- Còn với lesswrong.com thì bày tỏ quan điểm rằng đây là một cộng đồng theo đuổi tư tưởng của một số cá nhân nhất định (ví dụ như Yud), nên không quá tin tưởng
Chia sẻ một nhận định rằng LLM có thể tạo ra kết quả trông giống như “suy luận” khi đã từng học các lời giải tương tự trong quá khứ, nhưng sẽ sụp đổ trước những bài toán hoàn toàn mới. Dù không phải suy luận theo nghĩa chặt chẽ, nó vẫn rất hữu ích trên thực tế. Khả năng lặp lại các lời giải cũng hữu dụng đáng kể, giống như việc liên tục cung cấp kiểm tra sự thật. Marcus có thể đúng về mặt kỹ thuật, nhưng bị chỉ ra là giọng điệu của ông thiên về cảm xúc hơn là giải thích
- Nếu việc lặp lại các lời giải tương tự thực sự làm tốt đến vậy thì sẽ rất ấn tượng, nhưng trải nghiệm thực tế là các công cụ này thường còn không lặp lại nổi cùng một lời giải một cách ổn định, thậm chí hay bịa ra các kết quả nghe có vẻ hợp lý (ảo giác), nên rất bất tiện vì con người vẫn phải tự kiểm chứng cực kỳ kỹ
- Chỉ cần làm được đến mức đó thôi cũng đã là một cuộc cách mạng, nhưng hiện vẫn chỉ là một lý tưởng đẹp như mơ. Có nhắc tới trải nghiệm gần đây với Gemini khi nó còn nhầm lẫn trái phải ngay cả trong một bài toán giáo khoa cực kỳ cơ bản
- Có người thấy đã chán ngấy kiểu lập luận lặp đi lặp lại rằng “LLM chỉ là con vẹt”. Theo trải nghiệm của họ, LLM có thể suy luận và giải được những vấn đề hoàn toàn mới không có trong dữ liệu huấn luyện. Họ nói mình đã thử rất nhiều trường hợp khác nhau và cũng có nhiều ví dụ liên quan. Để trả lời chung cho nhiều người cùng lúc, họ cho rằng trước hết cần định nghĩa rõ “suy luận” và “giải bài toán mới”. Cá nhân họ xem suy luận là một phạm trù riêng, không đồng nghĩa với trí tuệ tổng quát. Việc LLM không phải lúc nào cũng giải được bài khó không có nghĩa là bản thân suy luận là điều bất khả thi đối với nó. Theo họ, năng lực suy luận của LLM nhìn chung còn yếu, nhưng họ không đồng ý với nhận định rằng LLM hoàn toàn không biết suy luận hay không thể giải bài mới.
  1. Có thể lập luận rằng bản thân next token prediction là một công việc đòi hỏi suy luận
  2. Nhiều thí nghiệm dịch sang một ngôn ngữ giả tưởng hoàn toàn không tồn tại cũng cho kết quả thành công. Có rất nhiều nghiên cứu về in-context learning và zero-shot
  3. Đã có vô số thử thách/trò chơi/câu đố được đưa ra để kiểm tra khả năng suy luận, nhưng cuối cùng vẫn có các trường hợp LLM giải được từng bài một (ví dụ: câu đố Monty Hall problem, một ví dụ câu đố khác trước đây), thậm chí có cả những mô hình được huấn luyện trước khi các câu đố đó được công bố
  4. Cũng có nhiều nghiên cứu về out-of-context reasoning (ví dụ: bài báo trên arXiv) Về các điểm phản biện bổ sung,
  5. Ngay cả khi mô hình thất bại ở một ngưỡng độ phức tạp nào đó, việc các mô hình mới nhất vẫn giải được phần nào những câu đố khó như vậy đã là rất ấn tượng. Những gì GPT-3.5 không làm được thì các mô hình mới đã làm được. Tiến bộ trong lĩnh vực suy luận đang diễn ra theo từng bước. Mô hình càng lớn và càng thông minh thì càng xử lý tốt hơn các tác vụ zero-shot, và họ cho rằng điều này có tương quan với sự cải thiện năng lực suy luận
  6. Bản thân bài báo cũng có dữ liệu cho luận điểm “mô hình lớn hơn = hiệu năng tốt hơn”. Claude 3.7 thể hiện tốt hơn DeepSeek rất nhiều và duy trì lời giải ổn định xuyên suốt các chuỗi dài. Với mô hình tốt hơn và nhiều token hơn, hiệu quả tăng rất nhanh ở các bài toán độ khó trung bình. Chỉ vì chưa giải được “bài toán khó” không có nghĩa là hoàn toàn không có khả năng suy luận. Vài năm trước người ta còn nói ngay cả mức trung bình cũng không làm nổi, nhưng giờ cục diện đã thay đổi
- Có ý kiến ngược lại rằng đó thực ra là điều trái ngược với suy luận. Những người ủng hộ AI cố mô tả LLM như thể nó thông minh hay biết suy luận, nhưng thực tế nó không thể suy luận theo kiểu sáng tạo hay trí tuệ. Suy luận thật sự phải là khả năng tự tìm ra lời giải đột phá cho một vấn đề hoàn toàn chưa từng gặp. Theo họ, LLM chỉ đang rút ngẫu nhiên các lời giải vốn đã có trong dữ liệu, chứ hoàn toàn không có chức năng ước đoán hay suy ra lời giải thật sự
Chỉ ra rằng nhiều phản luận và phản biện thực chất khá hời hợt, hoặc gần như đều có thể gộp vào luận điểm số 5. Cốt lõi của bài viết là việc LLM có thể viết mã hoặc sử dụng hệ thống logic hay không. Khi không có quyền truy cập công cụ, liệu việc suy luận hão huyền (ảo giác/trả lời sai) có thực sự đồng nghĩa với việc thiếu năng lực suy luận hay không, hay kỳ vọng đúng hơn nên là một AI biết “thừa nhận giới hạn của bản thân” như người thông minh vẫn làm
- Theo kết quả thí nghiệm thực tế, có những lúc mô hình xuất ra đến 100 bước rồi nói theo kiểu “nhiều quá nên tôi sẽ chỉ giải thích phương pháp giải”, tức là thừa nhận giới hạn rất rõ ràng. Thế nhưng những câu trả lời như vậy vẫn bị chấm là sai trong một số trường hợp. Có thể xem ví dụ phản hồi thực tế của mô hình. Chẳng hạn khi quá phức tạp, nó sẽ phản hồi theo kiểu “[rất khó mô tả toàn bộ từng lần thử riêng lẻ, nên tôi sẽ trình bày cách giải]”, và một mô hình cụ thể (Sonnet) khi vượt quá 7 phần tử sẽ bỏ qua suy luận từng bước trực tiếp, thay vào đó giải thích thuật toán hay cách tiếp cận tổng quát
- Tôi không cho rằng, trừ điểm số 3, phần lớn các phản biện đều hời hợt. Ngược lại, tôi thấy bài gốc mới là bên dựng lên nhiều lập luận người rơm. Lý do phản biện số 1 thường xuất hiện là vì có người tuyên bố “bài báo này chứng minh LLM không thể suy luận”. Nhưng tác giả cứ liên tục lôi AGI vào và biến định nghĩa của nó thành một người rơm (“máy phải làm được nhiều hơn con người” chẳng hạn). Trong thực tế, định nghĩa AGI là AI có thể làm việc ở mức con người trung bình, chứ không phải siêu trí tuệ, nhưng tác giả đã hiểu sai điểm này. Nhân tiện, với các bài như Tower of Hanoi thì LLM đã cho thấy hiệu năng vượt mức con người trung bình. Một người bình thường ngoài đời gần như không thể giải bài Tower of Hanoi 8 đĩa mà không ghi chép gì, nhưng LLM thì làm được. Tuy vậy, để đi đến AGI thật sự thì các mô hình hiện nay vẫn còn nhiều rào cản phải vượt qua. Phản biện số 5 cũng là một người rơm kiểu “không lấy được code từ web”, trong khi thực tế có thể nêu ví dụ chúng tự viết code để giải những vấn đề mới. Những điểm này không phải là chỉ trích bài báo mà là chỉ ra giới hạn thực sự của chính bài báo. Bài báo này đơn thuần cho thấy giới hạn suy luận của LLM, và thực ra không đưa ra tuyên bố quá đà nào mà chỉ mô tả các hạn chế, nhưng vì tiêu đề quá giật gân nên nhiều người đã không đọc kỹ phần nội dung
Trước tuyên bố “đây là câu đố mà trẻ con cũng dễ giải”, có người thừa nhận rằng trên thực tế việc tự giải Tower of Hanoi 8 đĩa chỉ bằng trí óc mà không ghi chép gì là rất khó. Họ đặt câu hỏi liệu phép so sánh giữa con người và AI như vậy có thực sự là so sánh ngang hàng hay không
Lý do những bài như thế này được đón nhận là vì cần phần nào hạ nhiệt cơn sốt cường điệu hóa quá mức quanh AI. Nếu thực sự định đưa các công cụ AI mới vào sử dụng trong thực tế một cách nghiêm túc, thì cần tạm gác sự hưng phấn lại và nhìn thẳng vào giới hạn cũng như bản chất thật sự của công nghệ này. Nó rất ấn tượng và hữu ích trong nhiều lĩnh vực, nhưng việc thổi bùng cơn sốt một cách thiếu kiểm soát rốt cuộc chỉ có lợi trực tiếp hay gián tiếp cho những bên có lợi ích tài chính
- Gary Marcus bị đánh giá là không phải kiểu “nhìn thẳng vào thực tế”, mà đúng hơn là dạng người xây dựng tên tuổi bằng cách liên tục đi ngược dòng chủ lưu AI. Bài viết lần này tuy có vẻ logic, nhưng được nêu như một ví dụ cho thấy ông đã thay đổi tư thế so với trước kia, khi từng mạnh mẽ tuyên bố một bài báo nào đó là “đòn kết liễu” với LLM. Văn của ông có vẻ hợp lý về bề ngoài, nhưng nếu đọc nhiều bài thì sẽ thấy một xu hướng nhất quán
- Ngay cả trong số những người đầu tư vào AI cũng có nhận định rằng cơn sốt quá mức chỉ có lợi cho các mô hình pump & dump hoặc những người bán khóa học, tư vấn, còn những người thật sự muốn tạo ra đổi mới có thể sớm phải đối mặt với một mùa đông AI
- Có lập trường bản năng là dè chừng LLM. Trong trải nghiệm của tôi cho đến nay, phần lớn code mà nó viết cho tôi đều có chất lượng rất tệ, nên hiện tại tôi không thích lắm và cũng không dùng thường xuyên. Nhưng tôi vẫn kỳ vọng theo thời gian nó sẽ phát triển thành một công cụ rất hữu ích. Dù vậy, theo tôi Marcus hoàn toàn không đủ tư cách để tham gia cuộc thảo luận này. Các phát ngôn của ông chỉ tạo ra những lời cường điệu phi sản xuất thay vì thảo luận thực chất, khiến phe chống AI có thêm mồi. Có người còn mô tả đó là “respectability laundering”: chỉ cần trích Marcus là mọi phê phán lập tức trông có vẻ chính đáng
- Tôi muốn nghe chỉ trích từ những người thực sự biết test/train split trong machine learning là gì. Theo tôi, việc những người quá xa rời thực tiễn ML hiện nay lại đi phát biểu về năng lực AI chính là một biểu hiện rất tiêu biểu của nỗi sợ AI
- Có người đặt câu hỏi nó thực sự hữu ích đến mức nào. Hơn một năm nay người ta cứ nói kiểu “năng suất lao động trí óc tăng gấp 10 lần”, nhưng rốt cuộc những kết quả nào đã thật sự thay đổi đến mức ấy? Có bộ sản phẩm văn phòng mới nào xuất hiện không? Có làn sóng sản xuất hàng loạt ứng dụng di động không? Có cách mạng trong thị trường sách không? Cuối cùng, ngoài meme Ghibli hay các nội dung trào lưu kiểu ‘RETURNS’, họ hoài nghi rằng liệu đã có thành phẩm thực chất nào chưa
Nếu ai tò mò về bài báo gốc thì có chia sẻ liên kết bản gốc
- Bổ sung thêm tài liệu để tra cứu và tham khảo, gồm bài báo: The Illusion of Thinking – điểm mạnh và giới hạn của mô hình suy luận (PDF) và bài bình luận A Knockout Blow for LLMs?, đồng thời hỏi xem còn tài liệu nào khác nữa không
Có nhắc rằng trong các bài kiểm tra toán, việc ra bài vi phân và tích phân không phải chỉ để học sinh cho ra đáp án tính toán, mà nhằm đánh giá mức độ hiểu khái niệm. Nhóm của Apple cũng đang xem liệu LLM có hiểu vấn đề Tower of Hanoi về mặt khái niệm hay không. LLM có thể “tải xuống” đoạn code cho đáp án đúng, nhưng luận điểm ở đây là với bài toán mới hoặc môi trường động thì việc tải code mà không hiểu khái niệm sẽ có giới hạn. Tuy nhiên, có ý kiến phản bác rằng LLM thực tế không phải tải code xuống mà có khả năng tự “viết” ra code. Nếu một thí sinh trong phòng thi tự viết một chương trình vi phân/tích phân tổng quát thì điều đó còn là bằng chứng mạnh hơn cho thấy họ hiểu khái niệm ở mức cao
- Có ý kiến cho rằng nếu thí sinh đó chỉ tham khảo một lượng ghi chú cực nhỏ so với số tham số của LLM thì họ vẫn không bị thuyết phục
Có người xem câu trích từ bài báo của Salesforce rằng “các agent cho thấy khả năng giữ bí mật gần như bằng không” là một điểm rất quan trọng
Có ví dụ rằng khi con người tạo ra máy bay thì từng bị chê là “không phải chim”, khi tạo ra tàu ngầm thì bị chê là “không phải cá”, nhưng tiến bộ vẫn tiếp diễn. Điều cốt lõi là lựa chọn xem ta sẽ nhanh chóng học cách tận dụng tiềm năng của công cụ này hay sẽ bị bỏ lại phía sau. Một lời nhắn kèm theo là, thay vì mãi nghe những lập luận phủ định bất tận từ cùng một kiểu người, một “thái độ học hỏi” sẽ giúp thích nghi với tương lai theo cách thực tế hơn