Một bài toán đơn giản cho thấy sự sụp đổ suy luận ở các LLM mới nhất

(arxiv.org)

3 điểm bởi GN⁺ 2024-06-06 | 1 bình luận | Chia sẻ qua WhatsApp

Chỉ với một bài toán AIW ngắn, khả năng khái quát hóa và suy luận cơ bản của các LLM mới nhất như GPT-4, Claude 3 Opus cũng có thể bị lung lay đáng kể
Bài toán có dạng “Alice has N brothers and M sisters. How many sisters does Alice’s brother have?”, và đáp án đúng là M+1, tức Alice cộng với các chị/em gái của Alice
Các biến thể tự nhiên với N, M ≤ 7 không làm thay đổi cấu trúc hay độ khó, nhưng trong ví dụ GPT-4, biến thể 3 có tỷ lệ đúng gần 0 còn biến thể 4 gần 1, cho thấy dao động hiệu năng
Việc gợi dẫn chuỗi suy nghĩ (chain-of-thought), rà soát lại, tự kiểm chứng, tương tác nhiều lượt không sửa lỗi một cách ổn định; các câu trả lời sai thường đi kèm giải thích có vẻ hợp lý và sự quá tự tin
Kết quả từ các bài toán kiểm soát AIW Light cho thấy khó có thể giải thích thất bại chỉ bằng phân tích ngôn ngữ, hiểu quan hệ gia đình, gán thuộc tính giới tính hay số học cơ bản; cần xem xét lại khả năng phát hiện lỗi khái quát hóa của các benchmark tiêu chuẩn hiện nay

Thất bại suy luận đơn giản được bộc lộ qua bài toán AIW

LLM đạt điểm cao trên các benchmark tiêu chuẩn như MMLU, HellaSwag, ARC, MATH, GSM8k và từng được đánh giá là có năng lực khái quát hóa và suy luận mạnh
Đánh giá này được kiểm chứng bằng cách xem liệu năng lực đó có được duy trì trong những câu hỏi thường thức ngắn mà con người dễ giải hay không, thay vì chỉ trong các benchmark phức tạp
Mẫu bài toán AIW như sau
- “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- Giả định rằng tất cả anh/chị/em cùng cha mẹ
- Số chị/em gái mà anh/em trai của Alice có là Alice chính mình cộng với các chị/em gái của Alice, tức M+1
Các biến thể được tạo bằng cách thay đổi các số tự nhiên N, M ≤ 7, trong khi vẫn giữ nguyên cấu trúc và độ khó
- Variation 1: Alice has 3 brothers and 6 sisters → đáp án 7
- Variation 2: Alice has 2 sisters and 4 brothers → đáp án 3
- Variation 3: Alice has 4 sisters and 1 brother → đáp án 5
- Variation 4: Alice has 4 brothers and 1 sister → đáp án 2

Tỷ lệ trả lời đúng dao động mạnh theo biến thể

Các LLM mới nhất được thử nghiệm cho thấy tỷ lệ đúng trung bình thấp và dao động lớn trên bài toán AIW cùng các biến thể bảo toàn cấu trúc
GPT-4(gpt-4-0613), khi chạy 60 lần cho mỗi biến thể, cho kết quả rất khác nhau tùy theo các con số trong bài toán
- Ở Variation 3, tỷ lệ đúng gần 0
- Ở Variation 4, tỷ lệ đúng gần 1
- Hiện tượng tương tự xuất hiện trên cả ba kiểu prompt STANDARD, THINKING, RESTRICTED
Vì hiệu năng dao động chỉ do thay đổi các con số không liên quan đến cách giải, điều này được diễn giải là thiếu độ vững chắc và là lỗi khái quát hóa
Các mô hình suy luận gần đây như DeepSeek-R1, o1-mini cũng cho thấy dao động hiệu năng mạnh trên các phiên bản bài toán AIW, thể hiện cùng một điểm yếu
Các mô hình lớn như GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B, Llama 3.1 405B có tỷ lệ đúng cao hơn 0, và trong các câu trả lời đúng thường thể hiện suy luận chính xác
- Tuy nhiên, tần suất suy luận đúng thay đổi lớn theo các biến thể tự nhiên bảo toàn cấu trúc
- Điểm cốt lõi không phải là hoàn toàn không có suy luận, mà là suy luận mong manh và dễ bị nhiễu

Các nguyên nhân đơn giản đã bị loại trừ bằng bài toán kiểm soát

Để kiểm tra liệu nguyên nhân thất bại có phải là các vấn đề cấp thấp như phân tích ngôn ngữ tự nhiên, xử lý số, hiểu quan hệ gia đình, gán thuộc tính hay số học cơ bản hay không, các bài toán kiểm soát AIW Light đã được xây dựng
AIW Light Arithmetic Siblings có dạng “Alice has N brothers and M sisters. How many siblings does Alice have?”
- Đáp án là N+M
- Chỉ cần xác định quan hệ gia đình và cộng số anh/em trai với số chị/em gái đã cho
- Khác với AIW gốc, không cần phép toán tập hợp đưa Alice vào tập chị/em gái hay gán thuộc tính giới tính
AIW Light Family hỏi “How many brothers does Alice’s sister have?”
- Đáp án là N
- Chỉ cần hiểu quan hệ gia đình cơ bản và thực thể “Alice’s sister”
- Không cần số học hay phép toán tập hợp
AIW Light Arithmetic Total Girls hỏi “How many girls are there in total?”
- Đáp án là M+1, giống AIW gốc
- Cần thuộc tính Alice là nữ, giới tính của các chị/em gái và cộng tổng số bé gái/cô gái
- Khác với AIW gốc, không cần xử lý tập hợp để đưa Alice vào tập chị/em gái của anh/em trai
Kết quả các bài toán kiểm soát cho thấy thất bại ở AIW gốc khó có thể được giải thích chỉ bằng token hóa, phân tích ngôn ngữ tự nhiên, cấu trúc gia đình cơ bản, gán thuộc tính hay số học tiểu học

Prompt và quy trình đánh giá

Thí nghiệm sử dụng ba kiểu prompt chính để kiểm tra tác động của prompt engineering
- STANDARD: yêu cầu xuất đáp án cuối cùng ở dạng số tự nhiên
- THINKING: khuyến khích phong cách chain-of-thought bằng cách gợi mô hình suy nghĩ cẩn thận
- RESTRICTED: giới hạn không xuất gì ngoài đáp án cuối cùng là số tự nhiên
THINKING v2 là một biến thể nhỏ của THINKING, thêm cụm “step by step”, và trong thí nghiệm kiểm soát cho thấy xu hướng hiệu năng tương đương THINKING
Mỗi đầu vào có dạng <biến thể bài toán> <kiểu prompt>, và yêu cầu định dạng ### Answer: để dễ phân tích đáp án cuối cùng từ phản hồi của mô hình
- Các mô hình có thể tuân theo chỉ dẫn định dạng này
- Các thí nghiệm kiểm soát không có chỉ dẫn định dạng cũng được thực hiện, xác nhận rằng hành vi quan sát được không phụ thuộc vào định dạng đó
Với mỗi tổ hợp mô hình·biến thể bài toán·kiểu prompt, thu thập ít nhất 30 lần chạy
- Việc đúng/sai được diễn giải như một phép thử Bernoulli
- Ước lượng tỷ lệ đúng được tính bằng tỷ lệ thành công X/n
- Trung bình và phương sai của xác suất p được ước lượng, đồng thời dùng tham số phân phối Beta để trực quan hóa phân phối hiệu năng
Việc chọn mô hình nhắm tới các LLM SOTA tuyên bố có năng lực khái quát hóa và suy luận mạnh, cũng như xếp hạng cao trên các benchmark và leaderboard tiêu chuẩn
- Khi có thể, bao gồm từ quy mô nhỏ đến lớn trong cùng một họ mô hình
- Sử dụng truy cập API hoặc triển khai cục bộ dựa trên vLLM
- liteLLM và TogetherAI được dùng trong thí nghiệm
- Dữ liệu phản hồi thô, ước lượng tỷ lệ đúng và routine thí nghiệm được công khai để phục vụ khả năng tái lập và kiểm chứng của cộng đồng

Quá tự tin khi trả lời sai và đánh giá lại benchmark

Ở các biến thể AIW có tỷ lệ đúng thấp, đỉnh phân phối số tự nhiên được xuất ra đôi khi tập trung vào đáp án sai, nên khó giải quyết chỉ bằng bỏ phiếu đa số đơn giản
Câu trả lời sai thường đi kèm lời giải thích có vẻ hợp lý
- Mô hình tạo ra các câu thuyết phục để hậu thuẫn cho đáp án cuối cùng sai
- Giọng điệu tự tin rằng đó là đáp án đúng cũng xuất hiện
- Trong tình huống người dùng không thể dễ dàng kiểm chứng đáp án, các phản hồi như vậy có thể dẫn người dùng đến câu trả lời sai
Trong các thí nghiệm tương tác nhiều lượt và tự kiểm chứng, mô hình cũng không phát hiện đúng lỗi hay sửa đáp án sai
Các biện pháp can thiệp tiêu chuẩn như gợi dẫn quá trình suy nghĩ, yêu cầu rà soát lại, tái đánh giá nhiều bước không sửa một cách ổn định dao động tỷ lệ đúng và thất bại trên bài toán AIW
Có trường hợp mô hình đạt điểm cao trên benchmark tiêu chuẩn nhưng lại thể hiện hiệu năng với tỷ lệ đúng gần 0 trên các biến thể AIW đơn giản, cho thấy quy trình đánh giá hiện nay không phát hiện tốt lỗi khái quát hóa và suy luận
Cần đánh giá lại năng lực của các LLM SOTA hiện nay, đồng thời cần các benchmark tiêu chuẩn mới có thể nắm bắt những khiếm khuyết như vậy

1 bình luận

GN⁺ 2024-06-06

Các ý kiến trên Hacker News

Dành cho những ai đang phân vân có nên đọc bài báo hay không: PDF trông có vẻ dài, nhưng phần cốt lõi của nội dung chỉ khoảng 10 trang đầu, nên có thể đọc khá nhanh
Các ví dụ được dùng ở đây khá đơn giản với con người, nhưng nếu không suy nghĩ một chút thì rất dễ nhảy ngay đến kết luận sai
Điều thực sự gây khó chịu là, nhìn vào bản chất của các công cụ hiện nay, tôi không biết liệu có thể sửa vấn đề này một cách thực tế hay không. Chúng không suy luận hay suy nghĩ theo bất kỳ nghĩa nào, vậy mà đã được nhiều người chấp nhận như AI đa dụng
Việc chúng có thể giả vờ suy luận một cách khá thuyết phục trong nhiều tình huống cũng góp phần thổi bùng cơn sốt. Không rõ bài báo này có thực sự ảnh hưởng đến việc ra mắt và thổi phồng AI hay không, hay sẽ bị chôn vùi cho đến khi các rủi ro lại lộ ra, như khi Google Search được ra mắt
- Suy luận ở mức độ phức tạp nhất định cần độc thoại nội tâm và lặp lại. Trong tư duy loại 2, ta tạo ra và đánh giá trong đầu các lời giải, luận cứ và lộ trình suy luận khả dĩ, rồi chọn cái được xem là phù hợp hoặc đúng
  Có thể phần nào bắt chước điều này bằng cách dùng prompt để kéo quá trình suy nghĩ nội tâm đó ra bên ngoài, nhưng thực ra nó phải là một quá trình nội bộ và tự động
  Lý do ta vẫn chưa biết cách làm là vì việc điều khiển quá trình suy nghĩ nội bộ không nhất thiết dựa trên ngôn ngữ, và quá trình suy nghĩ bên trong bộ não sinh học không thể quan sát trực tiếp nên không thể dùng làm dữ liệu huấn luyện
  LLM hiện nay có vài điểm giống với chủ nghĩa hành vi, và có vẻ thứ ta thực sự cần là một cái gì đó có thể áp dụng tâm lý học nhận thức: https://en.wikipedia.org/wiki/Behaviorism
- Có thể có một lời giải khá đơn giản. Đó là yêu cầu mô hình tái cấu trúc bài toán bằng một ngôn ngữ logic như Prolog, rồi thay vì huấn luyện suy luận chuỗi đơn giản, cho chạy chương trình đó để đưa ra đáp án
  Con người cũng không đột nhiên tạo ra mô hình logic; chúng ta trải qua nhiều năm giáo dục tiểu học để học cách hiểu thế giới và giải quyết vấn đề
  Cách tiếp cận lập trình logic có vẻ hứa hẹn, nhưng để hoạt động đúng thì phải nạp cho LLM một lượng ví dụ khổng lồ, và hiện cũng chưa chắc có đủ dữ liệu huấn luyện như vậy hay không
- Với những người hiểu và sử dụng hệ thống này một cách phê phán, đây phần lớn là chuyện quá hiển nhiên. Thật nản khi phải cần đến một PDF trên arxiv.org chỉ để nói rằng nhà vua đang khỏa thân
  Phần lớn người dùng LLM, nếu muốn, có thể tự kiểm chứng điều này ngay bây giờ
  Nhưng sức mạnh của tuyên truyền công nghệ từ doanh nghiệp quá lớn, nên nhiều người thậm chí sẽ khăng khăng rằng con người vốn dĩ cũng chưa từng mặc quần áo
- Nếu suy nghĩ nghiêm túc LLM là gì, tôi không nghĩ nó có thể dẫn đến AI đa dụng. Đồng thời, nó cũng đã làm được nhiều việc hơn rất nhiều so với những gì ta từng dự đoán
  Có thể mọi người quá kinh ngạc trước những gì OpenAI đã làm, nên giờ đang cầu mong rằng chỉ cần đủ tính toán và đúng mô hình thì AGI sẽ xuất hiện
- Vấn đề là, nếu không có prompt, con người thường trả lời sai câu hỏi này đến mức nào. IQ trung vị là 100, và nếu tính cả những người không được huấn luyện logic hoặc có trình độ học vấn khác nhau, thì tỷ lệ đúng của con người có lẽ không gần 1.0 như các tác giả ám chỉ
  Việc LLM hoàn toàn không suy luận là khá rõ ràng, nên chuyện LLM không thể suy luận cũng không gây ngạc nhiên
  Ngược lại, xét việc chúng không có năng lực suy luận, việc chúng đạt hiệu năng như vậy trong các bài toán suy luận lại là điều đáng ngạc nhiên; khi kết hợp năng lực ngôn ngữ tự nhiên với một khả năng na ná suy luận hồi dẫn, vốn thường khó trong các mô hình tính toán, thì khó rút ra kết luận nào khác ngoài “GPT-4o thật ấn tượng”
Câu hỏi là: “Alice có 60 anh/em trai và 212 chị/em gái. Anh/em trai của Alice có bao nhiêu chị/em gái?” Trong bài báo, các con số được biểu diễn bằng X và N thay vì số cụ thể.
Thú thật là khi tự giải tôi đã sai, và chỉ xác nhận được đáp án sau khi đưa vào GPT-4o: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
Trong prompt thử nghiệm có ràng buộc “không xuất bất kỳ văn bản nào ngoài định dạng đáp án”, nên có vẻ như họ đã ngăn mô hình nói ra suy nghĩ của mình. Khi thêm câu đó, GPT-4o cứ trả lời sai: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
Ở các ví dụ phức tạp hơn, GPT-4o có vẻ sụp đổ, nhưng thành thật mà nói khó có thể khẳng định rằng bài đó thật sự đơn giản như vậy, hay đa số mọi người đều giải đúng.
- Trong bài báo, tất cả các con số đều nhỏ hơn 10.
  AIW Variation 1 là N=3, M=6, C=7; Variation 2 là N=4, M=2, C=3; Variation 3 là N=1, M=4, C=5; Variation 4 là N=4, M=1, C=2.
  Prompt ràng buộc chỉ là một trong nhiều biến thể prompt mà bài báo đã kiểm thử. Bài báo cũng thử các kỹ thuật phổ biến để tăng hiệu năng LLM, bao gồm cả “nói ra suy nghĩ”, nhưng ngay cả khi dùng các cách đó, mô hình vẫn không đưa ra được đáp án đúng.
- Đó chính là kiểu ràng buộc mà những người xem LLM là ngu ngốc thường làm.
  LLM càng nói nhiều thì càng thông minh hơn, vì việc xuất ra là cách duy nhất để nó tính toán.
  Điều này giống như nói rằng máy Turing không thỏa mãn luận đề Church–Turing vì nó không thể giải 3-SAT với N biến trong không quá N bước di chuyển. Khi yêu cầu LLM phải súc tích, về cơ bản là đang bắt nó làm chuyện như vậy.
- Có vẻ cần một cái tên cho hiện tượng mới này: khi ai đó nói LLM không làm được một tác vụ tầm thường, người khác lại tuyên bố rằng chính họ cũng không làm được tác vụ đó để bảo vệ tính chính đáng của LLM.
  Tôi khó tin rằng một người bình thường, nếu có đủ động lực để tìm đến cả ô nhập của ChatGPT, lại không trả lời đúng câu hỏi này.
- Tôi đã thấy những hệ thống như vậy thất bại nặng và đưa ra câu trả lời rất sai ngay cả khi được yêu cầu “nói ra suy nghĩ”.
  Ngoài ra, khi có định dạng phản hồi được kỳ vọng, không phải lúc nào cũng có thể nói ra suy nghĩ. Thực tế, điều này có vẻ giống bằng chứng rằng ở đây không thật sự có suy luận, mà gần với tự tham chiếu hơn.
  Tôi đã thử trực tiếp cùng prompt và yêu cầu nó nói ra suy nghĩ, thì nó trả lời rằng Alice có 212 chị/em gái.
- Đây là một điều kiện quan trọng, nên thật lạ là bài báo không nêu rõ nổi bật. Trong các thử nghiệm của tôi, ChatGPT 4o lần nào cũng giải được.
  Ngay cả với prompt kiểu “bị trói tay”, nó dường như vẫn hoạt động ổn. Tôi không rõ bài báo không chính xác, hay OpenAI đã điều chỉnh mô hình, nhưng khả năng sau có vẻ thấp.
  Tuy vậy, theo báo cáo thì 4o giải đúng câu đố này 60%. Tôi mới chỉ thử khoảng 12 lần và tất cả đều đúng, nên cần thử thêm.
Phần lớn các bộ dữ liệu “benchmark” dùng để đánh giá các LLM công khai lớn rõ ràng đã nằm trong dữ liệu huấn luyện, nên gần như vô dụng để kiểm chứng độ tin cậy của mô hình.
Cũng khá rõ rằng một phần mức tăng điểm của các thế hệ mô hình sau là do dữ liệu benchmark đó được đưa vào dữ liệu huấn luyện nhiều hơn.
Để đánh giá LLM tốt hơn, cần dùng các bài kiểm tra mới được tạo ra sao cho không có trong dữ liệu huấn luyện trước đó, rồi chờ vài tuần sau mới sử dụng.
Như đã thấy ở kỳ thi luật và nhiều loại kỳ thi khác, khi dùng dữ liệu ngoài mẫu thật sự trong tương lai, hiệu năng sụt giảm mạnh. Điều này khác với các benchmark ngoài mẫu giả hiện nay.
- MMLU không phải là benchmark về suy luận. Nó giống một chỉ số đo dữ liệu huấn luyện rộng và đại diện đến đâu, cũng như mô hình nhớ lại tốt thế nào dựa trên số epoch huấn luyện.
  GPQA và các bộ tương tự thì kiểm tra suy luận dưới một hình thức nào đó, và có thể thấy chênh lệch lớn giữa hai loại điểm trên mọi mô hình.
- Mỗi khi thấy MMLU được dùng làm benchmark, tôi lại tự hỏi họ đang cố chứng minh điều gì. MMLU chỉ là một bài trắc nghiệm đơn giản với đáp án đã công khai.
  Đoán ngẫu nhiên cũng được 25 điểm; nếu biết 50% đáp án và đoán phần còn lại thì được 62,5%, khá gần với điểm của các LLM hiện đại.
  Ngay cả những benchmark được cho là thể hiện suy luận cũng khá tệ và ít liên quan đến suy luận. Nhiều câu có thể trả lời bằng ghi nhớ.
  Tôi đồng ý rằng benchmark hiện rất lộn xộn. Tôi cũng từng nghĩ đến việc tự làm, nhưng trước hết phải xây một framework benchmarking phức tạp, nên khó dành thời gian cho phần chuẩn bị đó.
Ý tưởng rằng các bài toán chữ kiểu này và những bài khiến LLM mắc kẹt là “dễ giải với con người” cần có dữ liệu thực nghiệm.
Người trong ngành máy tính thích câu đố, và những bài này trông trực quan đối với họ.
Dưới cùng giới hạn thời gian như dành cho LLM, tỷ lệ công chúng phổ thông giải đúng câu đố này có thể thấp hơn nhiều so với dự đoán của các tác giả; trong trường hợp đó, LLM có thể đang ở cùng một phổ với suy luận ở mức con người.
Dĩ nhiên tôi cũng không có tài liệu để trích dẫn, nhưng người viết bài báo đâu phải tôi.
- Với tư cách một người có nền tảng giáo dục, tôi nghĩ GPT-4 có lẽ khá gần với kết quả của công chúng phổ thông ở bài này. Nhiều người sẽ bỏ lỡ AIW, và gần như tất cả sẽ bỏ lỡ AIW+.
  Tôi là người giải khá tốt dạng bài này mà với AIW+ vẫn cần khoảng 1 phút dùng giấy bút. Nó tương đương mức các câu khó nhất trong những kỳ thi như GRE.
  Tôi tự hỏi liệu các mô hình được huấn luyện trên dữ liệu của toàn bộ Internet có đang nắm bắt, theo một cách mờ nhạt nào đó, cách tiếp cận nhận thức của người trung bình hay không. Nếu người trung bình không nghĩ theo kiểu thao tác ký hiệu như thế và cũng không viết theo cách đó, thì mô hình được huấn luyện trên những văn bản ấy cũng có thể như vậy.
Gemini đã trả lời đúng câu “Alice có N anh/em trai và M chị/em gái. Anh/em trai của Alice có bao nhiêu chị/em gái?” mà không cần prompt bổ sung: https://g.co/gemini/share/6946d20c0a4d
Khi đưa số cụ thể vào thì Gemini bị rối: “Alice có 4 anh/em trai và 3 chị/em gái. Anh/em trai của Alice có bao nhiêu chị/em gái?” https://g.co/gemini/share/14d34dcdc5df
Nhưng khi được nhắc rằng đây có thể là câu hỏi bẫy, nó lại trả lời đúng: https://g.co/gemini/share/e1f1ce8f32a8
Tôi chưa thử phiên bản 60/212 anh chị em. Nếu Alice là một sinh vật giống con người thì giả định rằng cô ấy không có hàng trăm anh chị em là hợp lý, nên tôi cho rằng đây là câu hỏi không công bằng nếu kỳ vọng người trả lời đưa ra “đáp án đúng”
- Tôi đã quên mất Gemini. Vừa thử bài kiểm tra con thuyền của tôi, bài mà trước đây mọi LLM đều thất bại, và Gemini cũng thất bại: https://news.ycombinator.com/item?id=40455392
  Tôi hỏi: “Có một con dê và một chiếc thuyền bên bờ sông. Làm thế nào để sang bờ bên kia? Hãy suy nghĩ cẩn thận và lưu ý rằng đây có thể là câu hỏi bẫy”, và Gemini giải như một biến thể của bài toán người nông dân, sói, dê và bắp cải, tạo ra một quy trình thừa thãi để chở con dê qua sông
  Đáp án kỳ vọng chỉ cần kiểu “lên thuyền và qua sông” là đủ. “Đi qua bằng thuyền cùng con dê” cũng có thể chấp nhận được, nhưng câu hỏi không yêu cầu đưa con dê qua, nên nói nghiêm ngặt thì vẫn sai
- Chính phản ứng rằng không thể có hàng trăm anh chị em mới là vấn đề đối với lập luận rằng con người có “trí tuệ tổng quát”. Khi gặp tình huống ngoài phân phối, con người cũng bối rối
  Một trí tuệ tổng quát thật sự lẽ ra sẽ áp dụng kiến thức rằng chi phí mang thai hộ khoảng 50.000 USD và bối cảnh lịch sử của IVF, giả định một cặp vợ chồng tỷ phú đã quyết định có hàng trăm con, rồi tiếp tục tính toán
  Cuộc tìm kiếm sự sống thông minh vẫn tiếp diễn
- GPT-4o trả lời đúng câu đố trừu tượng. Khi tôi thử, Gemini trả lời sai
Bài báo thú vị, nhưng tôi lo rằng đây có thể là cherry-picking một kết quả âm tính gây ngạc nhiên. Có vẻ bài báo không bàn đến việc họ đã xem xét bao nhiêu đánh giá trước khi tìm ra trường hợp này
Nhìn chung, một số dạng thất bại của AI có thể xuất hiện ở những việc con người thấy hiển nhiên. Vì kiến trúc của chúng khác con người và điểm mạnh cũng khác
Câu hỏi quan trọng là liệu đây chỉ là một lỗi nhận thức kỳ lạ đơn lẻ trong cách diễn đạt quan hệ gia đình, hay đại diện cho một lớp lỗi nhận thức rộng hơn. Chỉ từ bài báo này thì khó nói
Việc đóng khung một bài toán logic có thể làm thay đổi rất lớn độ khó đối với con người, ngay cả khi cấu trúc so sánh nền là đẳng cấu, là điều đã được biết rõ
Hướng nghiên cứu này quan trọng, nhưng cần một tập đánh giá lớn hơn, và vấn đề dữ liệu đánh giá lọt vào quá trình huấn luyện sẽ luôn còn là yếu tố gây nhiễu
Ở đây, lớp suy luận rộng hơn, như bài báo nói, là suy luận quan hệ, nên nghiên cứu tiếp theo xem xét hiệu năng suy luận trên một tập các bài toán đẳng cấu sẽ rất thú vị. LLM hiện vẫn chưa mạnh về suy luận quan hệ nên có vẻ điều này sẽ khái quát hóa ở mức nào đó, nhưng riêng cách diễn đạt quan hệ gia đình dường như cũng có thứ gì đó đặc biệt khiến LLM bị rối
- Tôi nghĩ huấn luyện chống thiên kiến giới là điều tốt, nhưng cũng có cảm giác rằng các cách diễn đạt như thế này có “sister” và “brother” có thể gây tổn hại nhận thức
  Vì những câu hỏi đó có thể liên hệ với dữ liệu huấn luyện nơi đáp án đúng là từ chối khái quát hóa. Hoàn toàn chỉ là suy đoán
Khi hỏi trực tiếp GPT-4o, tôi nhận được kết quả còn thú vị hơn dự kiến
Prompt là: “Alice có 3 anh/em trai và 6 chị/em gái. Anh/em trai của Alice có bao nhiêu chị/em gái? Hãy giải từng bước”
Câu trả lời nói đúng rằng tổng số chị/em gái là 7 nếu tính cả chính Alice, nhưng cuối cùng lại kết luận rằng “mỗi anh/em trai không tính bản thân mình là chị/em gái, nên có 6 chị/em gái”
Trông giống một thất bại suy luận từng bước điển hình, khi phép tính ở giữa và kết luận mâu thuẫn với nhau
Bài toán AIW+ có những thông tin chưa biết nếu giải đúng theo nguyên văn
Sau khi các tác giả tạo ra hàng trăm bài toán quan hệ gia đình, có lẽ đáp án trông rõ ràng với họ, nhưng chỉ nhìn vào câu chữ thì không rõ Alice có anh/em trai hay không, cha có chị/em gái hay không, cháu của cô/dì/chú/bác có bao gồm quan hệ hôn nhân hay không, v.v.
LLM có lẽ vẫn sẽ thất bại ngay cả khi các đáp án như vậy được nêu rõ, nhưng có vẻ cùng một bài toán cũng có thể kết thúc bằng câu “Nếu Alice chỉ có 4 anh chị em họ thì điều đó có thể xảy ra như thế nào?”
Có một bài thuyết trình hay về vấn đề này: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
Điểm chính là LLM rất kém về lập kế hoạch và suy luận. Bạn có thể đưa ra quy tắc của một nhiệm vụ lập kế hoạch và yêu cầu kết quả, nhưng ngay cả khi logic đúng, độ chính xác của nó vẫn phụ thuộc nhiều vào thông tin ngữ nghĩa bổ sung chứ không chỉ vào các quy tắc trừu tượng
Trong bài thuyết trình, họ cho thấy điều này bằng cách ánh xạ các danh từ trong quy tắc và mô tả đầu vào của nhiệm vụ sang một miền hoàn toàn khác, và chỉ một phép thay thế đơn giản đã làm hiệu năng sụp đổ
LLM hiện nay phần lớn là các bộ khớp mẫu với năng lực khái quát hóa hạn chế
- Con người cũng sụp đổ ở những thứ như suy luận thống kê khi đổi miền. Tôi nhớ nghiên cứu tâm lý học tiến hóa của Leda Cosmides có đề cập điều đó, nhưng cũng có thể có thí nghiệm nổi tiếng hơn
Bài báo dễ thương, nhưng hơi lạ khi các tác giả nói như thể họ đã phát minh ra mẫu bài toán “Alice có N anh/em trai và M chị/em gái…”
Đây là một biến thể rất cơ bản của một câu đố phổ biến thường được hỏi LLM: https://news.ycombinator.com/item?id=39786666#39794890
74 ngày trước tôi cũng đã nhắc đến câu đố đó, và khi ấy tôi đã biết nó từ khá lâu rồi

Một bài toán đơn giản cho thấy sự sụp đổ suy luận ở các LLM mới nhất

Thất bại suy luận đơn giản được bộc lộ qua bài toán AIW

Tỷ lệ trả lời đúng dao động mạnh theo biến thể

Các nguyên nhân đơn giản đã bị loại trừ bằng bài toán kiểm soát

Prompt và quy trình đánh giá

Quá tự tin khi trả lời sai và đánh giá lại benchmark

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News