Hiểu giới hạn suy luận toán học của LLM

(arxiv.org)

2 điểm bởi GN⁺ 2024-10-13 | 1 bình luận | Chia sẻ qua WhatsApp

Chỉ dựa vào việc điểm GSM8K tăng là khó đánh giá năng lực suy luận toán học thực sự của LLM; GSM-Symbolic cho phép đánh giá được kiểm soát tốt hơn thông qua nhiều biến thể có cùng cấu trúc bài toán
Benchmark này chuyển các bài toán GSM8K thành mẫu ký hiệu, điều chỉnh tên, số và số lượng mệnh đề điều kiện, rồi tạo 50 mẫu cho mỗi mẫu шаблон từ 100 mẫu, cấu thành 5.000 ví dụ cho mỗi benchmark
25 mô hình công khai và đóng mới nhất cho thấy ngay cả khi cấu trúc bài toán giữ nguyên, chỉ cần thay số thì hiệu năng giảm và độ phân tán tăng; điểm gốc GSM8K của 21 trên 25 mô hình nằm ở phía bên phải phân phối GSM-Symbolic
Khi số mệnh đề điều kiện tăng lên, độ chính xác giảm và độ phân tán tăng; Gemma2-9B-it giảm từ 84,4% ở GSM-M1 xuống 41,8% ở GSM-P2, còn GPT-4o giảm từ 94,4% xuống 88,0%
Trong GSM-NoOp, nơi thêm các mệnh đề không liên quan nhưng có vẻ liên quan, hiệu năng của mọi mô hình đều giảm mạnh; Phi-3-mini thấp hơn 65,7 điểm phần trăm so với GSM8K, cho thấy mô hình không thể phân biệt ổn định giữa thông tin cần thiết và không cần thiết

Năng lực suy luận toán học khó đánh giá chỉ bằng GSM8K

GSM8K gồm hơn 8.000 bài toán và lời giải toán tiểu học, với 7.473 ví dụ huấn luyện và 1.319 ví dụ kiểm tra
Đây là bộ bài toán toán học tương đối đơn giản, chủ yếu xoay quanh bốn phép tính cơ bản, nên được dùng rộng rãi để đánh giá prompting Chain-of-Thought(CoT)
Với cấu trúc một tập kiểm tra cố định duy nhất, ta chỉ thu được một lần đo độ chính xác, nên khó kiểm soát và quan sát hành vi mô hình theo các biến thể câu hỏi hay thay đổi độ khó
Benchmark càng phổ biến thì khả năng nhiễm dữ liệu — tức ví dụ kiểm tra vô tình xuất hiện trong dữ liệu huấn luyện của mô hình — cũng càng lớn
GSM-Symbolic biến các bài toán GSM8K thành mẫu ký hiệu để tạo nhiều biến thể khác nhau, và đánh giá năng lực suy luận toán học của LLM bằng phân phối hiệu năng thay vì một điểm số đơn lẻ
Các mẫu GSM-Symbolic và dữ liệu sinh ra được công bố tại apple/ml-gsm-symbolic

Cách tạo mẫu và phương pháp đánh giá

GSM-Symbolic được tạo bằng cách chuyển các ví dụ cụ thể trong tập kiểm tra GSM8K thành các mẫu có thể phân tích cú pháp
- Chỉ định biến, miền giá trị của biến và các điều kiện đảm bảo đáp án đúng
- Do đặc tính bài toán toán tiểu học, các điều kiện như chia hết thường được dùng để bảo đảm đáp án là số nguyên
- Dùng các danh từ riêng thông dụng như tên người, món ăn, đơn vị tiền tệ để đơn giản hóa việc tạo mẫu
Sau khi tạo mẫu, dữ liệu trải qua nhiều bước kiểm tra tự động
- Kiểm tra xem các giá trị biến gốc có còn sót lại trong mẫu hay không
- Kiểm tra xem các giá trị gốc có thỏa mọi điều kiện hay không
- Xác minh đáp án cuối cùng được sinh ra có khớp với đáp án của bài toán gốc hay không
- Rà soát thủ công ngẫu nhiên 10 mẫu cho mỗi template
- Sau khi đánh giá tất cả mô hình, nếu có ít nhất 2 mô hình không giải đúng một bài nào đó thì bài đó sẽ được rà soát thủ công lại
Phạm vi số được điều chỉnh để gần với tập kiểm tra GSM8K gốc
- Mục tiêu là đánh giá năng lực suy luận logic, không phải bản thân khả năng số học
- Phân tích trong phụ lục xác nhận rằng phạm vi số mở rộng vẫn nằm trong ranh giới mà độ chính xác số học của mô hình được duy trì
Đánh giá bao gồm hơn 20 mô hình công khai từ 2B đến 27B, cùng các mô hình đóng mới như GPT-4o-mini, GPT-4o, o1-mini và o1-preview
Tổng cộng thực hiện khoảng 500 lượt đánh giá; thí nghiệm chính trong bài dùng benchmark gồm 5.000 ví dụ, với 100 template và 50 mẫu cho mỗi template
Trừ khi có nói riêng, cấu hình sử dụng 8-shot CoT và greedy decoding vốn thường dùng trong GSM8K và các benchmark toán học khác
- Trong thí nghiệm sơ bộ, số lượng shot không làm thay đổi đáng kể hiệu năng hay kết luận

Hiệu năng dao động ngay cả khi cùng cấu trúc bài toán

Trên 50 tập dữ liệu của GSM-Symbolic, mọi mô hình mới nhất đều cho thấy độ phân tán độ chính xác không thể xem nhẹ
- Gemma2-9B có chênh lệch hơn 12% giữa mức tệ nhất và tốt nhất
- Phi-3.5-mini có chênh lệch khoảng 15%
Khác biệt giữa từng instance câu hỏi chỉ nằm ở tên và số; toàn bộ các bước suy luận cần để giải bài vẫn giống nhau
Hiệu năng trên 100 bài gốc của GSM8K ở nhiều mô hình nằm lệch sang phải hơn 1 độ lệch chuẩn so với trung tâm phân phối hiệu năng GSM-Symbolic
- Hiện tượng này xuất hiện ở 21 trong số 25 mô hình
- Một cách giải thích khả dĩ là nhiễm dữ liệu, tức các ví dụ kiểm tra của GSM8K vô tình lọt vào dữ liệu huấn luyện, khiến hiệu năng được đo trở nên lạc quan hơn thực tế
Khi chuyển từ GSM8K sang GSM-Symbolic, hiệu năng của mọi mô hình đều giảm
- Mistral-7b-it-v0.1: -9,2 điểm phần trăm
- Gemma2-2b và Gemma2-2b-it: lần lượt -7,4 điểm phần trăm
- Gemma2-9b, Gemma2-9b-it, Mistral-7b-it-v0.3: mỗi mô hình -6,2 điểm phần trăm
- GPT-4o-mini: -2,4 điểm phần trăm, o1-preview: -2,2 điểm phần trăm
- o1-mini: -0,6 điểm phần trăm, GPT-4o: -0,3 điểm phần trăm
Những mô hình như Llama3-8b và GPT-4o, nơi hiệu năng trên GSM8K gần với trung tâm phân phối GSM-Symbolic, có mức sụt giảm nhỏ hơn

Nhạy với thay số hơn thay tên

Ngay cả khi chỉ đổi tên, hiệu năng vẫn biến động, nhưng độ phân tán nhỏ hơn so với khi thay số
Độ chính xác GSM8K gốc gần với trung tâm của phân phối chỉ đổi tên hơn
- Khi thay số hoặc thay cả tên lẫn số, trung bình phân phối dịch sang trái và độ phân tán tăng
Độ chính xác 8-shot CoT của Gemma2-9b-it là GSM8K 87,0%, đổi tên 88,6±2,0%, đổi số 83,1±2,2%, đổi cả hai 79,1±3,0%
Với Phi-3.5-mini-instruct là GSM8K 88,0%, đổi tên 89,1±1,8%, đổi số 84,9±2,4%, đổi cả hai 82,1±3,4%
Với Mathstral-7b-v0.1 là GSM8K 80,0%, đổi tên 81,0±1,3%, đổi số 77,3±2,0%, đổi cả hai 74,0±3,5%
Các kết quả này gợi ý rằng quá trình suy luận của LLM có thể gần với việc đối sánh mẫu từ những câu hỏi và các bước lời giải tương tự đã thấy trong dữ liệu huấn luyện hơn là suy luận hình thức

Điểm yếu bộc lộ khi tăng số mệnh đề và trong GSM-NoOp

Thí nghiệm độ khó dùng GSM-M1 khi bỏ đi một mệnh đề trong GSM-Symbolic, GSM-P1 khi thêm một mệnh đề, và GSM-P2 khi thêm hai mệnh đề
- Việc thêm hoặc bớt một mệnh đề không có nghĩa là số bước suy luận cần thiết sẽ chính xác tăng hoặc giảm đúng một bước
- Trọng tâm của thí nghiệm là cách phân phối hiệu năng thay đổi, hơn là con số chính xác tuyệt đối
Khi số mệnh đề tăng lên, hiệu năng trung bình của mọi mô hình đều giảm còn độ phân tán tăng
- Gemma2-9b-it: GSM-M1 84,4±2,4%, GSM-Symb 79,1±3,0%, GSM-P1 68,1±4,8%, GSM-P2 41,8±6,0%
- Phi-3.5-mini-instruct: 87,6±2,0%, 82,1±3,4%, 64,8±5,4%, 44,8±6,3%
- GPT-4o-mini: 92,5±1,6%, 91,7±2,0%, 81,1±3,1%, 72,4±4,6%
- GPT-4o: 94,4±1,6%, 94,9±1,9%, 93,9±2,6%, 88,0±3,4%
- o1-mini: 94,9±1,5%, 94,5±1,6%, 94,3±2,6%, 89,1±3,6%
GSM-NoOp là tập dữ liệu thêm vào template GSM-Symbolic các mệnh đề trông có liên quan nhưng thực ra không cần cho việc giải bài
- Trong ví dụ, thông tin “5 quả kiwi hái vào Chủ nhật nhỏ hơn mức trung bình một chút” không ảnh hưởng đến việc tính tổng số kiwi
- o1-mini và Llama3-8B lại biến 5 quả này thành phép trừ khỏi sản lượng thu hoạch Chủ nhật và đưa ra đáp án sai
Các mô hình có xu hướng chuyển câu văn thành phép toán hơn là bỏ qua chúng dựa trên ý nghĩa
- Cũng quan sát thấy các trường hợp diễn giải những từ như “discount” thành phép nhân bất kể ngữ cảnh
Trên GSM-NoOp, hiệu năng của tất cả mô hình được thử đều giảm mạnh
- Phi-3-mini-128k-instruct: -65,7 điểm phần trăm so với GSM8K
- Phi-3-small-128k-instruct: -64,0 điểm phần trăm
- Gemma2-9b và Gemma2-9b-it: mỗi mô hình -63,0 điểm phần trăm
- Phi-3.5-mini-instruct: -62,5 điểm phần trăm
- GPT-4o-mini: -40,0 điểm phần trăm, GPT-4o: -32,0 điểm phần trăm
- o1-mini: -29,1 điểm phần trăm, o1-preview: -17,5 điểm phần trăm
Ngay cả trong thiết lập NoOp-Symb, nơi cung cấp 8 biến thể GSM-Symbolic của cùng một câu hỏi làm shot, hiệu năng vẫn chỉ nằm trong phạm vi độ lệch chuẩn
- Phi-3-medium-128k-instruct: GSM 87,3%, GSM-Symb 82,5%, GSM-NoOp 29,4%, NoOp-Symb 30,2%, NoOp-NoOp 22,6%
- Llama3-8b-instruct: GSM 76,0%, GSM-Symb 74,6%, GSM-NoOp 18,6%, NoOp-Symb 19,6%, NoOp-NoOp 19,2%
Trong thiết lập NoOp-NoOp, nơi cung cấp 8 bài GSM-NoOp khác làm shot, mức hồi phục hiệu năng cũng rất hạn chế
- Llama3-8B có hiệu năng bằng đúng NoOp gốc
- Phi-3 còn giảm nhẹ
Một số mô hình vốn có hiệu năng thấp trên GSM8K và GSM-Symbolic lại cho kết quả cao hơn trong NoOp-Symb
- Gemma2b: GSM 12,1%, GSM-Symb 8,2%, GSM-NoOp 4,7%, NoOp-Symb 48,3%, NoOp-NoOp 3,1%
- Mistral-7b-v0.1: GSM 44,5%, GSM-Symb 41,1%, GSM-NoOp 16,2%, NoOp-Symb 62,5%, NoOp-NoOp 14,5%
Kết quả tổng thể cho thấy suy luận toán học của LLM dễ tổn thương trước các biến thể của cùng một bài toán, mức tăng độ khó nhỏ, và việc thêm thông tin không liên quan; nó có thể gần với đối sánh mẫu mang tính xác suất hơn là suy luận chặt chẽ

1 bình luận

GN⁺ 2024-10-13

Các ý kiến trên Hacker News

Tôi sẽ không khẳng định mạnh rằng LLM thực sự suy luận, nhưng kiểu suy giảm hiệu năng của chúng khá giống những gì thấy ở sinh viên năm nhất đại học
Hiện tôi đang dạy giải tích, và gần một nửa lớp là những sinh viên đã học AP Calculus ở trung học; các em giải tốt những bài đơn giản, nhưng nếu phải nối nhiều bước lại với nhau, dù mỗi bước đơn giản, thì độ chính xác giảm và độ dao động tăng lên
Khi đưa các câu không liên quan vào đề bài, kết quả cũng tương tự. Nhiều học sinh được rèn rằng phải dùng toàn bộ thông tin được cho, nên dễ nghĩ rằng nếu bỏ qua thông tin giáo viên đưa ra thì mình đã bỏ sót điều quan trọng
Vì vậy tôi cho rằng các LLM mới nhất như GPT-4o thể hiện ở mức tương đương một học sinh tốt nghiệp trung học trung bình ở Mỹ. Xét về năng lực con người thì điều này gây thất vọng, nhưng với LLM thì đây cũng là tín hiệu tốt rằng chúng đã có thể giúp được nhiều người
- Khi LLM trả lời đúng, điều đó gần với việc mô hình kéo ra đáp án đúng bên trong nó theo xác suất, nhờ lượng thông tin khổng lồ đã hấp thụ trong quá trình huấn luyện
  Con người không cần đọc 1 tỷ bài toán và câu trả lời trên Stack Overflow; chỉ với vài lời giải thích, video YouTube và một số bài luyện tập, chúng ta đã phát triển được cách tinh vi hơn để xử lý dữ liệu và suy luận
  Việc điểm số trong các lĩnh vực như toán trung học trông tương tự nhau có thể là vì AI hiện tại và con người tình cờ đang đứng ở cùng một điểm. Nếu xem kỹ các kiểu thất bại, hai bên thất bại rất khác nhau, và thất bại của AI hiện nay trông khá vô lý đối với con người
- Nhận định “các LLM mới nhất như GPT-4o ở mức tương đương một học sinh tốt nghiệp trung học trung bình ở Mỹ” có thể đúng theo nghĩa chặt chẽ, nhưng sự khác biệt trong cách LLM và học sinh tốt nghiệp trung học được sử dụng là rất quan trọng
  LLM trả lời với cùng một mức tự tin cả khi đúng lẫn khi sai, và thường được trình bày cho người dùng như thể không có gì để bắt bẻ
  Nếu hỏi một người bình thường một bài logic độ khó trung bình, con người đã được xã hội hóa rằng mình yếu về logic nên sẽ nghi ngờ câu trả lời một cách phù hợp. Ngược lại, LLM nằm trên máy tính, mà máy tính từ lâu được tiếp nhận qua giao diện như thứ luôn đúng trong toán học và logic
  Vì vậy tôi nghĩ LLM có khả năng dẫn dắt sai nhiều người hơn là giúp được nhiều người
- Tôi tò mò liệu có phải vì đề thi trung học quá đơn giản, hay vì dữ liệu huấn luyện có quá nhiều mẫu tương tự
  Khi đưa vào những bài đơn giản nhưng mới, đòi hỏi hiểu thật sự các khái niệm toán cơ bản, kết quả vẫn liên tục tệ, và với các bài ở mức kỳ thi tuyển sinh trung học phổ thông của Trung Quốc cũng vậy
  LLM dường như không hiểu toán mà đang khớp mẫu, và kiểu khớp mẫu đó có thể chỉ hữu ích với những học sinh vốn đã có năng lực
- Tôi không hiểu vì sao đến giờ mọi người vẫn nhầm lẫn. Các mô hình này về căn bản đặt tham số ngẫu nhiên để tránh đầu ra tất định, nhằm trông như thể chúng thực sự đang suy nghĩ, nên việc không có suy luận diễn ra dường như là điều rõ ràng
- Tôi không có ý hạ thấp hệ thống trường học ở Mỹ, nhưng tôi thấy nó khá gần với chế độ dễ. Không phải ai cũng cần xuất sắc về học thuật, nhưng học khi còn nhỏ thì dễ hơn, và tôi tin rằng việc dắt tay quá mức sẽ làm hại việc học
Bài báo này cho thấy khi thêm thông tin không liên quan, hiệu năng của LLM trong các bài toán đại số cơ bản giảm mạnh
Ví dụ là những bài như: “John hái 43 quả kiwi vào thứ Hai, 24 quả vào thứ Ba, và trong số kiwi hái vào thứ Tư có 5 quả nhỏ hơn bình thường. Nếu tổng cộng trong thứ Hai, thứ Ba và thứ Tư anh ấy hái được 87 quả, thì thứ Tư anh ấy hái được bao nhiêu quả?”
Việc một số quả kiwi hôm thứ Tư nhỏ hơn là không liên quan, nhưng chỉ cần thêm câu như vậy thì hiệu năng trên benchmark nổi tiếng, với GPT-4o, giảm từ 95% xuống 77%
Tuy vậy điều này không quá ấn tượng. Ngay cả con người khi đọc bài như vậy cũng phải cân nhắc hai khả năng: đó có thể là thông tin không liên quan, hoặc đề bài được viết sai và ban đầu người ra đề định dùng thông tin đó theo cách có liên quan
Khi thấy các câu bẫy LLM đảo ngược những câu đố logic nổi tiếng, tôi nghĩ bản thân mình cũng có thể “sai”. Không phải vì không hiểu đề, mà vì nếu thiếu ngữ cảnh thì có thể giả định phần đảo ngược đó là lỗi gõ nhầm
- Việc cài những cái bẫy nhỏ như vậy là một chiến thuật trong giáo dục toán và vật lý để kiểm tra xem học sinh có thật sự hiểu bài mới hay chỉ máy móc làm theo cấu trúc bề mặt của bài trước
  Luận điểm ở đây là LLM không suy luận mà trả lời một cách máy móc như quay tay nắm
  Bài này xuất hiện trong bài kiểm tra toán lớp 6 cũng không có gì lạ. Tôi nhớ rất rõ mình đã được học kỹ năng phân biệt thông tin thực sự liên quan đến câu hỏi trong bài toán có lời văn với thông tin mồi nhử do giáo viên đưa vào
- Trong diễn ngôn thực tế, có rất nhiều thông tin không liên quan lẫn vào vì đủ mọi lý do
  Có những bối cảnh hẹp, như học thuật hay lĩnh vực chuyên môn, nơi câu hỏi được nêu cẩn trọng và cụ thể, nhưng nếu là công cụ trợ giúp đa dụng thì nó phải tìm được cái liên quan giữa những thứ không liên quan
  Khả năng giải tốt các bài toán được định nghĩa rất rõ có thể hữu ích như một công cụ hỗ trợ cho một lĩnh vực cụ thể, nhưng bản thân nó không phải là cùng một năng lực
  Nếu một dự án AI đang đặt cược 100 tỷ đô la vào việc đạt AGI, thì việc đánh đồng các bối cảnh này sẽ có lợi. Trong trường hợp đó, đào sâu vào các bài dạng hình thức như SAT, LSAT, GRE gần với việc tối ưu cho microbenchmark hơn là cho các trường hợp sử dụng thực tế
- Phân biệt thông tin không liên quan là kỹ năng được dạy ngay từ bậc tiểu học và cũng cần trong SAT
  Trên thực tế, gần như bất kỳ loại mô hình nào, dù không phải LLM hay học máy, cũng phải lọc bỏ thông tin không liên quan
  Điểm cốt lõi là đưa ra câu trả lời có thể bảo vệ được về mặt logic và được đa số đồng ý. Nếu mô hình nói “tôi không chắc phần này có phải lỗi gõ nhầm không”, thì những người tạo mô hình hẳn đã định hướng RLHF khác đi. Bởi vì điều đó ở một mức độ nào đó là hợp lý và có thể bảo vệ được
  Tuy nhiên tôi cho rằng bài cụ thể này có một đáp án khách quan duy nhất. Dĩ nhiên các prompt gây hiểu lầm hoặc không liên quan không phải lúc nào cũng như vậy, nhưng xét theo cách phản hồi thì mô hình thực sự đang bị lừa
  Tôi nhìn nhận như vậy vì với tư cách người làm RLHF, thỉnh thoảng tôi được yêu cầu viết các câu hỏi tương tự. Rốt cuộc đây chính là cách dự đoán ngôn ngữ mà nhà sản xuất mô hình muốn, và người dùng thì đi theo dòng chảy đó
- Tôi cho rằng kết quả này là hợp lý. Mô hình Transformer, thay vì thực hiện logic một cách tường minh, “đoán” câu trả lời bằng cơ chế chú ý dựa trên chuỗi đầu vào và tri thức đã học, và cuối cùng là dự đoán chuỗi văn bản
  Vì vậy nếu thêm ngữ cảnh không liên quan vào đầu vào, đầu ra rất có khả năng bị ảnh hưởng
  Cơ chế chú ý có thể vượt qua điều này, nhưng nếu không thì đây là một cái bẫy khá lớn đối với ứng dụng thực tế và độ tin cậy. Trong môi trường thực tế, nhiều khi không thể biết ngay thông tin nào là liên quan
  Nếu con người phải tự phán đoán nên đưa thông tin nào vào, và đầu ra cũng phụ thuộc vào phán đoán đó, thì tính hữu dụng của mô hình sẽ giảm đáng kể. Hiện tại nó vẫn hữu ích, nhưng mức mà các nhà đầu tư kỳ vọng dường như còn lớn hơn rất nhiều
- Khả năng lọc tín hiệu khỏi nhiễu quan trọng ngang, thậm chí có thể quan trọng hơn, khả năng rút ra kết luận từ tín hiệu, nên kết quả này là đáng chú ý
Kết quả này rất giống bài toán Alice in Wonderland từng được thảo luận vài tháng trước. Các tác giả của một bài báo khác nhìn nhận phê phán hơn nhiều và gọi đó là “sụp đổ suy luận hoàn toàn”
Cũng có thể xem vấn đề này phát sinh vì mô hình đang ở trạng thái trung gian giữa khớp mẫu và suy luận
Nếu khi thay đổi nhân vật, con số và cấu trúc câu trong đề mà kết quả khác nhau hơn 20 điểm phần trăm, thì tôi cho rằng khó có thể tin cậy các kết quả benchmark LLM liên quan đến toán học và suy luận
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- Có một ví dụ thú vị liên quan đến năng lực suy luận: https://x.com/colin_fraser/status/1834336440819614036
  “Một người đàn ông được đưa vào bệnh viện. Bác sĩ nhìn anh ta và kêu lên: ‘Tôi không thể phẫu thuật cho người này. Đây là con trai tôi!’ Làm sao điều đó có thể xảy ra?”
  Mọi LLM mà tôi thử, kể cả GPT o1-preview, đều trả lời sai câu này. Chúng giả định đây là câu đố phá vỡ định kiến giới rằng bác sĩ là nam, nhưng ở đây câu tiếng Anh dùng “he exclaims”, nên rõ ràng bác sĩ là nam; do đó không có mâu thuẫn, và người đàn ông đó có thể là cha của bệnh nhân
  Có vẻ LLM sai vì tìm rồi áp dụng một mẫu suy luận tương tự. Ngay cả khi được gợi dẫn thêm, nó vẫn tiếp tục mắc lỗi, và có lúc còn khẳng định đó có thể là quan hệ đồng giới
  Điều thú vị là khi ví dụ này xuất hiện trong luồng về O1, nhiều người trên HN cũng hiểu nhầm đề. Có lẽ con người cũng suy luận bằng cách tận dụng rất nhiều ví dụ trước đó, thay vì suy nghĩ từ đầu
- Claude-3.5 và o1-preview trả lời đúng bài này
  Trong câu “Alice có 3 anh/em trai và 2 chị/em gái. Anh/em trai của Alice có bao nhiêu chị/em gái?”, điểm mấu chốt là các anh/em trai tính cả chính Alice là chị/em gái, ngoài 2 chị/em gái của Alice, nên đáp án là tổng cộng 3 người
- Thảo luận lớn hơn trên HN về bài báo Alice in Wonderland nằm ở đây
  https://news.ycombinator.com/item?id=40585039
Cũng có thể có một nguyên nhân đơn giản hơn cho nhận định rằng “càng nhiều mệnh đề trong câu hỏi thì hiệu năng suy luận toán học càng giảm mạnh, và LLM hiện tại không thực sự suy luận logic”: token hóa
Khi token hóa “12345 * 27271”, nó bị tách thành kiểu “123”, “45”, “ *”, “ ”, “272”, “71”
Trong ngữ cảnh số học đơn giản, khả năng thống kê để các token như vậy dự đoán lẫn nhau gần như không có ý nghĩa
Có thể xem đây là điểm cần dùng công cụ, và tôi cũng đồng ý theo hướng đó, nhưng khó coi đây là tín hiệu tốt cho “suy luận logic thực sự”
- Nanda và cộng sự đã khôi phục thành công cơ chế chính xác mà Transformer học để thực hiện phép cộng modulo
  Sau cùng, với Transformer thì dữ liệu huấn luyện là cốt lõi, và chúng ta sẽ ngày càng học được rằng thứ tự cho mô hình học dữ liệu quan trọng đến mức nào. Nhưng rõ ràng Transformer có thể mã hóa một lời giải tổng quát hóa cho số học
  Với cách token hóa và quy trình huấn luyện phù hợp, có thể tạo ra một LLM có năng lực số học vững chắc về mặt thống kê. Dù vậy, tôi vẫn sẽ không tin một mô hình xác suất hơn sự chắc chắn mang tính thuật toán của máy tính bỏ túi; nhưng điều quan trọng hơn với nhà toán học là liệu các mô hình này có thể giúp suy luận về những vấn đề phức tạp và tận dụng sức mạnh thống kê của các trọng số để mở ra các lĩnh vực mới cho những bài toán khó hay không
  https://arxiv.org/abs/2301.05217
- Xin phép không đồng ý. Đúng là token hóa ảnh hưởng đến cách mô hình ngôn ngữ xử lý đầu vào, nhưng quy hết khó khăn của suy luận toán học cho token hóa thì quá đơn giản hóa
  Các mô hình ngôn ngữ hiện đại không chỉ dựa vào dự đoán từng token riêng lẻ, mà xây dựng biểu diễn ngữ cảnh qua nhiều lớp. Nếu không thì, ngoại trừ những trường hợp cực kỳ đơn giản, bản thân việc mô hình hoạt động được đã là bất khả thi
  Lý do hiệu năng giảm khi độ phức tạp tăng có thể là những yếu tố khác như giới hạn của bộ nhớ làm việc hoặc phạm vi chú ý, khó duy trì tính nhất quán trong chuỗi dài, và khó quản lý đồng thời nhiều ràng buộc logic phụ thuộc lẫn nhau
  Dù sao thì tôi nghĩ mô hình o1 của OpenAI hiện đang làm toán rất tốt. Cách tiếp cận chuỗi suy nghĩ lặp lại và do mô hình dẫn dắt dường như xử lý được cả những bài khá phức tạp
- Nếu chỉ thay đổi token hóa một chút, chẳng hạn ánh xạ một chữ số thành một token, liệu có giúp được bài toán cụ thể này không?
- LLM hẳn cũng biết rằng “123” và “45” nối tiếp nhau là một con số. Giống như con người vẫn hiểu đó là một số khi ai đó nói “123”, dừng rất ngắn rồi nói “45”
Thật khó hiểu sự khờ dại của thế giới hiện tại. Việc thị trường chứng khoán đang bong bóng, đặc biệt là cổ phiếu liên quan đến AI đang là một bong bóng khổng lồ, trông quá rõ ràng
Dù khi vỡ sẽ rất xấu xí, tiền vẫn tiếp tục đổ vào. Như Sabine đã nói, nó ngày càng giống cảnh vật lý hạt chỉ đòi các máy va chạm lớn hơn. Nếu phương pháp luận đã sai, phóng to máy va chạm cũng không tạo thêm lợi nhuận có ý nghĩa
Cuối cùng lượng tiền mặt khổng lồ theo cấp số nhân để đổ vào sẽ cạn, và nhà đầu tư sẽ bắt đầu đặt câu hỏi. Cổ phiếu đã được định giá hơn 60 lần lợi nhuận, và chắc chẳng ai muốn là người mua ở đỉnh khi bong bóng vỡ
Sẽ mất thêm thời gian để công chúng nhận ra vấn đề của LLM, nhưng rốt cuộc điều đó sẽ xảy ra
- Các dự đoán về scaling từ 5 năm trước đến nay vẫn đúng. Tham số và lượng tính toán tiếp tục tăng, và mô hình tiếp tục mạnh hơn
  Bản thân các khiếm khuyết của LLM năm 2024 không phải điều quan trọng. Cũng như các khiếm khuyết của LLM năm 2021 từng không quan trọng; điều quan trọng là tốc độ thay đổi và việc thiếu bằng chứng cho thấy đà tăng dốc này sẽ không tiếp tục
  Đặc biệt nếu xem GPT-4 là một mô hình xem trước kiểu nào đó đã thúc đẩy đầu tư khổng lồ, thì những mô hình được khoản đầu tư đó đẩy mạnh sẽ bắt đầu xuất hiện trong vòng 2 năm tới
  Nếu xu hướng bị phá vỡ và scaling thất bại, tôi nghĩ bong bóng sẽ xì đi rất nhiều
  https://arxiv.org/pdf/2001.08361
- Máy tính đã có thể tính toán toán học và suy diễn logic một cách rẻ và hoàn hảo từ hàng chục năm trước, và để AI tạo sinh hữu ích thì nó cũng không nhất thiết phải tự làm tốt việc đó
  Chỉ cần nó có thể viết và chạy mã Python để xử lý là đủ, và nhìn chung nó làm việc đó khá tốt
  Việc nó có thực sự làm được hay không là một câu hỏi thú vị về mặt học thuật, nhưng tách biệt với chuyện có hữu ích hay không. Để hữu ích, nó cũng không nhất thiết phải là AGI thực sự
Có nhiều tranh luận về việc các mệnh đề không liên quan có làm LLM bối rối hay không, và điều đó có quan trọng không, nhưng tôi cho rằng phần chí mạng hơn là đoạn này: “Trong benchmark GSM-Symbolic, chỉ cần thay đổi các giá trị số trong câu hỏi là hiệu năng của mọi mô hình đều giảm”
Điều này trông giống bằng chứng khó phản bác của overfitting. Nhìn tích cực thì nó có nghĩa là overfitting đang lan rộng trong các LLM hiện tại nói chung; nhìn tiêu cực thì nó đang che giấu một giới hạn căn bản rằng mô hình không học được suy luận toán học từ dữ liệu huấn luyện
Rất thú vị, và cũng phù hợp với dự đoán về loại “suy nghĩ” mà LLM thực hiện
Tôi nghĩ chỉ với loại “suy nghĩ” này cũng có thể qua được hầu hết các môn học ở trường. Tất nhiên ngoại trừ những môn mà giáo viên kỳ công ra đề thi khó giải bằng matching mẫu
Nếu nghĩ đến các bài phỏng vấn kiểu LeetCode, nó giống khác biệt giữa những bài tốt hơn hoặc tệ hơn để đánh giá ứng viên
Tôi cũng biết nhiều người đang làm việc chăm chỉ để thêm các dạng tư duy khác hoạt động cùng với mô hình ngôn ngữ thuần túy
Tôi cũng kiểm tra LLM theo cách tương tự. Ví dụ câu đố logic nổi tiếng về người nông dân đưa bắp cải, dê và sói qua sông đã được giải từ thời GPT-2, nhưng nếu đổi sói thành bò thì gpt-o suy luận đúng các quy tắc của câu đố nhưng lại không giải được
- Câu đố qua sông rất hay để cho thấy LLM sụp đổ như thế nào
  Ví dụ tôi đã thử nhiều biến thể với Gemini, trong đó có cả phiên bản dễ không có ràng buộc rằng thuyền của người nông dân chỉ chở được một hành khách hoặc một món đồ mỗi lần
  Khi hỏi “Người nông dân có vợ/chồng, một con gà, một bắp cải và một em bé, tất cả phải qua sông bằng thuyền. Cách tốt nhất là gì?”, trong các bài test, LLM hầu như luôn giả định rằng thuyền có giới hạn tải và tạo ra một lời giải kỳ quặc với nhiều chuyến qua lại
- Nếu tự tạo một trò chơi logic hoàn toàn mới, chưa từng được ghi chép ở đâu, rồi yêu cầu LLM giải thì sẽ thế nào? Với một người không chuyên như tôi, đó có vẻ là cách tốt để đo khả năng suy luận của AI
- Mỗi lần thử một LLM mới, tôi đều dùng câu này làm câu hỏi đầu tiên, và tôi khá chắc các mô hình trước GPT-4 hầu như chưa từng đến gần đáp án đúng. Có thể cho xem prompt mà GPT-2 hoặc 3 giải được không?
- Rốt cuộc nghĩa là nó chỉ là Google hào nhoáng mà thôi
Sẽ rất thú vị nếu có thể mở rộng công việc này để chỉ ra cả giới hạn suy luận toán học của động vật và con người
Ví dụ, cũng như chó tuyệt đối không thể hiểu biến đổi Fourier, rất có khả năng cũng có những ý tưởng mà con người không thể hiểu được
Nếu có thể biết được giới hạn của mình, tôi tò mò liệu ta có thể tạo ra những cỗ máy suy luận theo những cách mà con người không làm được hay không
- Bản thân việc cho rằng những giới hạn như vậy thực sự tồn tại có thể là một giả định ngây thơ. Ở đây, “tồn tại” nghĩa là những giới hạn hữu ích vì có thể được giải thích một cách nhất quán và tương đối đơn giản
  Trong ngôn ngữ học, người ta cũng đã khám phá ý tưởng tương tự qua Noam Chomsky, cố gắng vạch ra những giới hạn rõ ràng và được hình thức hóa của sự hiểu biết để cho thấy năng lực của con người khác động vật ra sao
  Cá nhân tôi cho rằng cách tiếp cận đó đã thất bại đến mức hoàn toàn không thể cứu vãn, nhưng bản thân nghiên cứu thì không phải là vô ích
Với những ai từng làm việc với suy luận hình thức, đây không phải là kết quả đáng ngạc nhiên. LLM không thực hiện suy luận logic thực sự theo nghĩa hình thức, và SMT solver có thể làm tốt hơn
Đồng thời, nếu dữ liệu huấn luyện là gần như toàn bộ mọi văn bản đã được tạo ra cho đến nay, thì chỉ cần áp dụng các “bước suy luận” xuất hiện trong dữ liệu huấn luyện cũng có thể giải được nhiều bài toán logic
Cả hai điều có thể cùng đúng và đó không phải là mâu thuẫn, mà là một sự phân đôi thú vị

Hiểu giới hạn suy luận toán học của LLM

Năng lực suy luận toán học khó đánh giá chỉ bằng GSM8K

Cách tạo mẫu và phương pháp đánh giá

Hiệu năng dao động ngay cả khi cùng cấu trúc bài toán

Nhạy với thay số hơn thay tên

Điểm yếu bộc lộ khi tăng số mệnh đề và trong GSM-NoOp

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News