GSM-Symbolic: Hiểu giới hạn suy luận toán học của mô hình ngôn ngữ lớn
- Những tiến bộ gần đây của mô hình ngôn ngữ lớn (LLM) đã khơi dậy sự quan tâm đối với năng lực suy luận hình thức trong toán học.
- Benchmark GSM8K được sử dụng rộng rãi để đánh giá suy luận toán học của mô hình đối với các câu hỏi ở trình độ tiểu học.
- Hiệu năng của LLM trên GSM8K đã cải thiện đáng kể trong những năm gần đây, nhưng liệu năng lực suy luận toán học thực sự có tiến bộ hay không vẫn chưa rõ ràng.
- Để giải quyết vấn đề này, nghiên cứu đã thực hiện một khảo sát quy mô lớn trên nhiều mô hình mới nhất, cả mã nguồn mở lẫn đóng.
- Để khắc phục giới hạn của các cách đánh giá hiện có, nghiên cứu giới thiệu GSM-Symbolic, một benchmark cải tiến được cấu thành từ các mẫu ký hiệu cho phép tạo ra nhiều dạng câu hỏi khác nhau.
- GSM-Symbolic cho phép đánh giá được kiểm soát tốt hơn, từ đó cung cấp chỉ số đáng tin cậy hơn để đo lường năng lực suy luận.
- Kết quả nghiên cứu cho thấy LLM thể hiện mức biến động đáng kể khi trả lời các phiên bản khác nhau của cùng một câu hỏi.
- Đặc biệt, trên benchmark GSM-Symbolic, chỉ cần thay đổi giá trị số trong câu hỏi cũng làm hiệu năng của mọi mô hình suy giảm.
- Nghiên cứu cũng khảo sát tính dễ tổn thương trong suy luận toán học của các mô hình này, và cho thấy hiệu năng giảm mạnh khi số lượng mệnh đề trong câu hỏi tăng lên.
- Từ đó đưa ra giả thuyết rằng các LLM hiện nay chưa thể thực hiện suy luận logic thực sự, mà chủ yếu sao chép các bước suy luận từ dữ liệu huấn luyện.
- Khi thêm vào câu hỏi một mệnh đề có vẻ liên quan nhưng không đóng góp vào chuỗi suy luận cần thiết để đi đến đáp án cuối cùng, hiệu năng của mọi mô hình hiện đại đều giảm tới 65%.
Tóm tắt của GN⁺
- Nghiên cứu này giúp hiểu chi tiết hơn về năng lực và giới hạn suy luận toán học của mô hình ngôn ngữ lớn.
- Benchmark GSM-Symbolic cung cấp một công cụ giúp đánh giá chính xác hơn năng lực suy luận của mô hình thông qua nhiều dạng câu hỏi khác nhau.
- Nghiên cứu cho thấy LLM có xu hướng sao chép các bước suy luận từ dữ liệu huấn luyện hơn là thực hiện suy luận logic thực sự.
- Một số benchmark khác được khuyến nghị để đánh giá năng lực suy luận toán học gồm có MATH, MATHQA, v.v.
1 bình luận
Ý kiến trên Hacker News