-
Giới thiệu benchmark Putnam-AXIOM
- Putnam-AXIOM là một benchmark thử thách nhằm đánh giá khả năng suy luận toán học của các mô hình ngôn ngữ lớn (LLM).
- Bao gồm 236 bài toán cùng lời giải từng bước của cuộc thi toán học William Lowell Putnam.
- Để ngăn chặn ô nhiễm dữ liệu, nhóm tạo benchmark Putnam-AXIOM Variation bằng cách áp dụng biến đổi chức năng cho 52 bài toán.
- Các yếu tố của bài toán (biến, hằng số, v.v.) được thay đổi theo lập trình, cho phép tạo ra vô hạn bài toán mới chưa từng xuất hiện trực tuyến.
-
Ý nghĩa của benchmark và kết quả
- Đa số mô hình có độ chính xác giảm đáng kể trên các bài toán đã biến đổi so với bài toán gốc.
- Mô hình o1-preview của OpenAI đạt 41,95% độ chính xác trên Putnam-AXIOM Original, nhưng đã giảm khoảng 30% trên tập dữ liệu đã biến đổi.
-
Phản hồi của reviewer
- Reviewer 9XA: benchmark được thiết kế để giảm thiểu nhiễu trong bước công thức hóa bài toán, kiểm tra tính tương đương của câu trả lời, v.v., nhưng mức ngăn chặn ô nhiễm có thể chưa đủ. Việc áp dụng biến đổi chức năng chỉ cho 53 bài toán có thể làm giảm sức mạnh đánh giá.
- Reviewer krr4: tập dữ liệu gồm 236 ví dụ nên có thể chưa đủ thuyết phục về mặt benchmark. Hầu hết các mô hình đều có độ chính xác thấp, vì vậy mức độ khó cần được phân cấp rõ ràng hơn.
- Reviewer Nbvs: đây là đóng góp tốt khi cung cấp một bộ đề thử thách để đánh giá khả năng giải toán. Việc biến đổi bài toán có thể là chiến lược hữu ích để giảm rò rỉ dữ liệu trong hệ thống chấm điểm kiểu hộp hiện tại.
- Reviewer MsMi: đây là benchmark suy luận khó mới, ngay cả mô hình mạnh cũng không thực hiện tốt trên đó. Việc yêu cầu lệnh
\boxed{}làm hạn chế tính biểu đạt của benchmark.
-
Câu hỏi và đề xuất bổ sung
- Câu hỏi về số lượng bài toán bị chấm sai do không sử dụng đúng lệnh
\boxed{}. - Câu hỏi về việc chỉnh sửa liên tục để duy trì một tập dữ liệu mà không có mô hình nào có thể ghi nhớ.
- Câu hỏi về số lượng bài toán bị chấm sai do không sử dụng đúng lệnh
1 bình luận
Ý kiến trên Hacker News
Có ý kiến cho rằng hồi trước ChatGPT từng trả lời đúng một câu hỏi kiểu “Cái nào nặng hơn, 10 pound lông hay 10 pound gạch?”. Tuy nhiên, khi bài toán được chỉnh sửa nhẹ, hiệu năng lại giảm đi.
Có ý kiến mong muốn một thử nghiệm được huấn luyện bằng toàn bộ dữ liệu số hóa trước năm 1905 và hỏi về công thức tương đương khối lượng-năng lượng.
Có ý kiến cho rằng hiệu năng làm việc thực tế của LLM tương tự kiểu học tủ của sinh viên cho các kỳ thi phong cách châu Á.
Có ý kiến cho rằng chỉ cần chỉnh nhẹ đầu vào, mô hình có thể quay trở lại câu hỏi dự kiến và tạo ra câu trả lời sai.
Có ý kiến cho rằng LLM vẫn rất xuất sắc trong việc giải các bài toán toán học và lập trình thi đấu cực khó.
Có ý kiến cho rằng có phải bí mật hiển nhiên rằng mô hình đang bị hardcode cho các benchmark ngẫu nhiên.
Có ý kiến cho rằng việc tái cấu trúc vấn đề cũng có thể khiến con người bối rối.
Có ý kiến cho rằng nó rất hiệu quả trong việc khớp mẫu, nhưng khi mẫu được thay đổi thì không hoạt động.
Có ý kiến chỉ ra rằng OpenAI không tuyên bố hiệu năng trên một tập dữ liệu cụ thể.
Có ý kiến cho rằng đã có cải thiện hiệu năng từ o1-preview lên o1, và mô hình đã trả lời đúng các câu hỏi được sửa đổi.