1 điểm bởi GN⁺ 2025-01-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Giới thiệu benchmark Putnam-AXIOM

    • Putnam-AXIOM là một benchmark thử thách nhằm đánh giá khả năng suy luận toán học của các mô hình ngôn ngữ lớn (LLM).
    • Bao gồm 236 bài toán cùng lời giải từng bước của cuộc thi toán học William Lowell Putnam.
    • Để ngăn chặn ô nhiễm dữ liệu, nhóm tạo benchmark Putnam-AXIOM Variation bằng cách áp dụng biến đổi chức năng cho 52 bài toán.
    • Các yếu tố của bài toán (biến, hằng số, v.v.) được thay đổi theo lập trình, cho phép tạo ra vô hạn bài toán mới chưa từng xuất hiện trực tuyến.
  • Ý nghĩa của benchmark và kết quả

    • Đa số mô hình có độ chính xác giảm đáng kể trên các bài toán đã biến đổi so với bài toán gốc.
    • Mô hình o1-preview của OpenAI đạt 41,95% độ chính xác trên Putnam-AXIOM Original, nhưng đã giảm khoảng 30% trên tập dữ liệu đã biến đổi.
  • Phản hồi của reviewer

    • Reviewer 9XA: benchmark được thiết kế để giảm thiểu nhiễu trong bước công thức hóa bài toán, kiểm tra tính tương đương của câu trả lời, v.v., nhưng mức ngăn chặn ô nhiễm có thể chưa đủ. Việc áp dụng biến đổi chức năng chỉ cho 53 bài toán có thể làm giảm sức mạnh đánh giá.
    • Reviewer krr4: tập dữ liệu gồm 236 ví dụ nên có thể chưa đủ thuyết phục về mặt benchmark. Hầu hết các mô hình đều có độ chính xác thấp, vì vậy mức độ khó cần được phân cấp rõ ràng hơn.
    • Reviewer Nbvs: đây là đóng góp tốt khi cung cấp một bộ đề thử thách để đánh giá khả năng giải toán. Việc biến đổi bài toán có thể là chiến lược hữu ích để giảm rò rỉ dữ liệu trong hệ thống chấm điểm kiểu hộp hiện tại.
    • Reviewer MsMi: đây là benchmark suy luận khó mới, ngay cả mô hình mạnh cũng không thực hiện tốt trên đó. Việc yêu cầu lệnh \boxed{} làm hạn chế tính biểu đạt của benchmark.
  • Câu hỏi và đề xuất bổ sung

    • Câu hỏi về số lượng bài toán bị chấm sai do không sử dụng đúng lệnh \boxed{}.
    • Câu hỏi về việc chỉnh sửa liên tục để duy trì một tập dữ liệu mà không có mô hình nào có thể ghi nhớ.

1 bình luận

 
GN⁺ 2025-01-02
Ý kiến trên Hacker News
  • Có ý kiến cho rằng hồi trước ChatGPT từng trả lời đúng một câu hỏi kiểu “Cái nào nặng hơn, 10 pound lông hay 10 pound gạch?”. Tuy nhiên, khi bài toán được chỉnh sửa nhẹ, hiệu năng lại giảm đi.

    • Ví dụ, nó đã đưa ra câu trả lời sai cho câu hỏi kiểu “Cái nào nặng hơn, 10.01 pound bông hay 9.99 pound thép?”.
    • Để phân tích năng lực thật của mô hình, cần phải thoát khỏi dữ liệu đào tạo.
  • Có ý kiến mong muốn một thử nghiệm được huấn luyện bằng toàn bộ dữ liệu số hóa trước năm 1905 và hỏi về công thức tương đương khối lượng-năng lượng.

    • Người ta kỳ vọng điều này có thể giải quyết tranh luận liệu nhận diện mẫu có phải là một hình thức trí tuệ hay không.
  • Có ý kiến cho rằng hiệu năng làm việc thực tế của LLM tương tự kiểu học tủ của sinh viên cho các kỳ thi phong cách châu Á.

    • Chỉ là khả năng lặp lại một cách hoàn hảo mà không thực sự hiểu ý nghĩa.
  • Có ý kiến cho rằng chỉ cần chỉnh nhẹ đầu vào, mô hình có thể quay trở lại câu hỏi dự kiến và tạo ra câu trả lời sai.

    • Hướng dẫn mô hình đánh giá một vấn đề theo nhiều góc nhìn và rút ra kết luận có thể cho phản hồi tốt hơn.
  • Có ý kiến cho rằng LLM vẫn rất xuất sắc trong việc giải các bài toán toán học và lập trình thi đấu cực khó.

    • Nhưng nó xử lý tốt hơn các bài toán đã từng gặp trước đây.
  • Có ý kiến cho rằng có phải bí mật hiển nhiên rằng mô hình đang bị hardcode cho các benchmark ngẫu nhiên.

  • Có ý kiến cho rằng việc tái cấu trúc vấn đề cũng có thể khiến con người bối rối.

    • Có người muốn xem hiệu quả của việc tái cấu trúc đối với các bài toán mới.
  • Có ý kiến cho rằng nó rất hiệu quả trong việc khớp mẫu, nhưng khi mẫu được thay đổi thì không hoạt động.

    • Nó được huấn luyện theo kiểu truyền thống, không có tính toán thời gian suy diễn hay Monte Carlo Tree Search.
  • Có ý kiến chỉ ra rằng OpenAI không tuyên bố hiệu năng trên một tập dữ liệu cụ thể.

    • Kết luận rằng hiệu năng tăng đột biến trên các câu hỏi có trong tập dữ liệu đó.
  • Có ý kiến cho rằng đã có cải thiện hiệu năng từ o1-preview lên o1, và mô hình đã trả lời đúng các câu hỏi được sửa đổi.

    • SOTA đang thay đổi rất nhanh