Góc nhìn của một nhà toán học về năng lực toán học của AI

(xenaproject.wordpress.com)

1 điểm bởi GN⁺ 2024-12-24 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ mới o3 của OpenAI đạt 25% trên bài benchmark toán khó FrontierMath, làm lung lay lại cách đánh giá liệu AI làm toán có thể vượt mức đại học hay không
FrontierMath là bộ dữ liệu kín do Epoch AI tạo ra, gồm hàng trăm bài toán khó đòi hỏi đáp án số có thể kiểm chứng tự động thay vì “chứng minh định lý”
5 mẫu công khai cũng không hề dễ ngay cả với các nhà toán học nghiên cứu; Tao đánh giá là “cực kỳ thách thức”, còn Borcherds cho rằng việc đưa ra đáp án số không đồng nghĩa với chứng minh sáng tạo
Elliot Glazer của Epoch AI cho biết 25% bài trong bộ là “bài kiểu IMO/đại học”, nên do tính chất bộ dữ liệu kín, rất khó xác nhận điểm 25% của o3 thực sự tương ứng với mức độ khó nào
Mục tiêu quan trọng hơn với giới toán học không phải là “hãy tìm con số này” mà là chứng minh định lý một cách đúng đắn và giải thích sao cho con người hiểu được; cách tiếp cận bằng mô hình ngôn ngữ và Lean có những giới hạn khác nhau

o3 và FrontierMath đã làm rung chuyển mốc chuẩn

o3 là mô hình ngôn ngữ mới của OpenAI và đạt 25% trên FrontierMath
Kể từ sau ChatGPT, các mô hình ngôn ngữ công khai đã cải thiện rất nhanh, và năng lực giải toán cũng được đánh giá trong dòng tiến bộ đó
FrontierMath là bộ dữ liệu bài toán toán học kín do Epoch AI tạo ra; phần tóm tắt bài báo nói rằng có “hàng trăm” bài toán khó
Nếu công khai bộ dữ liệu, mô hình ngôn ngữ có thể học cả đề lẫn đáp án, nên ngay cả thông tin cơ bản như số lượng bài cũng được xử lý rất thận trọng
- Nếu đề và đáp án bị lộ, mô hình có thể lặp lại đáp án đã từng thấy
- Vì vậy, rất khó để bên ngoài kiểm chứng độ khó thực tế và tính đại diện của một benchmark kín

Hình thức và độ khó của các bài trong FrontierMath

Các bài trong FrontierMath gần với dạng “hãy tìm con số này” hơn là “hãy chứng minh định lý này”
Bài toán phải có đáp án rõ ràng, tính toán được và có thể kiểm chứng tự động
Đáp án của cả 5 bài mẫu công khai đều là số nguyên dương
- Ví dụ có các đáp án 9811 và 367707
- Ba đáp án còn lại lớn hơn, được thiết kế để khó đoán trúng bằng đoán mò
Các mẫu công khai là không tầm thường ngay cả với nhà toán học nghiên cứu
- Tác giả đều hiểu phát biểu của cả 5 bài
- Bài thứ ba có thể giải tương đối nhanh; với bài thứ năm, tác giả biết cách giải bằng kỹ thuật chuẩn dùng Weil conjectures for curves nhưng không tính ra đáp án 13 chữ số
- Tác giả cho rằng không giải được bài một và bài hai; còn bài bốn có thể tiến triển nếu bỏ công sức, nhưng đã không thử mà đọc lời giải
Ngay cả một sinh viên đại học toán rất giỏi thông thường cũng có thể khó giải được bất kỳ bài nào trong số này
- Bài đầu tiên có lẽ đòi hỏi ít nhất trình độ nghiên cứu sinh về giải tích số

Ưu điểm và giới hạn của benchmark đáp án số

Lý do cốt lõi FrontierMath dùng các bài có đáp án số là chi phí chấm điểm
Nếu phải chấm hàng trăm lời giải dạng “hãy chứng minh định lý”, sẽ cần tới chuyên gia con người
- Tính đến năm 2024, việc giao mức chấm này cho máy vẫn bị xem là khó
Trong khi đó, một danh sách đáp án số có thể được máy tính đối chiếu rất nhanh
Borcherds cho rằng nhà toán học nghiên cứu dành phần lớn thời gian để tìm chứng minh và ý tưởng, chứ không phải con số
Dù vậy, FrontierMath vẫn có giá trị với lĩnh vực AI toán học
- Các bộ dữ liệu khó hiện rất khan hiếm
- Việc tạo ra những bộ dữ liệu như vậy là cực khó hoặc rất tốn kém
- Bài viết gần đây của Frieder và cộng sự bàn sâu hơn về giới hạn của các bộ dữ liệu AI toán học

Vì sao mốc 25% của o3 gây bất ngờ

Theo nhận thức trước đây, AI toán học vẫn gần với mức đại học hoặc trước đại học
AI đang trở nên rất mạnh ở các bài kiểu olympiad mà học sinh trung học xuất sắc giải được
Có thể thấy rõ rằng trong vòng 1 năm, AI sẽ vượt qua các kỳ thi toán đại học
- Đề thi đại học thường có những bài chuẩn hóa để sinh viên hiểu cơ bản môn học có thể vượt qua
- Máy có thể làm tốt những bài kiểu này
Nhưng bước nhảy từ việc tái sử dụng ý tưởng chuẩn sang những ý tưởng mới ở mức đại học nâng cao hoặc đầu nghiên cứu sinh là rất lớn
Các câu trả lời gần đây của ChatGPT cho kỳ thi Putnam không đạt kỳ vọng
- Có vẻ chỉ bài B4 được máy trả lời tương đối đúng
- Hầu hết các câu khác chỉ ở mức 1–2 điểm trên thang 10
Vì thế, FrontierMath từng được dự đoán là gần như không thể công phá trong vài năm tới

Sự bất định do bộ dữ liệu kín để lại

Elliot Glazer của Epoch AI nói trên Reddit rằng 25% bài trong FrontierMath là bài kiểu IMO/đại học
Điều này có vẻ không khớp lắm với 5 bài mẫu công khai
- Ngay cả bài dễ nhất trong số các mẫu công khai cũng có một cách giải dùng Weil conjectures for curves
- Hoặc có thể cần một cách brute force đau đớn để phân tích nhân tử một đa thức bậc ba có bậc 10^12 trên trường hữu hạn
Thông tin này làm dấy lên câu hỏi về độ khó thực của bộ dữ liệu kín và liệu 5 bài công khai có phải mẫu đại diện hay không
Vì bộ dữ liệu không công khai, những nghi vấn này rất khó kiểm tra
Nếu 25% là các bài ở mức đại học, thì điểm 25% của o3 có thể bớt gây ngạc nhiên hơn
Bước đột phá lớn được chờ đợi là khi AI thể hiện năng lực đáng kể ở 50% bài tiếp theo, được mô tả ở mức “qual level”

“Hãy chứng minh định lý” vẫn là một bài toán khác

Trong nghiên cứu toán học, câu hỏi quan trọng thường là “hãy chứng minh định lý này”
Ngay cả khi xuất hiện cỗ máy đạt năng lực siêu nhân ở các bài tìm số, khả năng ứng dụng vào nhiều nhánh toán nghiên cứu vẫn có thể bị hạn chế
Thành công lớn nhất của năm 2024 thường được nhắc đến là AlphaProof của DeepMind
- AlphaProof đã giải được 4 trên 6 bài IMO 2024
- Các bài này thuộc dạng “hãy chứng minh định lý” hoặc “hãy tìm con số và chứng minh nó là đúng”
- Trong số đó, 3 bài được xuất ra dưới dạng chứng minh Lean đã hình thức hóa hoàn toàn
Lean là một trình chứng minh định lý tương tác, còn mathlib là thư viện toán học bao gồm nhiều kỹ thuật cần cho việc giải bài IMO và hơn thế nữa
Lời giải của hệ thống DeepMind đã được con người kiểm tra và xác nhận là lời giải “điểm tuyệt đối”
Tuy nhiên, dù bài IMO rất khó, lời giải vẫn chỉ dùng các kỹ thuật ở mức phổ thông, nên rốt cuộc lại quay về bài toán trình độ trung học
Dự đoán rằng đến năm 2025, máy sẽ đạt năng lực cỡ huy chương vàng IMO

Ai sẽ chấm lời giải của máy

Có thể hình dung tới tháng 7/2025 tại IMO, không chỉ học sinh mà cả máy cũng tham gia
Các hệ thống máy có thể chia thành hai loại
- Hệ thống nộp lời giải bằng ngôn ngữ của trình kiểm tra chứng minh bằng máy tính như Lean, Rocq, Isabelle
- Các mô hình ngôn ngữ nộp lời giải bằng ngôn ngữ của con người
Với lời giải nộp bằng ngôn ngữ của trình kiểm tra chứng minh, chỉ cần xác nhận phát biểu bài toán đã được dịch đúng
- Sau đó, nếu chứng minh biên dịch được thì về cơ bản có thể biết đó là lời giải “điểm tuyệt đối”
Mô hình ngôn ngữ nộp đáp án bằng ngôn ngữ tự nhiên thì khác
- Dù lời giải trông có vẻ hợp lý, người chấm vẫn phải đọc kỹ và đánh giá
- Không có gì đảm bảo đó là lời giải điểm tuyệt đối
Mô hình ngôn ngữ được cho là kém chính xác hơn chuyên gia con người ít nhất một bậc độ lớn trong suy luận logic
Có lo ngại rằng một “chứng minh” của mô hình ngôn ngữ về giả thuyết Riemann có thể trộn lẫn các khẳng định mơ hồ hoặc không chính xác vào giữa 10 trang toán học đúng
Ngược lại, các trình chứng minh định lý được xem là chính xác hơn ít nhất một bậc độ lớn
- Trong những trường hợp tác giả từng thấy, khi Lean không chấp nhận một lập luận trong tài liệu toán của con người thì phía con người mới là bên sai

Mục tiêu còn lại: chứng minh đúng và con người hiểu được

Điều các nhà toán học muốn không chỉ là “hãy chứng minh định lý” mà còn là một chứng minh chính xác và cách giải thích để con người hiểu được
Với cách tiếp cận bằng mô hình ngôn ngữ, “độ chính xác” vẫn là mối lo lớn
Với cách tiếp cận bằng trình chứng minh định lý, điều đáng lo là “trình bày sao cho con người hiểu được”
Vẫn còn rất nhiều việc phải làm
Tốc độ tiến bộ rất nhanh, nhưng không ai biết khi nào AI sẽ vượt qua rào cản bậc đại học

Góc nhìn của một nhà toán học về năng lực toán học của AI

o3 và FrontierMath đã làm rung chuyển mốc chuẩn

Hình thức và độ khó của các bài trong FrontierMath

Ưu điểm và giới hạn của benchmark đáp án số

Vì sao mốc 25% của o3 gây bất ngờ

Sự bất định do bộ dữ liệu kín để lại

“Hãy chứng minh định lý” vẫn là một bài toán khác

Ai sẽ chấm lời giải của máy

Mục tiêu còn lại: chứng minh đúng và con người hiểu được

Bài viết liên quan

Chưa có bình luận nào.