- LLM suy luận thử nghiệm do OpenAI phát triển đã đạt thành tích ở mức huy chương vàng tại Olympic Toán học Quốc tế (IMO) 2025
- Theo đúng quy định chính thức của IMO, mô hình giải bài, viết chứng minh bằng ngôn ngữ tự nhiên và được 3 giám khảo là con người chấm đồng thuận tuyệt đối, giành 35/42 điểm (giải được 5/6 bài)
- Bài toán IMO đòi hỏi tư duy sáng tạo độ khó rất cao và chứng minh nhiều bước, cho thấy LLM có thể vượt qua giới hạn của các phương pháp RL trước đây để tạo ra chứng minh logic ở mức con người
- Việc đạt được kết quả này bằng học tăng cường tổng quát và mở rộng năng lực tính toán khi suy luận, thay vì chỉ tập trung vào tác vụ cụ thể, mang ý nghĩa rất lớn
- Mô hình là một phiên bản nghiên cứu, tách biệt với GPT-5 sắp ra mắt, và hiệu năng toán học đỉnh cao này sẽ được công bố sau vài tháng nữa
Tổng quan về thành tích IMO 2025 của LLM OpenAI
- Alexander Wei (@alexwei_) của OpenAI công bố rằng mô hình ngôn ngữ suy luận thử nghiệm mới nhất đã đạt mức điểm tương đương huy chương vàng tại IMO 2025
- IMO là cuộc thi có độ khó cực cao dành cho những học sinh xuất sắc nhất thế giới về toán học, nổi tiếng với các bài toán đòi hỏi suy luận logic phức tạp và sự hiểu biết khái niệm sâu sắc
- Cách đánh giá được tiến hành giống hệt thí sinh con người: 2 buổi thi, mỗi buổi 4,5 giờ, dùng đề chính thức, không sử dụng công cụ bên ngoài, nộp bài chứng minh bằng ngôn ngữ tự nhiên
- Mỗi bài được 3 cựu huy chương IMO chấm độc lập, sau đó chốt điểm bằng đồng thuận tuyệt đối
Ý nghĩa của thành tựu và độ khó đã nâng tầm
- Bài toán IMO đòi hỏi thời gian suy nghĩ dài hơn nhiều, tính sáng tạo cao hơn và lập luận phức tạp hơn so với các benchmark hiện có (GSM8K, MATH, AIME)
- Mô hình lần này giải trọn vẹn 5 bài (P1~P5), không nộp P6, đạt 35/42 điểm, đáp ứng chuẩn huy chương vàng IMO thực tế
- Năng lực tạo ra chứng minh logic dài nhiều trang cho thấy mô hình đã vượt qua những giới hạn trước đây của học tăng cường (RL)
Hướng tiếp cận nghiên cứu và bối cảnh phát triển AI
- Hiệu năng cao đạt được dựa trên RL tổng quát và mở rộng tính toán, chứ không phải một mô hình chỉ dành riêng cho giải một dạng bài cụ thể
- Mô hình đã thành công trong việc tạo ra đầu ra sáng tạo phức tạp ngay cả khi không có hệ thống phần thưởng rõ ràng như RL truyền thống thường yêu cầu
- Đây là mô hình thử nghiệm, tách biệt với GPT-5 sắp phát hành, và khả năng toán học ở cấp độ này sẽ chưa được phổ biến rộng rãi trong vài tháng tới
Triển vọng sắp tới và các đề cập từ cộng đồng
- Tốc độ tiến bộ của năng lực toán học AI đang vượt xa dự đoán (so với dự báo năm 2021 là đạt 30% trên benchmark MATH, nay đã đạt mức huy chương vàng IMO)
- Alexander cũng gửi lời chúc mừng tới tất cả thí sinh IMO 2025, đồng thời nhấn mạnh rằng trong đội ngũ có nhiều người từng tham gia IMO
- Lời giải của mô hình cho các bài IMO 2025 cũng sẽ được công bố, dù mang phong cách thử nghiệm
1 bình luận
Ý kiến trên Hacker News
Noam Brown: Khi làm việc ở một phòng thí nghiệm hàng đầu, bình thường bạn sẽ có trải nghiệm được thấy trước vài tháng những năng lực mới, nhưng kết quả lần này là một thành tựu thực sự mới dùng các kỹ thuật vừa được phát triển gần đây, đến cả các nhà nghiên cứu nội bộ OpenAI cũng thấy bất ngờ, và đến hôm nay thì ai cũng có thể kiểm chứng ranh giới tối tân đang ở đâu
Ngoài ra, thành quả lần này được dẫn dắt bởi một nhóm nhỏ, trong đó Alex Wei đã biến một ý tưởng nghiên cứu mà không mấy người tin tưởng thành kết quả thực tế, còn quá trình nghiên cứu và kỹ thuật lâu năm của OpenAI và cộng đồng AI cũng đóng vai trò lớn
Liên kết: https://x.com/polynoamial/status/1946478258968531288
Điều thú vị là các lời giải IMO dùng vốn từ khá hạn chế, điều này gây ấn tượng mạnh
Liên kết: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Không cần nói dài khi ít từ lại hiệu quả hơn”
Và một điểm đáng chú ý là chính Alex Wei cũng là huy chương vàng IOI
Với những ai xem nhẹ vì đây là cấp độ học sinh trung học, tôi khuyên hãy thử giải một bài IMO, tất cả đều được công bố công khai, bao gồm cả đề năm nay
Liên kết: https://www.imo-official.org/problems.aspx
Tôi thấy đầu óc quay cuồng
Ví dụ tôi từng xem bài kiểu x+y=1, xy=1, nhưng lời giải thực tế chỉ dùng những cách đại số cơ bản mà ta đều biết như phân tích nhân tử, công thức nghiệm..., vậy mà cách giải thích vẫn rất đẹp
Nó khiến bạn cảm thấy chỉ cần nghĩ đủ lâu là sẽ tìm ra đáp án, nhưng theo kinh nghiệm của tôi thì hoàn toàn không phải vậy
Liên kết: https://www.youtube.com/watch?v=csS4BjQuhCc
Có vẻ khoảng 50 ngôn ngữ, và điều đó khiến tôi nghĩ rằng việc giữ bí mật như tránh lộ đề hẳn sẽ khó hơn nhiều
Việc nói đây là cấp độ trung học chỉ là theo tiêu chí kiến thức nền, còn thực tế thì chúng cực kỳ khó
Ngay cả các nhà toán học chuyên nghiệp không xuất thân từ IMO cũng khó đạt được mức thể hiện như vậy
Điều này không có nghĩa AI giỏi toán hơn con người, vì các nhà toán học tập trung vào việc mở rộng biên giới của toán học
Người ta nói đáp án không có trong dữ liệu huấn luyện
Và họ cũng khẳng định đây không phải là một mô hình chỉ chuyên cho bài IMO
Bạn liên tục tinh chỉnh quá trình huấn luyện, rồi nếu hiệu năng trên tập kiểm định tăng thì lại điều chỉnh kiến trúc và dữ liệu theo đó
Dù không cố ý thì thông tin từ tập kiểm định vẫn dần ngấm vào mô hình
Chỉ cần chọn tập kiểm định khác đi là có thể tạo ra một mô hình hoàn toàn khác
Cách nó trả lời cũng cho cảm giác đúng như vậy
Ví dụ: https://xcancel.com/alexwei_/status/1946477742855532918
Ảnh chụp câu trả lời thực tế: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
Nó trông như kiểu AlphaProof, qua lại giữa ngôn ngữ tự nhiên và các hệ thống như Lean
OpenAI có lẽ sẽ không chia sẻ các chi tiết triển khai kiểu này
Trong chuỗi thảo luận có nói: “Mô hình giải được P1~P5 và không đưa ra câu trả lời cho P6”
Bài khó nhất (P6) thì con người cũng hầu như không giải được, ngay cả đội tuyển Trung Quốc cũng chỉ đạt 21/42 điểm, và ở phần lớn các quốc gia khác thì không ai giải nổi
Thông thường thứ tự độ khó được chủ ý sắp là P1, P4, P2, P5, P3, P6, trong đó P1 dễ nhất và P6 khó nhất
Thực tế đôi khi thứ tự này cũng khác
Ngay cả nếu chỉ là ngẫu nhiên máy móc, nó vẫn có thể đã xuất ra cả đáp án sai, nên tôi tự hỏi liệu có phải họ chỉ chọn các câu trả lời đúng, tức là chỉ tuyển chọn các kết quả thành công
Google cũng tham gia IMO lần này và giành huy chương vàng
Liên kết: https://x.com/natolambert/status/1946569475396120653
OAI đã công bố trước nên có lẽ Google cũng sắp ra thông báo chính thức
Trên Twitter có người nói Google dùng Lean, còn OpenAI chỉ dùng LLM không kèm công cụ
Dù dùng cách nào thì kết quả tự nó vẫn là điều quan trọng hơn, nhưng giới hạn và lộ trình phát triển của từng kỹ thuật cụ thể cũng là thông tin tham khảo rất thú vị
Điểm đặc biệt ở huy chương vàng của OpenAI là dường như đạt được chỉ bằng LLM thuần túy
Khi Google công bố chính thức, có lẽ ta sẽ biết họ đã dùng cách tiếp cận nào
Ưu điểm của hướng LLM là có khả năng tổng quát hóa không chỉ cho chứng minh toán học mà còn cho nhiều bài toán suy luận khác
Noam Brown:
Đây không phải mô hình chuyên cho IMO, mà là một LLM suy luận có tích hợp các kỹ thuật tổng quát thử nghiệm mới
Quá trình suy nghĩ của nó hiệu quả hơn rất nhiều so với o1 và o3, và hiệu quả khi suy luận lúc chạy thực tế vẫn còn có thể được đẩy xa hơn nữa
Tốc độ tiến bộ AI gần đây đã rất nhanh, nhưng tôi kỳ vọng nó sẽ còn tiếp tục
Đặc biệt, tôi cho rằng chúng ta đang tiến gần đến thời điểm AI bắt đầu đóng góp thực sự cho khám phá khoa học
Cho đến gần đây tôi còn nghĩ tiến bộ đang chậm lại, nhưng từ nhiều tuyên bố khác nhau như việc đây không phải mô hình chuyên biệt và khả năng còn tăng hiệu quả hơn nữa, có thể thấy tiến bộ thực chất là rất rõ ràng
Liên kết: https://x.com/polynoamial/status/1946478249187377206
“nếu đối thủ dùng chiến lược phản hồi (cố định) thì sẽ không bao giờ thua. Để cô ấy thắng (khiến đối thủ thua), cần có Q_{even-1}>even, tức là tồn tại a_j> sqrt2, nhưng ta đã có a_j<=c< sqrt2. Vậy nên cô ấy không thể thua” vân vân
Có thể thấy xu hướng tối đa hóa hiệu quả bằng rất ít lời
Liên kết: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
Đây thật sự là một thành tựu ấn tượng, nhưng tôi rất muốn biết họ đã làm bằng cách nào
Nhìn vào suy đoán của Wei về “mở rộng tài nguyên tính toán lúc suy luận”, tôi có cảm giác họ đã đốt một đống tiền
Nếu chỉ chạy song song hàng nghìn đến hàng chục nghìn lần rồi chọn ra kết quả tốt nhất thì sẽ khá thất vọng
Nếu đây thật sự là thành tựu nghiêm túc thì họ nên minh bạch về việc đã dùng công cụ nào và dùng ra sao
Có lẽ nhiều kỹ thuật nâng hiệu năng trên các bài toán khó kiểm chứng đã được áp dụng ở đây
Ngược lại, điều đó có nghĩa là nó có thể phân biệt được tính đúng đắn và độ chặt chẽ của đáp án, và điều này cũng không khác việc con người hiếm hoi nhưng đôi khi vẫn giải được
Đó cũng là cách từng được dùng ở benchmark ARC của o3 thời kỳ đầu
Có lẽ còn có thể là kiểu nhiều agent cộng tác, nhờ đó giới hạn độ dài ngữ cảnh cũng có thể bị lách qua
Đến giờ AI đã vượt 99.99% con người ở hầu hết các bài toán phổ thông rồi, nên dù có vượt tiếp tới 99.999% thì cũng không còn là chuyện quá bất ngờ
Nếu chính LLM tự kiểm chứng và chọn lấy đáp án thì điều đó tương tự quá trình con người thử đi thử lại nhiều lần để giải một bài khó
Khác biệt là AI có thể làm song song nhờ nhiều tài nguyên tính toán, còn con người thì chỉ thử tuần tự được thôi
Có vẻ vì cuộc thi này (IMO) quá thuộc tầng đỉnh cao nên ngay cả trong cộng đồng lập trình cũng có nhiều người không biết chính xác đây là kỳ thi gì
Tính sơ theo Mỹ, số người được chọn vào trại huấn luyện, tức nhóm có khả năng giành vàng, khoảng 20 người; lấy mốc khoảng 20 triệu học sinh trung học cùng lứa thì đây là tài năng kiểu “một trên một triệu”
Tôi cũng học trường chuyên, nhưng mãi đến đại học, trước khi gặp những người từng tham gia, tôi mới nghe tới IMO
Trên thực tế, số học sinh biết đến và tham gia cuộc thi ít hơn rất nhiều so với tổng số học sinh
Bỏ qua chuyện năng lực, có lẽ rất nhiều học sinh hoàn toàn có thể đạt kết quả tốt nếu có đủ cơ hội và thông tin
Gần đây tôi có xem báo cáo đánh giá IMO 2025 của các LLM, và o3 high còn không đạt nổi mức huy chương đồng
Liên kết: https://matharena.ai/imo/
Tôi cũng chờ ý kiến của Terry Tao, nhưng tôi nghĩ tiến bộ trong những lĩnh vực như thế này mới chính là cách dùng AI tích cực
Thay vì đổi mới vô tội vạ khi nền kinh tế còn chưa sẵn sàng, hy vọng nó sẽ đóng góp theo hướng thúc đẩy tiến bộ khoa học
Liên kết: https://mathstodon.xyz/@tao/114881419368778558