5 điểm bởi GN⁺ 2025-07-20 | 1 bình luận | Chia sẻ qua WhatsApp
  • LLM suy luận thử nghiệm do OpenAI phát triển đã đạt thành tích ở mức huy chương vàng tại Olympic Toán học Quốc tế (IMO) 2025
  • Theo đúng quy định chính thức của IMO, mô hình giải bài, viết chứng minh bằng ngôn ngữ tự nhiên và được 3 giám khảo là con người chấm đồng thuận tuyệt đối, giành 35/42 điểm (giải được 5/6 bài)
  • Bài toán IMO đòi hỏi tư duy sáng tạo độ khó rất cao và chứng minh nhiều bước, cho thấy LLM có thể vượt qua giới hạn của các phương pháp RL trước đây để tạo ra chứng minh logic ở mức con người
  • Việc đạt được kết quả này bằng học tăng cường tổng quát và mở rộng năng lực tính toán khi suy luận, thay vì chỉ tập trung vào tác vụ cụ thể, mang ý nghĩa rất lớn
  • Mô hình là một phiên bản nghiên cứu, tách biệt với GPT-5 sắp ra mắt, và hiệu năng toán học đỉnh cao này sẽ được công bố sau vài tháng nữa

Tổng quan về thành tích IMO 2025 của LLM OpenAI

  • Alexander Wei (@alexwei_) của OpenAI công bố rằng mô hình ngôn ngữ suy luận thử nghiệm mới nhất đã đạt mức điểm tương đương huy chương vàng tại IMO 2025
    • IMO là cuộc thi có độ khó cực cao dành cho những học sinh xuất sắc nhất thế giới về toán học, nổi tiếng với các bài toán đòi hỏi suy luận logic phức tạp và sự hiểu biết khái niệm sâu sắc
  • Cách đánh giá được tiến hành giống hệt thí sinh con người: 2 buổi thi, mỗi buổi 4,5 giờ, dùng đề chính thức, không sử dụng công cụ bên ngoài, nộp bài chứng minh bằng ngôn ngữ tự nhiên
  • Mỗi bài được 3 cựu huy chương IMO chấm độc lập, sau đó chốt điểm bằng đồng thuận tuyệt đối

Ý nghĩa của thành tựu và độ khó đã nâng tầm

  • Bài toán IMO đòi hỏi thời gian suy nghĩ dài hơn nhiều, tính sáng tạo cao hơn và lập luận phức tạp hơn so với các benchmark hiện có (GSM8K, MATH, AIME)
  • Mô hình lần này giải trọn vẹn 5 bài (P1~P5), không nộp P6, đạt 35/42 điểm, đáp ứng chuẩn huy chương vàng IMO thực tế
  • Năng lực tạo ra chứng minh logic dài nhiều trang cho thấy mô hình đã vượt qua những giới hạn trước đây của học tăng cường (RL)

Hướng tiếp cận nghiên cứu và bối cảnh phát triển AI

  • Hiệu năng cao đạt được dựa trên RL tổng quát và mở rộng tính toán, chứ không phải một mô hình chỉ dành riêng cho giải một dạng bài cụ thể
  • Mô hình đã thành công trong việc tạo ra đầu ra sáng tạo phức tạp ngay cả khi không có hệ thống phần thưởng rõ ràng như RL truyền thống thường yêu cầu
  • Đây là mô hình thử nghiệm, tách biệt với GPT-5 sắp phát hành, và khả năng toán học ở cấp độ này sẽ chưa được phổ biến rộng rãi trong vài tháng tới

Triển vọng sắp tới và các đề cập từ cộng đồng

  • Tốc độ tiến bộ của năng lực toán học AI đang vượt xa dự đoán (so với dự báo năm 2021 là đạt 30% trên benchmark MATH, nay đã đạt mức huy chương vàng IMO)
  • Alexander cũng gửi lời chúc mừng tới tất cả thí sinh IMO 2025, đồng thời nhấn mạnh rằng trong đội ngũ có nhiều người từng tham gia IMO
  • Lời giải của mô hình cho các bài IMO 2025 cũng sẽ được công bố, dù mang phong cách thử nghiệm

1 bình luận

 
GN⁺ 2025-07-20
Ý kiến trên Hacker News
  • Noam Brown: Khi làm việc ở một phòng thí nghiệm hàng đầu, bình thường bạn sẽ có trải nghiệm được thấy trước vài tháng những năng lực mới, nhưng kết quả lần này là một thành tựu thực sự mới dùng các kỹ thuật vừa được phát triển gần đây, đến cả các nhà nghiên cứu nội bộ OpenAI cũng thấy bất ngờ, và đến hôm nay thì ai cũng có thể kiểm chứng ranh giới tối tân đang ở đâu
    Ngoài ra, thành quả lần này được dẫn dắt bởi một nhóm nhỏ, trong đó Alex Wei đã biến một ý tưởng nghiên cứu mà không mấy người tin tưởng thành kết quả thực tế, còn quá trình nghiên cứu và kỹ thuật lâu năm của OpenAI và cộng đồng AI cũng đóng vai trò lớn
    Liên kết: https://x.com/polynoamial/status/1946478258968531288

    • Mong là cái kỹ thuật mới đó không phải là huấn luyện bằng dữ liệu kiểm tra /đùa thôi
  • Điều thú vị là các lời giải IMO dùng vốn từ khá hạn chế, điều này gây ấn tượng mạnh
    Liên kết: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Không cần nói dài khi ít từ lại hiệu quả hơn”
    Và một điểm đáng chú ý là chính Alex Wei cũng là huy chương vàng IOI

    • Mặt khác, điều thú vị là nó trông giống những ghi chú mà thí sinh thật để lại trong lúc giải, việc lược bỏ lời thừa giúp giảm nhiễu thông tin và hỗ trợ tập trung hơn, nhất là vì LLM tạo từng token một và bị giới hạn độ dài ngữ cảnh, nên tôi tự hỏi liệu chỉ dùng các token có ý nghĩa có thể dẫn tới mạch suy nghĩ dài và nhất quán hơn hay không
    • Điều thú vị là người giành huy chương vàng IOI (Olympic Tin học) lại đang được nhắc tới trong một cuộc thảo luận về IMO (Olympic Toán)
    • Terence Tao cũng đã dự đoán trong một podcast gần đây rằng năm nay LLM sẽ giành huy chương vàng
    • Trong transformer, dù token mang ý nghĩa gì thì việc tạo ra mỗi token vẫn tốn cùng một lượng thời gian, cắt bỏ phần lặp lại hoặc không cần thiết trong văn bản sẽ tăng tốc rất mạnh
    • Tôi muốn hỏi khi nói “see the world” thì là “hãy nhìn thế giới” hay là chơi chữ kiểu “seaworld” vậy
  • Với những ai xem nhẹ vì đây là cấp độ học sinh trung học, tôi khuyên hãy thử giải một bài IMO, tất cả đều được công bố công khai, bao gồm cả đề năm nay
    Liên kết: https://www.imo-official.org/problems.aspx
    Tôi thấy đầu óc quay cuồng

    • Liên quan đến đó, có những video cho thấy cách người ta thực sự suy nghĩ và giải các bài toán như vậy
    • Tôi thích xem các video YouTube giải những bài như thế này, bề ngoài thì trông đơn giản nhưng lại như một cú lừa
      Ví dụ tôi từng xem bài kiểu x+y=1, xy=1, nhưng lời giải thực tế chỉ dùng những cách đại số cơ bản mà ta đều biết như phân tích nhân tử, công thức nghiệm..., vậy mà cách giải thích vẫn rất đẹp
      Nó khiến bạn cảm thấy chỉ cần nghĩ đủ lâu là sẽ tìm ra đáp án, nhưng theo kinh nghiệm của tôi thì hoàn toàn không phải vậy
      Liên kết: https://www.youtube.com/watch?v=csS4BjQuhCc
    • Tôi tò mò nếu so các bài IMO như vậy với các bài hard trên leetcode thì thế nào
    • Đây là lần đầu tôi biết các bài IMO có nhiều phiên bản ngôn ngữ
      Có vẻ khoảng 50 ngôn ngữ, và điều đó khiến tôi nghĩ rằng việc giữ bí mật như tránh lộ đề hẳn sẽ khó hơn nhiều
  • Việc nói đây là cấp độ trung học chỉ là theo tiêu chí kiến thức nền, còn thực tế thì chúng cực kỳ khó
    Ngay cả các nhà toán học chuyên nghiệp không xuất thân từ IMO cũng khó đạt được mức thể hiện như vậy
    Điều này không có nghĩa AI giỏi toán hơn con người, vì các nhà toán học tập trung vào việc mở rộng biên giới của toán học
    Người ta nói đáp án không có trong dữ liệu huấn luyện
    Và họ cũng khẳng định đây không phải là một mô hình chỉ chuyên cho bài IMO

    • Điều này làm tôi nhớ khi làm khoa học dữ liệu, việc ngăn rò rỉ tập kiểm định thực tế khó hơn rất nhiều so với tưởng tượng
      Bạn liên tục tinh chỉnh quá trình huấn luyện, rồi nếu hiệu năng trên tập kiểm định tăng thì lại điều chỉnh kiến trúc và dữ liệu theo đó
      Dù không cố ý thì thông tin từ tập kiểm định vẫn dần ngấm vào mô hình
      Chỉ cần chọn tập kiểm định khác đi là có thể tạo ra một mô hình hoàn toàn khác
    • Tôi nghi ngờ đây có thật sự không phải mô hình chuyên cho IMO hay không, vì trên chuỗi Twitter họ gọi nó là “suy luận tổng quát”, nhưng nếu thật sự không dùng RL trên các bài toán Olympic thì tôi rất muốn nghe phát biểu chính thức từ OpenAI
    • Tôi muốn biết cơ sở nào cho tuyên bố “không phải mô hình chuyên cho IMO”
    • Tôi muốn biết có căn cứ hay bằng chứng gì cho hai khẳng định “đáp án không có trong dữ liệu huấn luyện” và “không phải mô hình chuyên cho IMO”
    • Dù nhìn thế nào thì gần như chắc chắn đây là mô hình chuyên cho IMO
      Cách nó trả lời cũng cho cảm giác đúng như vậy
      Ví dụ: https://xcancel.com/alexwei_/status/1946477742855532918
      Ảnh chụp câu trả lời thực tế: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      Nó trông như kiểu AlphaProof, qua lại giữa ngôn ngữ tự nhiên và các hệ thống như Lean
      OpenAI có lẽ sẽ không chia sẻ các chi tiết triển khai kiểu này
  • Trong chuỗi thảo luận có nói: “Mô hình giải được P1~P5 và không đưa ra câu trả lời cho P6”
    Bài khó nhất (P6) thì con người cũng hầu như không giải được, ngay cả đội tuyển Trung Quốc cũng chỉ đạt 21/42 điểm, và ở phần lớn các quốc gia khác thì không ai giải nổi

    • Ở IMO, ngày đầu thí sinh làm P1, P2, P3, ngày thứ hai làm P4, P5, P6
      Thông thường thứ tự độ khó được chủ ý sắp là P1, P4, P2, P5, P3, P6, trong đó P1 dễ nhất và P6 khó nhất
      Thực tế đôi khi thứ tự này cũng khác
    • Hình như có ai đó trong đội Canada giải được P6, nhưng nhìn chung là cực kỳ hiếm
    • Việc máy thất bại đúng ở những bài mà con người cũng thấy khó theo cùng cách, đặc biệt là P6, có vẻ như một dấu hiệu cho thấy có thể đã có can thiệp của con người
      Ngay cả nếu chỉ là ngẫu nhiên máy móc, nó vẫn có thể đã xuất ra cả đáp án sai, nên tôi tự hỏi liệu có phải họ chỉ chọn các câu trả lời đúng, tức là chỉ tuyển chọn các kết quả thành công
  • Google cũng tham gia IMO lần này và giành huy chương vàng
    Liên kết: https://x.com/natolambert/status/1946569475396120653
    OAI đã công bố trước nên có lẽ Google cũng sắp ra thông báo chính thức

    • Nhìn vào phát biểu của Noam Brown rằng “ngay cả các nhà nghiên cứu nội bộ OpenAI cũng bất ngờ với thành tích này”, nếu nhiều phòng thí nghiệm cùng lúc đạt kết quả như vậy thì lại càng đáng kinh ngạc hơn
      Trên Twitter có người nói Google dùng Lean, còn OpenAI chỉ dùng LLM không kèm công cụ
      Dù dùng cách nào thì kết quả tự nó vẫn là điều quan trọng hơn, nhưng giới hạn và lộ trình phát triển của từng kỹ thuật cụ thể cũng là thông tin tham khảo rất thú vị
    • AlphaProof của Google đã giành huy chương bạc năm ngoái và dùng cách tiếp cận neural + symbolic
      Điểm đặc biệt ở huy chương vàng của OpenAI là dường như đạt được chỉ bằng LLM thuần túy
      Khi Google công bố chính thức, có lẽ ta sẽ biết họ đã dùng cách tiếp cận nào
      Ưu điểm của hướng LLM là có khả năng tổng quát hóa không chỉ cho chứng minh toán học mà còn cho nhiều bài toán suy luận khác
  • Noam Brown:
    Đây không phải mô hình chuyên cho IMO, mà là một LLM suy luận có tích hợp các kỹ thuật tổng quát thử nghiệm mới
    Quá trình suy nghĩ của nó hiệu quả hơn rất nhiều so với o1 và o3, và hiệu quả khi suy luận lúc chạy thực tế vẫn còn có thể được đẩy xa hơn nữa
    Tốc độ tiến bộ AI gần đây đã rất nhanh, nhưng tôi kỳ vọng nó sẽ còn tiếp tục
    Đặc biệt, tôi cho rằng chúng ta đang tiến gần đến thời điểm AI bắt đầu đóng góp thực sự cho khám phá khoa học
    Cho đến gần đây tôi còn nghĩ tiến bộ đang chậm lại, nhưng từ nhiều tuyên bố khác nhau như việc đây không phải mô hình chuyên biệt và khả năng còn tăng hiệu quả hơn nữa, có thể thấy tiến bộ thực chất là rất rõ ràng
    Liên kết: https://x.com/polynoamial/status/1946478249187377206

    • Tôi nghĩ có một khoảng cách rất lớn giữa “mô hình giải bài thi” và “AI đóng góp cho khám phá khoa học”
    • Nghe như một giấc mơ, nhưng cũng giống như các mô hình được fine-tune cho các kỳ thi cụ thể như thi luật sư, những mô hình này thường cũng đã được huấn luyện trên các đề thi của những năm trước
    • Tôi tò mò trong quá trình fine-tune có dùng công cụ hay không, ví dụ các công cụ chứng minh tự động
    • Về ý “suy nghĩ hiệu quả hơn o1, o3”,
      “nếu đối thủ dùng chiến lược phản hồi (cố định) thì sẽ không bao giờ thua. Để cô ấy thắng (khiến đối thủ thua), cần có Q_{even-1}>even, tức là tồn tại a_j> sqrt2, nhưng ta đã có a_j<=c< sqrt2. Vậy nên cô ấy không thể thua” vân vân
      Có thể thấy xu hướng tối đa hóa hiệu quả bằng rất ít lời
      Liên kết: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • Giờ khi dữ liệu đã chạm ngưỡng “peak data”, tôi lại tò mò con đường tiến bộ rõ rệt về hiệu quả sẽ là gì
  • Đây thật sự là một thành tựu ấn tượng, nhưng tôi rất muốn biết họ đã làm bằng cách nào
    Nhìn vào suy đoán của Wei về “mở rộng tài nguyên tính toán lúc suy luận”, tôi có cảm giác họ đã đốt một đống tiền
    Nếu chỉ chạy song song hàng nghìn đến hàng chục nghìn lần rồi chọn ra kết quả tốt nhất thì sẽ khá thất vọng
    Nếu đây thật sự là thành tựu nghiêm túc thì họ nên minh bạch về việc đã dùng công cụ nào và dùng ra sao
    Có lẽ nhiều kỹ thuật nâng hiệu năng trên các bài toán khó kiểm chứng đã được áp dụng ở đây

    • Dù chạy song song 10000 lần thì cũng không hẳn là kém thú vị hơn
      Ngược lại, điều đó có nghĩa là nó có thể phân biệt được tính đúng đắn và độ chặt chẽ của đáp án, và điều này cũng không khác việc con người hiếm hoi nhưng đôi khi vẫn giải được
    • Theo chuỗi Twitter thì không có công cụ riêng nào được cung cấp
    • Tôi nghĩ rất có thể OpenAI thực sự đã chạy song song hàng nghìn đến hàng chục nghìn lần rồi chỉ chọn kết quả
      Đó cũng là cách từng được dùng ở benchmark ARC của o3 thời kỳ đầu
      Có lẽ còn có thể là kiểu nhiều agent cộng tác, nhờ đó giới hạn độ dài ngữ cảnh cũng có thể bị lách qua
      Đến giờ AI đã vượt 99.99% con người ở hầu hết các bài toán phổ thông rồi, nên dù có vượt tiếp tới 99.999% thì cũng không còn là chuyện quá bất ngờ
    • Nếu OpenAI chạy 10000 lần rồi để con người trực tiếp chọn kết quả thì ý nghĩa sẽ khác đi rất nhiều
      Nếu chính LLM tự kiểm chứng và chọn lấy đáp án thì điều đó tương tự quá trình con người thử đi thử lại nhiều lần để giải một bài khó
      Khác biệt là AI có thể làm song song nhờ nhiều tài nguyên tính toán, còn con người thì chỉ thử tuần tự được thôi
  • Có vẻ vì cuộc thi này (IMO) quá thuộc tầng đỉnh cao nên ngay cả trong cộng đồng lập trình cũng có nhiều người không biết chính xác đây là kỳ thi gì
    Tính sơ theo Mỹ, số người được chọn vào trại huấn luyện, tức nhóm có khả năng giành vàng, khoảng 20 người; lấy mốc khoảng 20 triệu học sinh trung học cùng lứa thì đây là tài năng kiểu “một trên một triệu”

    • Không phải tôi muốn hạ thấp độ khó khủng khiếp của cuộc thi
      Tôi cũng học trường chuyên, nhưng mãi đến đại học, trước khi gặp những người từng tham gia, tôi mới nghe tới IMO
      Trên thực tế, số học sinh biết đến và tham gia cuộc thi ít hơn rất nhiều so với tổng số học sinh
      Bỏ qua chuyện năng lực, có lẽ rất nhiều học sinh hoàn toàn có thể đạt kết quả tốt nếu có đủ cơ hội và thông tin
  • Gần đây tôi có xem báo cáo đánh giá IMO 2025 của các LLM, và o3 high còn không đạt nổi mức huy chương đồng
    Liên kết: https://matharena.ai/imo/
    Tôi cũng chờ ý kiến của Terry Tao, nhưng tôi nghĩ tiến bộ trong những lĩnh vực như thế này mới chính là cách dùng AI tích cực
    Thay vì đổi mới vô tội vạ khi nền kinh tế còn chưa sẵn sàng, hy vọng nó sẽ đóng góp theo hướng thúc đẩy tiến bộ khoa học