4 điểm bởi GN⁺ 2025-11-08 | 1 bình luận | Chia sẻ qua WhatsApp
  • AlphaEvolvemột dạng công cụ tối ưu hóa mới dùng LLM để tiến hóa chính đoạn mã, và được áp dụng vào việc giải các bài toán toán học
  • Kết quả thử nghiệm trên 67 bài toán giải tích, tổ hợp và hình học cho thấy công cụ này đạt hiệu quả ngang mức các công cụ tối ưu hóa hiện có, đồng thời nổi bật về khả năng mở rộng quy mô
  • Công cụ có tính thích ứng cao, nên có thể áp dụng cho nhiều bài toán toán học khác nhau mà không cần kiến thức chi tiết theo từng bài; đồng thời tự thiết lập các tham số rời rạc hóa để tính toán hiệu quả
  • Mã được tạo ra mang lại khả năng diễn giải, giúp con người hiểu cấu trúc tối ưu hóa hoặc thu được những insight toán học mới
  • Ở một số bài toán, công cụ đã tái phát hiện các kết quả trước đây hoặc tạo ra những cải tiến nhỏ, cho thấy tiềm năng của tự động hóa nghiên cứu toán học và mở rộng khám phá có thể kiểm chứng

AlphaEvolve và tổng quan nghiên cứu

  • Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano, Adam Zsolt Wagner đã công bố một bài báo nghiên cứu trên arXiv, hợp tác với Google DeepMind và sử dụng AlphaEvolve
    • Bài báo: “Mathematical exploration and discovery at scale”
    • Dữ liệu liên quan và prompt cũng được công bố trong kho GitHub
  • AlphaEvolve là một hệ thống tối ưu hóa tiến hóa mã dựa trên LLM, tối đa hóa hàm điểm bằng cách tiến hóa mã thay vì giá trị đầu vào
    • Mã do LLM sinh ra được thực thi để tạo đầu vào, rồi kết quả được đánh giá
    • Quá trình tiến hóa diễn ra thông qua lai ghép và đột biến giữa các thế hệ mã dựa trên hiệu năng
    • Các “hallucination” sẽ bị loại nếu hiệu năng thấp, nhưng một số lại giúp tăng tính đa dạng và góp phần thoát khỏi cực trị địa phương
  • Người dùng có thể tải lên gợi ý hoặc PDF tài liệu liên quan để cải thiện hiệu năng
  • Các công cụ tương tự gồm OpenEvolve, ShinkaEvolve, DeepEvolve

Phạm vi thử nghiệm và kết quả chính

  • Thử nghiệm được thực hiện trên 67 bài toán toán học, bao gồm giải tích, tổ hợp và hình học
    • Đã tìm ra phương án đóng gói hình học hoặc ứng viên hàm cho bài toán biến phân hiệu quả hơn so với tài liệu trước đó
  • Khả năng mở rộng quy mô (scale) là một điểm mạnh, vì có thể chỉnh sửa prompt và công cụ kiểm chứng của một bài toán để tái sử dụng cho các bài toán tương tự
  • AlphaEvolve có tính thích ứng (adaptability) cao, nên có thể áp dụng cho nhiều bài toán mà không cần tinh chỉnh hyperparameter chi tiết
    • Ví dụ: trong bài toán biến phân, hệ thống tự đặt các tham số rời rạc hóa để cho ra kết quả hiệu quả
    • Ví dụ: thí nghiệm tối ưu hóa hằng số của bất đẳng thức Hausdorff–Young

Khả năng diễn giải và các trường hợp cụ thể

  • Mã đầu ra của AlphaEvolve có dạng mà con người có thể đọc và phân tích, nên hữu ích để hiểu cấu trúc tối ưu hóa
    • Ví dụ: trong bài toán bất đẳng thức Gagliardo–Nirenberg, hệ thống phát hiện chính xác hàm Talenti và tạo mã Python để lấy mẫu hàm này
  • Trong một số trường hợp, hệ thống cũng gọi các subroutine tối ưu hóa hiện có hoặc dùng phương pháp tìm kiếm đơn giản

Dữ liệu huấn luyện và khác biệt hiệu năng

  • Với các bài toán có trong dữ liệu huấn luyện, LLM sẽ đưa ra ngay nghiệm tối ưu (ví dụ: Gaussian)
    • Nếu biến đổi bài toán để che giấu lời giải Gaussian, hệ thống sẽ khám phá các ứng viên khác
  • Ví dụ: trong thí nghiệm liên quan đến giả thuyết Kakeya số học, hệ thống đề xuất ứng viên dựa trên Gaussian rời rạc và cải thiện nhẹ cận dưới trước đó
    • Dựa trên kết quả này, Tao đã chứng minh hành vi bất đối xứng về mặt lý thuyết trong một bài báo riêng

Thiết kế bộ kiểm chứng và điểm yếu

  • AlphaEvolve thường xuyên phát hiện “exploit” khai thác lỗ hổng trong mã kiểm chứng
    • Ví dụ: trong một bài toán hình học có ngưỡng sai số khoảng cách lớn, hệ thống đạt điểm cao bằng cách đặt các điểm vào cùng một vị trí
  • Để ngăn điều này, cần dùng số học chính xác hoặc hàm chấm điểm bảo thủ
    • Ví dụ: trong bài toán Moving Sofa, việc áp dụng chấm điểm bảo thủ đã giúp tái phát hiện “Gerver sofa” và tìm ra một thiết kế mới cho biến thể 3D

Thử nghiệm với các bài toán khó và giả thuyết

  • Đã tiến hành thử nghiệm với các giả thuyết lớn chưa được giải quyết như Sidorenko, Sendov, Crouzeix, Ovals
    • Hệ thống tái phát hiện các ứng viên tốt nhất trong tài liệu hiện có, nhưng không tìm được phản ví dụ
    • Điều này có thể là vì giả thuyết là đúng, hoặc vì AlphaEvolve chỉ khám phá các cấu hình “hiển nhiên” mà các nhà nghiên cứu trước đây từng thử
  • Các công cụ như vậy hữu ích cho việc ghi lại có hệ thống các kết quả âm tính, và có thể được dùng làm công cụ kiểm chứng tự động khi đề xuất giả thuyết mới
  • Ở một số bài toán biến thể, hệ thống đã phát hiện một giả thuyết mở rộng hai tham số mới

Khác biệt hiệu năng theo lĩnh vực

  • Với các bài toán số học giải tích (ví dụ: thiết kế trọng số sàng để xấp xỉ định lý số nguyên tố), hệ thống gặp khó trong việc khai thác cấu trúc
    • Ngược lại, với các bài toán có cấu trúc đại số như Kakeya và Nikodym trên trường hữu hạn, kết quả đạt được rất tốt
  • Trong bài toán Kakeya, hệ thống tái phát hiện cấu hình tối ưu dựa trên thặng dư bậc hai và đạt cải thiện nhỏ trong không gian 3 chiều
    • Gemini với Deep Think đã tìm ra một chứng minh không chính thức, rồi AlphaProof chuyển nó thành chứng minh hình thức bằng Lean
    • Phương án cải thiện ở 4 chiều sau đó được xác định là có cùng cấu trúc với bài báo Bukh–Chao trước đó
  • Trong bài toán Nikodym, hệ thống phát hiện một cấu hình 3 chiều mới nhưng xác nhận rằng nó kém hơn cấu hình ngẫu nhiên
    • Từ đó, nhóm nghiên cứu phát triển cấu hình lai để cải thiện hiệu năng, và dự kiến công bố trong bài báo tiếp theo

Ý nghĩa tổng thể

  • AlphaEvolve cho thấy tiềm năng của tự động hóa khám phá toán học ở quy mô lớn
    • Vượt trội hơn các công cụ tối ưu hóa hiện có về khả năng mở rộng, tính thích ứng và khả năng diễn giải
    • Ở một số bài toán, công cụ đã dẫn tới các cấu hình và chứng minh mới
  • Trong tương lai, có khả năng hình thành mô hình hợp tác giữa khám phá bằng AI và kiểm chứng bởi con người trong nghiên cứu toán học

1 bình luận

 
GN⁺ 2025-11-08
Ý kiến trên Hacker News
  • Thật mệt khi fan LLM lần nào cũng cường điệu là “đột phá”, nhưng trường hợp này đúng là một ví dụ dùng tốt năng lực hiện tại của LLM cho nghiên cứu
    Họ đã chuyển bài toán toán học thành bài toán tác tử lập trình để giải, và cách tiếp cận này có vẻ cũng có thể mở rộng sang các lĩnh vực khác
    Hệ thống AlphaEvolve dường như cũng có những điểm cải tiến so với các tác tử trước đây. AI vẫn đều đặn tiến bộ mỗi năm, nhưng cả phe ủng hộ lẫn hoài nghi đều không nên đánh giá quá mức

    • Kiểu phàn nàn này cũng có vẻ lặp đi lặp lại. Không thích thì không xem chẳng phải được sao?
      Mỗi người có thời điểm tận hưởng chu kỳ cường điệu khác nhau. Với ai đó thì đã chán rồi, nhưng với người khác thì mối liên hệ giữa LLM và toán học vẫn có thể là điều mới mẻ. Kiểu cảm hứng này về lâu dài có thể hữu ích
    • Những người hoài nghi LLM cũng lần nào cũng công kích fan để duy trì thế giới tự mãn của mình rằng đây là bong bóng AI
      Dù vậy, nghiên cứu lần này vẫn là một ví dụ tận dụng LLM tốt. Dạo này có nhiều ứng dụng thực tiễn đến mức không còn thành tin tức nữa. Có fan cũng không có nghĩa lúc nào cũng phải chỉ trích họ
  • Có vẻ nghiên cứu lần này sẽ phản bác được lập luận rằng LLM “chỉ giải được các bài toán đã từng thấy”
    Theo lời các nhà phát triển LLM, quá trình RL sau huấn luyện hình thành nên một mô hình thế giới (world model) vượt ra ngoài một Markov chain đơn thuần
    Bước tiếp theo là xây dựng năng lực tương tự trên các mô hình như Genie 3

    • Xem mục 2 của bài báo được trích trong blog thì LLM được dùng làm hàm đột biến (mutation function) trong vòng lặp tiến hóa
      LLM đúng là công cụ cốt lõi, nhưng công lao của thành quả lần này nằm ở tối ưu hóa tiến hóa (evolutionary optimization) nhiều hơn
    • Tôi không nghĩ nghiên cứu này đủ để phản bác kiểu lập luận đó. Vẫn cần đến sự can thiệp tỉ mỉ của chuyên gia, và tư duy không phải kiểu LLM vẫn là thiết yếu
    • AlphaEvolve không phải bản thân LLM, mà là một tác tử lập trình tiến hóa dùng LLM để sinh mã
      Theo blog của DeepMind, nó là phần nối dài của dòng ‘Alpha’ như AlphaGo và AlphaFold
      Cách tiếp cận này có lẽ cũng sẽ hoạt động tốt với bài test ARC-AGI của Chollet. Tuy vậy, việc Tao dùng từ ‘extremize’ nghe vẫn hơi lạ nếu xét như một thuật ngữ toán học
    • Bài viết này cho thấy các lời giải trong bài báo có thể rốt cuộc chỉ là những trường hợp vốn đã tồn tại trong tài liệu trước đó
    • Nhận định “LLM chỉ giải được bài toán đã từng thấy” là quá đơn giản hóa
      Nghiên cứu lần này phù hợp với các bài toán có thể kiểm chứng nhanh và cắt tỉa các lời giải tệ. Ngược lại, phát triển phần mềm của con người khó áp dụng cách này vì thiên lệch thiết kế, tiến hóa chậm và khó kiểm thử
  • Như Daniel Litt đã chỉ ra, lần này đơn giản chỉ là trường hợp đầu tiên đổ nhiều tài nguyên tính toán (Compute) vào
    Một số bất đẳng thức trong AlphaEvolve ngay cả con người cộng với Định luật Moore cũng có thể cải thiện dễ dàng
    Bài báo liên quan ở đây

  • Có bình luận đề nghị tóm tắt cho những người không có nền tảng toán học

    • Tôi không phải chuyên gia, nhưng tóm lại thì Terence Tao là một nhà toán học hàng đầu thế giới, còn AlphaEvolve là công cụ tối ưu hóa dựa trên LLM của Google
      LLM phụ trách việc biến đổi mã Python, còn các thử nghiệm sai sẽ tự động bị cắt tỉa
      Họ thử trên 67 bài toán và thường xuyên đạt kết quả ở mức chuyên gia. Điểm mạnh là khả năng mở rộng, độ vững và tính dễ diễn giải
      Tuy nhiên, các bài toán có trong dữ liệu huấn luyện thì hội tụ nhanh, và nếu định nghĩa bài toán lỏng lẻo thì nó cũng có thể “khai thác” lỗ hổng đó
      Ở một số nhánh toán học nhất định, như số học giải tích, hiệu năng kém hơn. Dù vậy, nó vẫn đưa ra những ý tưởng đáng để con người tham khảo
    • Tóm gọn là khi đưa LLM vào vòng lặp tư duy toán học của con người thì nó đã thực hiện được toán học ở cấp độ nghiên cứu
      Nó không mạnh đồng đều ở mọi lĩnh vực, nhưng là một cách tiếp cận chuyên trị các bài toán thiên về tính toán giống kiểu Ramanujan hay Erdős
  • Tôi không biết là bài toán sofa đã được giải rồi. Bài báo liên quan ở đây

  • Điều thú vị nhất trong bài với tôi là khái niệm ‘robustness’ mà tác giả nói tới
    AlphaEvolve có thể được áp dụng dễ dàng cho nhiều bài toán khác nhau mà không cần tri thức miền cụ thể
    Nhưng trong thế giới phần mềm, ‘robustness’ thường mang nghĩa ‘khả năng chịu lỗi’, nên ở đây có lẽ ‘khả năng thích nghi (adaptability)’ phù hợp hơn
    Điểm mạnh của LLM là có thể tích hợp dựa trên văn bản mà không cần mô hình hóa phức tạp. Nếu xử lý hình ảnh tiến bộ thêm, các lĩnh vực như AI cho game cũng có thể mở ra

    • Quả thực tác giả đã sửa bài, bỏ ‘robustness’ và đổi thành ‘adaptability’
  • Việc Tao nói rằng “có thể chỉ là vấn đề prompt” là một thái độ khá hào phóng
    Trong các nghiên cứu ML khác, khi hiệu năng thấp thì hiếm khi thấy kiểu tự phê như “chúng tôi chỉnh hyperparameter chưa tốt”

    • Dù vậy, trong quá trình phản biện bài báo thì kiểu chỉ ra như vậy là chuyện thường. Lần này gần hơn với một ghi chú nghiên cứu thăm dò, nên bối cảnh khác
    • Trên thực tế, nhiều cải tiến thuật toán xuất phát từ việc tinh chỉnh baseline chưa đủ tốt hoặc vấn đề xử lý thống kê. Tao ngược lại cho thấy sự khiêm tốn về nhận thức (epistemic humility)
  • Câu chuyện về thí nghiệm câu đố logic ở mục 44.2 của bài báo thật ấn tượng
    AlphaEvolve phải tương tác với ba ‘người gác’ (thiên thần, ác quỷ, người giữ cổng) để tìm chiến lược tối ưu, nhưng cuối cùng lại đạt điểm tuyệt đối bằng cách lừa LLM khác thông qua prompt injection
    Trong quá trình đó, AE tự đề xuất rằng “hãy giảm độ phức tạp logic và tấn công chính mô phỏng”

    • Điểm cốt lõi là AE đã nảy ra ý tưởng “phá luật của câu đố logic và hack mô phỏng”
    • Nếu lần injection cuối cùng thất bại, biết đâu tiếp theo nó đã mở ‘cánh cổng địa ngục’ rồi
    • Việc một AI lừa AI khác để giải bài toán đúng là rất quỷ quyệt (diabolical)
      Khác với vụ rò rỉ benchmark lập trình trước đây chỉ là ngẫu nhiên, lần này là một cuộc tấn công có chủ đích
  • Nghiên cứu lần này giống như phòng thí nghiệm toán học của Gauss phiên bản hiện đại
    Thay vì thuê nhiều nhà toán học, giờ là thuê một đội ngũ điện tử để dò tìm mẫu, rồi dựa vào kết quả đó mà thử chứng minh

  • Nói thật thì, Terence Tao nói gì tôi cũng cứ tin thôi