- AlphaEvolve là một dạng công cụ tối ưu hóa mới dùng LLM để tiến hóa chính đoạn mã, và được áp dụng vào việc giải các bài toán toán học
- Kết quả thử nghiệm trên 67 bài toán giải tích, tổ hợp và hình học cho thấy công cụ này đạt hiệu quả ngang mức các công cụ tối ưu hóa hiện có, đồng thời nổi bật về khả năng mở rộng quy mô
- Công cụ có tính thích ứng cao, nên có thể áp dụng cho nhiều bài toán toán học khác nhau mà không cần kiến thức chi tiết theo từng bài; đồng thời tự thiết lập các tham số rời rạc hóa để tính toán hiệu quả
- Mã được tạo ra mang lại khả năng diễn giải, giúp con người hiểu cấu trúc tối ưu hóa hoặc thu được những insight toán học mới
- Ở một số bài toán, công cụ đã tái phát hiện các kết quả trước đây hoặc tạo ra những cải tiến nhỏ, cho thấy tiềm năng của tự động hóa nghiên cứu toán học và mở rộng khám phá có thể kiểm chứng
AlphaEvolve và tổng quan nghiên cứu
- Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano, Adam Zsolt Wagner đã công bố một bài báo nghiên cứu trên arXiv, hợp tác với Google DeepMind và sử dụng AlphaEvolve
- Bài báo: “Mathematical exploration and discovery at scale”
- Dữ liệu liên quan và prompt cũng được công bố trong kho GitHub
- AlphaEvolve là một hệ thống tối ưu hóa tiến hóa mã dựa trên LLM, tối đa hóa hàm điểm bằng cách tiến hóa mã thay vì giá trị đầu vào
- Mã do LLM sinh ra được thực thi để tạo đầu vào, rồi kết quả được đánh giá
- Quá trình tiến hóa diễn ra thông qua lai ghép và đột biến giữa các thế hệ mã dựa trên hiệu năng
- Các “hallucination” sẽ bị loại nếu hiệu năng thấp, nhưng một số lại giúp tăng tính đa dạng và góp phần thoát khỏi cực trị địa phương
- Người dùng có thể tải lên gợi ý hoặc PDF tài liệu liên quan để cải thiện hiệu năng
- Các công cụ tương tự gồm OpenEvolve, ShinkaEvolve, DeepEvolve
Phạm vi thử nghiệm và kết quả chính
- Thử nghiệm được thực hiện trên 67 bài toán toán học, bao gồm giải tích, tổ hợp và hình học
- Đã tìm ra phương án đóng gói hình học hoặc ứng viên hàm cho bài toán biến phân hiệu quả hơn so với tài liệu trước đó
- Khả năng mở rộng quy mô (scale) là một điểm mạnh, vì có thể chỉnh sửa prompt và công cụ kiểm chứng của một bài toán để tái sử dụng cho các bài toán tương tự
- AlphaEvolve có tính thích ứng (adaptability) cao, nên có thể áp dụng cho nhiều bài toán mà không cần tinh chỉnh hyperparameter chi tiết
- Ví dụ: trong bài toán biến phân, hệ thống tự đặt các tham số rời rạc hóa để cho ra kết quả hiệu quả
- Ví dụ: thí nghiệm tối ưu hóa hằng số của bất đẳng thức Hausdorff–Young
Khả năng diễn giải và các trường hợp cụ thể
- Mã đầu ra của AlphaEvolve có dạng mà con người có thể đọc và phân tích, nên hữu ích để hiểu cấu trúc tối ưu hóa
- Ví dụ: trong bài toán bất đẳng thức Gagliardo–Nirenberg, hệ thống phát hiện chính xác hàm Talenti và tạo mã Python để lấy mẫu hàm này
- Trong một số trường hợp, hệ thống cũng gọi các subroutine tối ưu hóa hiện có hoặc dùng phương pháp tìm kiếm đơn giản
Dữ liệu huấn luyện và khác biệt hiệu năng
- Với các bài toán có trong dữ liệu huấn luyện, LLM sẽ đưa ra ngay nghiệm tối ưu (ví dụ: Gaussian)
- Nếu biến đổi bài toán để che giấu lời giải Gaussian, hệ thống sẽ khám phá các ứng viên khác
- Ví dụ: trong thí nghiệm liên quan đến giả thuyết Kakeya số học, hệ thống đề xuất ứng viên dựa trên Gaussian rời rạc và cải thiện nhẹ cận dưới trước đó
- Dựa trên kết quả này, Tao đã chứng minh hành vi bất đối xứng về mặt lý thuyết trong một bài báo riêng
Thiết kế bộ kiểm chứng và điểm yếu
- AlphaEvolve thường xuyên phát hiện “exploit” khai thác lỗ hổng trong mã kiểm chứng
- Ví dụ: trong một bài toán hình học có ngưỡng sai số khoảng cách lớn, hệ thống đạt điểm cao bằng cách đặt các điểm vào cùng một vị trí
- Để ngăn điều này, cần dùng số học chính xác hoặc hàm chấm điểm bảo thủ
- Ví dụ: trong bài toán Moving Sofa, việc áp dụng chấm điểm bảo thủ đã giúp tái phát hiện “Gerver sofa” và tìm ra một thiết kế mới cho biến thể 3D
Thử nghiệm với các bài toán khó và giả thuyết
- Đã tiến hành thử nghiệm với các giả thuyết lớn chưa được giải quyết như Sidorenko, Sendov, Crouzeix, Ovals
- Hệ thống tái phát hiện các ứng viên tốt nhất trong tài liệu hiện có, nhưng không tìm được phản ví dụ
- Điều này có thể là vì giả thuyết là đúng, hoặc vì AlphaEvolve chỉ khám phá các cấu hình “hiển nhiên” mà các nhà nghiên cứu trước đây từng thử
- Các công cụ như vậy hữu ích cho việc ghi lại có hệ thống các kết quả âm tính, và có thể được dùng làm công cụ kiểm chứng tự động khi đề xuất giả thuyết mới
- Ở một số bài toán biến thể, hệ thống đã phát hiện một giả thuyết mở rộng hai tham số mới
Khác biệt hiệu năng theo lĩnh vực
- Với các bài toán số học giải tích (ví dụ: thiết kế trọng số sàng để xấp xỉ định lý số nguyên tố), hệ thống gặp khó trong việc khai thác cấu trúc
- Ngược lại, với các bài toán có cấu trúc đại số như Kakeya và Nikodym trên trường hữu hạn, kết quả đạt được rất tốt
- Trong bài toán Kakeya, hệ thống tái phát hiện cấu hình tối ưu dựa trên thặng dư bậc hai và đạt cải thiện nhỏ trong không gian 3 chiều
- Gemini với Deep Think đã tìm ra một chứng minh không chính thức, rồi AlphaProof chuyển nó thành chứng minh hình thức bằng Lean
- Phương án cải thiện ở 4 chiều sau đó được xác định là có cùng cấu trúc với bài báo Bukh–Chao trước đó
- Trong bài toán Nikodym, hệ thống phát hiện một cấu hình 3 chiều mới nhưng xác nhận rằng nó kém hơn cấu hình ngẫu nhiên
- Từ đó, nhóm nghiên cứu phát triển cấu hình lai để cải thiện hiệu năng, và dự kiến công bố trong bài báo tiếp theo
Ý nghĩa tổng thể
- AlphaEvolve cho thấy tiềm năng của tự động hóa khám phá toán học ở quy mô lớn
- Vượt trội hơn các công cụ tối ưu hóa hiện có về khả năng mở rộng, tính thích ứng và khả năng diễn giải
- Ở một số bài toán, công cụ đã dẫn tới các cấu hình và chứng minh mới
- Trong tương lai, có khả năng hình thành mô hình hợp tác giữa khám phá bằng AI và kiểm chứng bởi con người trong nghiên cứu toán học
1 bình luận
Ý kiến trên Hacker News
Thật mệt khi fan LLM lần nào cũng cường điệu là “đột phá”, nhưng trường hợp này đúng là một ví dụ dùng tốt năng lực hiện tại của LLM cho nghiên cứu
Họ đã chuyển bài toán toán học thành bài toán tác tử lập trình để giải, và cách tiếp cận này có vẻ cũng có thể mở rộng sang các lĩnh vực khác
Hệ thống AlphaEvolve dường như cũng có những điểm cải tiến so với các tác tử trước đây. AI vẫn đều đặn tiến bộ mỗi năm, nhưng cả phe ủng hộ lẫn hoài nghi đều không nên đánh giá quá mức
Mỗi người có thời điểm tận hưởng chu kỳ cường điệu khác nhau. Với ai đó thì đã chán rồi, nhưng với người khác thì mối liên hệ giữa LLM và toán học vẫn có thể là điều mới mẻ. Kiểu cảm hứng này về lâu dài có thể hữu ích
Dù vậy, nghiên cứu lần này vẫn là một ví dụ tận dụng LLM tốt. Dạo này có nhiều ứng dụng thực tiễn đến mức không còn thành tin tức nữa. Có fan cũng không có nghĩa lúc nào cũng phải chỉ trích họ
Có vẻ nghiên cứu lần này sẽ phản bác được lập luận rằng LLM “chỉ giải được các bài toán đã từng thấy”
Theo lời các nhà phát triển LLM, quá trình RL sau huấn luyện hình thành nên một mô hình thế giới (world model) vượt ra ngoài một Markov chain đơn thuần
Bước tiếp theo là xây dựng năng lực tương tự trên các mô hình như Genie 3
LLM đúng là công cụ cốt lõi, nhưng công lao của thành quả lần này nằm ở tối ưu hóa tiến hóa (evolutionary optimization) nhiều hơn
Theo blog của DeepMind, nó là phần nối dài của dòng ‘Alpha’ như AlphaGo và AlphaFold
Cách tiếp cận này có lẽ cũng sẽ hoạt động tốt với bài test ARC-AGI của Chollet. Tuy vậy, việc Tao dùng từ ‘extremize’ nghe vẫn hơi lạ nếu xét như một thuật ngữ toán học
Nghiên cứu lần này phù hợp với các bài toán có thể kiểm chứng nhanh và cắt tỉa các lời giải tệ. Ngược lại, phát triển phần mềm của con người khó áp dụng cách này vì thiên lệch thiết kế, tiến hóa chậm và khó kiểm thử
Như Daniel Litt đã chỉ ra, lần này đơn giản chỉ là trường hợp đầu tiên đổ nhiều tài nguyên tính toán (Compute) vào
Một số bất đẳng thức trong AlphaEvolve ngay cả con người cộng với Định luật Moore cũng có thể cải thiện dễ dàng
Bài báo liên quan ở đây
Có bình luận đề nghị tóm tắt cho những người không có nền tảng toán học
LLM phụ trách việc biến đổi mã Python, còn các thử nghiệm sai sẽ tự động bị cắt tỉa
Họ thử trên 67 bài toán và thường xuyên đạt kết quả ở mức chuyên gia. Điểm mạnh là khả năng mở rộng, độ vững và tính dễ diễn giải
Tuy nhiên, các bài toán có trong dữ liệu huấn luyện thì hội tụ nhanh, và nếu định nghĩa bài toán lỏng lẻo thì nó cũng có thể “khai thác” lỗ hổng đó
Ở một số nhánh toán học nhất định, như số học giải tích, hiệu năng kém hơn. Dù vậy, nó vẫn đưa ra những ý tưởng đáng để con người tham khảo
Nó không mạnh đồng đều ở mọi lĩnh vực, nhưng là một cách tiếp cận chuyên trị các bài toán thiên về tính toán giống kiểu Ramanujan hay Erdős
Tôi không biết là bài toán sofa đã được giải rồi. Bài báo liên quan ở đây
Điều thú vị nhất trong bài với tôi là khái niệm ‘robustness’ mà tác giả nói tới
AlphaEvolve có thể được áp dụng dễ dàng cho nhiều bài toán khác nhau mà không cần tri thức miền cụ thể
Nhưng trong thế giới phần mềm, ‘robustness’ thường mang nghĩa ‘khả năng chịu lỗi’, nên ở đây có lẽ ‘khả năng thích nghi (adaptability)’ phù hợp hơn
Điểm mạnh của LLM là có thể tích hợp dựa trên văn bản mà không cần mô hình hóa phức tạp. Nếu xử lý hình ảnh tiến bộ thêm, các lĩnh vực như AI cho game cũng có thể mở ra
Việc Tao nói rằng “có thể chỉ là vấn đề prompt” là một thái độ khá hào phóng
Trong các nghiên cứu ML khác, khi hiệu năng thấp thì hiếm khi thấy kiểu tự phê như “chúng tôi chỉnh hyperparameter chưa tốt”
Câu chuyện về thí nghiệm câu đố logic ở mục 44.2 của bài báo thật ấn tượng
AlphaEvolve phải tương tác với ba ‘người gác’ (thiên thần, ác quỷ, người giữ cổng) để tìm chiến lược tối ưu, nhưng cuối cùng lại đạt điểm tuyệt đối bằng cách lừa LLM khác thông qua prompt injection
Trong quá trình đó, AE tự đề xuất rằng “hãy giảm độ phức tạp logic và tấn công chính mô phỏng”
Khác với vụ rò rỉ benchmark lập trình trước đây chỉ là ngẫu nhiên, lần này là một cuộc tấn công có chủ đích
Nghiên cứu lần này giống như phòng thí nghiệm toán học của Gauss phiên bản hiện đại
Thay vì thuê nhiều nhà toán học, giờ là thuê một đội ngũ điện tử để dò tìm mẫu, rồi dựa vào kết quả đó mà thử chứng minh
Nói thật thì, Terence Tao nói gì tôi cũng cứ tin thôi