AlphaEvolve: Tác nhân lập trình thiết kế thuật toán tiên tiến dựa trên Gemini

(deepmind.google)

3 điểm bởi GN⁺ 2025-05-15 | 1 bình luận | Chia sẻ qua WhatsApp

AlphaEvolve là tác nhân tạo thuật toán tiến hóa kết hợp LLM và bộ đánh giá tự động
Đã chứng minh kết quả thực tiễn trong các lĩnh vực toán học, điện toán, AI và thiết kế phần cứng, đồng thời được áp dụng trên toàn bộ hạ tầng Google
Kết hợp Gemini Flash và Gemini Pro để cùng khám phá độ rộng và độ sâu của ý tưởng
Tạo ra hiệu quả tăng tốc và tiết kiệm tài nguyên trong lập lịch trung tâm dữ liệu, thiết kế TPU, tối ưu hóa kernel AI, v.v.
Thử sức với hơn 50 bài toán khó trong toán học, đề xuất thuật toán mới và ở một số bài toán còn cải thiện lời giải hiện có

AlphaEvolve: Tác nhân tiến hóa thuật toán dựa trên Gemini

Tổng quan

AlphaEvolve là tác nhân lập trình dựa trên mô hình ngôn ngữ lớn (LLM) do Google DeepMind phát triển
Gemini phụ trách tạo mã sáng tạo, còn việc kiểm chứng do bộ đánh giá tự động thực hiện
Thông qua thuật toán tiến hóa, hệ thống lặp đi lặp lại để cải thiện các ứng viên mã tối ưu

Các lĩnh vực ứng dụng thực tế và thành quả

Tối ưu hóa hạ tầng điện toán của Google

AlphaEvolve được áp dụng trên toàn bộ trung tâm dữ liệu, phần cứng và phần mềm của Google
Việc cải thiện hiệu suất tạo ra hiệu ứng lan tỏa liên tục lên toàn bộ hạ tầng AI

Cải thiện lập lịch trung tâm dữ liệu

Đề xuất heuristic mới cho Borg, trình quản lý cụm của Google
Đã vận hành trong dịch vụ thực tế hơn 1 năm, góp phần thu hồi 0,7% tài nguyên điện toán toàn cầu
Mã dễ bảo trì vì con người có thể hiểu được

Hỗ trợ thiết kế phần cứng

Đề xuất tối ưu hóa mạch nhân ma trận được viết bằng Verilog
Dự kiến sẽ được tích hợp vào thiết kế TPU của Google trong tương lai
Thúc đẩy cộng tác với các kỹ sư phần cứng

Tăng tốc huấn luyện và suy luận AI

Chia phép nhân ma trận thành các bài toán nhỏ hơn → tăng 1% tốc độ huấn luyện của Gemini
Rút ngắn thời gian tối ưu hóa kernel từ vài tuần xuống vài ngày
Cải thiện tốc độ kernel FlashAttention lên tới 32,5%
Ngay cả trong các khu vực mà tối ưu hóa trình biên dịch đã được áp dụng đến mức cực hạn, vẫn có thể nâng cao hiệu năng thêm

Đổi mới trong lĩnh vực toán học và thuật toán

Phát hiện thuật toán nhân ma trận mới

Tìm ra phương pháp tốt hơn so với thuật toán Strassen (1969) hiện có
Xử lý ma trận phức 4x4 chỉ với 48 phép nhân vô hướng

Khám phá các bài toán khó trong toán học

Thử nghiệm hơn 50 bài toán thuộc giải tích, hình học, tổ hợp, số học, v.v.
- 75% trường hợp tái phát hiện lời giải tốt nhất hiện có
- Ở 20% trường hợp, đưa ra kết quả vượt qua lời giải hiện có
Ví dụ: phát hiện cận dưới mới cho bài toán kissing number
- Ở không gian 11 chiều, lập kỷ lục mới với cấu hình gồm 593 quả cầu

Cách hoạt động

Bộ lấy mẫu prompt tạo đầu vào
Mô hình Gemini Flash/Pro tạo mã
Bộ đánh giá tự động định lượng độ chính xác và chất lượng
Tiến hóa mã có hiệu năng cao theo phương pháp thuật toán di truyền
Mã tối ưu có thể tái sử dụng, triển khai và mở rộng

Kế hoạch sắp tới

AlphaEvolve cũng sẽ tiếp tục được cải thiện cùng với năng lực lập trình ngày càng tăng
Đang phát triển giao diện người dùng với sự hợp tác của People + AI Research team
Dự kiến mở cho người dùng học thuật thông qua Early Access Program
Đăng ký quan tâm

Khả năng ứng dụng

Nếu là bài toán có thể định nghĩa lời giải bằng thuật toán và đánh giá được, thì có thể áp dụng cho mọi lĩnh vực
Ví dụ: phát triển vật liệu mới, khám phá thuốc mới, phát triển bền vững, giải quyết các vấn đề công nghệ/kinh doanh

Liên kết tham khảo

1 bình luận

GN⁺ 2025-05-15

Ý kiến trên Hacker News

Theo nội dung được trích dẫn trong bài báo, nếu áp dụng lặp lại thuật toán Strassen thì phép nhân ma trận 4x4 cần 49 phép nhân, còn AlphaEvolve đã tìm ra phương pháp đầu tiên thực hiện phép nhân ma trận phức 4x4 chỉ với 48 phép nhân. Khi tự mình nhân ma trận trực tiếp, dễ có cảm giác đang lặp lại nhiều phép tính tương tự nhau. Ví dụ, khi tính kích thước hợp của hai tập hợp, cũng phải trừ đi phần trùng lặp. Thuật toán Strassen là cách theo dõi trước những phép tính sẽ cần ở các bước sau, và có phần giống như quy hoạch động. Điều thú vị là phần tiết kiệm thêm chỉ xuất hiện với số phức, nên có vẻ trong cách làm đơn giản đang tồn tại kiểu đếm trùng nào đó trên mặt phẳng phức
- Khi tìm trên Google với cụm “4x4 matrices multiplication 48”, tôi thấy một bài trên math.stackexchange. Năm 2019 đã có nhắc đến việc có thể nhân ma trận 4x4 chỉ với 48 phép nhân và có kèm liên kết tới luận án tiến sĩ. Tôi nghĩ kết quả này có thể đã là điều người ta biết từ trước rồi (tôi vẫn chưa kiểm tra được phần khái quát thuật toán)
- Có vẻ đang có hiểu nhầm về thuật toán Strassen. Thứ nhất, Strassen không phải là quy hoạch động mà là ví dụ tiêu biểu của kỹ thuật chia để trị. Thứ hai, thuật toán Strassen hoạt động được chỉ với số thực chứ không cần số phức
Có đoạn nói rằng AlphaEvolve đã cải thiện tốc độ tới 32.5% cho kernel FlashAttention của các mô hình AI dựa trên Transformer. Họ cũng nhắc rằng trong 75% trường hợp hệ thống đã tái khám phá lời giải tốt nhất hiện có, và trong 20% trường hợp còn cải thiện thêm kỷ lục tốt nhất trước đó. Kết quả này thực sự ấn tượng, nhưng tôi rất muốn biết cụ thể họ đã làm theo cách nào và có những cải tiến gì. Tôi cũng muốn xem benchmark thực tế, liệu mức tăng 32.5% có chỉ xuất hiện ở các trường hợp ngoại lệ cực đoan hay không
- GPU có cấu trúc phân cấp bộ nhớ đệm, nên việc chọn kích thước block tối ưu có thể mang lại lợi ích rất lớn, nhưng trên thực tế còn phụ thuộc vào nhiều kernel, GPU và công sức tinh chỉnh khác nhau. Cũng có vấn đề về kernel fusion hay ranh giới API. Kết quả của AlphaEvolve rất ấn tượng, nhưng không phải phép màu hay mánh khóe gì
- AlphaEvolve đã tăng tốc 23% cho kernel cốt lõi của kiến trúc Gemini bằng cách chia thông minh các phép nhân ma trận lớn thành những bài toán con dễ xử lý hơn, và giảm 1% tổng thời gian huấn luyện của Gemini
- Những con số kiểu này gần đây trông có vẻ bị thổi phồng quá mức. Nếu FlashAttention thực sự nhanh hơn 32.5% thì tôi tự hỏi vì sao họ không gửi PR vào kho Flash Attention. Giá mà có thể đọc chi tiết hơn thì tốt
Đây là một thời điểm có ý nghĩa. Giờ đã có bằng chứng rõ ràng rằng hệ thống AI có thể tạo ra nghiên cứu mới mang lại giá trị thực chất cho thế giới thực. Mức tiết kiệm 1% chỉ mới là khởi đầu, và nếu những hiệu ứng như vậy cộng dồn thì có thể mang lại lợi ích đáng kể. Ngoài ra, chính quá trình này cũng được dùng để phát triển gemini 2.5 pro, nên đang dần đi theo hướng tự cải thiện từng bước. Dù chưa hoàn toàn tự động, nhưng đã có thể nhìn ra nó đang hướng đến đâu
- Các hệ thống lập trình tiến hóa đã cải thiện thuật toán trong thời gian dài rồi. Tôi chưa rõ lập trình tiến hóa dựa trên LLM sẽ là một thay đổi mang tính đột phá hay chỉ là tiến hóa dần dần. Tôi cũng thận trọng với khái niệm tự cải thiện. Ý tưởng “GP cải thiện chính GP!” đã có từ rất lâu nhưng đến nay vẫn chưa cho ra kết quả rõ rệt. Cũng đã có những trường hợp và bài báo liên quan từ các công ty khác
- Tôi nghi ngờ liệu kết quả này có thực sự mới không. Đã có tài liệu nói rằng lời giải với 48 và 46 phép nhân vốn đã được biết đến, và cũng thấy có sự phấn khích kiểu AI đã chạm tới điểm kỳ dị. Nếu đây thật sự là một đột phá lớn thì có lẽ nó đã lan truyền nhanh hơn cả bài báo rồi
Tôi tò mò mức độ gia tăng ở đây là bao nhiêu. Lấy ví dụ B.2 (bất đẳng thức tự tương quan thứ hai), tôi tìm bài báo trước đó (https://arxiv.org/pdf/0907.1379) và thấy các tác giả nói rằng họ đã dùng Mathematica để tìm kiếm số học nhằm có được cận trên trước đó. Họ cũng nói rằng không tiếp tục cải thiện phần này vì lợi ích không tương xứng với công sức. Tức là tiến bộ lần này của AlphaEvolve cũng khá mang tính gia tăng thôi (dù vẫn là kết quả rất hay)
- Giờ thì “công sức” đã giảm mạnh đến mức không còn có thể nói là “không đáng bỏ công” nữa. Điều đó tự nó đã quan trọng rồi
- Những việc không đáng thời gian của con người, khi được AI tự động hóa, sẽ tích lũy thành vô số “cơ hội” và tạo ra khác biệt cực lớn
- Điều này đúng là mang lại cảm giác AI thực sự đang bắt đầu cất cánh
Thật khó giữ lập trường phòng thủ trước những tuyên bố táo bạo như thế này. Nếu mọi thứ đúng như mô tả thì về cơ bản “AI mất kiểm soát” đã hoàn thành rồi. Về mặt triết học, nếu ta giải thích từng bước một khám phá mới cho một LLM thế hệ cũ thì thông tin đó là tri thức “mới”, nhưng rốt cuộc đó vẫn là trí tuệ con người được đưa vào theo đường vòng
Nghe thì hay, nhưng về bản chất chẳng phải nó khá giống Co-Scientist của Google sao? Nhiều LLM trao đổi ngữ cảnh với nhau rồi cùng xác minh. Về mặt thực thi thì ấn tượng, nhưng tôi không thấy nó hoàn toàn mới ở tầng nền tảng. LLM rõ ràng hữu ích trong tối ưu mã hoặc phát hiện các mẫu và sự trùng lặp mà con người bỏ sót, nhưng tin này cũng mang cảm giác như thêm một bài blog hào nhoáng khác của Google. Trước đây thương hiệu ‘Alpha’ thường chỉ gắn với những đột phá rõ rệt như AlphaGo hay AlphaFold, còn dạo này có vẻ gắn cả cho các hệ thống có mức tác động tương đối thấp hơn. Tham khảo thêm, Co-Scientist cũng có phương pháp đánh giá. ( https://research.google/blog/accelerating-scientific-breakth... tham khảo )
- Bài báo về AlphaEvolve có đề cập điểm này. Nếu AI Co-Scientist biểu đạt giả thuyết khoa học và đánh giá bằng ngôn ngữ tự nhiên, thì AlphaEvolve tiến hóa bằng cách tiến hóa mã và các hàm đánh giá mang tính chương trình. Nhờ vậy có thể tránh đáng kể hiện tượng ảo giác của LLM, và tiến hành quy trình tiến hóa liên tục qua nhiều bước
- Đúng chất Google, cảm giác như các nhóm khác nhau vẫn đồng thời làm ra những sản phẩm có chức năng tương tự
- Tôi không rõ “Google's Co-Scientist” là tên một dự án hay nhiều dự án
Những người chờ điểm kỳ dị sẽ chú ý đến những câu như thế này. “AlphaEvolve đề xuất các sửa đổi bằng ngôn ngữ tiêu chuẩn mà các kỹ sư thiết kế chip sử dụng, từ đó cho phép AI và kỹ sư phần cứng cộng tác”
- Trích phần liên quan trong bài báo thì AlphaEvolve đã loại bỏ các bit không cần thiết trong mã khối toán tử bên trong đơn vị matmul, và thay đổi này đã được các nhà thiết kế TPU xác minh tính chính xác. Nguyên nhân có thể là các bit cao của đầu ra mạch MAC không được dùng trong bộ tích lũy phía dưới hoặc nơi khác. Thực ra, tối ưu tương đương như vậy cũng thường được công cụ tổng hợp ở bước sau tự động thực hiện, và họ lập luận rằng việc cắt bit sớm ngay ở RTL nguồn có ý nghĩa hơn tối ưu sau tổng hợp. Tuy nhiên, công cụ tổng hợp bảo đảm ngữ nghĩa mạch không thay đổi, còn sửa RTL nguồn thì không, nên cần con người xác minh. Dù vậy, việc không thể chú thích lại vào mã nguồn phần nào đã được tối ưu từ kết quả tổng hợp là điều đáng tiếc. Tôi nghĩ tiến hóa mã dựa trên LLM có ý nghĩa trong giai đoạn thăm dò sớm của thiết kế phần cứng, nhưng thành tựu thực tế của AlphaEvolve đang bị cường điệu hóa
- Cuối cùng thì điều này có nghĩa là nó hoạt động trên biểu diễn trung gian của trình biên dịch hoặc văn bản gỡ lỗi
- Cách tiếp cận này chỉ áp dụng được cho các bài toán tối ưu có hàm đánh giá được xác định rõ hoặc đo lường được. Không thể viết một hàm đánh giá cho “trí tuệ tổng quát”
- Câu “AlphaEvolve nâng cao hiệu quả trong trung tâm dữ liệu, thiết kế chip và huấn luyện AI của Google — bao gồm cả việc huấn luyện LLM đã tạo ra chính AlphaEvolve” thật sự gây ấn tượng. Nó tạo cảm giác như thực tại nơi AI tự cải thiện nhanh hơn con người đang đến gần
- Điểm kỳ dị luôn nằm ở đỉnh cao của sự quá tự tin, còn AI trên thực tế chỉ là kiểu giả trí tuệ như một ‘thang nâng ghế tự động’
Điều thú vị là AlphaEvolve đã được dùng từ một năm trước và chỉ đến bây giờ mới được công bố. Theo bài báo, nó hoạt động dựa trên Gemini 2.0 (Pro và Flash), nên có một tình huống khá lạ là Gemini 2.0 được dùng để huấn luyện Gemini 2.5. Dù chưa hẳn là một “vòng phản hồi tự cải thiện” điển hình, nó vẫn phần nào cho thấy bối cảnh đó. Tôi vẫn thắc mắc trong một năm qua AlphaEvolve chỉ được phát triển hay đã đi từ chế tạo đến triển khai thực tế. Cũng thấy rằng các thành quả thu được từ nghiên cứu AI không nhất thiết phải chia sẻ ngay lập tức
- Nếu có đủ bộ não, tài nguyên tính toán và phần cứng, thì có vẻ chẳng còn gì ngăn được một vòng phản hồi thực sự. DeepMind đang ở vị thế độc nhất về phương diện này
- Việc dùng Gemini 2.0 để cải thiện Gemini 2.5 khá giống chiến lược mà OpenAI từng theo đuổi từ sau khi đưa vào RLHF, tạo ra dữ liệu có cấu trúc và các mô hình kiểu chưng cất
- Mấu chốt là tính tự chủ. Chỉ khi những thay đổi do nó tự tạo ra có thể được chấp nhận mà không cần con người xác minh thì mới thực sự có ý nghĩa. Nếu ngày càng có nhiều lời giải hoàn toàn không thể giải thích, tôi nghi ngờ liệu chúng có thực sự hữu ích hay không. Có khi chỉ tích tụ thêm những đoạn mã khó hiểu không cần thiết. Tôi cũng tự hỏi liệu đó có phải điều họ đang hướng tới không
Tôi ngạc nhiên vì phần mô tả quy trình tiến hóa của AlphaEvolve quá ít. Cụm từ “một thuật toán lấy cảm hứng từ MAP elites algorithm và island-based population model” cho thấy hai chữ “lấy cảm hứng” thực ra bao hàm rất nhiều thứ. Các chiều biến dị của MAP-elites được xác định ra sao, hai thuật toán được kết hợp thế nào, và mức độ “lấy cảm hứng” là tới đâu — tất cả đều thiếu cụ thể. Có cảm giác phần cốt lõi của quy trình tiến hóa về cơ bản vẫn là bí quyết riêng
- Bài báo năm 2023 trên Nature về tiến hóa LLM theo kiểu island-based (https://www.nature.com/articles/s41586-023-06924-6) nói chi tiết hơn. Việc thiết lập những “chiều/đặc trưng” cốt lõi như vậy là rất quan trọng. Xét theo góc độ khoa học thì những whitepaper kiểu này lại khá đáng thất vọng
- Cách đơn giản nhất là để mô hình tự tạo ra các tiêu chí đánh giá khác nhau rồi dùng từng tiêu chí làm một chiều
Bài báo giải thích chưa đủ về phần tiến hóa. Thông thường thuật toán tiến hóa có thành phần lai ghép (crossover); nếu không có thì thực ra nên xếp nó gần với hill climbing hoặc beam search hơn
- Có một chú thích nói cần 16 lần “đột biến”, nên tôi tò mò quá trình đột biến đó diễn ra thế nào
- Cũng có các thuật toán “chiến lược tiến hóa” sử dụng một quần thể ứng viên để xấp xỉ bề mặt độ dốc mà không cần đột biến và lai ghép theo kiểu thông thường
- Điều đáng lo là rất có thể đây không phải thuật toán tiến hóa đúng nghĩa, mà chỉ là một cách làm khác có cái tên na ná vậy thôi

AlphaEvolve: Tác nhân lập trình thiết kế thuật toán tiên tiến dựa trên Gemini

AlphaEvolve: Tác nhân tiến hóa thuật toán dựa trên Gemini

Tổng quan

Các lĩnh vực ứng dụng thực tế và thành quả

Tối ưu hóa hạ tầng điện toán của Google

Cải thiện lập lịch trung tâm dữ liệu

Hỗ trợ thiết kế phần cứng

Tăng tốc huấn luyện và suy luận AI

Đổi mới trong lĩnh vực toán học và thuật toán

Phát hiện thuật toán nhân ma trận mới

Khám phá các bài toán khó trong toán học

Cách hoạt động

Kế hoạch sắp tới

Khả năng ứng dụng

Liên kết tham khảo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News