- AlphaEvolve là tác tử lập trình dựa trên Gemini, khởi đầu từ thiết kế thuật toán nâng cao rồi mở rộng phạm vi ứng dụng sang các bài toán mở trong toán học và khoa học máy tính, tối ưu hóa hạ tầng Google, cùng các bài toán khoa học và công nghiệp
- Trong lĩnh vực gen học, hệ thống này đã cải thiện DeepConsensus, giúp giảm 30% lỗi phát hiện biến thể; trong lưới điện, nó góp phần nâng tỷ lệ tìm được nghiệm khả thi cho bài toán AC Optimal Power Flow từ 14% lên hơn 88%
- Trong khoa học Trái Đất, AlphaEvolve tự động hóa tối ưu hóa mô hình Earth AI, qua đó tăng 5% độ chính xác tổng thể của dự báo rủi ro thiên tai ở 20 nhóm như cháy rừng, lũ lụt và lốc xoáy; trong vật lý lượng tử, nó đề xuất các mạch lượng tử có lỗi thấp hơn 10 lần so với mức chuẩn trước đó trên Willow quantum processor
- Trong toán học, hệ thống này đã cùng Terence Tao góp phần giải bài toán Erdős, đồng thời cải thiện cận dưới cho Traveling Salesman Problem và Ramsey Numbers, và còn được dùng cho các mô hình thần kinh học có thể diễn giải, kinh tế vi mô, mật mã học, dữ liệu tổng hợp và các biện pháp giảm thiểu an toàn AI
- Trong hạ tầng Google, AlphaEvolve được dùng cho thiết kế TPU thế hệ tiếp theo, chính sách thay thế bộ nhớ đệm, heuristic compact của LSM-tree trong Google Spanner, và tối ưu hóa trình biên dịch; trong ứng dụng thương mại, nó đạt mức tăng tốc huấn luyện gấp 2 lần cho Klarna, cải thiện 10,4% hiệu quả lộ trình cho FM Logistic, và tăng tốc khoảng 4 lần cho huấn luyện và suy luận MLFF của Schrödinger
Tác động xã hội và tính bền vững
-
Gen học
- AlphaEvolve được dùng để cải thiện DeepConsensus, mô hình hiệu chỉnh lỗi giải trình tự DNA do Google Research phát triển, qua đó giảm 30% lỗi phát hiện biến thể
- Cải tiến này giúp các nhà khoa học tại PacBio phân tích dữ liệu di truyền chính xác hơn với chi phí thấp hơn
- Aaron Wenger của PacBio cho biết lời giải do AlphaEvolve tìm ra giúp nâng độ chính xác của thiết bị giải trình tự một cách đáng kể, qua đó có thể cho phép các nhà nghiên cứu phát hiện những đột biến gây bệnh trước đây bị che khuất bằng dữ liệu chất lượng cao hơn
-
Tối ưu hóa lưới điện
- AlphaEvolve đã được áp dụng cho bài toán AC Optimal Power Flow
- Mô hình Graph Neural Network (GNN) đã huấn luyện nhờ đó nâng tỷ lệ tìm được nghiệm khả thi của bài toán từ 14% lên hơn 88%
- Kết quả này giúp giảm mạnh nhu cầu về các bước hậu xử lý vốn tốn kém trong lưới điện
-
Khoa học Trái Đất
- AlphaEvolve được dùng để chuyển đổi dữ liệu địa không gian phức tạp thành các insight đáng tin cậy và có thể hành động hơn
- Bằng cách tự động hóa tối ưu hóa mô hình Earth AI, hệ thống đã tăng 5% độ chính xác tổng thể của dự báo rủi ro thiên tai khi gộp 20 nhóm như cháy rừng, lũ lụt và lốc xoáy
Tiến triển ở tuyến đầu nghiên cứu
-
Vật lý lượng tử
- Các tối ưu hóa của AlphaEvolve giúp Willow quantum processor của Google có thể chạy các mô phỏng phân tử phức tạp
- Hệ thống đề xuất các mạch lượng tử có lỗi thấp hơn 10 lần so với mức chuẩn tối ưu hóa thông thường trước đây, đóng góp trực tiếp tức thì cho màn trình diễn thử nghiệm điện toán lượng tử đầu tiên thuộc loại này
- Thành quả này cho thấy AlphaEvolve có thể mở đường tới tương lai nơi nó tìm ra các thuật toán vượt quá năng lực của máy tính cổ điển
-
Toán học
- AlphaEvolve đã cùng các nhà toán học như Terence Tao góp phần giải bài toán Erdős
- Terence Tao cho biết những công cụ như AlphaEvolve đặc biệt hữu ích trong các bài toán tối ưu hóa, vì chúng có thể nhanh chóng kiểm thử các phản ví dụ cho những bất đẳng thức tiềm năng hoặc xác nhận niềm tin về các đối tượng cực trị, từ đó cải thiện đáng kể trực giác và giúp việc tìm ra chứng minh chặt chẽ trở nên dễ dàng hơn
- AlphaEvolve cũng phá kỷ lục khi cải thiện cận dưới cho các bài toán toán học kinh điển như Traveling Salesman Problem và Ramsey Numbers
-
Các lĩnh vực nghiên cứu khác
Cải thiện hạ tầng AI
- AlphaEvolve đã vượt ra ngoài giai đoạn thử nghiệm pilot để trở thành thành phần cốt lõi trong hạ tầng Google
- Hệ thống được dùng như một công cụ thường xuyên để tối ưu hóa thiết kế thế hệ TPU tiếp theo
- Nó đã tìm ra chính sách thay thế bộ nhớ đệm hiệu quả hơn, hoàn thành trong chỉ hai ngày một công việc trước đây cần nhiều tháng nỗ lực tập trung của con người
- Jeff Dean cho biết AlphaEvolve đã bắt đầu tối ưu hóa tầng thấp nhất của phần cứng vận hành stack AI, đồng thời đề xuất các thiết kế mạch trái với trực giác nhưng hiệu quả, và chúng đã được tích hợp trực tiếp vào silicon TPU thế hệ tiếp theo
- AlphaEvolve cũng cải thiện heuristic compact của Log-Structured Merge-tree trong Google Spanner, qua đó nâng cao hiệu quả
- Tối ưu hóa này đã giảm 20% write amplification — tức tỷ lệ dữ liệu được ghi vào lưu trữ so với lượng yêu cầu ban đầu
- AlphaEvolve còn mang lại insight cho một chiến lược tối ưu hóa trình biên dịch mới giúp giảm gần 9% dung lượng lưu trữ mà phần mềm sử dụng
Mở rộng ứng dụng thương mại
- Cùng với Google Cloud, AlphaEvolve đang được cung cấp cho các doanh nghiệp thương mại trong nhiều ngành
- Trong lĩnh vực dịch vụ tài chính, Klarna đã dùng AlphaEvolve để tối ưu hóa một trong các mô hình transformer lớn của mình, qua đó tăng gấp đôi tốc độ huấn luyện đồng thời cải thiện chất lượng mô hình
- Trong lĩnh vực sản xuất bán dẫn, Substrate đã áp dụng AlphaEvolve vào framework computational lithography, tăng tốc runtime lên nhiều lần và cho phép chạy các mô phỏng bán dẫn tiên tiến ở quy mô lớn hơn
- Trong lĩnh vực logistics, FM Logistic đã tối ưu hóa các bài toán lộ trình phức tạp như Traveling Salesman Problem, qua đó cải thiện 10,4% hiệu quả lộ trình so với lời giải vốn đã được tối ưu hóa mạnh trước đó và tiết kiệm hơn 15.000 km quãng đường di chuyển mỗi năm
- Trong lĩnh vực quảng cáo và marketing, WPP đã dùng AlphaEvolve để tinh chỉnh các thành phần mô hình AI và xử lý dữ liệu chiến dịch phức tạp, nhiều chiều, qua đó tăng 10% độ chính xác so với tối ưu hóa mô hình thủ công có tính cạnh tranh
- Trong lĩnh vực vật liệu tính toán và khoa học sự sống, Schrödinger đã áp dụng AlphaEvolve và đạt mức tăng tốc khoảng 4 lần cho cả huấn luyện lẫn suy luận của Machine Learned Force Fields (MLFF)
- Gabriel Marques của Schrödinger cho biết suy luận MLFF nhanh hơn giúp rút ngắn chu kỳ R&D trong khám phá thuốc, thiết kế chất xúc tác và phát triển vật liệu, từ đó tạo tác động kinh doanh thực tế khi doanh nghiệp có thể sàng lọc các ứng viên phân tử trong vài ngày thay vì vài tháng
Hướng đi tiếp theo
- Trong một năm qua, AlphaEvolve đang nhanh chóng khẳng định vị thế là một hệ thống đa dụng có mục đích tổng quát
- Điều này cho thấy đột phá tiếp theo có thể được dẫn dắt bởi các thuật toán có khả năng tự học, tự tiến hóa và tự tối ưu hóa
- Google DeepMind muốn tiếp tục mở rộng năng lực của AlphaEvolve và áp dụng nó cho những bài toán bên ngoài rộng hơn nữa
1 bình luận
Ý kiến trên Hacker News
Điều này làm tôi nhớ đến bài "Don't fall into the anti-AI hype" của Antirez [0]
Tóm gọn trong một câu, các mô hình nền tảng như thế này thật sự rất mạnh trong việc tối ưu những không gian bài toán vừa ở mức rất cao vừa được xác định rất rõ, kiểu như “hãy làm phép nhân ma trận nhanh hơn”. Với Antirez thì đó là “hãy làm Redis nhanh hơn”
Phản ứng thì chia làm hai phía: “chuyện này sẽ không bao giờ áp dụng được cho công việc của tôi” và “nó hoàn thành trong một giờ việc vốn mất vài tháng”, và tôi nghĩ cả hai đều đúng. Thật đáng mừng khi Antirez tiếp tục tạo ra kết quả sau đó [1], nhưng tôi cũng nghĩ có thể nói rằng phần lớn công việc của con người — chứa nhiều tri thức ngầm, xoay quanh hệ thống con người, và được định nghĩa mơ hồ — thì LLM khó xử lý, hoặc vốn dĩ không phải là thứ chúng được tạo ra để làm
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
Chẳng bao lâu nữa, mọi cuộc họp sẽ được ghi âm, chép lại và lưu vào một nơi được lập chỉ mục tốt để tác nhân có thể tra cứu khi gặp mơ hồ. Nếu giờ nó đã có thể hỏi, thì khi môi trường đó sẵn sàng, nó cũng sẽ có thể tự tra câu trả lời. Thực ra nếu đã có một hệ thống Notion/Confluence được tài liệu hóa tốt thì hiện nay nó cũng làm được như vậy rồi, chỉ là hầu như không tổ chức nào có điều đó
Việc huấn luyện tăng cường cho khả năng “nhận diện mơ hồ” có lẽ khó hơn huấn luyện tăng cường cho các thuật toán hiệu năng, nhưng không phải là bất khả thi và theo tôi thì việc đó đã bắt đầu. Giờ chỉ còn là vấn đề thời gian
Nó yếu ở việc phát minh mới các thuật toán không phổ biến, và thường xuyên nhét vào những đường tắt ngắn hạn đến mức ngớ ngẩn. Hiện tại nó vẫn là công cụ chứ chưa phải người thợ lành nghề biết dùng công cụ một cách thuần thục. Điều này sẽ dần thay đổi, và những góc mà thuật toán hiếm có thể thắng cũng sẽ ít đi
Thật sự rất khó đánh giá trung bình bên nào sẽ thắng
Các CEO AI rất thích thao thao bất tuyệt rằng AI sẽ chữa được ung thư, nhưng nơi có vẻ thực sự bám sát những bài toán nghiên cứu như vậy thì chỉ có DeepMind
OpenAI và Anthropic nhìn chung có vẻ đang theo đuổi doanh thu doanh nghiệp và doanh thu từ mảng lập trình
Những người làm ở Google có hài lòng khi dùng tác nhân lập trình Gemini thay vì Claude Code hay Codex không? Tôi không mỉa mai đâu, thật sự muốn biết
Vẫn còn một số phần đang được dọn dẹp ở UI/UX/công cụ, tích hợp với hệ thống quản lý phiên bản, và những vấn đề sâu hơn khó nói ra, nhưng tôi nghĩ phần lớn lời phàn nàn liên quan đến tốc độ thay đổi nhiều hơn là năng lực thực tế
Điều thú vị là trong nội bộ có khá nhiều người có ảnh hưởng khẳng định mạnh mẽ rằng họ thích model Flash hơn model Pro. Dù chuyện đó có đúng hay không, điều thú vị là giờ đây “mô hình tốt hơn” không nhất thiết đồng nghĩa với hữu ích hơn, và có thể chúng ta đã đến giai đoạn mà mô hình nhanh hơn kết hợp với cải thiện harness là một thỏa hiệp tốt hơn
Có timeout liên tục, các chế độ lỗi kỳ quặc, và cả chuyện phải bắt đầu cuộc trò chuyện mới nếu muốn đổi mode. Tuy nhiên điều này có vẻ là vấn đề của extension hơn là của bản thân mô hình Gemini
Nếu bỏ qua khía cạnh extension của VS Code và chỉ nhìn vào việc giải quyết vấn đề thực tế, thì cả ba model hàng đầu đều là những tác nhân lập trình tuyệt vời cho nhu cầu của tôi
Gemini có thể không phải là tác nhân lập trình tốt nhất, nhưng có thể rất tốt cho những việc khác
Kiểu như nó hoàn toàn quên mất cách gọi công cụ, lãng phí rất nhiều thời gian rồi cuối cùng bỏ cuộc, hoặc hoàn toàn phớt lờ hướng dẫn style code trong các file kiểu AGENTS.md
Trải nghiệm của tôi khi chạy Gemma 4 cục bộ cũng tương tự. Sau một hai lần gọi công cụ thì nó bắt đầu gọi bừa theo ý mình. Mới hôm qua tôi còn thấy nó tự định nghĩa lại công cụ như read_file(start, end) thành read_file(start, number_of_bytes), và thậm chí không thừa nhận khả năng mình sai
Nếu AI có thể tự cải thiện chính nó, hoặc ít nhất là cải thiện kiến trúc mà nó đang chạy, thì theo cách mọi người nói, có thể điểm kỳ dị đã ở rất gần
Ngoài việc tạo dữ liệu tổng hợp hay kiểm thử mô hình, còn có ví dụ nào khác về việc AI được dùng để cải thiện LLM không?
Một Transformer hiệu quả hơn chỉ làm giảm chi phí chạy
Để gọi là “AI cải thiện AI”, thì một thế hệ AI phải thiết kế ra thế hệ AI tiếp theo có năng lực vượt trội về mặt căn bản so với chính nó. Không chỉ nhanh hơn hay rẻ hơn, mà phải giống như một bộ não bò sát tự chủ thiết kế ra bộ não động vật có vú vậy
Ngay cả khi gắn với một harness thông minh như AlphaEvolve, tôi vẫn không nghĩ LLM có kiểu sáng tạo đó. Tuy nhiên vẫn có ngoại lệ nếu kiến trúc thế hệ tiếp theo đang hiển nhiên ẩn trong một tổ hợp linh kiện mà LLM có thể được dẫn dắt để dự đoán
Con đường có khả năng hơn là sau vài bước đổi mới tiếp theo của con người hướng tới AGI, chúng ta sẽ có AI có thể đổi mới tự chủ, chứ không chỉ tạo ra tổ hợp dựa trên prompt
Có thể tồn tại những ràng buộc đủ mạnh để khiến điểm kỳ dị là bất khả thi, hoặc khung thời gian quá dài đến mức không thực tế, đúng không?
Mọi phòng thí nghiệm AI lớn đều đang đẩy mạnh các dự án tác nhân nghiên cứu, đặc biệt là tác nhân phục vụ việc cải thiện AI, và tôi kỳ vọng khá nhiều dự án trong số đó sẽ vượt qua giai đoạn thử nghiệm ngay trong năm nay
Sang năm chúng sẽ thực sự làm được nhiều việc, và tôi nghĩ chúng ta sẽ thấy thay đổi kiến trúc lớn đầu tiên có hiệu lực do AI đồng phát minh
Còn phải nghe nhắc đến bài toán Erdős bao nhiêu lần nữa đây :) Lúc đầu nghe như một thành tựu vĩ đại của nhân loại, nhưng rồi theo thời gian nó cứ quay lại mãi
Trong khi đó thì Gemini CLI đã hỏng suốt nhiều tháng rồi
https://github.com/google-gemini/gemini-cli/issues/22141
Tôi chỉ mong Google tập trung vào việc phát hành chính thức các model Gemini 3.x và cung cấp đủ năng lực để tôi không phải tiếp tục vật lộn với lỗi 429
Nhiều lúc có cảm giác như họ không muốn người ta phát triển ứng dụng cho khách hàng doanh nghiệp bằng Vertex API. Điều này khá đáng tiếc khi nghĩ đến việc model của họ thật sự rất xuất sắc trong những tác vụ như phân tích tài liệu
Mọi bài báo kiểu *Evolve đều cho kết quả rất ấn tượng, nhưng khi xem thông tin được công bố, cảm giác của tôi là sự chú ý lại đổ dồn vào phía LLM và AI
Trong khi đó, thành quả được báo cáo gần như luôn là kết quả của những môi trường được thiết kế cực kỳ tốt để LLM và thuật toán tiến hóa hoạt động hiệu quả
Bài này là một ví dụ rất tốt và đáng đọc
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
Đây là một cách giải cực kỳ đơn giản để cải thiện thuật toán. Tôi ước gì vài năm trước, lúc còn làm activation engineering, đã có thứ như thế này: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
Có thể tiếp cận AlphaEvolve bằng cách nào?
Vấn đề tôi thấy với Claude là ngay cả các tác vụ đơn giản nó cũng thường làm mã và đầu ra phình to quá mức, đôi khi còn không chạy được
Gemini thì cân bằng khá tốt: nó đưa ra lời giải chạy được với lượng mã vừa đủ cần thiết và độ phức tạp tối thiểu, nên dễ bảo trì hơn
Dạo này tôi chỉ tìm đến Claude cho mã frontend, đặc biệt là HTML. Ngay cả ở đó CSS của nó cũng quá nhiều, chiếm cỡ 60% kích thước file, nhưng đổi lại nó cho cảm giác được trau chuốt hơn một chút nên tôi vẫn chấp nhận file lớn hơn