AlphaEvolve: tác tử lập trình dựa trên Gemini đang mở rộng ảnh hưởng sang nhiều lĩnh vực

(deepmind.google)

1 điểm bởi GN⁺ 1 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

AlphaEvolve là tác tử lập trình dựa trên Gemini, khởi đầu từ thiết kế thuật toán nâng cao rồi mở rộng phạm vi ứng dụng sang các bài toán mở trong toán học và khoa học máy tính, tối ưu hóa hạ tầng Google, cùng các bài toán khoa học và công nghiệp
Trong lĩnh vực gen học, hệ thống này đã cải thiện DeepConsensus, giúp giảm 30% lỗi phát hiện biến thể; trong lưới điện, nó góp phần nâng tỷ lệ tìm được nghiệm khả thi cho bài toán AC Optimal Power Flow từ 14% lên hơn 88%
Trong khoa học Trái Đất, AlphaEvolve tự động hóa tối ưu hóa mô hình Earth AI, qua đó tăng 5% độ chính xác tổng thể của dự báo rủi ro thiên tai ở 20 nhóm như cháy rừng, lũ lụt và lốc xoáy; trong vật lý lượng tử, nó đề xuất các mạch lượng tử có lỗi thấp hơn 10 lần so với mức chuẩn trước đó trên Willow quantum processor
Trong toán học, hệ thống này đã cùng Terence Tao góp phần giải bài toán Erdős, đồng thời cải thiện cận dưới cho Traveling Salesman Problem và Ramsey Numbers, và còn được dùng cho các mô hình thần kinh học có thể diễn giải, kinh tế vi mô, mật mã học, dữ liệu tổng hợp và các biện pháp giảm thiểu an toàn AI
Trong hạ tầng Google, AlphaEvolve được dùng cho thiết kế TPU thế hệ tiếp theo, chính sách thay thế bộ nhớ đệm, heuristic compact của LSM-tree trong Google Spanner, và tối ưu hóa trình biên dịch; trong ứng dụng thương mại, nó đạt mức tăng tốc huấn luyện gấp 2 lần cho Klarna, cải thiện 10,4% hiệu quả lộ trình cho FM Logistic, và tăng tốc khoảng 4 lần cho huấn luyện và suy luận MLFF của Schrödinger

Tác động xã hội và tính bền vững

Gen học
- AlphaEvolve được dùng để cải thiện DeepConsensus, mô hình hiệu chỉnh lỗi giải trình tự DNA do Google Research phát triển, qua đó giảm 30% lỗi phát hiện biến thể
- Cải tiến này giúp các nhà khoa học tại PacBio phân tích dữ liệu di truyền chính xác hơn với chi phí thấp hơn
- Aaron Wenger của PacBio cho biết lời giải do AlphaEvolve tìm ra giúp nâng độ chính xác của thiết bị giải trình tự một cách đáng kể, qua đó có thể cho phép các nhà nghiên cứu phát hiện những đột biến gây bệnh trước đây bị che khuất bằng dữ liệu chất lượng cao hơn
Tối ưu hóa lưới điện
- AlphaEvolve đã được áp dụng cho bài toán AC Optimal Power Flow
- Mô hình Graph Neural Network (GNN) đã huấn luyện nhờ đó nâng tỷ lệ tìm được nghiệm khả thi của bài toán từ 14% lên hơn 88%
- Kết quả này giúp giảm mạnh nhu cầu về các bước hậu xử lý vốn tốn kém trong lưới điện
Khoa học Trái Đất
- AlphaEvolve được dùng để chuyển đổi dữ liệu địa không gian phức tạp thành các insight đáng tin cậy và có thể hành động hơn
- Bằng cách tự động hóa tối ưu hóa mô hình Earth AI, hệ thống đã tăng 5% độ chính xác tổng thể của dự báo rủi ro thiên tai khi gộp 20 nhóm như cháy rừng, lũ lụt và lốc xoáy

Tiến triển ở tuyến đầu nghiên cứu

Vật lý lượng tử
- Các tối ưu hóa của AlphaEvolve giúp Willow quantum processor của Google có thể chạy các mô phỏng phân tử phức tạp
- Hệ thống đề xuất các mạch lượng tử có lỗi thấp hơn 10 lần so với mức chuẩn tối ưu hóa thông thường trước đây, đóng góp trực tiếp tức thì cho màn trình diễn thử nghiệm điện toán lượng tử đầu tiên thuộc loại này
- Thành quả này cho thấy AlphaEvolve có thể mở đường tới tương lai nơi nó tìm ra các thuật toán vượt quá năng lực của máy tính cổ điển
Toán học
- AlphaEvolve đã cùng các nhà toán học như Terence Tao góp phần giải bài toán Erdős
- Terence Tao cho biết những công cụ như AlphaEvolve đặc biệt hữu ích trong các bài toán tối ưu hóa, vì chúng có thể nhanh chóng kiểm thử các phản ví dụ cho những bất đẳng thức tiềm năng hoặc xác nhận niềm tin về các đối tượng cực trị, từ đó cải thiện đáng kể trực giác và giúp việc tìm ra chứng minh chặt chẽ trở nên dễ dàng hơn
- AlphaEvolve cũng phá kỷ lục khi cải thiện cận dưới cho các bài toán toán học kinh điển như Traveling Salesman Problem và Ramsey Numbers
Các lĩnh vực nghiên cứu khác
- Năng lực khám phá tự động của AlphaEvolve đang thúc đẩy đổi mới song song trong nhiều lĩnh vực
- Hệ thống được dùng cho khám phá mô hình thần kinh học có thể diễn giải, chứng minh giới hạn thị trường mới trong kinh tế vi mô, và các tiến bộ về thành phần mạng nơ-ron
- Nó cũng được áp dụng vào mật mã học phục vụ quyền riêng tư người dùng, tạo dữ liệu tổng hợp, và các biện pháp giảm thiểu an toàn cốt lõi cho các mô hình AI frontier
- Có thể xem ví dụ AlphaEvolve tối ưu hóa một instance của “Tammes problem” cùng các lời giải tiềm năng cho bài toán khác trong Gallery công khai

Cải thiện hạ tầng AI

AlphaEvolve đã vượt ra ngoài giai đoạn thử nghiệm pilot để trở thành thành phần cốt lõi trong hạ tầng Google
Hệ thống được dùng như một công cụ thường xuyên để tối ưu hóa thiết kế thế hệ TPU tiếp theo
Nó đã tìm ra chính sách thay thế bộ nhớ đệm hiệu quả hơn, hoàn thành trong chỉ hai ngày một công việc trước đây cần nhiều tháng nỗ lực tập trung của con người
Jeff Dean cho biết AlphaEvolve đã bắt đầu tối ưu hóa tầng thấp nhất của phần cứng vận hành stack AI, đồng thời đề xuất các thiết kế mạch trái với trực giác nhưng hiệu quả, và chúng đã được tích hợp trực tiếp vào silicon TPU thế hệ tiếp theo
AlphaEvolve cũng cải thiện heuristic compact của Log-Structured Merge-tree trong Google Spanner, qua đó nâng cao hiệu quả
Tối ưu hóa này đã giảm 20% write amplification — tức tỷ lệ dữ liệu được ghi vào lưu trữ so với lượng yêu cầu ban đầu
AlphaEvolve còn mang lại insight cho một chiến lược tối ưu hóa trình biên dịch mới giúp giảm gần 9% dung lượng lưu trữ mà phần mềm sử dụng

Mở rộng ứng dụng thương mại

Cùng với Google Cloud, AlphaEvolve đang được cung cấp cho các doanh nghiệp thương mại trong nhiều ngành
Trong lĩnh vực dịch vụ tài chính, Klarna đã dùng AlphaEvolve để tối ưu hóa một trong các mô hình transformer lớn của mình, qua đó tăng gấp đôi tốc độ huấn luyện đồng thời cải thiện chất lượng mô hình
Trong lĩnh vực sản xuất bán dẫn, Substrate đã áp dụng AlphaEvolve vào framework computational lithography, tăng tốc runtime lên nhiều lần và cho phép chạy các mô phỏng bán dẫn tiên tiến ở quy mô lớn hơn
Trong lĩnh vực logistics, FM Logistic đã tối ưu hóa các bài toán lộ trình phức tạp như Traveling Salesman Problem, qua đó cải thiện 10,4% hiệu quả lộ trình so với lời giải vốn đã được tối ưu hóa mạnh trước đó và tiết kiệm hơn 15.000 km quãng đường di chuyển mỗi năm
Trong lĩnh vực quảng cáo và marketing, WPP đã dùng AlphaEvolve để tinh chỉnh các thành phần mô hình AI và xử lý dữ liệu chiến dịch phức tạp, nhiều chiều, qua đó tăng 10% độ chính xác so với tối ưu hóa mô hình thủ công có tính cạnh tranh
Trong lĩnh vực vật liệu tính toán và khoa học sự sống, Schrödinger đã áp dụng AlphaEvolve và đạt mức tăng tốc khoảng 4 lần cho cả huấn luyện lẫn suy luận của Machine Learned Force Fields (MLFF)
Gabriel Marques của Schrödinger cho biết suy luận MLFF nhanh hơn giúp rút ngắn chu kỳ R&D trong khám phá thuốc, thiết kế chất xúc tác và phát triển vật liệu, từ đó tạo tác động kinh doanh thực tế khi doanh nghiệp có thể sàng lọc các ứng viên phân tử trong vài ngày thay vì vài tháng

Hướng đi tiếp theo

Trong một năm qua, AlphaEvolve đang nhanh chóng khẳng định vị thế là một hệ thống đa dụng có mục đích tổng quát
Điều này cho thấy đột phá tiếp theo có thể được dẫn dắt bởi các thuật toán có khả năng tự học, tự tiến hóa và tự tối ưu hóa
Google DeepMind muốn tiếp tục mở rộng năng lực của AlphaEvolve và áp dụng nó cho những bài toán bên ngoài rộng hơn nữa

1 bình luận

GN⁺ 1 giờ trước

Ý kiến trên Hacker News

Điều này làm tôi nhớ đến bài "Don't fall into the anti-AI hype" của Antirez [0]
Tóm gọn trong một câu, các mô hình nền tảng như thế này thật sự rất mạnh trong việc tối ưu những không gian bài toán vừa ở mức rất cao vừa được xác định rất rõ, kiểu như “hãy làm phép nhân ma trận nhanh hơn”. Với Antirez thì đó là “hãy làm Redis nhanh hơn”
Phản ứng thì chia làm hai phía: “chuyện này sẽ không bao giờ áp dụng được cho công việc của tôi” và “nó hoàn thành trong một giờ việc vốn mất vài tháng”, và tôi nghĩ cả hai đều đúng. Thật đáng mừng khi Antirez tiếp tục tạo ra kết quả sau đó [1], nhưng tôi cũng nghĩ có thể nói rằng phần lớn công việc của con người — chứa nhiều tri thức ngầm, xoay quanh hệ thống con người, và được định nghĩa mơ hồ — thì LLM khó xử lý, hoặc vốn dĩ không phải là thứ chúng được tạo ra để làm
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
- Thành thật mà nói, giờ tôi không còn tin như vậy nữa. Các mô hình đang bắt đầu xử lý sự mơ hồ khá tốt, và Claude Code bây giờ sẽ hỏi tôi khi có điểm nào chưa rõ
  Chẳng bao lâu nữa, mọi cuộc họp sẽ được ghi âm, chép lại và lưu vào một nơi được lập chỉ mục tốt để tác nhân có thể tra cứu khi gặp mơ hồ. Nếu giờ nó đã có thể hỏi, thì khi môi trường đó sẵn sàng, nó cũng sẽ có thể tự tra câu trả lời. Thực ra nếu đã có một hệ thống Notion/Confluence được tài liệu hóa tốt thì hiện nay nó cũng làm được như vậy rồi, chỉ là hầu như không tổ chức nào có điều đó
  Việc huấn luyện tăng cường cho khả năng “nhận diện mơ hồ” có lẽ khó hơn huấn luyện tăng cường cho các thuật toán hiệu năng, nhưng không phải là bất khả thi và theo tôi thì việc đó đã bắt đầu. Giờ chỉ còn là vấn đề thời gian
- Claude và các công cụ tương tự khá tốt trong việc nhanh chóng hiện thực hóa thuật toán mà tôi đã nghĩ ra. Tuy vậy, tôi vẫn phải đặt nhiều câu hỏi kiểm soát và kiểm tra lại mã
  Nó yếu ở việc phát minh mới các thuật toán không phổ biến, và thường xuyên nhét vào những đường tắt ngắn hạn đến mức ngớ ngẩn. Hiện tại nó vẫn là công cụ chứ chưa phải người thợ lành nghề biết dùng công cụ một cách thuần thục. Điều này sẽ dần thay đổi, và những góc mà thuật toán hiếm có thể thắng cũng sẽ ít đi
- Cuối cùng thì có vẻ yếu tố quyết định rơi vào một trong hai kiểu: “tuyệt thật, đã cải thiện hiệu suất 1%” hoặc “ngu ngốc thật, tôi vừa mất một tiếng để debug cái API ảo giác này”
  Thật sự rất khó đánh giá trung bình bên nào sẽ thắng
- Nếu nghiên cứu được AI hỗ trợ đẩy AI vượt ra ngoài LLM thì sao? Bạn có cho rằng chuyện đó không thể xảy ra không?
- Câu nói “LLM không làm được công việc nhiều tri thức ngầm, xoay quanh hệ thống con người và được định nghĩa mơ hồ” rất có thể sẽ bị xem là cực kỳ thiển cận vào khoảng 2030
Các CEO AI rất thích thao thao bất tuyệt rằng AI sẽ chữa được ung thư, nhưng nơi có vẻ thực sự bám sát những bài toán nghiên cứu như vậy thì chỉ có DeepMind
OpenAI và Anthropic nhìn chung có vẻ đang theo đuổi doanh thu doanh nghiệp và doanh thu từ mảng lập trình
- Google có thể tự tài trợ bằng ngân quỹ thời chiến của mình, còn OpenAI và Anthropic thì vẫn ở thế phải ngửa tay với nhà đầu tư
Những người làm ở Google có hài lòng khi dùng tác nhân lập trình Gemini thay vì Claude Code hay Codex không? Tôi không mỉa mai đâu, thật sự muốn biết
- Có. Mô hình tốt, nhanh, và công cụ nội bộ giờ cũng đã bắt kịp
  Vẫn còn một số phần đang được dọn dẹp ở UI/UX/công cụ, tích hợp với hệ thống quản lý phiên bản, và những vấn đề sâu hơn khó nói ra, nhưng tôi nghĩ phần lớn lời phàn nàn liên quan đến tốc độ thay đổi nhiều hơn là năng lực thực tế
  Điều thú vị là trong nội bộ có khá nhiều người có ảnh hưởng khẳng định mạnh mẽ rằng họ thích model Flash hơn model Pro. Dù chuyện đó có đúng hay không, điều thú vị là giờ đây “mô hình tốt hơn” không nhất thiết đồng nghĩa với hữu ích hơn, và có thể chúng ta đã đến giai đoạn mà mô hình nhanh hơn kết hợp với cải thiện harness là một thỏa hiệp tốt hơn
- Nếu bạn đang nói đến Gemini VS Code Extension thì nó tệ khủng khiếp so với Claude Code hay Codex. Tôi không hiểu sao nó vẫn được vận hành trong tình trạng này
  Có timeout liên tục, các chế độ lỗi kỳ quặc, và cả chuyện phải bắt đầu cuộc trò chuyện mới nếu muốn đổi mode. Tuy nhiên điều này có vẻ là vấn đề của extension hơn là của bản thân mô hình Gemini
  Nếu bỏ qua khía cạnh extension của VS Code và chỉ nhìn vào việc giải quyết vấn đề thực tế, thì cả ba model hàng đầu đều là những tác nhân lập trình tuyệt vời cho nhu cầu của tôi
- Lập trình không phải là công dụng duy nhất của Gemini hay những mô hình kiểu này. Bài viết này cũng không nói về lập trình
  Gemini có thể không phải là tác nhân lập trình tốt nhất, nhưng có thể rất tốt cho những việc khác
- Tháng trước Steve Yegge đã ám chỉ là không phải vậy: https://xcancel.com/Steve_Yegge/status/2043747998740689171
- Nói chuyện với những người ở Google thì có vẻ đa số đều bất mãn với tác nhân Gemini nội bộ, và cho rằng gần đây nó tệ đi đáng kể
  Kiểu như nó hoàn toàn quên mất cách gọi công cụ, lãng phí rất nhiều thời gian rồi cuối cùng bỏ cuộc, hoặc hoàn toàn phớt lờ hướng dẫn style code trong các file kiểu AGENTS.md
  Trải nghiệm của tôi khi chạy Gemma 4 cục bộ cũng tương tự. Sau một hai lần gọi công cụ thì nó bắt đầu gọi bừa theo ý mình. Mới hôm qua tôi còn thấy nó tự định nghĩa lại công cụ như read_file(start, end) thành read_file(start, number_of_bytes), và thậm chí không thừa nhận khả năng mình sai
Nếu AI có thể tự cải thiện chính nó, hoặc ít nhất là cải thiện kiến trúc mà nó đang chạy, thì theo cách mọi người nói, có thể điểm kỳ dị đã ở rất gần
Ngoài việc tạo dữ liệu tổng hợp hay kiểm thử mô hình, còn có ví dụ nào khác về việc AI được dùng để cải thiện LLM không?
- Việc AI làm cho chính nó có năng lực hơn và việc tối ưu phần mềm dùng cho huấn luyện/suy luận AI là hai chuyện khác nhau như táo với cam
  Một Transformer hiệu quả hơn chỉ làm giảm chi phí chạy
  Để gọi là “AI cải thiện AI”, thì một thế hệ AI phải thiết kế ra thế hệ AI tiếp theo có năng lực vượt trội về mặt căn bản so với chính nó. Không chỉ nhanh hơn hay rẻ hơn, mà phải giống như một bộ não bò sát tự chủ thiết kế ra bộ não động vật có vú vậy
  Ngay cả khi gắn với một harness thông minh như AlphaEvolve, tôi vẫn không nghĩ LLM có kiểu sáng tạo đó. Tuy nhiên vẫn có ngoại lệ nếu kiến trúc thế hệ tiếp theo đang hiển nhiên ẩn trong một tổ hợp linh kiện mà LLM có thể được dẫn dắt để dự đoán
  Con đường có khả năng hơn là sau vài bước đổi mới tiếp theo của con người hướng tới AGI, chúng ta sẽ có AI có thể đổi mới tự chủ, chứ không chỉ tạo ra tổ hợp dựa trên prompt
- Có. Năm ngoái khi họ công bố AlphaEvolve, họ đã dùng một thế hệ Gemini trước đó để cải thiện kernel được dùng trong huấn luyện các model thế hệ này, và làm cho quá trình huấn luyện chạy nhanh hơn 1%. Không lớn lắm nhưng vẫn là kết quả thực tế
- Thứ lan truyền mạnh nhất gần đây có lẽ là https://github.com/karpathy/autoresearch
- Việc tự cải thiện đâu nhất thiết có nghĩa là điểm kỳ dị, đúng không?
  Có thể tồn tại những ràng buộc đủ mạnh để khiến điểm kỳ dị là bất khả thi, hoặc khung thời gian quá dài đến mức không thực tế, đúng không?
- Cá nhân tôi nghĩ “AI tự cải thiện chính nó” là điều cần theo dõi vào 2027
  Mọi phòng thí nghiệm AI lớn đều đang đẩy mạnh các dự án tác nhân nghiên cứu, đặc biệt là tác nhân phục vụ việc cải thiện AI, và tôi kỳ vọng khá nhiều dự án trong số đó sẽ vượt qua giai đoạn thử nghiệm ngay trong năm nay
  Sang năm chúng sẽ thực sự làm được nhiều việc, và tôi nghĩ chúng ta sẽ thấy thay đổi kiến trúc lớn đầu tiên có hiệu lực do AI đồng phát minh
Còn phải nghe nhắc đến bài toán Erdős bao nhiêu lần nữa đây :) Lúc đầu nghe như một thành tựu vĩ đại của nhân loại, nhưng rồi theo thời gian nó cứ quay lại mãi
- Hiện chỉ còn khoảng 700 bài toán Erdős mở, nên khi giải xong hết thì cuối cùng chúng ta mới được nghỉ
Trong khi đó thì Gemini CLI đã hỏng suốt nhiều tháng rồi
https://github.com/google-gemini/gemini-cli/issues/22141
Tôi chỉ mong Google tập trung vào việc phát hành chính thức các model Gemini 3.x và cung cấp đủ năng lực để tôi không phải tiếp tục vật lộn với lỗi 429
Nhiều lúc có cảm giác như họ không muốn người ta phát triển ứng dụng cho khách hàng doanh nghiệp bằng Vertex API. Điều này khá đáng tiếc khi nghĩ đến việc model của họ thật sự rất xuất sắc trong những tác vụ như phân tích tài liệu
- Bạn đang dùng gói miễn phí à? Với gói miễn phí tôi thấy lỗi 429 xuất hiện nhiều hơn hẳn
Mọi bài báo kiểu *Evolve đều cho kết quả rất ấn tượng, nhưng khi xem thông tin được công bố, cảm giác của tôi là sự chú ý lại đổ dồn vào phía LLM và AI
Trong khi đó, thành quả được báo cáo gần như luôn là kết quả của những môi trường được thiết kế cực kỳ tốt để LLM và thuật toán tiến hóa hoạt động hiệu quả
Bài này là một ví dụ rất tốt và đáng đọc
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
Đây là một cách giải cực kỳ đơn giản để cải thiện thuật toán. Tôi ước gì vài năm trước, lúc còn làm activation engineering, đã có thứ như thế này: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
Có thể tiếp cận AlphaEvolve bằng cách nào?
- Chỉ là bài khoe mẽ thôi. Hoặc trở thành công ty tỷ đô, hoặc là biến đi
Vấn đề tôi thấy với Claude là ngay cả các tác vụ đơn giản nó cũng thường làm mã và đầu ra phình to quá mức, đôi khi còn không chạy được
Gemini thì cân bằng khá tốt: nó đưa ra lời giải chạy được với lượng mã vừa đủ cần thiết và độ phức tạp tối thiểu, nên dễ bảo trì hơn
Dạo này tôi chỉ tìm đến Claude cho mã frontend, đặc biệt là HTML. Ngay cả ở đó CSS của nó cũng quá nhiều, chiếm cỡ 60% kích thước file, nhưng đổi lại nó cho cảm giác được trau chuốt hơn một chút nên tôi vẫn chấp nhận file lớn hơn

AlphaEvolve: tác tử lập trình dựa trên Gemini đang mở rộng ảnh hưởng sang nhiều lĩnh vực

Tác động xã hội và tính bền vững

Gen học

Tối ưu hóa lưới điện

Khoa học Trái Đất

Tiến triển ở tuyến đầu nghiên cứu

Vật lý lượng tử

Toán học

Các lĩnh vực nghiên cứu khác

Cải thiện hạ tầng AI

Mở rộng ứng dụng thương mại

Hướng đi tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News