- Một hệ thống tác tử AI tự tham chiếu có thể tự cải thiện quá trình học tập và giải quyết vấn đề của chính mình nhằm giảm sự phụ thuộc vào kỹ thuật thủ công của con người, vượt qua giới hạn của các cơ chế meta cố định trong những phương pháp tự cải thiện đệ quy trước đây
- Cấu trúc tích hợp tác tử nhiệm vụ (thực hiện mục tiêu) và tác tử meta (chỉnh sửa chính nó và tác tử nhiệm vụ) thành một chương trình có thể chỉnh sửa duy nhất
- Darwin Gödel Machine (DGM) trước đây chỉ có thể tự cải thiện trong lĩnh vực lập trình, nhưng HyperAgents mở rộng sang nhiều miền khác nhau như lập trình, phản biện bài báo, robot và chấm điểm toán học
- Bản thân quy trình chỉnh sửa ở cấp meta cũng có thể chỉnh sửa được, điểm khác biệt cốt lõi là tự chỉnh sửa siêu nhận thức giúp cải thiện cả cơ chế cải tiến
- Nghiên cứu xác nhận bằng thực nghiệm rằng các cải tiến ở cấp meta có thể chuyển giao giữa các miền và tích lũy qua nhiều lần chạy, cho thấy tiềm năng của một hệ thống AI tự tăng tốc mang tính tổng quát
Giới hạn của các hệ thống tự cải thiện hiện có
- Mục tiêu của các hệ thống AI tự cải thiện là tự động cải tiến chính quá trình học tập và giải quyết vấn đề để giảm sự phụ thuộc vào kỹ thuật thủ công của con người
- Các cách tiếp cận tự cải thiện đệ quy hiện tại phụ thuộc vào những cơ chế cấp meta cố định và được tạo thủ công, nên tồn tại giới hạn căn bản về tốc độ mà hệ thống có thể tự nâng cấp
Darwin Gödel Machine (DGM) và giới hạn trong lĩnh vực lập trình
- DGM (Zhang et al., 2025b) là hệ thống đã chứng minh khả năng tự cải thiện mở trong lĩnh vực lập trình
- Bắt đầu từ một tác tử lập trình đơn lẻ, hệ thống lặp đi lặp lại việc tạo và đánh giá các biến thể do chính nó chỉnh sửa, đồng thời mở rộng kho lưu trữ các bước đệm cho những cải tiến trong tương lai
- Vì cả đánh giá lẫn tự chỉnh sửa đều là công việc lập trình, nên việc nâng cao năng lực lập trình trực tiếp dẫn đến nâng cao năng lực tự cải thiện
- Tuy nhiên, sự căn chỉnh theo miền (domain-specific alignment) này nhìn chung không đúng với các lĩnh vực ngoài lập trình
Cấu trúc khung HyperAgents
- HyperAgents là một tác tử tự tham chiếu (self-referential agent), tích hợp hai thành phần vào một chương trình có thể chỉnh sửa duy nhất
- Tác tử nhiệm vụ (task agent): đảm nhiệm giải quyết nhiệm vụ mục tiêu
- Tác tử meta (meta agent): đảm nhiệm chỉnh sửa chính nó và tác tử nhiệm vụ
- Điểm then chốt là bản thân quy trình chỉnh sửa ở cấp meta cũng có thể chỉnh sửa được, hiện thực hóa tự chỉnh sửa siêu nhận thức (metacognitive self-modification)
- Không chỉ hành vi giải quyết nhiệm vụ, mà chính cơ chế tạo ra các cải tiến trong tương lai cũng có thể được cải thiện
DGM-Hyperagents (DGM-H)
- Mở rộng DGM thành DGM-Hyperagents (DGM-H)
- Bằng cách cho phép bản thân quy trình cải tiến có thể tiến hóa, hệ thống loại bỏ giả định căn chỉnh đặc thù theo miền giữa hiệu năng nhiệm vụ và năng lực tự chỉnh sửa
- Về mặt lý thuyết, điều này mở ra khả năng hỗ trợ tiến bộ tự tăng tốc trên bất kỳ nhiệm vụ tính toán được nào
Kết quả thực nghiệm và phạm vi miền
- Thí nghiệm được thực hiện trên nhiều miền khác nhau như lập trình, phản biện bài báo, thiết kế phần thưởng cho robot và chấm lời giải toán ở mức Olympic
- DGM-H cho thấy hiệu năng tiếp tục cải thiện theo thời gian
- Đạt hiệu năng vượt trội so với các baseline không có tự cải thiện hoặc khám phá mở, cũng như so với DGM trước đó
Chuyển giao và tích lũy của các cải tiến ở cấp meta
- DGM-H được xác nhận là có thể cải thiện chính quy trình tạo ra tác tử mới
- Ví dụ: tạo ra các cải tiến ở cấp meta như bộ nhớ bền vững (persistent memory) và theo dõi hiệu năng (performance tracking)
- Những cải tiến ở cấp meta này có thể chuyển giao giữa các miền (transfer across domains) và tích lũy qua nhiều lần chạy (accumulate across runs)
Cân nhắc về an toàn
- Tất cả thí nghiệm đều được tiến hành với các biện pháp phòng ngừa an toàn như sandbox và giám sát của con người
- Bài viết cũng bao gồm thảo luận về ý nghĩa của an toàn trong bối cảnh hệ thống tự cải thiện và những hàm ý rộng hơn của các hệ thống tự cải thiện
Ý nghĩa
- DGM-Hyperagents không chỉ tìm kiếm lời giải tốt hơn, mà còn cho thấy khả năng của một hệ thống AI mở liên tục cải thiện chính phương pháp cải tiến của mình
Chưa có bình luận nào.