Microsoft Agent Lightning: Khung huấn luyện học tăng cường cho AI agent không cần sửa mã

(aisparkup.com)

13 điểm bởi davespark 2025-10-27 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Agent Lightning do Microsoft Research công bố là một khung làm việc đột phá cho phép huấn luyện các AI agent bằng học tăng cường (RL) mà hầu như không cần thay đổi mã của agent hiện có. Nó tương thích với nhiều khung agent như LangChain, AutoGen và đã cho thấy kết quả thực chứng, chẳng hạn nâng độ chính xác trong bài kiểm tra SQL agent từ 73.2% lên 80.4%.

Tính năng chính

Kiến trúc Training-Agent Disaggregation: Tách hoàn toàn việc thực thi agent và huấn luyện RL. Thiết kế sidecar hiện thực hóa việc thu thập dữ liệu không xâm nhập (prompt, lệnh gọi công cụ, tín hiệu phần thưởng), cho phép thay đổi mã bằng 0.
Tính độc lập với framework: Thông qua API tương thích OpenAI, có thể kết nối ngay với bất kỳ agent nào như LangChain, OpenAI Agent SDK, CrewAI.
Thuật toán GRPO: Một biến thể của PPO, học theo cách hiệu quả bộ nhớ bằng cách so sánh hiệu năng tương đối trong nhóm. LightningRL phân rã các tương tác nhiều lượt phức tạp thành các transition để xử lý credit assignment.

Ví dụ ứng dụng thực tế: SQL agent

Huấn luyện trên SQL agent dựa trên LangGraph (chuyển câu hỏi ngôn ngữ tự nhiên thành truy vấn SQL, thực thi, vòng lặp sửa lỗi):

Quá trình huấn luyện: Chỉ cần chạy server rồi kết nối client là có thể bắt đầu. Ví dụ: sử dụng mô hình Qwen2.5-Coder-3B.
Kết quả: Trên bộ dữ liệu Spider, độ chính xác tăng từ 73.2% → 80.4%, số transition trung bình giảm từ 3.30 → 2.60 nên hiệu quả cao hơn. Mô hình 7B đạt 84.4%.

Cài đặt và sử dụng

pip install agentlightning (thêm tùy chọn: [apo] hoặc [verl]).
GitHub examples cung cấp các trường hợp như Text-to-SQL, RAG. Cũng có thể tối ưu hóa có chọn lọc trong hệ thống multi-agent.
Thuật toán được hỗ trợ: GRPO/PPO, Supervised Fine-tuning, APO (tối ưu hóa prompt).

Triển vọng tương lai

Là một dự án mã nguồn mở với cộng đồng đang được kích hoạt mạnh mẽ (DeepWerewolf, v.v.). Trong tương lai dự kiến sẽ mở rộng với cơ chế phần thưởng phong phú hơn, Off-policy RL, curriculum learning, v.v. Cách tiếp cận tách biệt phát triển agent và tối ưu hóa này được kỳ vọng sẽ mở ra kỷ nguyên agent thích ứng.