AgentBlue - tác nhân AI mã nguồn mở tự động điều khiển Android bằng lệnh ngôn ngữ tự nhiên

(github.com/RGLie)

14 điểm bởi j2hyeon02 2026-03-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Xin chào, mình đã tạo ra một hệ thống tác nhân di động tên là AgentBlue.

AgentBlue là một hệ thống tự động hóa AI mã nguồn mở, nơi bạn nhập lệnh ngôn ngữ tự nhiên trong terminal và thiết bị Android sẽ tự động duyệt ứng dụng, chạm và nhập liệu.

Cách hoạt động

Nó đọc cây UI của màn hình hiện tại bằng Accessibility Service của Android, rồi truyền dữ liệu đó cho LLM để quyết định hành động tiếp theo. Vòng lặp ReAct (Reasoning + Acting) này được lặp lại cho đến khi điều kiện hoàn tất được đáp ứng.

"Hãy tìm nhạc lofi trên YouTube"
→ phân tích UI → LLM phán đoán → CLICK "YouTube" → TYPE "lofi" → CLICK tìm kiếm → DONE
CLI và ứng dụng Android giao tiếp theo thời gian thực bằng cách dùng Firebase Firestore làm máy chủ relay. Chúng được ghép cặp bằng mã phiên 8 chữ số mà không cần máy chủ riêng.

Tính năng chính

Hỗ trợ nhiều LLM — chọn giữa OpenAI, Google Gemini, Anthropic Claude, DeepSeek
Terminal REPL — bắt đầu phiên bằng agentblue start, gửi lệnh bằng ngôn ngữ tự nhiên
Cấu hình từ xa — thay đổi cài đặt ứng dụng Android từ CLI bằng /setting, /model
Kiểm tra trạng thái theo thời gian thực — theo dõi tiến trình của từng bước ngay trong terminal
Hàng rào an toàn — tự động dừng trước các hành động không thể hoàn tác như xác nhận thanh toán, xóa tài khoản
Phát hiện và khôi phục khi bị kẹt — nếu lặp lại thất bại trên cùng một màn hình, sẽ chèn gợi ý hoặc buộc thực hiện BACK
Sử dụng độc lập trên thiết bị — có thể nhập lệnh trực tiếp trên thiết bị bằng nút nổi mà không cần CLI
Khởi động nhanh

Cách sử dụng

npm install -g @agentblue/cli
agentblue init # thiết lập Firebase + chọn ngôn ngữ (đã cung cấp sẵn máy chủ dùng chung)
agentblue start # cấp mã phiên → nhập vào ứng dụng Android → hoàn tất kết nối
Ứng dụng Android có thể dùng ngay chỉ cần cấp quyền Accessibility Service và quyền overlay.

Vì sao tạo ra nó

Phần lớn các công cụ RPA đều dựa trên tọa độ màn hình, nên chỉ một lần cập nhật ứng dụng cũng có thể làm hỏng script. AgentBlue tìm mục tiêu dựa trên ngữ nghĩa UI (văn bản, contentDescription, resource ID), nên chịu được thay đổi bố cục tốt hơn nhiều. Vì LLM đánh giá lại "cần làm gì tiếp theo" ở mỗi bước, nên không cần phải xây dựng sẵn kịch bản từ trước.

Rất hoan nghênh phản hồi và đóng góp. Đặc biệt, nếu bạn có chiến lược phân tích UI tốt hơn hoặc ý tưởng cải thiện phát hiện trạng thái bị kẹt, hãy cho mình biết qua issue, PR hoặc bình luận!

Xin cảm ơn