- Công cụ giám sát dựa trên AI nhằm tự động hóa ứng phó sự cố trong môi trường Kubernetes
- Tận dụng Claude Code để phân tích trạng thái Pod theo thời gian thực, phát hiện lỗi và tự động sửa hoặc tạo báo cáo
- Chạy định kỳ dưới dạng CronJob, giúp duy trì cơ chế ứng phó tự động 24 giờ ngay cả khi không có người vận hành
- Các hoạt động chính
- Giám sát trạng thái Pod trong Namespace mục tiêu
- Phát hiện trạng thái bất thường như CrashLoopBackOff, Error
- Xác định nguyên nhân lỗi thông qua phân tích log
- Khi cần, truy cập vào bên trong Pod để áp dụng hotfix
- Ghi vào SQLite DB và cung cấp báo cáo về lịch sử chỉnh sửa
- Hỗ trợ trực quan hóa lỗi và lịch sử sửa chữa trên web UI thông qua cấu hình triển khai Dashboard riêng
- Cấu trúc gọn nhẹ gồm Go + HTML + Shell, tối ưu cho triển khai Kubernetes CronJob
- Giấy phép MIT
1 bình luận
Tôi từng nghĩ sẽ rất hay nếu có thứ tương tự như thế này, và trông nó khá ổn. Nếu dùng ở chế độ watcher mode, có lẽ trước tiên có thể thử nghiệm một cách an toàn.