- Ngưỡng cần được thiết lập dựa trên rủi ro trong môi trường production, thời gian điều tra/khắc phục và độ phức tạp
- Việc này cần được thiết lập trước khi rủi ro xảy ra, để có thể hành động nhanh chóng
- Hãy đặt ngưỡng không quá sát với sự cố để người vận hành có đủ thời gian thực hiện công việc
- Nhưng cũng không nên đặt ngưỡng quá xa khỏi sự cố
- Một số Alert có nhiều nguyên nhân gốc rễ nên việc hiểu và điều tra khá phức tạp
- Hãy chia Alert theo số lượng nguyên nhân gốc rễ để hỗ trợ giải quyết sự cố nhanh hơn
- Không dễ để tìm ra ngưỡng phù hợp, và cần trải qua nhiều vòng phản hồi ngắn
Chưa có bình luận nào.