Báo cáo sự cố của Slack ngày 2020-5-12
(slack.engineering)Giải thích về sự cố lần đầu tiên Slack bị sập toàn bộ trong một khoảng thời gian khá dài
-
Sau khi triển khai thay đổi cấu hình DB, phát hiện lỗi hiệu năng khiến tải DB tăng lên nên đã rollback chỉ sau vài phút
-
Mặc dù vậy, do sự cố này mà autoscaling của ứng dụng web được kích hoạt, làm số lượng instance tăng vượt quá Hard Limit
-
Vì vậy đã phát sinh lỗi ở phần cập nhật danh sách host trong load balancer, khiến các instance mới không thể được đăng ký
→ HAProxy + Consul
-
Sau 8 giờ, các instance còn lại trong danh sách host chỉ là những instance cũ nhất, và khi scale-down xảy ra thì các instance cũ bị shutdown
-
Các instance mới lẽ ra phải tiếp quản việc này, nhưng trong danh sách host của load balancer lại không có các instance mới.
Chưa có bình luận nào.