10 điểm bởi xguru 2020-07-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Giải thích về sự cố lần đầu tiên Slack bị sập toàn bộ trong một khoảng thời gian khá dài

  1. Sau khi triển khai thay đổi cấu hình DB, phát hiện lỗi hiệu năng khiến tải DB tăng lên nên đã rollback chỉ sau vài phút

  2. Mặc dù vậy, do sự cố này mà autoscaling của ứng dụng web được kích hoạt, làm số lượng instance tăng vượt quá Hard Limit

  3. Vì vậy đã phát sinh lỗi ở phần cập nhật danh sách host trong load balancer, khiến các instance mới không thể được đăng ký

→ HAProxy + Consul

  1. Sau 8 giờ, các instance còn lại trong danh sách host chỉ là những instance cũ nhất, và khi scale-down xảy ra thì các instance cũ bị shutdown

  2. Các instance mới lẽ ra phải tiếp quản việc này, nhưng trong danh sách host của load balancer lại không có các instance mới.

Chưa có bình luận nào.

Chưa có bình luận nào.