- Từ ngày 2 đến 4 tháng 11 năm 2023, mặt phẳng điều khiển và các dịch vụ phân tích của Cloudflare đã bị gián đoạn.
- Mặt phẳng điều khiển chủ yếu bao gồm các giao diện hướng đến khách hàng của các dịch vụ Cloudflare, còn dịch vụ phân tích bao gồm ghi log và báo cáo phân tích.
- Sự cố lần này xảy ra do lỗi nguồn điện tại trung tâm dữ liệu Flexential, nơi lưu trữ cụm phân tích lớn nhất của Cloudflare và một phần quan trọng của cụm tính sẵn sàng cao.
- Mặc dù các hệ thống tính sẵn sàng cao đã được triển khai để ngăn chặn các gián đoạn như vậy, một số hệ thống quan trọng lại có những phụ thuộc không công khai khiến chúng không thể sử dụng trong thời gian xảy ra sự cố.
- Mặt phẳng điều khiển và hệ thống phân tích của Cloudflare chủ yếu vận hành tại ba trung tâm dữ liệu quanh Hillsboro, bang Oregon; chúng hoạt động độc lập và được thiết kế để tiếp tục chạy ngay cả khi một trung tâm bị offline.
- Sự cố này cho thấy một số dịch vụ, đặc biệt là các dịch vụ mới, vẫn chưa được bổ sung vào cụm tính sẵn sàng cao, và hệ thống ghi log cũng không phải là một phần của cụm này.
- Lỗi nguồn điện tại trung tâm dữ liệu Flexential xảy ra do một sự kiện bảo trì ngoài kế hoạch ảnh hưởng đến nguồn cấp điện độc lập đi vào tòa nhà, dẫn đến lỗi chạm đất ở máy biến áp.
- Cloudflare đã có thể khôi phục phần lớn mặt phẳng điều khiển tại cơ sở khôi phục thảm họa, và sau khi cơ sở này hoạt động trở lại, phần lớn khách hàng có lẽ đã không gặp vấn đề với phần lớn sản phẩm.
- Tuy nhiên, một số dịch vụ khác mất nhiều thời gian hơn để khôi phục, và khách hàng sử dụng chúng có thể đã gặp sự cố cho đến khi toàn bộ vụ việc được xử lý xong.
- Cloudflare đang triển khai các thay đổi dựa trên những bài học rút ra từ sự cố, bao gồm loại bỏ phụ thuộc vào các trung tâm dữ liệu cốt lõi, bảo đảm các chức năng của mặt phẳng điều khiển vẫn tiếp tục hoạt động ngay cả khi toàn bộ các trung tâm dữ liệu cốt lõi đều offline, đồng thời yêu cầu mọi sản phẩm và tính năng phải phụ thuộc vào cụm tính sẵn sàng cao và có kế hoạch khôi phục thảm họa đáng tin cậy.
- Công ty cũng đang tiến hành kiểm thử hỗn loạn nghiêm ngặt hơn đối với mọi chức năng của trung tâm dữ liệu, kiểm toán toàn bộ các trung tâm dữ liệu cốt lõi, và xây dựng kế hoạch khôi phục thảm họa cho hệ thống ghi log và phân tích.
1 bình luận
Ý kiến trên Hacker News