2 điểm bởi GN⁺ 2023-11-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Từ ngày 2 đến 4 tháng 11 năm 2023, mặt phẳng điều khiển và các dịch vụ phân tích của Cloudflare đã bị gián đoạn.
  • Mặt phẳng điều khiển chủ yếu bao gồm các giao diện hướng đến khách hàng của các dịch vụ Cloudflare, còn dịch vụ phân tích bao gồm ghi log và báo cáo phân tích.
  • Sự cố lần này xảy ra do lỗi nguồn điện tại trung tâm dữ liệu Flexential, nơi lưu trữ cụm phân tích lớn nhất của Cloudflare và một phần quan trọng của cụm tính sẵn sàng cao.
  • Mặc dù các hệ thống tính sẵn sàng cao đã được triển khai để ngăn chặn các gián đoạn như vậy, một số hệ thống quan trọng lại có những phụ thuộc không công khai khiến chúng không thể sử dụng trong thời gian xảy ra sự cố.
  • Mặt phẳng điều khiển và hệ thống phân tích của Cloudflare chủ yếu vận hành tại ba trung tâm dữ liệu quanh Hillsboro, bang Oregon; chúng hoạt động độc lập và được thiết kế để tiếp tục chạy ngay cả khi một trung tâm bị offline.
  • Sự cố này cho thấy một số dịch vụ, đặc biệt là các dịch vụ mới, vẫn chưa được bổ sung vào cụm tính sẵn sàng cao, và hệ thống ghi log cũng không phải là một phần của cụm này.
  • Lỗi nguồn điện tại trung tâm dữ liệu Flexential xảy ra do một sự kiện bảo trì ngoài kế hoạch ảnh hưởng đến nguồn cấp điện độc lập đi vào tòa nhà, dẫn đến lỗi chạm đất ở máy biến áp.
  • Cloudflare đã có thể khôi phục phần lớn mặt phẳng điều khiển tại cơ sở khôi phục thảm họa, và sau khi cơ sở này hoạt động trở lại, phần lớn khách hàng có lẽ đã không gặp vấn đề với phần lớn sản phẩm.
  • Tuy nhiên, một số dịch vụ khác mất nhiều thời gian hơn để khôi phục, và khách hàng sử dụng chúng có thể đã gặp sự cố cho đến khi toàn bộ vụ việc được xử lý xong.
  • Cloudflare đang triển khai các thay đổi dựa trên những bài học rút ra từ sự cố, bao gồm loại bỏ phụ thuộc vào các trung tâm dữ liệu cốt lõi, bảo đảm các chức năng của mặt phẳng điều khiển vẫn tiếp tục hoạt động ngay cả khi toàn bộ các trung tâm dữ liệu cốt lõi đều offline, đồng thời yêu cầu mọi sản phẩm và tính năng phải phụ thuộc vào cụm tính sẵn sàng cao và có kế hoạch khôi phục thảm họa đáng tin cậy.
  • Công ty cũng đang tiến hành kiểm thử hỗn loạn nghiêm ngặt hơn đối với mọi chức năng của trung tâm dữ liệu, kiểm toán toàn bộ các trung tâm dữ liệu cốt lõi, và xây dựng kế hoạch khôi phục thảm họa cho hệ thống ghi log và phân tích.

1 bình luận

 
GN⁺ 2023-11-05
Ý kiến trên Hacker News
  • Bài viết về sự cố gián đoạn nghiêm trọng của Cloudflare, trong đó công ty quy nguyên nhân cho sự cố mất điện tại trung tâm dữ liệu do nhà cung cấp Flexential vận hành.
  • Một số người bình luận chỉ trích Cloudflare vì đổ trách nhiệm cho Flexential và công khai thông tin bảo mật liên quan đến nhà cung cấp.
  • Nguyên nhân gốc rễ của sự cố là Cloudflare đã phụ thuộc vào một trung tâm dữ liệu duy nhất; một số người bình luận cho rằng điều này là đáng xấu hổ đối với danh tiếng của Cloudflare.
  • Quá trình khôi phục kéo dài lâu hơn cả bản thân sự cố gián đoạn, và một số dịch vụ mất khoảng 30 giờ để khôi phục hoàn toàn. Điều này là do nhiều dịch vụ phụ thuộc lẫn nhau.
  • Một số người bình luận bày tỏ sự không hài lòng với cách Cloudflare truyền thông trong thời gian xảy ra sự cố, đặc biệt là với khách hàng doanh nghiệp.
  • Dù có các vấn đề, một số người bình luận vẫn khen ngợi tính minh bạch của Cloudflare và mức độ kỹ lưỡng của báo cáo hậu kiểm.
  • Một số người bình luận bày tỏ lo ngại về các điểm thất bại trong dự phòng của Cloudflare và việc thiếu phân tán địa lý của control plane.
  • Người bình luận cũng chỉ trích Cloudflare vì không đặt mọi dịch vụ trong các cụm có tính sẵn sàng cao và không kiểm thử mọi kịch bản có thể xảy ra của sự cố mất điện.
  • Một số người bình luận đánh giá cao yếu tố con người trong báo cáo, thừa nhận rằng đội ngũ Cloudflare cần được nghỉ ngơi để tránh mắc thêm sai lầm trong quá trình khôi phục.
  • Người bình luận nhấn mạnh tầm quan trọng của khả năng khôi phục khi trung tâm dữ liệu bị offline hoàn toàn, đồng thời chỉ trích Cloudflare vì đã không kiểm thử kịch bản này.
  • Một số người bình luận bày tỏ sự ngạc nhiên với cấu trúc của bài viết, khi phần lớn nội dung bàn về nhà cung cấp bên thứ ba hơn là tập trung vào nỗ lực khôi phục của chính Cloudflare.