Báo cáo sự cố Cloudflare ngày 2 tháng 7 năm 2019 [Bản dịch]
(ryanking13.github.io)Đây là bài viết trong đó CTO của Cloudflare tổng hợp phần khái quát về sự cố và cách ứng phó, giúp hiểu được trong một tổ chức quy mô lớn thì vấn đề phát sinh như thế nào và họ đã xử lý nó ra sao
5 bình luận
Phần appendix của bản gốc cũng khá thú vị. Trong đó có giải thích chi tiết vì sao mẫu gây ra sự cố là ..=.* lại làm cạn kiệt CPU, và có vẻ việc không chỉ sửa biểu thức chính quy mà còn cân nhắc thay thế engine như một phương án thay thế cũng rất đáng chú ý.
Đây là một báo cáo sự cố rất xuất sắc. Việc giải thích chi tiết họ đã ứng phó như thế nào đã rất ấn tượng, nhưng điều đáng học hỏi hơn nữa là họ không xem đây chỉ là sai lầm của một kỹ sư mà đã tìm ra các nguyên nhân tổng hợp và giải quyết từng vấn đề một. Dù sự cố đã xảy ra, tôi lại có cảm giác niềm tin dành cho công ty còn được củng cố hơn.
Tôi rất đồng cảm với điều này. Tôi cũng thấy ấn tượng với cách bài viết chỉ ra các nguyên nhân mang tính tổng hợp. Có lẽ điều đáng học hỏi là không chỉ xem đây đơn thuần là lỗi của một kỹ sư.
Đúng vậy. Có khi họ còn có cả một lãnh đạo phụ trách riêng việc viết báo cáo sự cố chăng? Việc có thể tìm ra và phân tích nguyên nhân chi tiết đến mức đó đã rất đáng nể rồi, mà báo cáo còn được viết hay đến mức khiến tôi nghĩ không biết có cần phải viết kỹ đến thế không nữa.
John Graham-Cumming, CTO của Cloudflare, người viết bài đó, vốn cũng là một blogger nổi tiếng. https://blog.jgc.org/