Chia sẻ chi tiết về sự cố gần đây ảnh hưởng đến khách hàng
Hỗ trợ khách hàng Google Cloud
- Đầu tháng này, đã xảy ra một sự cố của Google Cloud ảnh hưởng đến khách hàng UniSuper tại Úc.
- Ngay sau khi sự cố xảy ra, ưu tiên hàng đầu là phối hợp với khách hàng để khôi phục hoàn toàn hệ thống.
- Ngay sau khi sự cố bắt đầu, chúng tôi đã công khai thừa nhận sự cố thông qua tuyên bố chung với khách hàng.
- Sau khi hệ thống của khách hàng được khôi phục hoàn toàn, chúng tôi đã hoàn tất quá trình rà soát nội bộ.
- Chúng tôi công bố thông tin nhằm làm rõ bản chất của sự cố và cung cấp mô tả chính xác để bảo đảm tính minh bạch.
- Google Cloud đã thực hiện các biện pháp để sự cố cụ thể và biệt lập này không tái diễn.
- Tác động của sự cố này là điều vô cùng đáng tiếc, và chúng tôi chân thành xin lỗi vì sự bất tiện đã gây ra cho khách hàng.
Phạm vi ảnh hưởng
Công nghệ và dịch vụ bị ảnh hưởng
- Sự cố này đã ảnh hưởng đến các dịch vụ do Google quản lý như sau:
- Một khách hàng trong một khu vực đám mây.
- Một trong các dịch vụ Google Cloud mà khách hàng đó sử dụng, Google Cloud VMware Engine (GCVE).
- Một trong nhiều private cloud GCVE của khách hàng trải trên hai zone.
Những phần không bị ảnh hưởng
- Sự cố này không ảnh hưởng đến các mục sau:
- Các dịch vụ Google Cloud khác.
- Các khách hàng khác sử dụng GCVE hoặc các dịch vụ Google Cloud khác.
- Các private cloud GCVE khác của khách hàng, tài khoản Google, tổ chức, thư mục hoặc dự án.
- Các bản sao lưu dữ liệu của khách hàng (Google Cloud Storage) được lưu trong cùng khu vực.
Nguyên nhân của sự cố
Tóm tắt
- Trong quá trình triển khai ban đầu private cloud Google Cloud VMware Engine (GCVE) cho khách hàng, một nhân viên vận hành Google đã cấu hình sai dịch vụ GCVE bằng công cụ nội bộ. Điều này xảy ra do để trống một tham số.
- Kết quả là private cloud GCVE của khách hàng bị đặt thành một khoảng thời gian cố định, và khi khoảng thời gian đó kết thúc thì được cấu hình để tự động xóa.
- Cả nguyên nhân của sự cố lẫn hành vi của hệ thống đều đã được sửa để bảo đảm không tái diễn.
- Sự cố này không ảnh hưởng đến bất kỳ dịch vụ Google Cloud nào khác ngoài một private cloud GCVE của khách hàng này.
- Các khách hàng khác không bị ảnh hưởng bởi sự cố này.
Phân tích chi tiết
Triển khai bằng quy trình ngoại lệ
- Đầu năm 2023, một nhân viên vận hành Google đã sử dụng công cụ nội bộ để triển khai một trong các private cloud GCVE của khách hàng nhằm đáp ứng yêu cầu phân bổ dung lượng cụ thể.
- Công cụ nội bộ quản lý dung lượng này đã bị loại bỏ vào quý 4 năm 2023, và hiện nay quy trình đã được tự động hóa hoàn toàn, không còn cần sự can thiệp của con người.
Hành vi ngoài ý muốn do tham số đầu vào để trống
- Nhân viên vận hành Google đã tuân thủ giao thức kiểm soát nội bộ.
- Tuy nhiên, khi dùng công cụ nội bộ để provision private cloud của khách hàng, một tham số đầu vào đã bị để trống.
- Điều này khiến hệ thống gán cho tham số đó giá trị mặc định là thời hạn cố định 1 năm, vốn chưa được biết đến vào thời điểm đó.
- Sau khi khoảng thời gian 1 năm do hệ thống gán kết thúc, private cloud GCVE của khách hàng đã bị xóa.
- Vì việc xóa xảy ra do nhân viên vận hành Google để trống tham số khi dùng công cụ nội bộ, nên không có thông báo nào được gửi tới khách hàng.
- Nếu là thao tác xóa do khách hàng khởi tạo, việc đó chỉ xảy ra sau khi khách hàng đã nhận được thông báo.
Khôi phục
- Khách hàng và các đội ngũ Google đã hợp tác liên tục 24/7 trong nhiều ngày để khôi phục private cloud GCVE của khách hàng, phục hồi cấu hình mạng và bảo mật, khôi phục ứng dụng và dữ liệu để đưa hoạt động trở lại hoàn toàn.
- Điều này khả thi nhờ cách tiếp cận kiến trúc mạnh mẽ và có khả năng phục hồi của khách hàng.
- Các bản sao lưu dữ liệu được lưu trong Google Cloud Storage tại cùng khu vực không bị ảnh hưởng bởi việc xóa, và cùng với phần mềm sao lưu của bên thứ ba đã đóng vai trò quan trọng trong việc khôi phục nhanh chóng.
Biện pháp khắc phục
- Google Cloud đã thực hiện nhiều biện pháp để bảo đảm sự cố này không tái diễn:
- Loại bỏ công cụ nội bộ đã gây ra sự cố này. Phần này hiện đã được tự động hóa hoàn toàn và khách hàng có thể kiểm soát thông qua giao diện người dùng.
- Dọn dẹp cơ sở dữ liệu hệ thống và rà soát thủ công toàn bộ private cloud GCVE để bảo đảm không có triển khai GCVE nào khác gặp rủi ro.
- Sửa hành vi của hệ thống vốn thiết lập việc xóa private cloud GCVE trong các workflow triển khai này.
Kết luận
- Đây là lần đầu tiên xảy ra một sự cố có tính chất như vậy trong Google Cloud. Đây không phải là vấn đề mang tính hệ thống.
- Các dịch vụ Google Cloud có những cơ chế bảo vệ mạnh mẽ như soft delete, thông báo trước và can thiệp của con người.
- Chúng tôi đã xác nhận rằng các cơ chế bảo vệ này vẫn đang được duy trì.
- Việc hợp tác chặt chẽ với khách hàng là yếu tố thiết yếu để khôi phục nhanh chóng. CIO và đội ngũ kỹ thuật của khách hàng xứng đáng được ghi nhận vì đã phối hợp chặt chẽ với đội ngũ Google Cloud để thực hiện quá trình khôi phục 24/7 một cách nhanh chóng và chính xác.
- Quản trị rủi ro mạnh mẽ và có khả năng phục hồi là yếu tố thiết yếu để khôi phục nhanh trong các sự cố bất ngờ.
- Google Cloud vẫn sở hữu hạ tầng đám mây có khả năng phục hồi và độ ổn định hàng đầu thế giới. Bất chấp sự cố cá biệt này, thời gian hoạt động và khả năng phục hồi của chúng tôi đã được kiểm chứng độc lập.
Ý kiến của GN⁺
- Mức độ quan trọng của sự cố: Sự cố này cho thấy việc nhà cung cấp dịch vụ đám mây xử lý vấn đề nhanh đến mức nào và hợp tác với khách hàng ra sao là rất quan trọng.
- Sự cần thiết của tự động hóa: Điều này nhấn mạnh tầm quan trọng của việc tự động hóa các công cụ nội bộ, đặc biệt khi lỗi của con người có thể gây ảnh hưởng lớn đến hệ thống.
- Hợp tác với khách hàng: Điều này cho thấy sự phối hợp chặt chẽ với khách hàng quan trọng thế nào trong việc giải quyết vấn đề. Đây cũng là một yếu tố quan trọng để xây dựng niềm tin.
- Tầm quan trọng của sao lưu dữ liệu: Điều này nhấn mạnh sao lưu dữ liệu quan trọng đến mức nào, đặc biệt là yếu tố thiết yếu để khôi phục nhanh khi xảy ra sự cố bất ngờ.
- Biện pháp phòng ngừa trong tương lai: Các biện pháp mà Google Cloud đã thực hiện để ngăn sự cố tái diễn có thể trở thành một hình mẫu tốt cho các nhà cung cấp dịch vụ đám mây khác.
1 bình luận
Ý kiến trên Hacker News
Tóm tắt các bình luận trên Hacker News
Bất mãn về mức độ triệt để của việc khắc phục
Câu hỏi về các biện pháp bảo vệ khách hàng của GCP
Nghi vấn về việc làm việc 24x7
Các sự cố liên quan
Sự ngạc nhiên về sai sót từ phía Google
Mức độ kỹ lưỡng của quá trình rà soát
Kỳ vọng đối với GCP
Khen ngợi nỗ lực của khách hàng
Trải nghiệm của khách hàng UniSuper
Sự hiểu nhầm từ thông báo ban đầu