1 điểm bởi GN⁺ 2024-05-26 | 1 bình luận | Chia sẻ qua WhatsApp

Chia sẻ chi tiết về sự cố gần đây ảnh hưởng đến khách hàng

Hỗ trợ khách hàng Google Cloud

  • Đầu tháng này, đã xảy ra một sự cố của Google Cloud ảnh hưởng đến khách hàng UniSuper tại Úc.
  • Ngay sau khi sự cố xảy ra, ưu tiên hàng đầu là phối hợp với khách hàng để khôi phục hoàn toàn hệ thống.
  • Ngay sau khi sự cố bắt đầu, chúng tôi đã công khai thừa nhận sự cố thông qua tuyên bố chung với khách hàng.
  • Sau khi hệ thống của khách hàng được khôi phục hoàn toàn, chúng tôi đã hoàn tất quá trình rà soát nội bộ.
  • Chúng tôi công bố thông tin nhằm làm rõ bản chất của sự cố và cung cấp mô tả chính xác để bảo đảm tính minh bạch.
  • Google Cloud đã thực hiện các biện pháp để sự cố cụ thể và biệt lập này không tái diễn.
  • Tác động của sự cố này là điều vô cùng đáng tiếc, và chúng tôi chân thành xin lỗi vì sự bất tiện đã gây ra cho khách hàng.

Phạm vi ảnh hưởng

Công nghệ và dịch vụ bị ảnh hưởng

  • Sự cố này đã ảnh hưởng đến các dịch vụ do Google quản lý như sau:
    • Một khách hàng trong một khu vực đám mây.
    • Một trong các dịch vụ Google Cloud mà khách hàng đó sử dụng, Google Cloud VMware Engine (GCVE).
    • Một trong nhiều private cloud GCVE của khách hàng trải trên hai zone.

Những phần không bị ảnh hưởng

  • Sự cố này không ảnh hưởng đến các mục sau:
    • Các dịch vụ Google Cloud khác.
    • Các khách hàng khác sử dụng GCVE hoặc các dịch vụ Google Cloud khác.
    • Các private cloud GCVE khác của khách hàng, tài khoản Google, tổ chức, thư mục hoặc dự án.
    • Các bản sao lưu dữ liệu của khách hàng (Google Cloud Storage) được lưu trong cùng khu vực.

Nguyên nhân của sự cố

Tóm tắt

  • Trong quá trình triển khai ban đầu private cloud Google Cloud VMware Engine (GCVE) cho khách hàng, một nhân viên vận hành Google đã cấu hình sai dịch vụ GCVE bằng công cụ nội bộ. Điều này xảy ra do để trống một tham số.
  • Kết quả là private cloud GCVE của khách hàng bị đặt thành một khoảng thời gian cố định, và khi khoảng thời gian đó kết thúc thì được cấu hình để tự động xóa.
  • Cả nguyên nhân của sự cố lẫn hành vi của hệ thống đều đã được sửa để bảo đảm không tái diễn.
  • Sự cố này không ảnh hưởng đến bất kỳ dịch vụ Google Cloud nào khác ngoài một private cloud GCVE của khách hàng này.
  • Các khách hàng khác không bị ảnh hưởng bởi sự cố này.

Phân tích chi tiết

Triển khai bằng quy trình ngoại lệ
  • Đầu năm 2023, một nhân viên vận hành Google đã sử dụng công cụ nội bộ để triển khai một trong các private cloud GCVE của khách hàng nhằm đáp ứng yêu cầu phân bổ dung lượng cụ thể.
  • Công cụ nội bộ quản lý dung lượng này đã bị loại bỏ vào quý 4 năm 2023, và hiện nay quy trình đã được tự động hóa hoàn toàn, không còn cần sự can thiệp của con người.
Hành vi ngoài ý muốn do tham số đầu vào để trống
  • Nhân viên vận hành Google đã tuân thủ giao thức kiểm soát nội bộ.
  • Tuy nhiên, khi dùng công cụ nội bộ để provision private cloud của khách hàng, một tham số đầu vào đã bị để trống.
  • Điều này khiến hệ thống gán cho tham số đó giá trị mặc định là thời hạn cố định 1 năm, vốn chưa được biết đến vào thời điểm đó.
  • Sau khi khoảng thời gian 1 năm do hệ thống gán kết thúc, private cloud GCVE của khách hàng đã bị xóa.
  • Vì việc xóa xảy ra do nhân viên vận hành Google để trống tham số khi dùng công cụ nội bộ, nên không có thông báo nào được gửi tới khách hàng.
  • Nếu là thao tác xóa do khách hàng khởi tạo, việc đó chỉ xảy ra sau khi khách hàng đã nhận được thông báo.

Khôi phục

  • Khách hàng và các đội ngũ Google đã hợp tác liên tục 24/7 trong nhiều ngày để khôi phục private cloud GCVE của khách hàng, phục hồi cấu hình mạng và bảo mật, khôi phục ứng dụng và dữ liệu để đưa hoạt động trở lại hoàn toàn.
  • Điều này khả thi nhờ cách tiếp cận kiến trúc mạnh mẽ và có khả năng phục hồi của khách hàng.
  • Các bản sao lưu dữ liệu được lưu trong Google Cloud Storage tại cùng khu vực không bị ảnh hưởng bởi việc xóa, và cùng với phần mềm sao lưu của bên thứ ba đã đóng vai trò quan trọng trong việc khôi phục nhanh chóng.

Biện pháp khắc phục

  • Google Cloud đã thực hiện nhiều biện pháp để bảo đảm sự cố này không tái diễn:
    1. Loại bỏ công cụ nội bộ đã gây ra sự cố này. Phần này hiện đã được tự động hóa hoàn toàn và khách hàng có thể kiểm soát thông qua giao diện người dùng.
    2. Dọn dẹp cơ sở dữ liệu hệ thống và rà soát thủ công toàn bộ private cloud GCVE để bảo đảm không có triển khai GCVE nào khác gặp rủi ro.
    3. Sửa hành vi của hệ thống vốn thiết lập việc xóa private cloud GCVE trong các workflow triển khai này.

Kết luận

  • Đây là lần đầu tiên xảy ra một sự cố có tính chất như vậy trong Google Cloud. Đây không phải là vấn đề mang tính hệ thống.
  • Các dịch vụ Google Cloud có những cơ chế bảo vệ mạnh mẽ như soft delete, thông báo trước và can thiệp của con người.
  • Chúng tôi đã xác nhận rằng các cơ chế bảo vệ này vẫn đang được duy trì.
  • Việc hợp tác chặt chẽ với khách hàng là yếu tố thiết yếu để khôi phục nhanh chóng. CIO và đội ngũ kỹ thuật của khách hàng xứng đáng được ghi nhận vì đã phối hợp chặt chẽ với đội ngũ Google Cloud để thực hiện quá trình khôi phục 24/7 một cách nhanh chóng và chính xác.
  • Quản trị rủi ro mạnh mẽ và có khả năng phục hồi là yếu tố thiết yếu để khôi phục nhanh trong các sự cố bất ngờ.
  • Google Cloud vẫn sở hữu hạ tầng đám mây có khả năng phục hồi và độ ổn định hàng đầu thế giới. Bất chấp sự cố cá biệt này, thời gian hoạt động và khả năng phục hồi của chúng tôi đã được kiểm chứng độc lập.

Ý kiến của GN⁺

  • Mức độ quan trọng của sự cố: Sự cố này cho thấy việc nhà cung cấp dịch vụ đám mây xử lý vấn đề nhanh đến mức nào và hợp tác với khách hàng ra sao là rất quan trọng.
  • Sự cần thiết của tự động hóa: Điều này nhấn mạnh tầm quan trọng của việc tự động hóa các công cụ nội bộ, đặc biệt khi lỗi của con người có thể gây ảnh hưởng lớn đến hệ thống.
  • Hợp tác với khách hàng: Điều này cho thấy sự phối hợp chặt chẽ với khách hàng quan trọng thế nào trong việc giải quyết vấn đề. Đây cũng là một yếu tố quan trọng để xây dựng niềm tin.
  • Tầm quan trọng của sao lưu dữ liệu: Điều này nhấn mạnh sao lưu dữ liệu quan trọng đến mức nào, đặc biệt là yếu tố thiết yếu để khôi phục nhanh khi xảy ra sự cố bất ngờ.
  • Biện pháp phòng ngừa trong tương lai: Các biện pháp mà Google Cloud đã thực hiện để ngăn sự cố tái diễn có thể trở thành một hình mẫu tốt cho các nhà cung cấp dịch vụ đám mây khác.

1 bình luận

 
GN⁺ 2024-05-26
Ý kiến trên Hacker News

Tóm tắt các bình luận trên Hacker News

  • Bất mãn về mức độ triệt để của việc khắc phục

    • So với mức độ ảnh hưởng của sự cố, giải pháp đưa ra chưa đủ sâu. Dù đã ngăn vấn đề tương tự lặp lại, khả năng xảy ra các vấn đề cùng loại vẫn còn. Cần thêm biện pháp để ngăn việc chấm dứt/xóa dịch vụ một cách có hệ thống.
  • Câu hỏi về các biện pháp bảo vệ khách hàng của GCP

    • Khuyến nghị khách hàng GCP hỏi TAM về các biện pháp bảo vệ của GCP. Các biện pháp bảo vệ dựa trên con người của GCP gần như không có và ít hơn AWS rất nhiều.
  • Nghi vấn về việc làm việc 24x7

    • Đặt câu hỏi về cách diễn đạt "đội ngũ Google đã làm việc 24x7 trong nhiều ngày".
  • Các sự cố liên quan

    • Nhắc đến vụ các thành viên UniSuper không thể truy cập tài khoản suốt một tuần do cấu hình sai trên Google Cloud, cùng với vụ Google Cloud vô tình xóa tài khoản của khách hàng.
  • Sự ngạc nhiên về sai sót từ phía Google

    • Bày tỏ sự ngạc nhiên khi đây là sai sót từ phía Google. Đồng thời nhận xét UniSuper hẳn đã bị sốc nặng.
  • Mức độ kỹ lưỡng của quá trình rà soát

    • Đánh giá đây là một cuộc rà soát kỹ lưỡng vì không chỉ điều tra công cụ/quy trình cụ thể mà còn xem xét vấn đề xóa tự động và kiểm tra hành vi xóa mềm. Tuy vậy, vẫn cần rà soát thêm về hành vi mặc định.
  • Kỳ vọng đối với GCP

    • Vấn đề của UniSuper đã được giải quyết, nhưng hy vọng sự cố này sẽ là cú hích cần thiết đối với GCP.
  • Khen ngợi nỗ lực của khách hàng

    • Khen CIO và đội ngũ kỹ thuật của khách hàng đã phối hợp với đội Google Cloud để thực hiện quá trình khôi phục 24x7 một cách nhanh chóng và chính xác.
  • Trải nghiệm của khách hàng UniSuper

    • Một khách hàng UniSuper cho biết họ chỉ biết bản chất sự cố qua tin tức, và đã có nỗ lực giảm nhẹ sự việc bằng cách gọi đó là "thời gian ngừng hệ thống".
  • Sự hiểu nhầm từ thông báo ban đầu

    • Giải thích rằng thông báo ban đầu đã gây hiểu nhầm; thực tế chỉ có các máy ảo ở một khu vực cụ thể bị mất. Đây được cho là loại sự cố mà hệ thống có thể xử lý được.