11 điểm bởi before30 2020-12-25 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Cập nhật 2020/12/18 (bổ sung nguyên nhân và phương án ứng phó)

#ROOT CAUSE

Từ tháng 10 năm ngoái, Google đã đưa vào vận hành một hệ thống phân bổ lưu trữ tự động mới cho dịch vụ User ID. Ở một số dịch vụ, hệ thống quota cũ vẫn đang được sử dụng và có vấn đề là báo cáo mức sử dụng bằng 0. Việc bị báo cáo là 0 không gây ảnh hưởng ngay lập tức vì vẫn còn thời gian Expire, nhưng sau khi hết hạn, quota của dịch vụ User ID bị giảm xuống và sự cố đã xảy ra. Dù có các hạng mục kiểm tra an toàn để xác minh các thay đổi quota ngoài ý muốn, chúng không xử lý kịch bản giá trị bằng 0.

Quota của Database tài khoản đã bị giảm, việc ghi của Paxos leader trở nên không thể thực hiện, và phần lớn các thao tác đọc cũng hết hạn, dẫn đến lỗi khi tra cứu xác thực.

#REMEDIATION AND PREVENTION

  1. Rà soát tự động hóa quản lý quota để ngăn việc triển khai quá nhanh các thay đổi mang tính toàn cầu

  2. Cải thiện giám sát và cảnh báo để nhanh chóng phát hiện cấu hình sai

  3. Nâng cao độ ổn định của công cụ và quy trình phục vụ giao tiếp bên ngoài khi sự cố xảy ra do công cụ nội bộ

  4. Triển khai khả năng chống chịu với lỗi ghi cho cơ sở dữ liệu của dịch vụ User ID

  5. Cải thiện Resilience của dịch vụ GCP bằng cách giới hạn nghiêm ngặt tác động lên vùng dữ liệu khi dịch vụ User ID gặp lỗi

  • Báo cáo chi tiết về sự cố xảy ra ngày 14 tháng 12 đã được cập nhật nên tôi vừa đọc vừa dịch thử hơi vụng. Nếu có lỗi thì hãy cho tôi biết. Và vì đây luôn là GeekNews mà tôi rất thích xem, nếu có nội dung thú vị liên quan đến sự cố thì tôi sẽ chia sẻ thêm.

Chưa có bình luận nào.

Chưa có bình luận nào.