Báo cáo sự cố GCP 2025-06-12
(status.cloud.google.com)- Service Control: một trong những mô-đun cốt lõi mà Google và Google Cloud API sử dụng
- Vào 2025-05-29, một tính năng mới đã được triển khai cho Service Control. Đây là tính năng kiểm tra chính sách mới
- Khi chính sách mới được thêm vào ngày 2025-06-12, sự cố bắt đầu xảy ra:
- xảy ra crash loop* do null pointer
- không có feature flag. Tuy nhiên đã kích hoạt red-button để dừng khẩn cấp
- tại các khu vực lớn như us-central-1, hành động này đã gây ra herd effect* lên các dịch vụ nội bộ phụ thuộc vào nó. Lý do là vì chiến lược randomized exponential backoff** chưa được triển khai
- nghĩa là lưu lượng truy cập dồn đến rất nhiều cùng một lúc.
** là kỹ thuật dùng để ngăn quá tải lưu lượng truy cập.
5 bình luận
Trên GN+ cũng đã có một bài viết đề cập đến cùng báo cáo này.
Có vẻ là ngay cả những công ty lớn như Google cũng bất ngờ có mã nguồn ở chỗ này chỗ kia chưa áp dụng đến cả biện pháp cơ bản là thêm Jitter khi xử lý retry.
Có lẽ trước đây vấn đề kiểu này chưa từng bùng phát nên cứ để nguyên như vậy, đúng là chuyện không đụng vào đoạn mã đang chạy tốt thì ngay cả các tập đoàn khổng lồ cũng chẳng khác mấy.
Giờ nhìn lại thì định dạng có hơi bị vỡ một chút. Hai dòng cuối lần lượt là chú thích về crash loop và randomized exponential backoff.
Liệu có liên quan đến sự cố của bài Internet bị sập xảy ra vài ngày trước không?
Vâng, đúng vậy, là nói về sự cố đó.