7 điểm bởi roxie 2025-06-15 | 5 bình luận | Chia sẻ qua WhatsApp
  • Service Control: một trong những mô-đun cốt lõi mà Google và Google Cloud API sử dụng
    • Vào 2025-05-29, một tính năng mới đã được triển khai cho Service Control. Đây là tính năng kiểm tra chính sách mới
    • Khi chính sách mới được thêm vào ngày 2025-06-12, sự cố bắt đầu xảy ra:
      • xảy ra crash loop* do null pointer
      • không có feature flag. Tuy nhiên đã kích hoạt red-button để dừng khẩn cấp
      • tại các khu vực lớn như us-central-1, hành động này đã gây ra herd effect* lên các dịch vụ nội bộ phụ thuộc vào nó. Lý do là vì chiến lược randomized exponential backoff** chưa được triển khai
  • nghĩa là lưu lượng truy cập dồn đến rất nhiều cùng một lúc.
    ** là kỹ thuật dùng để ngăn quá tải lưu lượng truy cập.

5 bình luận

 
kunggom 2025-06-16

Trên GN+ cũng đã có một bài viết đề cập đến cùng báo cáo này.

 
kunggom 2025-06-16

Có vẻ là ngay cả những công ty lớn như Google cũng bất ngờ có mã nguồn ở chỗ này chỗ kia chưa áp dụng đến cả biện pháp cơ bản là thêm Jitter khi xử lý retry.
Có lẽ trước đây vấn đề kiểu này chưa từng bùng phát nên cứ để nguyên như vậy, đúng là chuyện không đụng vào đoạn mã đang chạy tốt thì ngay cả các tập đoàn khổng lồ cũng chẳng khác mấy.

 
roxie 2025-06-15

Giờ nhìn lại thì định dạng có hơi bị vỡ một chút. Hai dòng cuối lần lượt là chú thích về crash loop và randomized exponential backoff.

 
regentag 2025-06-15

Liệu có liên quan đến sự cố của bài Internet bị sập xảy ra vài ngày trước không?

 
roxie 2025-06-15

Vâng, đúng vậy, là nói về sự cố đó.