2 điểm bởi GN⁺ 2025-06-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Đã xảy ra sự cố dịch vụ trên Google Cloud Platform
  • Lỗi tiếp diễn trên dịch vụ Vertex AI Online Prediction
  • Phát sinh tình huống khó xác nhận trạng thái của các dịch vụ tùy chỉnh cho người dùng
  • Có báo cáo về hiện tượng dịch vụ bất thường ảnh hưởng đến người dùng ở nhiều khu vực
  • Nêu ra nhu cầu khôi phục hoạt động bình thường và xác định nguyên nhân cụ thể

Tổng quan sự cố

  • Có báo cáo về hiện tượng không thể sử dụng dịch vụ trên Google Cloud Platform
  • Đặc biệt, đã xác nhận lỗi kéo dài ở các tính năng như Vertex AI Online Prediction

Phạm vi ảnh hưởng và tình hình hiện tại

  • Vấn đề này cũng đang ảnh hưởng đến việc kiểm tra trạng thái của các dịch vụ như Personalized Service Health
  • Người dùng ở nhiều khu vực đang gặp bất tiện trong việc truy cập hoặc sử dụng dịch vụ

Kết luận và triển vọng

  • Nhu cầu khôi phục dịch vụphân tích nguyên nhân sự cố đang được đặt ra
  • Hiện đang chờ thông báo bổ sung về phương án khôi phục và biện pháp xử lý cụ thể

1 bình luận

 
GN⁺ 2025-06-13
Ý kiến trên Hacker News
  • Giải thích tình huống dịch vụ trung tâm nội bộ của Google là Chemist bị sập; Chemist cung cấp nhiều chức năng kiểm tra chính sách như trạng thái dự án, trạng thái kích hoạt, tình trạng lạm dụng, trạng thái tính phí, giới hạn vị trí, VPC Service Controls, SuperQuota..., nên có thể hiểu vì sao xuất hiện nhiều thông báo lỗi như “visibility check (of the API) failed” hoặc “cannot load policy”; kèm liên kết tới tài liệu kiểm tra chính sách cụ thể, EDIT: Google đã thông báo Google Cloud gặp sự cố do “Identity and Access Management Service Issue”
    • Tôi đang dùng Expo cho chức năng relay thông báo, nên tò mò liệu FCM cũng có bị ảnh hưởng trong sự cố Google lần này hay không
    • Nhiều dịch vụ Internet cùng lúc bị sập; đây không chỉ là vấn đề riêng của GCP; phỏng đoán dịch vụ Chemist bị ảnh hưởng đặc biệt nặng từ bên ngoài nên gây hiệu ứng lan truyền sự cố tới cả mạng GCP nội bộ
  • Đang dùng Claude Sonnet 4 (Cursor) và Gemini Pro thì gặp hàng loạt lỗi; than thở rằng phải quay về tháng 12/2024 và tự tay viết 100% code như người tiền sử
    • Tôi cũng gặp đúng vấn đề này trong AI Studio, với thông báo “Không thể tạo nội dung vì đã vượt quá hạn ngạch người dùng”
    • Tôi đang thử nghiệm upload file lên Cloud Storage, nhưng lúc này có lẽ là thời điểm thích hợp để đi dạo
    • Trong chế độ Auto Agent của Cursor cũng xảy ra lỗi tương tự
    • Trò đùa: lập trình viên trước ngày 12/6/2025 nói “AI à? Chỉ là cỗ máy tạo ảo giác, không thể thay thế tôi!” / lập trình viên trong lúc sự cố ngày 12/6/2025 nói “Không có AI thì hóa ra tôi là nô lệ sao?”
    • Chia sẻ mẹo rằng chuyển sang chế độ Auto thì vẫn dùng được
  • Cloudflare cũng đang gặp sự cố; Cloudflare status cho biết nhiều dịch vụ (Access, WARP, Durable Objects (dựa trên SQL), Workers KV, Realtime, Workers AI, Stream, một phần dashboard Cloudflare) bị gián đoạn từng lúc và liên tục cập nhật đánh giá ảnh hưởng; chia sẻ thảo luận Hacker News liên quan
    • Nếu Cloudflare phụ thuộc vào GCP thì sự cố lần này thật sự là chuyện cực lớn
    • Có ý kiến cho rằng liên kết hoạt động bất thường, nhắc tới hiện tượng trống rỗng trong chốc lát
  • Tính đến 18:43 UTC, gần như mọi dịch vụ đều đang gặp sự cố; chia sẻ liên kết downdetector
    • Có vẻ biểu đồ của dịch vụ này cũng thu thập dữ liệu nội bộ từ GCP; trong lúc gọi với phía Google có người còn nói AWS cũng sập, và tôi tự trách mình vì đã đoán bừa “hay là bị tấn công BGP?” mà chưa kiểm chứng
    • Câu hỏi: “Mọi dịch vụ đó đều là dịch vụ của Google à?”
    • Có ý kiến nói không ngờ sự cố của Google lại ảnh hưởng cả AWS hay Microsoft 365
    • Có người khẳng định rằng trong những sự kiện lớn như thế này, Downdetector là nguồn phát sinh tin giả 100%
    • Trò đùa rằng có khi logic phát hiện này cũng đang chạy trên Google Cloud
  • Tất cả các trang trạng thái đều báo bình thường (màu xanh), nhưng thực tế có rất nhiều báo cáo lỗi; Google Cloud outage monitor
    • Nghi ngờ lý do tồn tại của các trang trạng thái; hơn 100.000 người dùng báo không dùng được Google Meet, và nếu các công ty lớn không phản ánh tình hình thực tế lên trang trạng thái thì chúng chẳng có ý nghĩa gì; chia sẻ thêm Google Apps StatusGCP Status Page, EDIT: trong vòng 1 phút sau bài đăng, trang trạng thái GCP đã được cập nhật để hiển thị sự cố ở nhiều dịch vụ như Cloud Data Fusion, Cloud Memorystore, Cloud Shell...
    • Liên kết thông báo chính thức về sự cố lần này
    • Hiện có cập nhật tình hình ảnh hưởng tới console, dataproc, GCS, IAM, Identity Platform... tại liên kết
    • Công ty chúng tôi cũng có hàng trăm người làm việc từ xa, và khi truy cập Google Meetings thì hơn 90% gặp lỗi 504
  • Sự cố của Cloudflare cũng vừa được cập nhật mới; các dịch vụ cốt lõi như Workers KV đã offline do sự cố của bên thứ ba, ảnh hưởng trực tiếp tới khả năng cung cấp thông tin của các sản phẩm Cloudflare phụ thuộc vào các dịch vụ này
  • Firebase Auth cũng bị sập nên ảnh hưởng tới rất nhiều ứng dụng; trên các cộng đồng Discord và Slack cũng có nhiều người dùng báo gặp cùng lúc; thất vọng vì gần 30 phút mà trang trạng thái không có thông báo nào, Firebase Status
    • Cuối cùng trang trạng thái cũng được cập nhật; có lẽ do sự cố nội bộ nên việc phản ánh lên trang trạng thái cũng bị chậm
  • Sự cố lần này còn làm cả tin nhắn RCS bị sập, cho thấy rõ thiết kế kỹ thuật hoặc hạ tầng đã yếu kém đến mức nào
    • RCS chẳng phải rốt cuộc cũng chỉ là nhắn tin tức thời sao? Vì vậy có người thấy việc nó bị sập cũng không quá ngạc nhiên
    • Thế là giải thích được vì sao hôm nay tôi không nhận được ảnh chó từ bố mẹ
    • Ngạc nhiên vì cuối cùng đã tìm ra nguyên nhân khiến cuộc chat RCS của tôi lúc nãy bị lỗi
    • Trò đùa rằng lẽ ra nên dùng Erlang
  • Đang tìm một dashboard tốt để kiểm tra bất thường trong định tuyến BGP; hiện đang xem Cloudflare Radar Routing nhưng nó không hiển thị route leak thực tế nên hỏi xin thêm dashboard gợi ý
    • Có phản hồi rằng đây là lần đầu biết đến Cloudflare Radar và thấy nó rất hay, nhưng do ảnh hưởng của sự cố hiện tại nên có thể các dashboard cũng đang gặp vấn đề hoạt động một phần; gợi ý RIPE Atlas, IHR Global Report, IHR Network, BGP He.net, IODA dashboard
    • Thứ tôi dùng mặc định là bgp.tools, nhưng tôi tò mò vì sao bạn lại nghĩ sự cố này do BGP
    • Tôi cũng là người mới nên thắc mắc: hiện tượng phần “Announced IP Address Space” đột ngột nhảy vọt lớn như vậy có phải lúc bình thường cũng xảy ra không?
    • Nêu nghi vấn có thể là tấn công BGP
  • Một ý kiến hài hước rằng thật may vì Hacker News chạy trên một máy chủ bare metal đơn lẻ, không liên quan tới kiểu hạ tầng phức tạp này