Tình hình các sự cố trên GCP
(blog.railway.app)Các vấn đề của Google Cloud Platform và cách ứng phó
- Railway vận hành nền tảng phát triển ứng dụng bằng Compute Engine của Google Cloud Platform (GCP).
- Một số máy cụ thể đã không còn phản hồi, gây ra sự cố dịch vụ, và tình trạng này kéo dài khoảng 10 phút.
- Vấn đề đã được giải quyết, mọi tải công việc đã được di chuyển thành công và dịch vụ đã được khôi phục.
Mối quan hệ khó khăn với Google Cloud
- Trong 18 tháng qua, Railway đã gặp nhiều vấn đề với Google Cloud.
- Khi các vấn đề mạng tiếp diễn, họ đã tự xây dựng ngăn xếp mạng riêng để giải quyết.
- Khi Google giới hạn quota của registry, họ đã tự tạo sản phẩm registry riêng để xử lý.
- Thất vọng với dịch vụ hỗ trợ của Google, Railway đã trao đổi với các phó chủ tịch của Google để giải quyết vấn đề.
- Google đã thay đổi điều khoản dịch vụ khiến chi phí tăng 20%, và Railway vẫn đang chờ giải pháp cho việc này.
- Railway có kế hoạch ngừng sử dụng dịch vụ Google Cloud và chuyển sang các instance bare metal riêng.
Tổng kết sự cố
- Google đã khởi động lại các máy khiến máy chủ rơi vào trạng thái offline.
- Dù có hệ thống tự động khôi phục sự cố, một số máy chủ không được phục hồi nên đã phải tiến hành khôi phục thủ công.
- Họ cho rằng nguyên nhân là do live migration tự động của Google Cloud và đã cố liên hệ Google nhưng không nhận được phản hồi.
- Kết quả phân tích log serial console cho thấy có thể trong guest của GCP, ở những trường hợp hiếm hoi, soft lock xảy ra dưới áp lực tài nguyên trong quá trình truyền bộ nhớ từ user space sang kernel.
Kết luận cho người dùng
- Trong quá trình khôi phục sự cố thủ công, đã xảy ra khoảng 10 phút downtime trên mỗi host.
- Với người dùng chạy workload đa dịch vụ, downtime có thể kéo dài hơn.
- Railway xin lỗi vì sự bất tiện gây ra cho người dùng và có kế hoạch chuyển sang bare metal riêng để cung cấp độ tin cậy cao hơn.
Ý kiến của GN⁺
Điều quan trọng nhất trong bài viết này là tác động của các vấn đề kỹ thuật của Google Cloud Platform và những hạn chế trong hỗ trợ khách hàng đối với người dùng. Những vấn đề mà Railway gặp phải nhấn mạnh tầm quan trọng của độ tin cậy và hỗ trợ từ nhà cung cấp dịch vụ đám mây, đồng thời cho thấy tầm quan trọng của việc xây dựng hạ tầng riêng để giải quyết các vấn đề này. Bài viết này giúp hiểu rõ sự phức tạp và những rủi ro tiềm ẩn của điện toán đám mây, đồng thời mang lại góc nhìn và phương án ứng phó với các vấn đề kỹ thuật, nên vừa thú vị vừa hữu ích.
1 bình luận
Ý kiến trên Hacker News
Trải nghiệm của một công ty phần mềm quy mô nhỏ
Ý kiến về sự thay đổi của GCP
So sánh độ tin cậy giữa GCP và AWS
Ý kiến về vấn đề của các nhà cung cấp cloud
Trải nghiệm với dịch vụ hỗ trợ của Google Cloud
Trải nghiệm về các vấn đề tính năng của GCP
Trải nghiệm về các ngưỡng không được tài liệu hóa của GCP
Giải pháp cho vấn đề mạng trên Google Cloud
Ý kiến về độ tin cậy của Google Cloud
Sự bối rối cá nhân về các vấn đề trên GCP