1 điểm bởi GN⁺ 2023-12-04 | 1 bình luận | Chia sẻ qua WhatsApp

Các vấn đề của Google Cloud Platform và cách ứng phó

  • Railway vận hành nền tảng phát triển ứng dụng bằng Compute Engine của Google Cloud Platform (GCP).
  • Một số máy cụ thể đã không còn phản hồi, gây ra sự cố dịch vụ, và tình trạng này kéo dài khoảng 10 phút.
  • Vấn đề đã được giải quyết, mọi tải công việc đã được di chuyển thành công và dịch vụ đã được khôi phục.

Mối quan hệ khó khăn với Google Cloud

  • Trong 18 tháng qua, Railway đã gặp nhiều vấn đề với Google Cloud.
  • Khi các vấn đề mạng tiếp diễn, họ đã tự xây dựng ngăn xếp mạng riêng để giải quyết.
  • Khi Google giới hạn quota của registry, họ đã tự tạo sản phẩm registry riêng để xử lý.
  • Thất vọng với dịch vụ hỗ trợ của Google, Railway đã trao đổi với các phó chủ tịch của Google để giải quyết vấn đề.
  • Google đã thay đổi điều khoản dịch vụ khiến chi phí tăng 20%, và Railway vẫn đang chờ giải pháp cho việc này.
  • Railway có kế hoạch ngừng sử dụng dịch vụ Google Cloud và chuyển sang các instance bare metal riêng.

Tổng kết sự cố

  • Google đã khởi động lại các máy khiến máy chủ rơi vào trạng thái offline.
  • Dù có hệ thống tự động khôi phục sự cố, một số máy chủ không được phục hồi nên đã phải tiến hành khôi phục thủ công.
  • Họ cho rằng nguyên nhân là do live migration tự động của Google Cloud và đã cố liên hệ Google nhưng không nhận được phản hồi.
  • Kết quả phân tích log serial console cho thấy có thể trong guest của GCP, ở những trường hợp hiếm hoi, soft lock xảy ra dưới áp lực tài nguyên trong quá trình truyền bộ nhớ từ user space sang kernel.

Kết luận cho người dùng

  • Trong quá trình khôi phục sự cố thủ công, đã xảy ra khoảng 10 phút downtime trên mỗi host.
  • Với người dùng chạy workload đa dịch vụ, downtime có thể kéo dài hơn.
  • Railway xin lỗi vì sự bất tiện gây ra cho người dùng và có kế hoạch chuyển sang bare metal riêng để cung cấp độ tin cậy cao hơn.

Ý kiến của GN⁺

Điều quan trọng nhất trong bài viết này là tác động của các vấn đề kỹ thuật của Google Cloud Platform và những hạn chế trong hỗ trợ khách hàng đối với người dùng. Những vấn đề mà Railway gặp phải nhấn mạnh tầm quan trọng của độ tin cậy và hỗ trợ từ nhà cung cấp dịch vụ đám mây, đồng thời cho thấy tầm quan trọng của việc xây dựng hạ tầng riêng để giải quyết các vấn đề này. Bài viết này giúp hiểu rõ sự phức tạp và những rủi ro tiềm ẩn của điện toán đám mây, đồng thời mang lại góc nhìn và phương án ứng phó với các vấn đề kỹ thuật, nên vừa thú vị vừa hữu ích.

1 bình luận

 
GN⁺ 2023-12-04
Ý kiến trên Hacker News
  • Trải nghiệm của một công ty phần mềm quy mô nhỏ

    • Với tư cách là một công ty phần mềm 2 người, đã gặp nhiều vấn đề với Google.
    • Phần lớn các vấn đề liên quan đến Google Adwords.
    • Nếu Google không cung cấp hỗ trợ đúng mức cho tác giả bài viết gốc, người đang chi trả số tiền lớn, thì các doanh nghiệp nhỏ lại càng ít hy vọng hơn.
  • Ý kiến về sự thay đổi của GCP

    • Vài năm trước, GCP là lựa chọn có hiệu năng/giá thành tốt hơn so với AWS.
    • Khi đó, bộ phận hỗ trợ của GCP rất tốt và trải nghiệm xử lý ticket ban đầu cũng rất ấn tượng.
    • Tương tác với đội ngũ sales cũng tốt, nhưng hiện tại AWS đã bắt kịp GCP về hiệu năng/chi phí và đang dẫn trước ở các dịch vụ managed.
    • Trải nghiệm hỗ trợ của GCP đã xuống cấp rõ rệt và họ không nhận ra các vấn đề mạng.
    • Đã đầu tư nhiều vào GCP, nhưng thất vọng với tình hình hiện tại và đang cố gắng cắt giảm chi tiêu.
  • So sánh độ tin cậy giữa GCP và AWS

    • Việc instance compute trên GCP bị sập là chuyện hiếm, nhưng vẫn bị chỉ trích.
    • Trên AWS, đã từng gặp tình trạng instance thường xuyên bị dừng hoặc biến mất.
    • Dựa trên trải nghiệm cá nhân và tài liệu của AWS, cho rằng các thành phần cơ bản của AWS kém tin cậy hơn GCP.
  • Ý kiến về vấn đề của các nhà cung cấp cloud

    • Mọi nhà cung cấp cloud đều có vấn đề.
    • Đã phát hiện và báo cáo nhiều issue trên AWS, nhưng đội ngũ hỗ trợ lại khiến mất thời gian.
    • Ngoài các dịch vụ cốt lõi (EC2, EBS, S3), thì ngại sử dụng các dịch vụ khác.
  • Trải nghiệm với dịch vụ hỗ trợ của Google Cloud

    • Không mấy ấn tượng với dịch vụ hỗ trợ của Google Cloud.
    • Trên AWS, trải nghiệm hỗ trợ luôn tốt.
    • Nếu có tương tác tích cực với Google Cloud, nên nhấn mạnh điều đó và gửi phản hồi tích cực.
  • Trải nghiệm về các vấn đề tính năng của GCP

    • Các tính năng dành cho doanh nghiệp của GCP đã không hoạt động đúng cách, và khi cố sửa thì lại gây downtime.
    • Đại diện GCP nhắc đến NDA và không muốn thừa nhận vấn đề.
  • Trải nghiệm về các ngưỡng không được tài liệu hóa của GCP

    • Với Cloud Run, đã gặp các sự kiện scale khó giải thích dựa trên mức sử dụng CPU và số request đồng thời.
    • Qua gói hỗ trợ premium mới biết có thêm các tiêu chí khác, nhưng không nhận được giải thích chi tiết.
  • Giải pháp cho vấn đề mạng trên Google Cloud

    • Gặp các vấn đề mạng kéo dài trên sản phẩm Google Cloud.
    • Đã tự xây dựng networking stack để giải quyết vấn đề.
    • Đặt câu hỏi vì sao một lớp phủ UDP/Wireguard lại có thể đáng tin cậy hơn khi mạng cơ bản không ổn định.
  • Ý kiến về độ tin cậy của Google Cloud

    • Có thể hiểu các vấn đề về độ tin cậy trong giai đoạn đầu của cloud computing, nhưng đến năm 2023 mà vẫn làm khách hàng lớn thất vọng thì là điều không tốt.
    • Tò mò không biết người khác có trải nghiệm tương tự hay không, hay chỉ là tác giả quá xui.
  • Sự bối rối cá nhân về các vấn đề trên GCP

    • Bối rối không hiểu nested virtualization có liên quan gì đến vấn đề này.
    • Không hiểu phần nhắc đến lệnh MMIO.
    • Có vẻ tác giả đang thấy bức bối về sự cố gần đây và cố gắng tìm cách giải quyết.