- Postman đã gặp phải tình trạng gián đoạn dịch vụ tạm thời do sự cố đám mây toàn cầu
- Sự cố do vấn đề của nhà cung cấp đám mây đã gây ra lỗi chức năng và tình trạng không thể truy cập gián đoạn cho nhiều người dùng
- Nhóm kỹ sư đã tiến hành khôi phục theo thời gian thực, và dịch vụ đã dần trở lại
- Các sự cố của một phần chức năng tìm kiếm cùng vấn đề phụ thuộc chéo đang được theo dõi và giải quyết liên tục
- Hiện tại sự cố đã được xử lý và dịch vụ đã phục hồi bình thường, với việc tiếp tục giám sát độ ổn định
Dòng thời gian gián đoạn và quá trình khôi phục dịch vụ Postman
Xác định sự cố và tác động (Oct 20, 05:39 ~ 05:52 PDT)
- Postman ghi nhận tỷ lệ lỗi tăng và xuất hiện các lỗi chức năng
- Nguyên nhân của sự cố này là do vấn đề nghiêm trọng của nhà cung cấp dịch vụ đám mây
- Đội ngũ Postman đã phối hợp với nhà cung cấp đám mây để ứng phó nhằm khôi phục nhanh chóng
Khôi phục một phần dịch vụ và giám sát (Oct 20, 05:56 ~ 17:17 PDT)
- Đã quan sát thấy xu hướng phục hồi của một số hệ thống
- Tiếp tục theo dõi hiệu năng của nhiều dịch vụ và triển khai khôi phục toàn diện
- Đã xác nhận phần lớn tính năng đã được phục hồi, tập trung vào việc ngăn chặn thêm sự cố thông qua giám sát liên tục
Khôi phục hoàn toàn và đưa dịch vụ trở lại bình thường (Oct 20, 19:00 ~ 20:51 PDT)
- Một số dịch vụ vẫn còn sự cố gián đoạn, nhưng nhiều hệ thống đã phục hồi ổn định
- Đã giải quyết dần các lỗi sự phụ thuộc chéo và các vấn đề liên quan đến chức năng tìm kiếm
- Sau khi tất cả các sự cố được xử lý và hoàn tất khôi phục dịch vụ toàn diện, đã triển khai giám sát bổ sung để đảm bảo tính ổn định
Tổng kết và bài học rút ra
- Postman có mức phụ thuộc cao vào môi trường đám mây, nên có cấu trúc chịu ảnh hưởng trực tiếp từ sự cố toàn cầu
- Trong tương lai, các công cụ tương tự hoặc dịch vụ phụ thuộc vào hoạt động cục bộ cũng cho thấy nhu cầu chuẩn bị trước cho sự cố hạ tầng đám mây
- Khi xảy ra sự cố, giám sát sự cố và truyền thông theo thời gian thực rất quan trọng đối với duy trì vận hành và niềm tin khách hàng
- Trong quá trình khôi phục diễn ra dần dần, phản hồi nhanh của đội ngũ cùng thông báo minh bạch có vai trò lớn
- Nhu cầu tái khẳng định thiết lập hệ thống giám sát để kiểm tra việc mọi dịch vụ có đang vận hành ổn định hay không
1 bình luận
Ý kiến Hacker News
yapi(https://github.com/jamierpond/yapi), có thể dùng như sau Đây là ví dụ file yaml (kèm schema, url, method, path, cách chỉ định query parameter), chỉ cần chạyyapilà có thể dùng fzf để tìm nhanh file cấu hình