- Dịch vụ đã rơi vào trạng thái ngoại tuyến do sự cố của Tarsnap.
- Sự cố xảy ra do kiểm tra tình trạng hệ thống thất bại trên máy chủ Tarsnap trung tâm được lưu trữ tại khu vực Amazon EC2 us-east-1.
- Nguyên nhân chính xác của lỗi chưa được biết, nhưng được cho là một lỗi phần cứng biệt lập.
- Hệ thống giám sát của Tarsnap đã phát hiện lỗi và gửi cảnh báo cho quản trị viên.
- Một phiên bản EC2 thay thế đã được tạo, nhưng để tránh mất dữ liệu, mã máy chủ Tarsnap đã không tự động khởi động lại.
- Sau khi khởi động lại máy chủ, nhật ký cho thấy hệ thống tệp bị hỏng, vì vậy đã quyết định thiết lập một máy chủ mới thay vì khôi phục máy chủ cũ.
- Quá trình khôi phục bao gồm việc đọc các header siêu dữ liệu từ Amazon S3 và chạy lại công việc trên máy cục bộ.
- Trong quá trình khôi phục, đã phát sinh lỗi liên quan đến các mục nhật ký đăng ký máy và thứ tự của các mục nhật ký chưa được khởi tạo.
- Quá trình khôi phục diễn ra chậm hơn dự kiến và lẽ ra có thể được tối ưu để đạt hiệu năng nhanh hơn.
- Quá trình khôi phục trạng thái đã hoàn tất vào ngày 3 tháng 7 và máy chủ đã trực tuyến trở lại.
- Lưu lượng được khôi phục sau khoảng 26 giờ 16 phút kể từ khi sự cố bắt đầu.
- Tarsnap đã cung cấp cho tài khoản người dùng khoản bồi thường tương đương 50% chi phí lưu trữ của một tháng do sự cố gây ra.
- Người dùng được khuyến nghị liên hệ Colin Percival, nhà sáng lập Tarsnap, nếu có câu hỏi hoặc lo ngại.
1 bình luận
Ý kiến trên Hacker News