1 điểm bởi GN⁺ 2023-07-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dịch vụ đã rơi vào trạng thái ngoại tuyến do sự cố của Tarsnap.
  • Sự cố xảy ra do kiểm tra tình trạng hệ thống thất bại trên máy chủ Tarsnap trung tâm được lưu trữ tại khu vực Amazon EC2 us-east-1.
  • Nguyên nhân chính xác của lỗi chưa được biết, nhưng được cho là một lỗi phần cứng biệt lập.
  • Hệ thống giám sát của Tarsnap đã phát hiện lỗi và gửi cảnh báo cho quản trị viên.
  • Một phiên bản EC2 thay thế đã được tạo, nhưng để tránh mất dữ liệu, mã máy chủ Tarsnap đã không tự động khởi động lại.
  • Sau khi khởi động lại máy chủ, nhật ký cho thấy hệ thống tệp bị hỏng, vì vậy đã quyết định thiết lập một máy chủ mới thay vì khôi phục máy chủ cũ.
  • Quá trình khôi phục bao gồm việc đọc các header siêu dữ liệu từ Amazon S3 và chạy lại công việc trên máy cục bộ.
  • Trong quá trình khôi phục, đã phát sinh lỗi liên quan đến các mục nhật ký đăng ký máy và thứ tự của các mục nhật ký chưa được khởi tạo.
  • Quá trình khôi phục diễn ra chậm hơn dự kiến và lẽ ra có thể được tối ưu để đạt hiệu năng nhanh hơn.
  • Quá trình khôi phục trạng thái đã hoàn tất vào ngày 3 tháng 7 và máy chủ đã trực tuyến trở lại.
  • Lưu lượng được khôi phục sau khoảng 26 giờ 16 phút kể từ khi sự cố bắt đầu.
  • Tarsnap đã cung cấp cho tài khoản người dùng khoản bồi thường tương đương 50% chi phí lưu trữ của một tháng do sự cố gây ra.
  • Người dùng được khuyến nghị liên hệ Colin Percival, nhà sáng lập Tarsnap, nếu có câu hỏi hoặc lo ngại.

1 bình luận

 
GN⁺ 2023-07-28
Ý kiến trên Hacker News
  • Biên tập viên của bài viết này đã hoàn lại cho tất cả mọi người dùng tài khoản Tarsnap 50% chi phí lưu trữ của một tháng sau sự cố.
  • Biên tập viên này được khen ngợi vì cách tiếp cận hào phóng và lấy khách hàng làm trung tâm trong việc xử lý tình huống.
  • Biên tập viên này bày tỏ sự ngạc nhiên trước mức độ phổ biến của bài viết và cho biết bản thân bị hạn chế trong việc trả lời câu hỏi vì lý do cá nhân.
  • Một người bình luận đề xuất rằng việc đánh đổi thêm thời gian gián đoạn để lấy thời gian nghỉ ngơi có thể giúp ích cho việc giải quyết vấn đề.
  • Việc kiểm tra quy trình khôi phục một cách định kỳ giúp xác định và giải quyết lỗi hoặc vấn đề.
  • Bài phân tích sau sự cố này được cảm ơn vì tính chuyên nghiệp, sự lịch thiệp và tính trung thực.
  • Người bình luận khuyến nghị thiết lập và kiểm thử các bước khôi phục sự cố để giảm thiểu thời gian ngừng dịch vụ trong tương lai.
  • Trong các sự cố tương tự, có đề xuất thuê nhân sự bán thời gian để cải thiện khả năng chống chịu của doanh nghiệp.
  • Đối với những người dùng tiềm năng, rủi ro của việc phụ thuộc vào một cá nhân duy nhất, trong trường hợp này là Colin Percival, đã được nhắc đến.
  • Một lỗi trong mã từ năm 2014 được xác định là nguyên nhân gây ra sự cố, và có khuyến nghị sử dụng mô hình hóa TLA+ để bắt được những vấn đề như thế này.
  • Trang hạ tầng trên website Tarsnap nên được cập nhật để phản ánh sự cố.
  • Có câu hỏi được đặt ra về việc liệu có thể tích hợp phần mềm mã hóa của Tarsnap với Dropbox để lưu trữ dữ liệu an toàn hay không.