Gỡ lỗi Hetzner: khắc phục sự cố bằng powerstat, sensors và dmidecode
-
Bối cảnh
- Ubicloud đã triển khai máy chủ AX162 của Hetzner nhưng gặp phải các vấn đề nghiêm trọng về độ tin cậy.
- Máy chủ AX162 có hiệu năng tốt hơn mẫu trước đó và giá rẻ hơn, nhưng bị sự cố thường xuyên hơn gấp 16 lần.
- Chỉ sau nhiều đợt cập nhật phần cứng, vấn đề mới được giải quyết.
-
Sự cố phát sinh
- Chỉ 3 tuần sau khi mua máy chủ AX162 đầu tiên, sự cố sập máy chủ đã xảy ra.
- Nhật ký hệ thống xuất hiện byte NULL, điều này cho thấy một lỗi đột ngột như mất điện.
- Hetzner đã kiểm tra phần cứng nhưng không phát hiện bất thường.
- Tần suất sập tăng dần, và mỗi khi Hetzner phát hiện lỗi phần cứng, họ lại thay máy chủ.
-
Điều tra ban đầu
- Tải hệ thống: ban đầu cho rằng sự cố có thể xảy ra khi tải tăng, nhưng máy vẫn sập cả lúc tải thấp hoặc không có tải.
- Nhiệt độ: dùng sensors để đo nhiệt độ, nhưng nhiệt độ tại thời điểm sập không cao hơn mức trung bình.
- Linh kiện lỗi: thu thập thông tin phần cứng bằng lệnh dmidecode, nhưng không thấy khác biệt lớn giữa các máy chủ bị sập và các máy không bị sập.
- Điện năng tiêu thụ: dùng công cụ powerstat để đo mức tiêu thụ điện, và nghi ngờ Hetzner có thể đã giới hạn mức sử dụng điện.
-
Thu thập và so sánh dữ liệu tỷ lệ sập
- Độ tin cậy phần cứng được đo bằng tỷ lệ hỏng hóc hàng năm (AFR).
- Máy chủ AX162 gặp lỗi thường xuyên hơn các mẫu khác gấp 16 lần.
- Sau lần sập đầu tiên, 80% máy chủ gặp lần sập thứ hai trong vòng 24 giờ.
-
Quan sát độ ổn định với phần cứng mới
- Hetzner xác nhận có một lô bo mạch chủ bị lỗi và khuyến nghị thay thế.
- Ngay cả sau khi thay bo mạch chủ mới, sự cố sập vẫn tiếp diễn.
- Sau khi thay sang bo mạch chủ mới nhất và theo dõi trong vài tháng, vấn đề sập đã được giải quyết.
-
Cải thiện quy trình
- Cần đánh giá kỹ lưỡng khi đưa vào một mẫu máy chủ mới.
- Phần cứng mới nên được triển khai dần dần, bắt đầu từ các tác vụ không cốt lõi.
- Bổ sung thêm nhiều nhà cung cấp bare metal để phân tán rủi ro.
-
Kết luận
- Việc triển khai ban đầu các máy chủ Hetzner đã gây ra vấn đề, nhưng sự cố đã được giải quyết nhờ cải tiến liên tục.
- Ubicloud sẽ tiếp tục nỗ lực cung cấp các giải pháp đám mây có độ tin cậy cao và khả năng thích ứng tốt.
1 bình luận
Ý kiến Hacker News