1 điểm bởi GN⁺ 2025-02-21 | 1 bình luận | Chia sẻ qua WhatsApp

Gỡ lỗi Hetzner: khắc phục sự cố bằng powerstat, sensors và dmidecode

  • Bối cảnh

    • Ubicloud đã triển khai máy chủ AX162 của Hetzner nhưng gặp phải các vấn đề nghiêm trọng về độ tin cậy.
    • Máy chủ AX162 có hiệu năng tốt hơn mẫu trước đó và giá rẻ hơn, nhưng bị sự cố thường xuyên hơn gấp 16 lần.
    • Chỉ sau nhiều đợt cập nhật phần cứng, vấn đề mới được giải quyết.
  • Sự cố phát sinh

    • Chỉ 3 tuần sau khi mua máy chủ AX162 đầu tiên, sự cố sập máy chủ đã xảy ra.
    • Nhật ký hệ thống xuất hiện byte NULL, điều này cho thấy một lỗi đột ngột như mất điện.
    • Hetzner đã kiểm tra phần cứng nhưng không phát hiện bất thường.
    • Tần suất sập tăng dần, và mỗi khi Hetzner phát hiện lỗi phần cứng, họ lại thay máy chủ.
  • Điều tra ban đầu

    • Tải hệ thống: ban đầu cho rằng sự cố có thể xảy ra khi tải tăng, nhưng máy vẫn sập cả lúc tải thấp hoặc không có tải.
    • Nhiệt độ: dùng sensors để đo nhiệt độ, nhưng nhiệt độ tại thời điểm sập không cao hơn mức trung bình.
    • Linh kiện lỗi: thu thập thông tin phần cứng bằng lệnh dmidecode, nhưng không thấy khác biệt lớn giữa các máy chủ bị sập và các máy không bị sập.
    • Điện năng tiêu thụ: dùng công cụ powerstat để đo mức tiêu thụ điện, và nghi ngờ Hetzner có thể đã giới hạn mức sử dụng điện.
  • Thu thập và so sánh dữ liệu tỷ lệ sập

    • Độ tin cậy phần cứng được đo bằng tỷ lệ hỏng hóc hàng năm (AFR).
    • Máy chủ AX162 gặp lỗi thường xuyên hơn các mẫu khác gấp 16 lần.
    • Sau lần sập đầu tiên, 80% máy chủ gặp lần sập thứ hai trong vòng 24 giờ.
  • Quan sát độ ổn định với phần cứng mới

    • Hetzner xác nhận có một lô bo mạch chủ bị lỗi và khuyến nghị thay thế.
    • Ngay cả sau khi thay bo mạch chủ mới, sự cố sập vẫn tiếp diễn.
    • Sau khi thay sang bo mạch chủ mới nhất và theo dõi trong vài tháng, vấn đề sập đã được giải quyết.
  • Cải thiện quy trình

    • Cần đánh giá kỹ lưỡng khi đưa vào một mẫu máy chủ mới.
    • Phần cứng mới nên được triển khai dần dần, bắt đầu từ các tác vụ không cốt lõi.
    • Bổ sung thêm nhiều nhà cung cấp bare metal để phân tán rủi ro.
  • Kết luận

    • Việc triển khai ban đầu các máy chủ Hetzner đã gây ra vấn đề, nhưng sự cố đã được giải quyết nhờ cải tiến liên tục.
    • Ubicloud sẽ tiếp tục nỗ lực cung cấp các giải pháp đám mây có độ tin cậy cao và khả năng thích ứng tốt.

1 bình luận

 
GN⁺ 2025-02-21
Ý kiến Hacker News
  • Hầu hết các mẫu AX khác (AX42, AX52, AX102) cũng gặp vấn đề độ tin cậy nghiêm trọng, bị hỏng sau vài tháng. Nguyên nhân là do chúng dựa trên bo mạch chủ bị lỗi. Hetzner cần phải thay bo mạch chủ cho phần lớn các máy chủ được sản xuất trước một thời điểm nhất định
  • Ở công ty trước đây, lỗi quạt CPU trên Hetzner được phát hiện khá thường xuyên. Điều này xảy ra ngoài các lỗi HD/SSD thông thường. Cần có cơ chế giám sát riêng, và đó là một trong những lý do khiến máy chủ không được quản lý rẻ hơn instance đám mây
  • Nhìn lại, nếu chờ 6 tháng thì có lẽ đã tránh được nhiều vấn đề. Những người dùng sớm thường phát hiện ra các lỗi được sửa về sau
    • Đây là lời khuyên rất hay, và tôi áp dụng nó cho mọi hệ thống cần độ ổn định
    • Nếu không có vấn đề bảo mật thì hãy chờ vài tháng hoặc dùng chậm hơn một hai phiên bản
  • Hetzner không xác nhận cũng không phủ nhận khả năng có giới hạn điện năng
    • Hệ quả của việc giới hạn điện năng là gì? Theo bài viết, phần cứng có thể bị xuống cấp nhanh hơn
    • Việc Hetzner thiếu phản hồi cùng với các phép đo của UbiCloud dường như cho thấy họ thực sự đang giới hạn điện năng. Nếu không thì họ đã nói rõ rồi
  • Dell đôi khi cũng gặp vấn đề này. Khi chúng tôi nhận lô đầu tiên của dòng máy chủ cũ của họ, phần I/O (mặt sau) đã phải được thay thế. Sau khi xử lý xong, chúng chạy gần 10 năm
    • Gần đây tôi đã cho các máy chủ này nghỉ hưu. Mọi thứ từ thẻ RAID đến bộ điều chỉnh điện đều đã mòn
    • Trải nghiệm phải khởi động lại một máy chủ đang hoạt động hoàn hảo vì thay đổi cấu hình rồi mất luôn thẻ RAID là một cú sốc
  • Để tăng số lượng máy trong điều kiện bị ràng buộc về điện năng, nhà vận hành trung tâm dữ liệu thường giới hạn mức tiêu thụ điện trên mỗi máy. Tuy nhiên, điều này có thể khiến bo mạch chủ xuống cấp nhanh hơn
    • Có ai giải thích được điểm này không? Nó trái với trực giác
    • Kết quả tìm kiếm cho thấy nếu đụng ngưỡng thermal throttling thì nhiệt độ vận hành cao có thể làm các linh kiện như tụ điện xuống cấp nhanh hơn. Nhưng bài viết đã kiểm tra nhiều cảm biến nhiệt độ khác nhau và điều này dường như không phải trường hợp đó
  • Tôi tự hỏi liệu đây có thể là vấn đề điện/tín hiệu hoặc vấn đề VRM hay không. CPU không nóng không có nghĩa là các phần khác trên bo mạch không bị vượt thông số rồi dẫn đến hỏng hóc nghiêm trọng
    • Các vấn đề bo mạch chủ liên quan đến điện/tín hiệu rất khó chẩn đoán. Chúng biểu hiện như lỗi ở linh kiện khác, và bạn thường phải thay mọi thứ trước khi cuối cùng thay bo mạch chủ thật sự
  • Điều tương tự cũng đã xảy ra với AX102 tôi đang dùng. Máy bị crash do vấn đề liên quan đến card mạng. May là bộ phận hỗ trợ của Hetzner đã giúp thay phần cứng. Nó gây rất nhiều đau đầu, nhưng cũng là một bài học tốt về xử lý sự cố phần cứng
  • Có ai có kinh nghiệm trung tâm dữ liệu đoán được Hetzner có thể đã đạt được giải pháp thương mại nào với nhà cung cấp bo mạch chủ không? Có thể giả định là họ đã thay toàn bộ bo mạch chủ miễn phí và nhận được bồi thường chăng?
  • Trước khi suy đoán có giới hạn điện năng hay không, tôi muốn xem hệ thống đó đang chạy CPU governor nào. Nhiều bản cài Linux mặc định chạy governor tiết kiệm điện, điều này giới hạn tần số tối đa và công suất tối đa