1 điểm bởi GN⁺ 2024-08-21 | 1 bình luận | Chia sẻ qua WhatsApp

Giải phẫu một vụ sụp đổ tinh thần lúc 2 giờ sáng

  • Sự thức tỉnh lúc 2 giờ sáng

    • Vào lúc 2 giờ sáng, tác giả cảm thấy căng thẳng tột độ và ở trong trạng thái cận kề sụp đổ tinh thần
    • Lý do là mọi lệnh gọi HTTP POST tới jumpcomedy.com đều thất bại
    • Tác giả vừa triển khai một số thay đổi gần đây, nhưng không có gì có vẻ đủ để gây ra vấn đề này
    • Trên môi trường local thì mọi thứ hoạt động bình thường, nhưng không thể tìm ra nguyên nhân của sự cố
  • Trạng thái bị cô lập

    • Trong 25 năm làm nghề, đây là lần đầu tiên tác giả rơi vào tình huống không thể nhận được sự trợ giúp
    • Khiếu nại từ khách hàng đang chồng chất, và hoàn toàn không có bất kỳ hỗ trợ nào để giải quyết việc đó
    • Đây là tình huống khiến tác giả cảm thấy mình đang làm những người tin tưởng và dựa vào mình thất vọng
  • Tự trách và tuyệt vọng

    • Tác giả đã cân nhắc liệu có nên đóng cửa công việc kinh doanh hay gửi email xin lỗi tới khách hàng hay không
    • Vì không thể tìm ra nguyên nhân của vấn đề, tác giả liên tục tự trách bản thân
  • Sự xuất hiện của Eminem

    • Tác giả cố trấn tĩnh bằng lời bài hát của Eminem, nhưng không có tác dụng
    • Đã thử nhiều cách khác nhau nhưng vẫn không tìm ra nguyên nhân sự cố
  • Sự an ủi của vợ

    • Vợ tác giả đưa trà và an ủi, nhưng điều đó không giúp giải quyết vấn đề
    • Email từ khách hàng vẫn tiếp tục dồn đến
  • Vòng lặp của hy vọng và tuyệt vọng

    • Tác giả từng hy vọng nguyên nhân là do bản cập nhật Chrome, nhưng cùng một lỗi cũng xảy ra trên các trình duyệt khác
    • Đã thử nhiều cách khác nhau nhưng vấn đề vẫn chưa được giải quyết
  • Vấn đề của PostHog

    • Khi thêm API key của PostHog, lỗi cũng được tái hiện trên môi trường local
    • Khi gỡ PostHog ra, vấn đề được giải quyết
    • Tác giả cảm thấy tức giận và hối hận về PostHog, nhưng cuối cùng vẫn hài lòng vì đã giải quyết được vấn đề

Tổng kết của GN⁺

  • Bài viết này cho thấy rất rõ mức độ căng thẳng tột độ và cảm giác cô lập mà lập trình viên có thể trải qua
  • Sự lặp đi lặp lại giữa tuyệt vọng và hy vọng trong quá trình xử lý sự cố được miêu tả rất sống động
  • Nó cũng nhắc nhở rằng những công cụ như PostHog hoàn toàn có thể trở thành nguyên nhân gây ra sự cố
  • Những công cụ có chức năng tương tự được khuyến nghị là Mixpanel hoặc Amplitude

1 bình luận

 
GN⁺ 2024-08-21
Ý kiến Hacker News
  • Chia sẻ kinh nghiệm học cách giải quyết sự cố khi làm SRE

    • Điều quan trọng là dành 5-10 phút để suy nghĩ trước khi giải quyết vấn đề
    • Nỗi sợ cản trở tư duy hợp lý
    • Rửa mặt và tay bằng nước thật lạnh sẽ có ích
    • Sau vài lần trải qua, bạn sẽ có thêm tự tin
  • Giải thích sự khác biệt giữa suy sụp tinh thần và cơn hoảng loạn

    • Cơn hoảng loạn là tình trạng ngoài tầm kiểm soát
    • Xanax có tác dụng hỗ trợ
    • Cần hiểu rằng khi cơn hoảng loạn xảy ra thì không thể làm việc được
  • Một dòng code của PostHog đã gây ra sự cố

    • Nhấn mạnh nguyên tắc "If you ship it, you own it"
    • Không nên đưa các yếu tố không cốt lõi vào đường đi quan trọng
  • Bug xảy ra trong window.fetch đã bị monkey-patch

    • Các thư viện vá hàm global phải được kiểm thử thật kỹ
  • Chia sẻ sự cố xảy ra trong ứng dụng iOS/MacOS

    • Một bản phát hành đã làm hỏng hơn 350.000 lượt cài đặt
    • Quy trình review của App Store làm chậm việc khắc phục sự cố
  • Nhấn mạnh tầm quan trọng của tên biến

    • Khuyến nghị dùng tên chính xác hơn như urlOrRequestInfo thay vì url
  • Góc nhìn con người cũng quan trọng trong quá trình xử lý sự cố kỹ thuật

    • Đây là câu chuyện mà các nhà phát triển nhỏ hoặc doanh nhân có thể chia sẻ
  • Giải thích sự khác biệt trong cách xử lý sự cố

    • Kỹ sư SRE/DevOps tập trung vào sự khác biệt của hệ thống
    • Khác với lập trình viên, những người thường kiểm tra code và log trước
  • Điều quan trọng là phải xác nhận mọi thứ đều có thể rollback

    • Phải có thể rollback cả phần phụ thuộc
  • Áp lực không làm tăng tốc độ giải quyết sự cố

    • Điều quan trọng là giữ bình tĩnh
    • Có lẽ hầu hết mọi người đều đã từng trải qua tình huống tương tự