1 điểm bởi GN⁺ 2024-07-30 | 1 bình luận | Chia sẻ qua WhatsApp

Ảnh hưởng của CrowdStrike đối với ngành hàng không

  • Vào ngày 19 tháng 7 năm 2024, CrowdStrike đã triển khai một bản cập nhật cấu hình cảm biến cho các hệ thống Windows
  • Bản cập nhật này khiến khoảng 8,5 triệu máy tính gặp màn hình xanh, ảnh hưởng đến nhiều tổ chức như bệnh viện, ngân hàng và hệ thống 911
  • Linux, Mac và điện thoại di động không bị ảnh hưởng

Ảnh hưởng đến ngành hàng không Mỹ

  • Cung cấp biểu đồ so sánh theo từng giờ số lượng máy bay cất cánh tại Mỹ trong ngày 19 tháng 7
  • So với ngày 12 tháng 7, số chuyến giảm nhẹ từ 0600 đến 1300, sau đó tăng nhẹ
  • Trong thống kê lũy kế bắt đầu từ 0400, con số này tăng 2,6% so với thứ Sáu của tuần trước

Thống kê theo hãng hàng không

  • Cung cấp thống kê của 4 hãng hàng không lớn của Mỹ (Delta, United, American, Southwest)
  • Delta: -1087 chuyến (-46%)
  • United: -596 chuyến (-36%)
  • American: -376 chuyến (-16%)
  • Southwest: +101 chuyến (+3%)

Tóm tắt theo hãng hàng không

  • Delta chịu ảnh hưởng nặng nề nhất, tiếp theo là United và American
  • Southwest không bị ảnh hưởng
  • Delta mất nhiều thời gian để phục hồi, trong khi các hãng khác trở lại bình thường nhanh hơn

Dữ liệu và phân tích

  • Sử dụng dữ liệu thô từ ADS-B Exchange và xử lý bằng mã để phát hiện các lần cất cánh của máy bay
  • Xem mỗi lần cất cánh là một chuyến bay để lập thống kê

Tóm tắt của GN⁺

  • Đây là bài viết phân tích tác động của sự cố CNTT quy mô lớn do bản cập nhật của CrowdStrike gây ra đối với ngành hàng không
  • Nhiều ý kiến được đưa ra về lý do vì sao hãng Delta mất nhiều thời gian phục hồi hơn các hãng hàng không khác
  • Bài viết nhấn mạnh tầm quan trọng của sự ổn định của hệ thống CNTT và kế hoạch ứng phó khẩn cấp
  • Với các dự án khác có chức năng tương tự, có thể tham khảo các công cụ quản lý và phân tích log như Splunk

1 bình luận

 
GN⁺ 2024-07-30
Ý kiến trên Hacker News
  • Phần mềm theo dõi tổ bay của Delta bị ảnh hưởng nặng nề, khiến việc khôi phục mất nhiều thời gian

  • Điều này cho thấy có nhiều máy tính lẽ ra không nên được kết nối Internet

  • Có vẻ như Delta đã chuẩn bị khởi kiện

  • Bài viết nói rằng Southwest Airlines đã tránh được sự cố của CrowdStrike và Microsoft nhờ sử dụng Windows 3.1

  • Thắc mắc vì sao sân bay Minneapolis-St Paul lại gặp các vụ hủy chuyến sớm hơn những sân bay khác ở Mỹ

  • Thắc mắc liệu một kế hoạch khôi phục thảm họa hiện đại, được diễn tập kỹ lưỡng có phát huy hiệu quả hay không, hoặc liệu bộ phận IT đã không chi tiền cho sao lưu và khôi phục

  • Thắc mắc liệu có phân tích ở quy mô toàn cầu hay không

  • Điểm thú vị của lần ngừng hoạt động này là các hệ thống "PROD" chủ yếu chạy trên Linux và phần mềm độc quyền cũ nên vẫn ổn, trong khi các hệ thống "CORP" chủ yếu chạy trên Windows lại bị ảnh hưởng nặng

    • Các hệ thống ngân hàng không gặp vấn đề khi chuyển tiền, nhưng các hệ thống tương tác với con người thì có vấn đề
  • Việc Delta thuê ngoài các năng lực kinh doanh cốt lõi và cắt giảm hợp đồng để tiết kiệm đã khiến vấn đề trở nên trầm trọng hơn

    • Mong rằng chi phí bồi thường cho khách hàng sẽ cao hơn số tiền họ đã tiết kiệm được
    • Nguồn: Bình luận trên Reddit
  • Delta không có kế hoạch khôi phục thảm họa phù hợp và cũng không có kế hoạch đảm bảo tính liên tục kinh doanh cho IT

    • UA, AA, F9 đã lập tức kích hoạt các kế hoạch chuẩn bị sẵn và phục hồi nhanh chóng
    • UA và AA đã triển khai kế hoạch ở mọi nơi, từ cụm máy chủ, giải pháp đám mây cho đến các trạm đầu cuối tại sân bay
    • Delta đã thuê ngoài nhiều hạng mục IT
    • UA và AA không ngần ngại chi trả tiền làm thêm giờ cho nhân viên
    • UA và AA cũng phụ thuộc vào Windows nhiều như Delta
    • AA đã khôi phục xong vào cuối ngày thứ Sáu và nối lại vận hành bình thường vào thứ Bảy
    • UA đã khôi phục sau khoảng 12 giờ và nối lại lịch trình bình thường vào chiều thứ Bảy
    • Trách nhiệm của sự cố thuộc 100% về các quyết định IT của Delta
    • Nhân viên IT cấp thấp sẽ phải gánh phần lớn chỉ trích và hậu quả
  • Thích việc "CrowdStrike" giờ đã trở thành từ đồng nghĩa với "sự cố ngừng hoạt động toàn cầu"

    • Không phải một cái tên dễ thương như "heartbleed", mà là tên của chính công ty đã gây ra vấn đề