1 bình luận

 
GN⁺ 2024-07-21
Ý kiến trên Hacker News
  • Nếu đây là hệ thống nằm trên đường dẫn quan trọng, nó không bao giờ nên được đưa qua pipeline C/I

    • Tôi không quá khắt khe với kiểm thử tự động, nhưng một hệ thống có mức độ quan trọng như thế này cần quản lý trạng thái cực kỳ tốt
    • Không nên rollout lên production nếu chưa có kiểm thử tích hợp trên mọi môi trường
    • Thật khó hiểu khi không có staging hoặc máy chủ kiểm thử phát triển để test tất cả các target image mà công ty này hỗ trợ
    • Tôi nghĩ ban điều hành của công ty này bất tài
  • Cả hai vụ sụp đổ kỹ thuật lớn đều là vấn đề của "phần mềm bảo mật"

    • Vụ hack SolarWinds và sự cố lần này đều là các công ty đặt trụ sở tại Austin
    • Những người kiểu "hacker" thường khởi nghiệp công ty phần mềm bảo mật, nhưng lại ghét triển khai một văn hóa định hướng quy trình
    • SolarWinds có văn hóa bảo mật cực kỳ tệ
    • Nguyên nhân gốc của sự cố lần này có lẽ cũng là quy trình triển khai quá nhanh và lỏng lẻo
  • Mặt tích cực của thảm họa lần này là nó có thể khiến mọi người xem xét lại quyền truy cập ở cấp kernel

    • Một công ty game ngẫu nhiên không đủ giỏi để viết phần mềm anti-cheat ở cấp kernel
  • Có vẻ đây sẽ là tệp thử nghiệm thứ hai hoặc thứ ba mà QA sẽ thử

    • Đây là một thị trường nơi các công ty có năng lực kỹ thuật không hề có lợi thế hơn các công ty kém năng lực
    • Tôi đã đọc về vụ Craig Wright, và ông ta thậm chí còn không có năng lực kỹ thuật cơ bản trong lĩnh vực mà mình tự nhận là chuyên gia hàng đầu thế giới
    • George Kurtz từng gây ra đúng kiểu vấn đề này khi còn là CTO của McAfee
    • CrowdStrike cũng đã gây ra vấn đề tương tự trên Debian Stable cách đây 3 tháng
    • Thật kinh khủng khi các quy định tuân thủ PCI đã tiêm CrowdStrike và antivirus vào gần như mọi khía cạnh của hạ tầng IT ngày nay
  • Việc tệp này là một tệp toàn số 0 không có nghĩa là khi được phát hành nó cũng đã đầy số 0

  • Lỗi này đã tồn tại trong kernel driver suốt nhiều năm và bị kích hoạt bởi dữ liệu sai

    • Thiết lập kiểm thử của CrowdStrike có thể đã ổn với chính dữ liệu cấu hình này, nhưng vẫn không bắt được trước khi đẩy ra production
    • Mong họ sẽ công bố báo cáo postmortem giải thích sẽ làm gì để ngăn chuyện này tái diễn
  • Theo Kevin Beaumont, có ý kiến cho rằng tệp là khác nhau với từng khách hàng

  • Có khả năng những tệp này không phải nội dung gốc của tệp ban đầu

    • Có thể ai đó đã cố ghi đè tệp sai bằng một tệp toàn số 0
    • Có thể đây là nỗ lực chặn việc triển khai bản vá thực tế vì QA đã bị bỏ qua
  • Trước đây từng có trường hợp phần mềm bảo mật thay thế tệp bằng số 0 và làm quá trình biên dịch phần mềm bị dừng

    • Linker không thể mở tệp và đã thay thế object code bằng số 0 mà không báo lỗi
    • Tôi mở debugger ra và phát hiện những đoạn object code lớn đã bị thay bằng số 0 nên mới xác định được vấn đề
  • Bài đăng được tìm thấy trên board công nghệ của 4chan

    • CSAgent.sys là kernel driver phân tích tệp định nghĩa virus của CrowdStrike
    • CrowdStrike đã không xử lý được tệp định nghĩa virus bị lỗi
    • Web server bắt đầu cung cấp tệp định nghĩa virus bị lỗi
    • CSAgent.sys tải tệp định nghĩa virus bị lỗi và bị crash
    • Máy tính khởi động lại với BSOD (màn hình xanh)
    • CSAgent.sys lại tải tệp định nghĩa virus và tiếp tục crash
    • Một lỗi ở CDN đã khiến kernel driver gây ra sự cố
    • Tăng kiểm tra kích thước và kích thước buffer của CSAgent.sys để các tệp định nghĩa virus lỗi trong tương lai không còn gây crash nữa