15 điểm bởi xguru 2021-10-06 | 2 bình luận | Chia sẻ qua WhatsApp
  • Bài phân tích từ bên ngoài của CloudFlare về lý do các dịch vụ liên quan đến Facebook không thể truy cập trong ngày 4/10

  • Việc tra cứu DNS đã thất bại ngay từ đầu, và kết nối IP tới toàn bộ hạ tầng liên quan đến Facebook đã bị cắt đứt

  • Theo công bố chính thức của Facebook là

→ "Sự cố xảy ra khi thay đổi cấu hình của các router xương sống điều phối lưu lượng mạng giữa các data center. Việc này đã tạo ra tác động dây chuyền lên kết nối giữa các data center, khiến dịch vụ bị gián đoạn"

→ Các máy chủ DNS thông thường sẽ tự quảng bá thông qua BGP, nhưng các máy chủ DNS của Facebook được cấu hình để vô hiệu hóa BGP nếu không thể kết nối với data center của Facebook

→ Khi backbone giữa các data center bị đứt, các yêu cầu BGP bị từ chối và việc truy cập tới máy chủ DNS trở nên bất khả thi

→ Vì vậy toàn bộ máy chủ của Facebook đều không thể truy cập được

→ Trên thực tế, việc tiếp cận chính data center cũng trở nên khó khăn, nên các kỹ sư đã phải đến tận nơi để khắc phục sự cố

  • Sự cố xảy ra như thể ai đó đã rút dây Internet khỏi data center của Facebook

  • Đây không phải là sự cố DNS, nhưng lỗi DNS là triệu chứng đầu tiên của đợt gián đoạn quy mô lớn

  • BGP(Border Gateway Protocol)

→ Cơ chế để các AS (Autonomous Systems) trên Internet trao đổi thông tin định tuyến

→ Các router lớn liên tục chia sẻ thông tin định tuyến để quản lý việc đi đến trạng thái thông tin cuối cùng

→ Nếu Facebook không quảng bá sự hiện diện của mình lên mạng, thì sẽ không thể truy cập được

→ Mỗi mạng riêng lẻ có một ASN (Number) và thông báo prefix của các IP mà mình quản lý

  • Từ 15:40 UTC ngày 4/10, Facebook ngừng announce DNS Prefix của mình

→ Như sự cố mà Facebook đã nói ở trên, do không gửi BGP advertisement nên trở thành không thể truy cập

→ Vì điều này, định tuyến đã thay đổi và các bản cập nhật BGP diễn ra trên quy mô lớn

→ Tất cả máy chủ DNS bắt đầu trả về SERVFAIL với các URL của Facebook

→ Lượng truy vấn DNS bắt đầu tăng gấp 30 lần

→ Truy vấn DNS tới Twitter, Signal, Telegram... cũng tăng lên

  • Đến 21:00 UTC, BGP được cập nhật lại và mọi thứ trở về bình thường

2 bình luận

 
roxie 2021-10-06

Facebook bị gián đoạn suốt 5 tiếng... đúng là một sự cố rất lớn.

 
xguru 2021-10-06