- Mạng toàn cầu của Cloudflare gặp suy giảm hiệu năng dịch vụ nội bộ, khiến nhiều dịch vụ bị ảnh hưởng gián đoạn
- Các dịch vụ chính như Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers đã tạm thời gặp sự cố
- Đội ngũ kỹ thuật đã xác định vấn đề và tiến hành khắc phục, trong đó dịch vụ WARP và Access được phục hồi trước
- Sau đó, tỷ lệ lỗi và độ trễ trên toàn cầu dần trở lại mức bình thường, và dịch vụ Dashboard cũng được khôi phục
- Hiện tại tất cả dịch vụ đang hoạt động bình thường và sự cố đã được giải quyết hoàn toàn
Tổng quan sự cố
- Cloudflare gặp suy giảm hiệu năng dịch vụ nội bộ (Internal Service Degradation) khiến một số dịch vụ bị gián đoạn từng lúc
- Các dịch vụ bị ảnh hưởng bao gồm Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers
- Công ty đã ngay lập tức bắt đầu công tác khôi phục và liên tục cập nhật tiến độ xử lý sự cố
Xác định vấn đề và phản ứng ban đầu
- Cloudflare xác nhận tình trạng suy giảm dịch vụ nội bộ ở giai đoạn đang điều tra (Investigating)
- Một số khách hàng gặp lỗi và độ trễ không liên tục
- Đội ngũ kỹ thuật đồng thời phân tích nguyên nhân và thực hiện khôi phục
- Sau đó, công ty xác định được nguyên nhân (Identified) và bắt đầu triển khai bản sửa lỗi
- Trong quá trình sửa lỗi, kết nối WARP tại khu vực London đã tạm thời bị vô hiệu hóa, khiến người dùng tại khu vực này gặp lỗi kết nối Internet
Tiến trình khôi phục dịch vụ
- Sau khi triển khai bản sửa lỗi, dịch vụ Access và WARP được phục hồi trước, đưa tỷ lệ lỗi trở lại mức trước sự cố
- Kết nối WARP tại khu vực London đã được kích hoạt lại
- Sau đó, công tác khôi phục dịch vụ cho khách hàng Application Services tiếp tục được triển khai
- Các thay đổi để khôi phục dịch vụ Dashboard đã được phát hành
- Một số khách hàng vẫn gặp vấn đề khi đăng nhập hoặc sử dụng Dashboard, nhưng đã được giải quyết bằng các bản sửa đổi bổ sung
Ổn định trở lại trên toàn mạng
- Trên phạm vi toàn cầu, tỷ lệ lỗi và độ trễ (latency) dần giảm và trở lại mức bình thường
- Việc tính điểm của Bot Management (bot scores) bị ảnh hưởng tạm thời, nhưng đã được khôi phục trong quá trình xử lý
- Đội ngũ kỹ thuật đã loại bỏ các lỗi còn lại và đẩy nhanh quá trình khôi phục toàn bộ mạng
- Sau đó, tất cả dịch vụ hoạt động bình thường và tỷ lệ lỗi cùng độ trễ đã hoàn toàn trở lại bình thường
Kết thúc sự cố và các bước tiếp theo
- Cloudflare xác nhận mọi dịch vụ đang hoạt động bình thường và khép lại sự cố
- Hiện không có thêm thay đổi cấu hình nào, và nền tảng đang được giám sát chặt chẽ
- Điều tra sau sự cố (post-incident investigation) về nguyên nhân đang được tiến hành và kết quả sẽ được công bố sau
- Sự cố lần này được ghi nhận là một sự kiện ảnh hưởng đến toàn bộ mạng toàn cầu
1 bình luận
Ý kiến trên Hacker News
Một người có Cloudflare API token đã chia sẻ lệnh để tắt CF proxy
Dùng lệnh
curlđể lấy zone ID và bản ghi DNS, rồi gửi yêu cầuPATCHđặt"proxied": falselà đượcTuy nhiên cần cẩn thận vì có nguy cơ mất chứng chỉ SSL, giảm bảo mật/hiệu năng, và lộ IP backend
X-Auth-EmailvàX-Auth-KeyNgoài ra, ai đang cấu hình chỉ cho phép lưu lượng từ Cloudflare thì cũng phải tạm tắt quy tắc đó
May là giờ mọi thứ đã trở lại online
curlthì GET là mặc định nên không cần-X GETDùng tùy chọn
-dsẽ tự động thành POST, còn với PATCH thì đúng là phải dùng-X PATCHTuy vậy, kể cả sau khi tunnel thì vẫn còn một số site chỉ khôi phục được một phần
Theo CTO của Cloudflare, một lỗi tiềm ẩn trong hệ thống chặn bot đã bùng phát sau một thay đổi cấu hình và gây ra sự cố trên toàn mạng
Ông giải thích trong nguồn này rằng đây không phải là tấn công mà là vấn đề nội bộ
Cả code lẫn cấu hình đều là dữ liệu, nhưng mô típ đẩy ra toàn cầu một lần rồi gây sự cố lớn vẫn cứ lặp lại
Một đồng nghiệp chạy bổ ra và nói rằng ngay sau khi anh ấy đổi cấu hình Cloudflare thì site bị sập, nên hoảng vì tưởng mình là người làm hỏng
Xem bài này xong thì mới thở phào
Đến khi thấy dòng “Cloudflare down” thì thật sự nhẹ cả người
Kiểm tra ở Hà Lan thì thấy gần như mọi dịch vụ đều sập
Dashboard Cloudflare cũng không truy cập được, dashboard Betterstack cũng vậy
Trớ trêu là trang trạng thái vẫn sống nên lại không thể thông báo cho khách hàng
Tôi đã viết một bài blog với quan điểm “đừng đặt sau Cloudflare nếu không cần”
Dù vậy, khi xảy ra sự cố quy mô lớn thế này thì khách hàng lại tỏ ra thông cảm hơn mình nghĩ
Mất vài phút nhưng tôi đã tách hcker.news khỏi CF
tôi đặt một widget uptime thời gian thực liên kết với trang trạng thái bên ngoài ở phía dưới
Có thể tham khảo SVG trạng thái và
trang trạng thái bên ngoài
Có một cảm giác khoái trá khi thấy các dịch vụ self-hosted của mình vẫn chạy bình thường lúc Cloudflare hay AWS ngừng hoạt động
Lúc này tôi còn ổn định hơn mức khả dụng 99.999% của họ
Giờ có lẽ tôi nên gắn thêm uptime tracker
Đây là bài học mà các công ty SaaS non trẻ nên rút ra
Việc site bé tí của mình bị sập vừa buồn cười vừa mang lại cảm giác thỏa mãn kỳ lạ
Gần đây có cảm giác sự cố hạ tầng quy mô lớn đang tăng vọt. Cả AWS lẫn Cloudflare đều kém xa SLA đã hứa
Đó chỉ là con số do doanh nghiệp tự định nghĩa chứ không phải uptime thực tế
Khi Cloudflare hay AWS ngừng hoạt động, việc một nửa web cũng dừng theo cho thấy vấn đề tập trung hóa nghiêm trọng đến mức nào
Đó cũng là lý do cấu trúc này không thay đổi
CDN nhỏ rất khó cạnh tranh, và cuối cùng hình thành cấu trúc độc quyền tự nhiên
Việc Cloudflare cung cấp gói miễn phí là chiến lược nhắm vào các hiệu ứng mạng như vậy
Đồng thời nó cũng có thể trở thành mục tiêu tập trung cho kiểm duyệt của chính phủ
Hai phần ba web đang phụ thuộc vào nó, thời hạn chứng chỉ ngày càng ngắn, và nếu bị tấn công hay gặp sự cố thì toàn bộ web có thể tê liệt
Hiện tại đó là một tổ chức tốt, nhưng cũng đừng quên rằng Google trong quá khứ từng được nhìn nhận như thế
Backup ở cấp phần mềm thì có nhiều, nhưng kiến thức phổ thông về multi-hosting ở cấp hạ tầng lại đang biến mất
Trớ trêu thay, DownDetector cũng dùng Cloudflare Turnstile nên bị sập theo
Thông điệp xin lỗi bằng hình ảnh của Cloudflare: “Your browser: Working / Host: Working / Cloudflare: Error” khá ấn tượng
Các site dùng Cloudflare Challenge (“I’m not a robot”) cũng trả về lỗi HTTP 500 rồi ngừng hoạt động
Xuất hiện thông báo “hãy bỏ chặn challenges.cloudflare.com”
hoặc chỉ hiện màn hình tải vô tận. Trong khi thực tế backend trả lỗi rất rõ, thì frontend lại che đi
Gần đây tôi còn thấy trường hợp lỗi mật khẩu quá dài bị đổi thành “email đã được sử dụng”
Trớ trêu thay, lại rơi vào cảnh phải chứng minh với AI rằng mình là con người
Kiểu phủ nhận theo giọng /s rằng Cloudflare Captcha không thể nào sập được khá buồn cười