1 điểm bởi GN⁺ 2025-10-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • Đã có báo cáo rằng dịch vụ đám mây Azure của Microsoft gặp sự cố ngừng hoạt động (outage)
  • Bài đăng trên Hacker News được viết theo dạng thông báo trực tiếp về việc xảy ra sự cố từ phía người dùng
  • Nội dung không đề cập cụ thể đến nguyên nhân, phạm vi ảnh hưởng hay trạng thái khôi phục của sự cố
  • Bài viết nhằm mục đích cảnh báo người dùng Azure cần chú ý
  • Đây là một ví dụ nhắc lại tầm quan trọng của việc nhận thức rủi ro vận hành đối với các doanh nghiệp và nhà phát triển phụ thuộc nhiều vào hạ tầng đám mây

Báo cáo sự cố dịch vụ Azure

  • Bài đăng “Tell HN: Azure outage” trên Hacker News thông báo việc nền tảng Azure đang gặp sự cố
  • Do không trích xuất được nội dung đầy đủ, không thể xác nhận nguyên nhân chi tiết, khu vực bị ảnh hưởng hay loại dịch vụ liên quan
  • Xét theo hình thức bài đăng, có vẻ đây là một người dùng trực tiếp chứng kiến sự cố và chia sẻ với cộng đồng

Thông tin bổ sung

  • Microsoft Azure là dịch vụ điện toán đám mây được sử dụng trên toàn cầu
  • Nội dung không bao gồm tiến trình khôi phục hay thông báo chính thức
  • Không có thêm thông tin nào trong nguyên bản

1 bình luận

 
GN⁺ 2025-10-30
Ý kiến trên Hacker News
  • Việc các dịch vụ thiết yếu, đặc biệt là giao thông công cộng, vẫn phụ thuộc hoàn toàn vào đám mây mà không có phương án dự phòng vẫn thật đáng ngạc nhiên
    Hôm nay là ngày tổng tuyển cử ở Hà Lan, nhưng do sự cố Azure nên tàu bị hoãn hoặc hủy trong vài giờ, khiến có người không thể đi bỏ phiếu

    • Tôi thắc mắc liệu việc bỏ phiếu chỉ diễn ra trong một ngày hay không. Nếu chỉ có một ngày thì kiểu sự cố này có thể xảy ra bất cứ lúc nào. Chắc hẳn có lý do rõ ràng để tổ chức trong nhiều ngày
    • Không thể tin được là đến năm 2025 mà vẫn phải trực tiếp đến điểm bỏ phiếu. Tôi đã bỏ phiếu qua thư hơn 20 năm nay, nhận phiếu trước 1 tháng rồi gửi lại qua đường bưu điện. Hy vọng một ngày nào đó sẽ có bỏ phiếu trực tuyến để tránh lãng phí giấy
    • Tôi nghĩ ngày bầu cử nên được chỉ định là ngày nghỉ lễ quốc gia
    • Nhưng nếu triển khai trên hai đám mây thì lại bị chỉ trích là lãng phí tiền thuế. Cuối cùng vẫn phải chọn giữa độ tin cậytiết kiệm chi phí
    • New Zealand cũng không tránh khỏi sự cố lần này. Dịch vụ RealME của chính phủ (khai thuế, xin hộ chiếu, v.v.) đã ngừng hoạt động, gây hỗn loạn lớn
  • Theo thông báo trên trang trạng thái Azure, tại Azure Status, khoảng 16:00 UTC, một số dịch vụ đã bị gián đoạn do sự cố Front Door
    Khách hàng không truy cập được portal được hướng dẫn dùng PowerShell hoặc CLI, và họ cho biết đang tách portal khỏi AFD để khôi phục

    • Trong bản cập nhật lúc 17:17 UTC, họ cho biết nguyên nhân nhiều khả năng là một thay đổi cấu hình sai. Mọi thay đổi đã bị chặn và hệ thống đang được rollback về trạng thái ổn định trước đó
    • Ở khu vực châu Âu, AFD thường xuyên bị sập theo từng vùng. Hơn một nửa số lần còn không được báo cáo chính thức
    • Thấy có nhắc đến DNS nên tôi tự hỏi liệu có giống sự cố AWS trước đây không
    • Thông báo trạng thái có thừa nhận vấn đề ở AFD, nhưng chỉ nhắc đến việc vận hành portal mà không phụ thuộc AFD. Với những người đang dùng AFD như chúng tôi, có lẽ đây sẽ là một cuộc chiến dài
    • Không chỉ portal mà cả microsoft.com cũng bị sập
  • Không thể đặt món trên ứng dụng di động của Starbucks, nên tôi định gọi qua Grubhub thì bên đó cũng sập. Cuối cùng tôi vào HN để tìm nguyên nhân

    • Có vẻ HN chạy trên vài máy chủ đặt trong tầng hầm nên ổn định hơn cả đám mây
    • subreddit sysadmin phát hiện sự cố sớm hơn HN hơn một tiếng. Các kỹ sư trực ca nhận ra ngay lập tức
    • Hồi sự cố AWS trước đây, ứng dụng Starbucks cũng từng ngừng hoạt động
    • Tôi đã thấy lạ vì hàng chờ ở drive-thru không nhúc nhích, hóa ra là vì chuyện này
    • Cảm biến chất lượng không khí Netatmo của tôi cũng ngừng gửi thông báo. Đây là dữ liệu trong nhà tôi, không hiểu sao lại nhất thiết phải đi qua đám mây
  • Sự cố Azure không gây sốc bằng sự cố AWS.
    Ban đầu, tích hợp dọc trong hệ sinh thái Microsoft khá hấp dẫn, nhưng khi dùng thực tế thì phân bổ tài nguyên quá bất tiện nên tôi quay lại AWS
    Giờ tôi chưa từng dùng GCP lần nào, nhưng còn nghĩ có lẽ dùng nó còn tốt hơn

    • Lần đầu tiên tôi dùng Azure trước đây, menu phức tạp đến mức che kín cả màn hình. Đó là lần đầu tôi có cảm giác bị lạc trong đám mây
    • Thành thật mà nói, GCP khá ổn. Tôi mong sẽ có nhiều người dùng thử hơn
    • Nhưng trong các ngành bị quản lý chặt, chỉ Microsoft mới được chấp nhận. AWS hay GCP thậm chí còn không được xem xét
    • Microsoft xử lý tuân thủ quy định khu vực công rất tốt nên có nhiều khách hàng là cơ quan chính phủ. Vì thế sự cố Azure ảnh hưởng đến dịch vụ công nghiêm trọng hơn
    • Thật ra nếu MS sập mà Github vẫn hoạt động thì có khi bạn còn chẳng nhận ra
  • Bây giờ tôi đang đứng trong một siêu thị gần như đóng cửa vì hệ thống thanh toán bị ngừng hoạt động

    • Siêu thị nơi tôi từng làm trước đây có chế độ offline, nên khi xác thực thanh toán thất bại thì cũng từng có chuyện khách hàng lấy đồ miễn phí mang đi
    • Family Dollar ở khu tôi cứ khoảng hai ngày mỗi tháng là lại đứng hình vì vấn đề Internet. Nếu tôi cung cấp một đường truyền dự phòng và nhận một nửa doanh thu thì có lẽ đôi bên cùng có lợi
    • Siêu thị lần này không sập hoàn toàn, nhưng có vẻ bị timeout ở bước thanh toán nên chậm kinh khủng
    • Tôi chợt nhớ thời những năm 90 khi máy tính tiền cơ học được thay bằng máy điện tử. Dạo này máy POS lại rơi vào vòng lặp khởi động, nên tôi phải trả tiền hoa bằng tiền mặt. Bạn đời tôi còn đùa rằng nhân viên thu ngân đang cố giữ tiền mặt mà không tính thuế
    • Tôi nghĩ bất kỳ cửa hàng bán lẻ nào cũng tối thiểu nên có chức năng thanh toán offline
  • Giờ tôi đang nghĩ đến chuyện chuyển sang Google Cloud Run hoặc Cloudflare Workers
    Cá nhân tôi thấy Hetzner cho tỷ lệ hiệu năng/giá rất tốt nên khá đáng tin
    Cũng từng có video so sánh liên quan, và tôi nghĩ sẽ hay nếu các trang như vpspricetracker.com có thêm điểm Geekbench

    • Hetzner cũng ổn, nhưng có lẽ không đạt độ ổn định tầm Google
    • Tôi cũng nghĩ liệu cấu hình multi-provider có tốt hơn không
    • Nhân tiện, sự cố Cloudflare cách đây 4 tháng cũng từng bắt nguồn từ vấn đề của Google Cloud
  • Tôi đã chậm rãi chuyển dịch vụ khỏi Azure trong 2 năm qua.
    Thứ cuối cùng còn lại chỉ là bucket tài sản tĩnh và một VM chạy phân tích Matomo, nhưng trải nghiệm với Front Door quá kinh khủng. Sau chuyện hôm nay, tôi quyết định chuyển hẳn sang Cloudflare

    • Thật ra năm nay mọi đám mây đều từng gặp sự cố lớn. Giờ không nơi nào còn bảo đảm được độ tin cậy tuyệt đối
    • Dù vậy, điều quan trọng là biết biến khủng hoảng thành cơ hội
  • login.microsoftonline.com bị sập nên SSO ngừng hoạt động trên toàn công ty. microsoft.com cũng chết theo

    • Ở tenant Mỹ thì luồng đăng nhập bị đứng, nhưng ở châu Âu (đặc biệt là germany-west) thì vẫn hoạt động bình thường
    • Công ty chúng tôi thì SSO và 365 vẫn ổn, chỉ có portal quản trị là không truy cập được
    • Giờ người ta đùa là tình trạng này là NASSO (Not A Single Sign On)
    • Dạo này sự cố Office 365 gần như xảy ra hàng tuần, vậy mà người ta vẫn tiếp tục triển khai nó, thật khó hiểu
  • Tải VSCode thất bại
    Liên kết tải xuống không hoạt động

    • Hôm nay winget cũng lỗi thất thường. Tôi dùng UniGetUI, nhưng chỉ các gói liên quan đến Microsoft là không thể cập nhật danh sách
    • Kho lưu trữ của Azure DevOps cũng không truy cập được nên công việc bị đình trệ
    • Cũng có người gợi ý cứ dùng VSCodium thôi
  • Đội của chúng tôi dùng Azure 100%, nhưng lần sự cố này không bị ảnh hưởng
    Từ khi bỏ Front Door cách đây 1 năm thì mọi thứ ổn định. Trước đây hầu như mỗi lần deploy mới đều phát sinh vấn đề, và có lần trên trang chủ còn hiện cả banner Microsoft, đúng là khó tin

    • Chúng tôi đã vật lộn với lỗi Front Door OriginTimeout hơn 1 năm rồi cuối cùng phải chuyển đi. Nhưng máy chủ API vẫn còn nằm sau AFD nên lần này vẫn bị ảnh hưởng
    • Còn nghiêm trọng hơn cả sự cố là vấn đề nhiễm bẩn nội dung. Việc hiện banner Microsoft dù không hề đăng ký là một chuyện khá nghiêm trọng đấy