1 điểm bởi GN⁺ 20 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Nhiều dịch vụ GitHub, bao gồm Webhooks, Actions, Copilot, đã đồng thời gặp tình trạng suy giảm khả dụng và không thể sử dụng
  • Ban đầu, GitHub điều tra tình trạng suy giảm khả dụng của Copilot và Webhooks, sau đó phạm vi điều tra được mở rộng khi nhiều dịch vụ gặp sự cố
  • Actions cũng gặp suy giảm hiệu năng riêng, và sau khi xác định được vấn đề gốc, các biện pháp giảm thiểu đã được triển khai
  • Sau khi tình trạng suy giảm của Actions và Copilot được giảm bớt, việc giám sát độ ổn định và xác minh các dịch vụ còn lại tiếp tục được thực hiện, và Webhooks cũng đã được khôi phục hoạt động bình thường
  • Sự cố lần này cuối cùng đã được giải quyết hoàn toàn, và bản phân tích nguyên nhân gốc rễ chi tiết sẽ được chia sẻ khi sẵn sàng

Diễn biến sự cố

  • Đã xảy ra sự cố trên nhiều dịch vụ của GitHub, trong phạm vi ảnh hưởng có Webhooks, Actions, Copilot
  • Ban đầu, GitHub bắt đầu điều tra tình trạng suy giảm khả dụng của Copilot và Webhooks
  • Sau đó, nhiều dịch vụ rơi vào trạng thái không thể sử dụng, khiến phạm vi điều tra được mở rộng
  • Actions riêng biệt gặp suy giảm hiệu năng, và việc xác định nguyên nhân vẫn tiếp tục được tiến hành
  • Sau khi xác định được vấn đề gốc, các biện pháp giảm thiểu đã được triển khai
  • Tình trạng suy giảm ảnh hưởng đến Actions và Copilot đã được giảm bớt, và việc giám sát để duy trì ổn định tiếp tục được thực hiện
  • Sau khi các biện pháp giảm thiểu được áp dụng cho nhiều dịch vụ, công tác xác minh đối với các dịch vụ còn lại cũng tiếp tục diễn ra
  • Webhooks cũng đã được khôi phục hoạt động bình thường
  • Cuối cùng, sự cố lần này đã được giải quyết hoàn toàn, và bản phân tích nguyên nhân gốc rễ chi tiết sẽ được chia sẻ khi sẵn sàng

Liên kết tham khảo

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi đang chuyển dần đủ thứ sang self-hosting tại nhà, và hôm qua cuối cùng cũng hoàn thiện instance Forgejo trong nhà
    Linux và Windows chạy bằng VM, macOS bằng Mac Mini, còn gắn cả runner CI/CD nên giờ mã nguồn, Actions và hạ tầng thực tế đều thật sự nằm trong nhà tôi
    Thường thì phải mất một hai tháng sau khi chuyển sang self-hosting tôi mới thấy mãn nguyện, nhưng lần này ngay từ ngày hôm sau khi migration xong tôi đã tin chắc đây là lựa chọn đúng, nên cảm giác khá vui

    • Tôi lúc nào cũng bị hấp dẫn bởi ý tưởng homelab, nhưng hễ bắt tay vào làm là nhanh chóng kiệt sức
      Sau cả ngày ở công ty sửa hệ thống hỏng hóc, tôi không muốn về nhà rồi lại kiêm luôn vai trò sysadmin cá nhân của mình
      Tôi cũng có một con Minisforum khá ngon, hiệu năng tốt mua dịp Giáng Sinh đặt trên bàn, mà đến giờ còn chưa bật nguồn lần nào
    • Bắt đầu self-hosting là cảm nhận ngay web hiện đại chậm đến mức nào
      Tôi chạy Forgejo cùng một chiếc NUC và nhiều dịch vụ trên Proxmox, thời gian tải trang chỉ khoảng 6ms
      Immich không nhanh đến vậy nhưng vẫn nhanh hơn Google Photos rất nhiều
    • Tôi đã vận hành Forgejo cá nhân một thời gian và để toàn bộ các side project riêng tư ở đó
      UI nhìn chung khá giống nhau, nhưng mượt hơn GitHub rất nhiều. Chỉ riêng việc uptime vượt 90% thôi cũng đã là đủ lý do rồi
      Dạo này tôi gặp issue liên quan đến GitHub quá thường xuyên, và ngay cả việc chỉ lướt qua site cũng hay bị chậm hoặc đứng hẳn
    • Tôi cũng mới chuyển kiểu này gần đây, và điều làm tôi ngạc nhiên nhất là tốc độ Actions nhanh hơn GitHub rất nhiều
      Linux và macOS thì tôi thiết lập bằng Mac Mini và file task Ansible do Claude tạo ra, nhưng việc cấu hình Windows VM trông khá đau đầu
      Không biết bạn đã tìm ra cách nào để đơn giản hóa quy trình triển khai chưa
    • Hôm qua thấy có người nhắc đến gitea ở đây nên tôi tìm hiểu một chút, rồi cũng chuyển ngay sang self-hosting và dời toàn bộ project cá nhân sang Forgejo
      Tuy vậy, project công khai thì khó chuyển vì thị trường việc làm và hiệu ứng mạng của GitHub
      Giờ tôi có cảm giác như đang chơi trò quản trị hệ thống với khoảng 20 dịch vụ cục bộ chỉ để đáp ứng các nhu cầu cần thiết, và điều quan trọng nhất là giờ trách nhiệm ngăn mất dữ liệu thuộc về mình nên nhất định phải có backup định kỳ
  • Nhìn vào https://mrshu.github.io/github-statuses/ thì uptime đã tụt xuống 88.15%
    Ngay cả nếu xét theo từng component riêng lẻ thì mức cao nhất cũng chỉ là 99.78%, tức cũng chỉ vừa chạm mức two nines

    • Quy mô tăng trưởng mà họ phải xử lý là cực kỳ phi lý
      Năm 2025 là 1 tỷ commit, còn giờ là 275 triệu commit mỗi tuần; ngay cả nếu chỉ giả định tăng trưởng tuyến tính thì năm nay cũng đang ở nhịp 14 tỷ commit
      GitHub Actions cũng tăng từ 500 triệu phút mỗi tuần vào năm 2023 lên 1 tỷ phút vào năm 2025, và riêng tuần này tới thời điểm hiện tại là 2.1 tỷ phút
      Nguồn là bài đăng ngày 2026-04-03 của COO GitHub: https://x.com/kdaigle/status/2040164759836778878
    • Tôi tự hỏi liệu có tương quan gì với việc GitHub bắt đầu ưu tiên chuyển sang Azure hay không
      https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
    • AI mà Microsoft đang thúc đẩy hóa ra lại đang giúp đỡ rất nhiều cho những người self-hoster và người yêu Linux
  • Tôi tự hỏi liệu dù sự cố cứ lặp lại thế này, GitHub có thực sự đang thấy tổn thất kinh doanh đáng kể hay không
    Trong ngành này từ lâu người ta vẫn nói độ tin cậy và giá trị thương hiệu là cốt lõi, nhưng dạo gần đây có vẻ như họ gần như không còn quan tâm nữa
    Nếu nhận định của tôi sai thì tôi sẵn lòng được sửa lại ngay

    • Chỉ mới 2~3 năm trước thôi, hầu như ai cũng đồng ý rằng để triển khai phần mềm ổn định và an toàn thì repeatable builds, chain of custody đã được xác minh, và bill of materials có thể audit là điều bắt buộc
      Nhưng chỉ cần LLM khá hơn một chút là cảm giác như cả câu chuyện đó đã biến mất hoàn toàn
    • GitHub giờ đã là một nền tảng ăn sâu bén rễ đến mức các sự cố kiểu này đơn giản bị xem như chi phí kinh doanh
      Các tập đoàn lớn thì phần nào được bảo vệ bằng instance nội bộ, còn số còn lại либо không bị ảnh hưởng nghiêm trọng đến thế, либо không có nguồn lực để tự làm giải pháp riêng hay chuyển đi
    • Chuyển từ GitHub sang GitLab có khi lại giống như vừa ra khỏi chảo rán đã rơi vào lửa
      Sẽ thật tốt nếu có một lựa chọn thay thế thực sự ổn cho những ai sử dụng ở quy mô lớn
  • Theo cửa sổ rolling 90 ngày, có lẽ cần thêm khoảng 16 giờ sự cố nữa thì mới rơi xuống dưới mức two nines

  • Chắc là không cần lo đâu, vì status page vẫn nói mọi thứ xanh lè 100% bình thường
    Dù đến cả một trang tĩnh cũng không truy cập nổi

  • Giờ chắc phải có một bài HN mỗi khi GitHub có một ngày không gặp sự cố
    Hoặc điều đó đơn giản có nghĩa là tình trạng bình thường vốn là như vậy

  • Hồi trước bên Bitbucket từng làm mất một ngày git history trên nhiều repo
    Đó không hẳn là downtime mà là vấn đề dữ liệu bên họ; nhờ local clone nên phần lớn cứu được, nhưng issue và PR trong khoảng thời gian đó thì biến mất luôn
    Vì vậy tôi bắt đầu làm gitbacker như một side project
    Backup chính repo thì dễ, phần thực sự thú vị là backup metadata

  • Hôm nay lại có thêm một sự cố rất nghiêm trọng: https://www.githubstatus.com/incidents/zsg1lk7w13cf
    Do một regression xảy ra khi dùng merge queue cùng squash merge hoặc rebase, một số PR đã bị merge sai trong khoảng 2026-04-23 16:05-20:43 UTC
    Bên tôi thì trong khoảng thời gian đó có khoảng 8 commit bị hoàn tác nguyên cụm khỏi branch mặc định
    Tôi chưa từng thấy incident nào của GitHub nghiêm trọng đến mức này

    • Downtime là một kiểu vấn đề, còn việc âm thầm hoàn tác commit trên branch mặc định lại là một cấp độ thất bại hoàn toàn khác
    • Bên tôi cũng tương tự
      Thật trớ trêu khi một công cụ vốn để ngăn merge conflict lại đi ghi thẳng những commit hỏng vào mainline branch
    • Bên tôi cũng có nhiều commit biến mất khỏi main, trong khi trạng thái PR vẫn là merged
      Thật sự rất căng thẳng
    • Bên tôi cũng bị PR bị hoàn tác trên nhiều repo
      Downtime đã là vấn đề rồi, nhưng hoàn tác PR còn là một thất bại nghiêm trọng hơn một bậc nữa
    • Bên tôi cũng nhận được email đính kèm file PDF chứa danh sách commit bị ảnh hưởng và cách khôi phục
      Đúng là một mớ hỗn độn
  • Nhu cầu của chúng tôi khá đơn giản, chỉ tầm git repos + actions, và vì không phải đội lúc nào cũng liên tục commit rồi deploy nên downtime thỉnh thoảng xảy ra cũng chưa đến mức chí mạng
    Dù vậy, giờ chúng tôi đang nghiêm túc tìm phương án thay thế
    Có vẻ đúng lúc nhiều người cũng đổ xô đi tìm lựa chọn khác nên SourceHut cũng sập theo. Lúc bài viết được đăng thì nó đang down, còn giờ đã lên lại
    https://sr.ht/

    • Tôi tự hỏi tangled.org thì sao
  • Chỉ riêng hôm nay đã có ba incident, mỗi cái gần như đều kéo dài hơn 1 tiếng, vậy mà trạng thái theo ngày vẫn toàn màu xanh và hiện không có downtime nào được ghi nhận
    Chúng trông cũng chẳng khác về bản chất so với những incident trước đây từng bị đánh dấu bằng cột đỏ, ngoài chuyện có lẽ không kéo dài tới vài tiếng
    Thế thì tôi không hiểu mấy cột màu xanh đó rốt cuộc có ý nghĩa gì
    Có phải chỉ khi mọi người phàn nàn đủ nhiều thì sau này nó mới bị đổi sang không còn màu xanh, hay là incident trong ngày chỉ hiện tạm trong tooltip rồi sau đó lặng lẽ bị quên đi
    Nhìn vào việc các ngày màu xanh trước đây không hề hiện incident nào trong tooltip, trong khi riêng hôm nay lại thấy nhiều cái, thì dù theo cách nào đi nữa nó cũng có cảm giác như một kiểu hiển thị cố ý gây hiểu lầm