- Nhiều dịch vụ GitHub, bao gồm Webhooks, Actions, Copilot, đã đồng thời gặp tình trạng suy giảm khả dụng và không thể sử dụng
- Ban đầu, GitHub điều tra tình trạng suy giảm khả dụng của Copilot và Webhooks, sau đó phạm vi điều tra được mở rộng khi nhiều dịch vụ gặp sự cố
- Actions cũng gặp suy giảm hiệu năng riêng, và sau khi xác định được vấn đề gốc, các biện pháp giảm thiểu đã được triển khai
- Sau khi tình trạng suy giảm của Actions và Copilot được giảm bớt, việc giám sát độ ổn định và xác minh các dịch vụ còn lại tiếp tục được thực hiện, và Webhooks cũng đã được khôi phục hoạt động bình thường
- Sự cố lần này cuối cùng đã được giải quyết hoàn toàn, và bản phân tích nguyên nhân gốc rễ chi tiết sẽ được chia sẻ khi sẵn sàng
Diễn biến sự cố
- Đã xảy ra sự cố trên nhiều dịch vụ của GitHub, trong phạm vi ảnh hưởng có Webhooks, Actions, Copilot
- Ban đầu, GitHub bắt đầu điều tra tình trạng suy giảm khả dụng của Copilot và Webhooks
- Sau đó, nhiều dịch vụ rơi vào trạng thái không thể sử dụng, khiến phạm vi điều tra được mở rộng
- Actions riêng biệt gặp suy giảm hiệu năng, và việc xác định nguyên nhân vẫn tiếp tục được tiến hành
- Sau khi xác định được vấn đề gốc, các biện pháp giảm thiểu đã được triển khai
- Tình trạng suy giảm ảnh hưởng đến Actions và Copilot đã được giảm bớt, và việc giám sát để duy trì ổn định tiếp tục được thực hiện
- Sau khi các biện pháp giảm thiểu được áp dụng cho nhiều dịch vụ, công tác xác minh đối với các dịch vụ còn lại cũng tiếp tục diễn ra
- Webhooks cũng đã được khôi phục hoạt động bình thường
- Cuối cùng, sự cố lần này đã được giải quyết hoàn toàn, và bản phân tích nguyên nhân gốc rễ chi tiết sẽ được chia sẻ khi sẵn sàng
Liên kết tham khảo
1 bình luận
Ý kiến trên Hacker News
Tôi đang chuyển dần đủ thứ sang self-hosting tại nhà, và hôm qua cuối cùng cũng hoàn thiện instance Forgejo trong nhà
Linux và Windows chạy bằng VM, macOS bằng Mac Mini, còn gắn cả runner CI/CD nên giờ mã nguồn, Actions và hạ tầng thực tế đều thật sự nằm trong nhà tôi
Thường thì phải mất một hai tháng sau khi chuyển sang self-hosting tôi mới thấy mãn nguyện, nhưng lần này ngay từ ngày hôm sau khi migration xong tôi đã tin chắc đây là lựa chọn đúng, nên cảm giác khá vui
Sau cả ngày ở công ty sửa hệ thống hỏng hóc, tôi không muốn về nhà rồi lại kiêm luôn vai trò sysadmin cá nhân của mình
Tôi cũng có một con Minisforum khá ngon, hiệu năng tốt mua dịp Giáng Sinh đặt trên bàn, mà đến giờ còn chưa bật nguồn lần nào
Tôi chạy Forgejo cùng một chiếc NUC và nhiều dịch vụ trên Proxmox, thời gian tải trang chỉ khoảng 6ms
Immich không nhanh đến vậy nhưng vẫn nhanh hơn Google Photos rất nhiều
UI nhìn chung khá giống nhau, nhưng mượt hơn GitHub rất nhiều. Chỉ riêng việc uptime vượt 90% thôi cũng đã là đủ lý do rồi
Dạo này tôi gặp issue liên quan đến GitHub quá thường xuyên, và ngay cả việc chỉ lướt qua site cũng hay bị chậm hoặc đứng hẳn
Linux và macOS thì tôi thiết lập bằng Mac Mini và file task Ansible do Claude tạo ra, nhưng việc cấu hình Windows VM trông khá đau đầu
Không biết bạn đã tìm ra cách nào để đơn giản hóa quy trình triển khai chưa
Tuy vậy, project công khai thì khó chuyển vì thị trường việc làm và hiệu ứng mạng của GitHub
Giờ tôi có cảm giác như đang chơi trò quản trị hệ thống với khoảng 20 dịch vụ cục bộ chỉ để đáp ứng các nhu cầu cần thiết, và điều quan trọng nhất là giờ trách nhiệm ngăn mất dữ liệu thuộc về mình nên nhất định phải có backup định kỳ
Nhìn vào https://mrshu.github.io/github-statuses/ thì uptime đã tụt xuống 88.15%
Ngay cả nếu xét theo từng component riêng lẻ thì mức cao nhất cũng chỉ là 99.78%, tức cũng chỉ vừa chạm mức two nines
Năm 2025 là 1 tỷ commit, còn giờ là 275 triệu commit mỗi tuần; ngay cả nếu chỉ giả định tăng trưởng tuyến tính thì năm nay cũng đang ở nhịp 14 tỷ commit
GitHub Actions cũng tăng từ 500 triệu phút mỗi tuần vào năm 2023 lên 1 tỷ phút vào năm 2025, và riêng tuần này tới thời điểm hiện tại là 2.1 tỷ phút
Nguồn là bài đăng ngày 2026-04-03 của COO GitHub: https://x.com/kdaigle/status/2040164759836778878
https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
Tôi tự hỏi liệu dù sự cố cứ lặp lại thế này, GitHub có thực sự đang thấy tổn thất kinh doanh đáng kể hay không
Trong ngành này từ lâu người ta vẫn nói độ tin cậy và giá trị thương hiệu là cốt lõi, nhưng dạo gần đây có vẻ như họ gần như không còn quan tâm nữa
Nếu nhận định của tôi sai thì tôi sẵn lòng được sửa lại ngay
Nhưng chỉ cần LLM khá hơn một chút là cảm giác như cả câu chuyện đó đã biến mất hoàn toàn
Các tập đoàn lớn thì phần nào được bảo vệ bằng instance nội bộ, còn số còn lại либо không bị ảnh hưởng nghiêm trọng đến thế, либо không có nguồn lực để tự làm giải pháp riêng hay chuyển đi
Sẽ thật tốt nếu có một lựa chọn thay thế thực sự ổn cho những ai sử dụng ở quy mô lớn
Theo cửa sổ rolling 90 ngày, có lẽ cần thêm khoảng 16 giờ sự cố nữa thì mới rơi xuống dưới mức two nines
Chắc là không cần lo đâu, vì status page vẫn nói mọi thứ xanh lè 100% bình thường
Dù đến cả một trang tĩnh cũng không truy cập nổi
Giờ chắc phải có một bài HN mỗi khi GitHub có một ngày không gặp sự cố
Hoặc điều đó đơn giản có nghĩa là tình trạng bình thường vốn là như vậy
Hồi trước bên Bitbucket từng làm mất một ngày git history trên nhiều repo
Đó không hẳn là downtime mà là vấn đề dữ liệu bên họ; nhờ local clone nên phần lớn cứu được, nhưng issue và PR trong khoảng thời gian đó thì biến mất luôn
Vì vậy tôi bắt đầu làm gitbacker như một side project
Backup chính repo thì dễ, phần thực sự thú vị là backup metadata
Hôm nay lại có thêm một sự cố rất nghiêm trọng: https://www.githubstatus.com/incidents/zsg1lk7w13cf
Do một regression xảy ra khi dùng merge queue cùng squash merge hoặc rebase, một số PR đã bị merge sai trong khoảng 2026-04-23 16:05-20:43 UTC
Bên tôi thì trong khoảng thời gian đó có khoảng 8 commit bị hoàn tác nguyên cụm khỏi branch mặc định
Tôi chưa từng thấy incident nào của GitHub nghiêm trọng đến mức này
Thật trớ trêu khi một công cụ vốn để ngăn merge conflict lại đi ghi thẳng những commit hỏng vào mainline branch
Thật sự rất căng thẳng
Downtime đã là vấn đề rồi, nhưng hoàn tác PR còn là một thất bại nghiêm trọng hơn một bậc nữa
Đúng là một mớ hỗn độn
Nhu cầu của chúng tôi khá đơn giản, chỉ tầm git repos + actions, và vì không phải đội lúc nào cũng liên tục commit rồi deploy nên downtime thỉnh thoảng xảy ra cũng chưa đến mức chí mạng
Dù vậy, giờ chúng tôi đang nghiêm túc tìm phương án thay thế
Có vẻ đúng lúc nhiều người cũng đổ xô đi tìm lựa chọn khác nên SourceHut cũng sập theo. Lúc bài viết được đăng thì nó đang down, còn giờ đã lên lại
https://sr.ht/
Chỉ riêng hôm nay đã có ba incident, mỗi cái gần như đều kéo dài hơn 1 tiếng, vậy mà trạng thái theo ngày vẫn toàn màu xanh và hiện không có downtime nào được ghi nhận
Chúng trông cũng chẳng khác về bản chất so với những incident trước đây từng bị đánh dấu bằng cột đỏ, ngoài chuyện có lẽ không kéo dài tới vài tiếng
Thế thì tôi không hiểu mấy cột màu xanh đó rốt cuộc có ý nghĩa gì
Có phải chỉ khi mọi người phàn nàn đủ nhiều thì sau này nó mới bị đổi sang không còn màu xanh, hay là incident trong ngày chỉ hiện tạm trong tooltip rồi sau đó lặng lẽ bị quên đi
Nhìn vào việc các ngày màu xanh trước đây không hề hiện incident nào trong tooltip, trong khi riêng hôm nay lại thấy nhiều cái, thì dù theo cách nào đi nữa nó cũng có cảm giác như một kiểu hiển thị cố ý gây hiểu lầm