GitHub: Sự cố gián đoạn thao tác Git
(githubstatus.com)- Vào ngày 18 tháng 11 năm 2025 (UTC), GitHub gặp sự cố khiến mọi thao tác Git đều thất bại, làm gián đoạn client SSH·HTTP và truy cập tệp thô
- Nguyên nhân được xác định là chứng chỉ TLS dùng cho giao tiếp giữa các dịch vụ nội bộ đã hết hạn
- GitHub đã thay thế chứng chỉ hết hạn và khởi động lại các dịch vụ bị ảnh hưởng để khôi phục hoàn toàn
- Sau đó, GitHub đang tăng cường cảnh báo giám sát hết hạn chứng chỉ và thúc đẩy chuyển đổi sang tự động hóa để loại bỏ các chứng chỉ được quản lý thủ công
- Sự cố lần này ảnh hưởng đến Git Operations và Codespaces của GitHub, và sau khi khôi phục, tất cả dịch vụ đã trở lại trạng thái bình thường
Báo cáo sự cố gián đoạn thao tác Git
-
Trong khoảng 20:30~21:34 UTC ngày 18 tháng 11 năm 2025, GitHub xảy ra tình trạng mọi thao tác Git đều thất bại
- Tất cả tương tác của client Git qua SSH và HTTP, cũng như truy cập tệp thô, đều bị ảnh hưởng
- Các sản phẩm phụ thuộc vào thao tác Git cũng gặp sự cố tương tự
-
Nguyên nhân được xác định là chứng chỉ TLS đã hết hạn được dùng cho giao tiếp giữa các dịch vụ nội bộ
- GitHub đã thay thế chứng chỉ và khởi động lại các dịch vụ bị ảnh hưởng để khắc phục vấn đề
- Sau khi khởi động lại dịch vụ, hệ thống đã khôi phục hoàn toàn
-
Để ngăn chặn vấn đề tương tự trong tương lai, GitHub đang tăng cường hệ thống cảnh báo hết hạn chứng chỉ
- Đồng thời đang thực hiện giám sát và kiểm tra tự động hóa đối với các chứng chỉ khác trong khu vực liên quan
- Đẩy nhanh việc loại bỏ các chứng chỉ còn được quản lý thủ công và xây dựng cơ chế giao tiếp giữa các dịch vụ được tự động hóa
Diễn biến sự cố và các bước khôi phục
- 20:39 UTC: Báo cáo suy giảm khả dụng ở thao tác Git và Codespaces
- 20:52 UTC: Xác nhận một số thao tác Git HTTP thất bại
- 21:11 UTC: Xác nhận tình trạng mọi thao tác Git đều thất bại
- 21:25 UTC: Suy giảm khả dụng của Codespaces vẫn tiếp diễn
- 21:27 UTC: Hoàn tất xác định nguyên nhân, tiến hành khắc phục
- 21:36 UTC: Bắt đầu khôi phục một phần sau khi triển khai bản sửa lỗi
- 21:55 UTC: Tất cả dịch vụ trở lại bình thường, Codespaces khôi phục hoàn tất
- 21:56 UTC: Xác nhận thao tác Git hoạt động bình thường
- 21:59 UTC: Kết thúc sự cố và công bố báo cáo
Các dịch vụ bị ảnh hưởng
- Git Operations
- Toàn bộ thao tác Git dựa trên SSH và HTTP
- Codespaces
- Xảy ra suy giảm khả dụng tạm thời
Hành động tiếp theo
- Tăng cường giám sát hết hạn chứng chỉ và tự động hóa
- Thiết lập hệ thống cảnh báo trước khi hết hạn
- Kiểm tra quy trình gia hạn tự động cho tất cả chứng chỉ nội bộ
- Mở rộng tự động hóa bảo mật và vận hành
- Loại bỏ quản lý chứng chỉ thủ công
- Xây dựng giao tiếp tự động giữa các dịch vụ phù hợp với thực tiễn bảo mật hiện đại
1 bình luận
Ý kiến trên Hacker News
Gần đây có vẻ các sự cố hệ thống phần mềm lớn xảy ra quá thường xuyên, khá đáng lo
Năm ngoái chỉ có bốn lần sự cố ảnh hưởng đến công việc, nhưng quý này đã là lần thứ tư rồi
Có cảm giác khả năng phục hồi (resiliency) của phần mềm mạng đang dần biến mất
Đội của chúng tôi dùng kiến trúc monolithic, nhưng có rất nhiều phụ thuộc như Redis, S3, các dịch vụ tích hợp bên ngoài
Vì vậy chúng tôi đã đơn giản hóa hệ thống bằng cách tài liệu hóa các điều kiện lỗi, tăng cường kiểm thử và tự động hóa triển khai, và chuyển từ cloud sang VPS
Kết quả là hệ thống ổn định hơn nhiều và dễ dự đoán hơn
Nếu không có những công việc nhàm chán nhưng thiết yếu này, độ phức tạp chỉ tăng lên và hệ thống sẽ càng dễ tổn thương hơn
Các sự cố gần đây tôi gặp là AWS us-east-1, Azure Front Door, Cloudflare, và sự cố GitHub
Khách hàng không muốn chi tiền cho khả năng phục hồi hay hạ tầng dự phòng
Từ sau năm 2008 tôi đã làm hơn chục dự án, nhưng đa số đều có thái độ kiểu “cứ phó mặc cho may rủi”
Git là một hệ thống quản lý phiên bản phân tán, nên dù không có GitHub vẫn có thể làm việc được
GitHub chỉ là một hub tiện lợi mà thôi
Tôi thấy độ tin cậy kém của GitHub là một vấn đề nghiêm trọng
Với những người phụ thuộc vào CI/CD thì đây là đòn chí mạng
Nội bộ có vẻ chỉ nhìn nhận ở mức “CI/CD của đội mình bị hỏng”, thiếu góc nhìn rằng “một nửa thế giới đang đứng yên”
Kiểu văn hóa silo này và thái độ “không phải vấn đề của chúng tôi” dẫn đến suy giảm độ tin cậy
Hơn nữa, nhờ vị thế gần như độc quyền nên khách hàng cũng đành phải chịu mà dùng
Nó giống hệt thái độ kiểu “đằng nào anh cũng chẳng chuyển đi đâu được” mà tôi từng thấy ở Verio và Verisign trước đây
Tôi tự hỏi dạo này các sự cố cloud/SaaS có thực sự xảy ra thường xuyên hơn không
Không rõ chỉ là được đưa tin nhiều hơn, hay tần suất thực sự đã tăng lên
Liệu có phải do cắt giảm ngân sách, sa thải nhân sự, áp dụng AI, tăng trưởng quá mức không?
Trước đây là một hai lần mỗi năm, còn giờ gần như hàng tháng, gần đây thì mức hàng tuần
Những mẩu mã AI nhỏ có thể gây ra sự cố dây chuyền kiểu domino
tôi cho rằng các đợt sa thải quy mô lớn đã ảnh hưởng đến độ tin cậy
và cuối cùng 10% công việc cuối cùng để đảm bảo ổn định lại bị bỏ qua
Lúc đầu tôi tưởng là vấn đề phía mình vì không push được
Chắc hôm nay đành bỏ cuộc và mai làm lại vậy
Hôm nay vốn đã không muốn làm việc, giờ Cloudflare xong lại tới GitHub gặp sự cố, cảm giác như một tín hiệu bảo cứ nghỉ đi
Cần nhiều hơn chủ quyền công nghệ và phân tán hóa
Trong các dịch vụ tôi dùng 5 năm qua thì GitHub là thứ bất ổn nhất
Không biết GitLab có tốt hơn không. Giờ niềm tin của tôi với GitHub gần như bằng 0
Có lẽ do môi trường monorepo lớn, nhưng rõ ràng có vấn đề về khả năng mở rộng
Dù vậy, việc để repository, CI/CD, issue và wiki ở cùng một chỗ vẫn là ưu điểm
GitHub thì dễ dính sự cố cloud, còn GitLab thì hay bị gián đoạn khi tự động nâng cấp
Mỗi bên có ưu và nhược điểm riêng
Nó tải vài MB JS nên trên mạng chậm thì gần như không mở nổi trang
Trong tình huống khẩn cấp, có thể sửa file trực tiếp trên web UI của GitHub
Nhưng
actions/checkout@v4của GH Actions hiện không hoạt động vì vấn đề gitTrong 10 năm qua, khi đi qua lại giữa tập đoàn lớn và startup, tôi thấy có một mô thức chung
startup → đáp ứng khách hàng enterprise → tái thiết kế phức tạp → lý tưởng hóa → chạy theo lợi nhuận → sản phẩm phình to → kỹ sư cốt lõi rời đi → chất lượng đi xuống
Chu kỳ này cũng lặp lại ở các ông lớn cloud (AWS, Cloudflare, GCP...)
Ngay cả bên trong nội bộ, từng dịch vụ cũng bị chia nhỏ thành các đơn vị kinh doanh nhỏ và vận hành theo hướng lợi nhuận
Cuối cùng, ngay cả hạ tầng nền tảng cũng đang suy yếu vì áp lực lợi nhuận
Tôi thấy niềm tin kiểu “AWS hay GCP to thế thì chắc không thể thất bại được đâu” là rất nguy hiểm
Nhưng các vấn đề nợ kỹ thuật và bảo mật ở startup giai đoạn đầu cũng rất nghiêm trọng
Cuối cùng, việc các vết nứt của hệ thống lộ ra trong quá trình tăng trưởng quy mô lớn là điều tự nhiên
Trên trang trạng thái của GitHub lại xuất hiện câu “một số người dùng có thể gặp vấn đề”
Nhưng thực tế thì không chỉ HTTPS mà cả SSH push cũng đều thất bại
Lẽ ra công khai thông tin minh bạch thay vì cách nói giảm nói tránh kiểu PR sẽ giúp tăng niềm tin hơn
Hơn nữa, ngay cả việc cập nhật trang trạng thái đôi khi cũng chậm