Về sự cố gián đoạn dịch vụ Tailscale.com ngày 7 tháng 3 năm 2024
- Vào ngày 7 tháng 3 năm 2024, Tailscale.com không thể truy cập trong khoảng 90 phút do chứng chỉ TLS hết hạn.
- Vấn đề này đã được xác định và khắc phục nhanh chóng, chủ yếu ảnh hưởng đến tài liệu tiếp thị và tài liệu hướng dẫn.
- Việc gián đoạn dịch vụ ngoài dự kiến là một vấn đề, và bài viết này nhằm giải thích nguyên nhân xảy ra, mức độ ảnh hưởng và các biện pháp để ngăn tái diễn.
Điều đã xảy ra
- Vào tháng 12 năm 2023, công ty đã tiến hành một đợt cải tổ lớn website, bao gồm cả việc chuyển sang một nhà cung cấp hosting mới.
- Do nhà cung cấp hosting không hỗ trợ IPv6 theo mặc định, họ đã vận hành một proxy riêng để xử lý các yêu cầu IPv6.
- Cấu hình này bị nhà cung cấp hosting coi là một “cấu hình sai”, và dù đã nhận được cảnh báo, họ không nhận ra rằng điều đó sẽ cản trở việc tự động gia hạn chứng chỉ.
- Dù có một probe để kiểm tra việc hết hạn chứng chỉ, probe này chỉ kiểm tra qua IPv6, nên chỉ xác nhận chứng chỉ hợp lệ do proxy quản lý và không phát hiện được việc sắp hết hạn.
Ảnh hưởng
- Phần lớn các tác vụ của Tailscale không cần truy cập website chính, nên nhiều người dùng không gặp gián đoạn trong quá trình sử dụng bình thường.
- Tài liệu, blog và các tài liệu tham khảo khác không thể truy cập; bảng điều khiển quản trị và trang cài đặt không bị ảnh hưởng, nhưng những người không biết cách truy cập trực tiếp có thể hiểu lầm rằng dịch vụ đang ngoại tuyến.
- Script cài đặt nhanh không thể truy cập, gây cản trở cho một số quá trình cài đặt, bao gồm cả cài đặt tự động.
- Các tên miền phân phối gói Tailscale vẫn truy cập được, và ảnh hưởng qua cơ chế
go get của Go được giảm thiểu nhờ bộ nhớ đệm.
Các biện pháp khắc phục
- Sau khi xác định được vấn đề, họ tạm thời xóa bản ghi AAAA “bổ sung” và gia hạn thủ công chứng chỉ liên quan.
- Sau đó họ khôi phục bản ghi để duy trì khả năng truy cập website và dịch vụ qua IPv6.
- Trong ngắn hạn, họ dự định thiết lập nhiều lời nhắc lịch dự phòng và thời điểm được chỉ định cho việc gia hạn thủ công.
- Họ cũng sẽ cập nhật hạ tầng probe để kiểm tra riêng các endpoint IPv4 và IPv6.
- Họ hy vọng sẽ hỗ trợ IPv6 trực tiếp hơn trong hạ tầng website để proxy không còn cần thiết.
- Nhờ thiết kế của Tailscale, phần lớn người dùng không bị ảnh hưởng bởi sự cố lần này trong đa số trường hợp sử dụng.
Ý kiến của GN⁺
- Trường hợp gián đoạn dịch vụ của Tailscale nhấn mạnh tầm quan trọng của việc quản trị hạ tầng CNTT. Đặc biệt, nó cho thấy các tác vụ bảo trì cơ bản như gia hạn chứng chỉ quan trọng đến mức nào.
- Sự cố này cũng cho thấy tầm quan trọng của hỗ trợ IPv6, đồng thời gợi ý rằng cần có những cách tiếp cận sáng tạo để giải quyết vấn đề tương thích với hạ tầng hiện có.
- Một số dịch vụ khác cung cấp tính năng tương tự gồm Cloudflare và Let's Encrypt, vốn có chức năng tự động gia hạn chứng chỉ để ngăn các vấn đề tương tự.
- Khi áp dụng công nghệ, cần cân nhắc khả năng tương thích hạ tầng, mức độ tự động hóa và sự thuận tiện trong bảo trì. Những sự cố như vậy cho thấy vì sao cần đánh giá cẩn trọng cả lợi ích lẫn đánh đổi khi lựa chọn công nghệ.
- Bài viết này có thể giúp cả người dùng lẫn quản trị viên nâng cao nhận thức về các tác vụ quản trị hệ thống cơ bản như việc chứng chỉ hết hạn.
1 bình luận
Ý kiến Hacker News
Vấn đề chứng chỉ hết hạn
Sự cố do chứng chỉ hết hạn
Vấn đề liên kết giữa website marketing và ứng dụng
Bất mãn về chính sách giá
Thắc mắc về nhà cung cấp website
Khen ngợi văn hóa kỹ thuật
Thắc mắc vì sao cần chấm dứt TLS
Lời nhắc lịch được nhắc đến một cách châm biếm
Lo ngại về bảo mật
Đề xuất về giám sát hạ tầng và tự động gia hạn