2 điểm bởi GN⁺ 2024-04-01 | 1 bình luận | Chia sẻ qua WhatsApp

Về sự cố gián đoạn dịch vụ Tailscale.com ngày 7 tháng 3 năm 2024

  • Vào ngày 7 tháng 3 năm 2024, Tailscale.com không thể truy cập trong khoảng 90 phút do chứng chỉ TLS hết hạn.
  • Vấn đề này đã được xác định và khắc phục nhanh chóng, chủ yếu ảnh hưởng đến tài liệu tiếp thị và tài liệu hướng dẫn.
  • Việc gián đoạn dịch vụ ngoài dự kiến là một vấn đề, và bài viết này nhằm giải thích nguyên nhân xảy ra, mức độ ảnh hưởng và các biện pháp để ngăn tái diễn.

Điều đã xảy ra

  • Vào tháng 12 năm 2023, công ty đã tiến hành một đợt cải tổ lớn website, bao gồm cả việc chuyển sang một nhà cung cấp hosting mới.
  • Do nhà cung cấp hosting không hỗ trợ IPv6 theo mặc định, họ đã vận hành một proxy riêng để xử lý các yêu cầu IPv6.
  • Cấu hình này bị nhà cung cấp hosting coi là một “cấu hình sai”, và dù đã nhận được cảnh báo, họ không nhận ra rằng điều đó sẽ cản trở việc tự động gia hạn chứng chỉ.
  • Dù có một probe để kiểm tra việc hết hạn chứng chỉ, probe này chỉ kiểm tra qua IPv6, nên chỉ xác nhận chứng chỉ hợp lệ do proxy quản lý và không phát hiện được việc sắp hết hạn.

Ảnh hưởng

  • Phần lớn các tác vụ của Tailscale không cần truy cập website chính, nên nhiều người dùng không gặp gián đoạn trong quá trình sử dụng bình thường.
  • Tài liệu, blog và các tài liệu tham khảo khác không thể truy cập; bảng điều khiển quản trị và trang cài đặt không bị ảnh hưởng, nhưng những người không biết cách truy cập trực tiếp có thể hiểu lầm rằng dịch vụ đang ngoại tuyến.
  • Script cài đặt nhanh không thể truy cập, gây cản trở cho một số quá trình cài đặt, bao gồm cả cài đặt tự động.
  • Các tên miền phân phối gói Tailscale vẫn truy cập được, và ảnh hưởng qua cơ chế go get của Go được giảm thiểu nhờ bộ nhớ đệm.

Các biện pháp khắc phục

  • Sau khi xác định được vấn đề, họ tạm thời xóa bản ghi AAAA “bổ sung” và gia hạn thủ công chứng chỉ liên quan.
  • Sau đó họ khôi phục bản ghi để duy trì khả năng truy cập website và dịch vụ qua IPv6.
  • Trong ngắn hạn, họ dự định thiết lập nhiều lời nhắc lịch dự phòng và thời điểm được chỉ định cho việc gia hạn thủ công.
  • Họ cũng sẽ cập nhật hạ tầng probe để kiểm tra riêng các endpoint IPv4 và IPv6.
  • Họ hy vọng sẽ hỗ trợ IPv6 trực tiếp hơn trong hạ tầng website để proxy không còn cần thiết.
  • Nhờ thiết kế của Tailscale, phần lớn người dùng không bị ảnh hưởng bởi sự cố lần này trong đa số trường hợp sử dụng.

Ý kiến của GN⁺

  • Trường hợp gián đoạn dịch vụ của Tailscale nhấn mạnh tầm quan trọng của việc quản trị hạ tầng CNTT. Đặc biệt, nó cho thấy các tác vụ bảo trì cơ bản như gia hạn chứng chỉ quan trọng đến mức nào.
  • Sự cố này cũng cho thấy tầm quan trọng của hỗ trợ IPv6, đồng thời gợi ý rằng cần có những cách tiếp cận sáng tạo để giải quyết vấn đề tương thích với hạ tầng hiện có.
  • Một số dịch vụ khác cung cấp tính năng tương tự gồm Cloudflare và Let's Encrypt, vốn có chức năng tự động gia hạn chứng chỉ để ngăn các vấn đề tương tự.
  • Khi áp dụng công nghệ, cần cân nhắc khả năng tương thích hạ tầng, mức độ tự động hóa và sự thuận tiện trong bảo trì. Những sự cố như vậy cho thấy vì sao cần đánh giá cẩn trọng cả lợi ích lẫn đánh đổi khi lựa chọn công nghệ.
  • Bài viết này có thể giúp cả người dùng lẫn quản trị viên nâng cao nhận thức về các tác vụ quản trị hệ thống cơ bản như việc chứng chỉ hết hạn.

1 bình luận

 
GN⁺ 2024-04-01
Ý kiến Hacker News
  • Vấn đề chứng chỉ hết hạn

    Chứng chỉ hết hạn đang trở thành nguyên nhân của các sự cố DNS mới. Người viết chia sẻ trải nghiệm sử dụng Tailscale để làm việc an toàn ở mọi nơi. Họ dùng Tailscale để truy cập máy chủ on-premise và thiết lập production trên AWS, và ngay cả khi Wi‑Fi cục bộ chậm, họ vẫn có thể khắc phục sự cố từ nơi khác qua SSH. Tailscale cũng cung cấp khả năng cấp và thu hồi quyền truy cập mạng một cách dễ dàng.

  • Sự cố do chứng chỉ hết hạn

    Vấn đề chứng chỉ hết hạn lại tái diễn. Trong phần hậu kiểm, có ý kiến khuyến nghị tách website marketing khỏi đường dẫn quan trọng trong vận hành của khách hàng. Người viết cũng chỉ ra rằng downtime của các trang như GitHub hay Zendesk xảy ra thường xuyên hơn nhiều người nghĩ.

  • Vấn đề liên kết giữa website marketing và ứng dụng

    Có người chia sẻ sự cố phát sinh do đặt liên kết đến trang đăng nhập ứng dụng trên website marketing. Khi website marketing bị sập, người dùng có thể hiểu nhầm rằng cả ứng dụng cũng đang ngừng hoạt động. Người dùng thường chỉ đi theo lối được cung cấp và nhiều khi không biết còn có đường truy cập khác.

  • Bất mãn về chính sách giá

    Người viết thích dịch vụ của Tailscale, nhưng mức giá 18 USD mỗi tháng cho kiểm soát truy cập phù hợp đối với VPN là quá đắt, khiến họ khó thuyết phục ban lãnh đạo. Các gói thấp hơn cũng khó bán nếu không có tính năng kiểm soát truy cập.

  • Thắc mắc về nhà cung cấp website

    Có ý kiến đặt câu hỏi website đang dùng nhà cung cấp nào, và vì sao việc không hỗ trợ IPv6 lại khiến họ phải đi qua quy trình phức tạp như vậy.

  • Khen ngợi văn hóa kỹ thuật

    Có người bày tỏ sự ngưỡng mộ việc triển khai bản cập nhật lớn vào tháng 12 với quy trình CI/CD và giám sát đáng tin cậy. Tuy vậy, vẫn còn những câu hỏi chưa được giải đáp như vì sao việc gia hạn chứng chỉ thất bại do lỗi cấu hình IPv6, vì sao phải mất 90 phút mới xử lý xong, và vì sao họ chưa chuyển sang nhà cung cấp DNS có hỗ trợ IPv6.

  • Thắc mắc vì sao cần chấm dứt TLS

    Có ý kiến đặt câu hỏi liệu proxy có thực sự cần chấm dứt TLS hay không, hay chỉ một TCP proxy đơn giản là đủ. Nếu dùng TCP proxy, có thể việc tự động gia hạn cũng sẽ khả thi.

  • Lời nhắc lịch được nhắc đến một cách châm biếm

    Có người thích cách diễn đạt hóm hỉnh về việc thiết lập nhiều lời nhắc lịch trùng lặp như tổ tiên chúng ta từng làm.

  • Lo ngại về bảo mật

    Có ý kiến chỉ ra rằng chỉ cần Tailscale mắc một sai sót nhỏ liên quan đến bảo mật một lần thôi cũng có thể khiến những người hơi thiên về hoài nghi cảm thấy đây là lựa chọn quá rủi ro. Họ cho rằng cần có một giải pháp tốt hơn cho việc này.

  • Đề xuất về giám sát hạ tầng và tự động gia hạn

    Có ý kiến cho rằng cần có giám sát hạ tầng, đồng thời bổ sung mã kiểm tra mọi domain công khai trên cả IPv4 và IPv6 để cảnh báo trước 19 ngày khi chứng chỉ sắp hết hạn. Việc tự động gia hạn nên được thiết lập từ 20 ngày trước thời điểm hết hạn để tránh các sự cố gián đoạn liên quan đến SSL.