- Cơ sở thời gian của NIST tại Boulder, Colorado, Mỹ đã ngừng hoạt động trong vài ngày do mất điện, và do máy phát điện dự phòng gặp sự cố, sai lệch tối đa 5μs so với thời gian chuẩn UTC đã xảy ra
- Cơ sở này vận hành 6 máy chủ NTP và dù máy phát điện hỏng, vẫn giữ độ lệch thời gian dưới 5μs, nên hầu như không ảnh hưởng đến người dùng thông thường
- Với các tổ chức phụ thuộc vào định thời chính xác như viện nghiên cứu khoa học và công ty hàng không vũ trụ, sự cố này có thể gây tác động, và NIST đang trực tiếp phối hợp với họ
- Hệ thống GPS và WWV-Ft. Collins đã hoạt động bình thường như lớp dự phòng, qua đó chứng minh tính dư thừa của hạ tầng thời gian trên toàn nước Mỹ
- Vụ việc lần này cho thấy rủi ro của sự phụ thuộc vào GPS và tính mong manh của hạ tầng định thời, đồng thời làm nổi bật sự cần thiết phải phát triển các hệ thống PNT thay thế
Mất điện và sai lệch thời gian xảy ra
- Khuôn viên NIST ở Boulder, Colorado bị công ty điện lực cắt điện để phòng nguy cơ cháy do gió mạnh vượt 160km/h (100mph)
- Toàn bộ khuôn viên bị phong tỏa, nhân viên không thể ra vào, khiến việc khôi phục bị chậm trễ
- Một trong các máy phát điện dự phòng bị hỏng sau hai ngày, khiến nguồn điện cho cụm đồng hồ chính (clock ensemble) của các máy chủ NTP bị gián đoạn
- Jeff Sherman, người phụ trách Time Realization and Distribution Group, thậm chí đã cân nhắc ngắt các máy chủ để tránh phát ra thời gian không chính xác
- May mắn là hệ thống đồng hồ ở một tòa nhà khác vẫn có thể truyền tín hiệu thời gian, và một số nhân viên ở lại hiện trường đã khôi phục bằng cách định tuyến lại nguồn điện khẩn cấp
- Nguồn dự phòng pin (UPS) đã duy trì thời gian cho đến khi máy phát được thay thế, và kết quả là độ lệch so với UTC được ghi nhận dưới 5μs
Vận hành máy chủ NTP và phạm vi ảnh hưởng
- NIST cung cấp dịch vụ thời gian Internet thông qua 6 máy chủ NTP chính
- Theo kết quả lệnh
sntp time-a-b.nist.gov, sai số do độ trễ mạng với người dùng thông thường ở mức khoảng 35 mili giây (35.000μs), nên sai lệch 5μs gần như không đáng kể
- Vì vậy, các máy chủ không bị dừng và vẫn tiếp tục hoạt động; dù độ chính xác kém hơn bình thường khoảng 5.000 lần, điều này không ảnh hưởng tới phần lớn người dùng
- Các trường đại học, lĩnh vực hàng không vũ trụ, viện nghiên cứu khoa học nhạy cảm ngay cả với sai số rất nhỏ, nên NIST đang trực tiếp phối hợp để hiệu chỉnh
- Hệ thống GPS của Mỹ tự động chuyển sang khuôn viên WWV-Ft. Collins, giúp duy trì dịch vụ mà không xảy ra gián đoạn toàn phần
Tính mong manh của hạ tầng thời gian và công nghệ thay thế
- Tác giả vận hành máy chủ NTP riêng bằng 2 đồng hồ GPS dựa trên Raspberry Pi, và chỉ ra rủi ro của việc phụ thuộc vào GPS
- CISA trước đó đã cảnh báo về nguy cơ Mỹ phụ thuộc quá mức vào GPS, và chính phủ đang thúc đẩy phát triển công nghệ PNT (Position, Navigation, Timing) thay thế
- Broadcast Positioning System (BPS) đang được thảo luận như một ứng viên thay thế GPS
- Tác giả sử dụng đồng hồ nguyên tử rubidium và GPSDO để duy trì độ chính xác ở mức vài nano giây, và ngay cả khi tín hiệu GPS bị gián đoạn vẫn có thể giữ thời gian trong nhiều tháng
- Tuy nhiên, các lĩnh vực như khoa học, RF, media và tài chính đòi hỏi độ chính xác ở cấp nano giây, và phần lớn đều tham chiếu thời gian chuẩn của NIST
Bài học và độ tin cậy của hệ thống
- Sự cố lần này chứng minh hệ thống ứng phó thảm họa của NIST thực sự hoạt động, cho thấy khả năng “vận hành bình thường ngay cả khi có sai lệch cực nhỏ”
- Nguồn điện dư phòng, nhiều đồng hồ và hệ thống sao lưu GPS kết hợp với nhau để duy trì độ ổn định của hạ tầng thời gian trên toàn quốc
- Tác giả nhấn mạnh rằng “hạ tầng định thời rất mong manh, và nhiều lớp sao lưu là điều bắt buộc”
- Ngay cả trong tình huống khủng hoảng ở cấp micro giây, đội ngũ NIST vẫn giải quyết được vấn đề, khôi phục ở mức mà phần lớn người dùng thậm chí không nhận ra
1 bình luận
Ý kiến trên Hacker News
Chương trình Time Over Fiber (TOF) của NIST là điều khiến tôi thấy thú vị nhất
Dịch vụ này cung cấp truyền thời gian độ chính xác cao qua cáp quang, và nghe nói một số liên kết kết nối trực tiếp đã bị ảnh hưởng
Đây là lần đầu tôi nghe về loại dịch vụ này; có lẽ nó có thể được dùng cho lĩnh vực tài chính (HFT, liên quan đến FINRA Rule 4590), đồng bộ hóa 5G, hoặc cho các cơ sở dữ liệu toàn cầu như Google Spanner
Liên kết liên quan: thông báo của NIST, giới thiệu chương trình TOF, FINRA Rule 4590, bài viết về đồng bộ hóa 5G
Với hệ thống giao dịch thời gian thực, GPS là đủ, và độ trễ (latency) quan trọng hơn độ chính xác ở cấp micro giây
Yêu cầu pháp lý cũng cho phép sai số 1 giây, nên không đòi hỏi mức chính xác như TOF
Ví dụ như khi cần đồng bộ cực kỳ chính xác dữ liệu trên phạm vi rộng, chẳng hạn quan sát đồng thời sóng hấp dẫn và vụ nổ tia gamma
Ví dụ, nơi như Schriever Space Force Base là điểm điều khiển chính của GPS
Ngoài ra nó cũng quan trọng như một mạng thời gian mặt đất dự phòng khi tín hiệu GNSS bị gián đoạn
Bài liên quan: hệ thống định thời mặt đất độ chính xác cao của Trung Quốc
Trên thực tế, chỉ máy chủ ở Boulder gặp vấn đề đồng bộ
Cách nói “toàn bộ NIST bị offline” là cường điệu
Theo trang trạng thái máy chủ, chỉ 5 trong số 16 máy chủ NTP IPv4 bị ảnh hưởng, còn lại vẫn hoạt động bình thường
Hầu hết người dùng gần như không bị ảnh hưởng, vì vốn dĩ không nên dùng trực tiếp các máy chủ tầng trên
Cá nhân tôi khuyên dùng pool.ntp.org
Liệu có khả năng lỗi bị lan truyền không? Tôi cũng muốn biết pool.ntp.org có được phân tán để tránh tương quan về sự cố hoặc sai số hay không
Một đính chính nhỏ: UTC là viết tắt của “Coordinated Universal Time”
Thứ tự chữ cái được điều chỉnh để không thiên về tiếng Anh hay tiếng Pháp
Tính nhất quán với hệ thống viết tắt cũ như UT0, UT1, UT2 cũng đã được cân nhắc
Hơi lạc đề một chút, nhưng tôi muốn khen chrony
Trên nhiều môi trường phần cứng, nó ổn định hơn rất nhiều so với NTP client mặc định của OS trước đây
Điều đó cho thấy hiệu năng và độ ổn định của nó đã được kiểm chứng
Chủ đề này quá thú vị nên tôi cứ đọc mãi
Có lẽ là vì hôm nay tôi đã uống quá nhiều Adderall
Tôi nghe nói vài trader HFT quen biết đã kiếm được hàng trăm nghìn đô nhờ sự việc lần này
Không rõ họ cố tình khai thác hệ thống hay chỉ đơn giản là gặp một glitch may mắn
Trước đây người ta vẫn nói “truyền thời gian sai còn tệ hơn là không truyền gì”, nên tôi không hiểu vì sao lần này lại gửi thời gian có sai số
Theo mailing list của NIST, việc truyền qua Internet thường có độ bất định ở mức 1ms, nên hoàn toàn khác với độ chính xác khoa học
Khi đó cả điện lẫn quyền truy cập quản trị đều bị cắt, nên không thể biết đồng hồ đã lệch bao nhiêu
Nếu thời gian sai bị phát tán ngay khi điện vừa khôi phục, các hệ thống trên toàn thế giới có thể gặp lỗi đồng bộ
Vì vậy ngắt an toàn (scram) là lựa chọn tốt hơn
Truyện ngắn liên quan: The Time Rift of 2100
Ví dụ, báo cháy báo nhầm là “không có vấn đề gì” còn nguy hiểm hơn việc nó hoàn toàn không phản hồi
Tôi không hiểu tiêu đề video “đồng hồ của NIST suýt gây ra thảm họa” Chẳng phải chỉ cần hiệu chỉnh thời gian từ một campus khác là được sao?
Nếu thật sự có trường hợp cần mức chính xác như vậy thì nên có chuyên gia giải thích
Tôi tò mò trường hợp quan trọng nhất mà con người cần thời gian chính xác là gì
Chúng tôi dùng White Rabbit để đồng bộ hệ thống cấp nguồn RF và thiết bị thu thập dữ liệu ở cấp nano giây
Nó dùng TrueTime để đảm bảo tính nhất quán giao dịch trên toàn cầu
Nếu vệ tinh GPS lệch tới mức đó, độ chính xác định vị sẽ tụt xuống cỡ Loran-C
Câu chuyện bắt nguồn từ một bài của NPR
liên kết gốc