1 điểm bởi GN⁺ 2025-12-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cơ sở thời gian của NIST tại Boulder, Colorado, Mỹ đã ngừng hoạt động trong vài ngày do mất điện, và do máy phát điện dự phòng gặp sự cố, sai lệch tối đa 5μs so với thời gian chuẩn UTC đã xảy ra
  • Cơ sở này vận hành 6 máy chủ NTP và dù máy phát điện hỏng, vẫn giữ độ lệch thời gian dưới 5μs, nên hầu như không ảnh hưởng đến người dùng thông thường
  • Với các tổ chức phụ thuộc vào định thời chính xác như viện nghiên cứu khoa học và công ty hàng không vũ trụ, sự cố này có thể gây tác động, và NIST đang trực tiếp phối hợp với họ
  • Hệ thống GPS và WWV-Ft. Collins đã hoạt động bình thường như lớp dự phòng, qua đó chứng minh tính dư thừa của hạ tầng thời gian trên toàn nước Mỹ
  • Vụ việc lần này cho thấy rủi ro của sự phụ thuộc vào GPS và tính mong manh của hạ tầng định thời, đồng thời làm nổi bật sự cần thiết phải phát triển các hệ thống PNT thay thế

Mất điện và sai lệch thời gian xảy ra

  • Khuôn viên NIST ở Boulder, Colorado bị công ty điện lực cắt điện để phòng nguy cơ cháy do gió mạnh vượt 160km/h (100mph)
    • Toàn bộ khuôn viên bị phong tỏa, nhân viên không thể ra vào, khiến việc khôi phục bị chậm trễ
  • Một trong các máy phát điện dự phòng bị hỏng sau hai ngày, khiến nguồn điện cho cụm đồng hồ chính (clock ensemble) của các máy chủ NTP bị gián đoạn
  • Jeff Sherman, người phụ trách Time Realization and Distribution Group, thậm chí đã cân nhắc ngắt các máy chủ để tránh phát ra thời gian không chính xác
  • May mắn là hệ thống đồng hồ ở một tòa nhà khác vẫn có thể truyền tín hiệu thời gian, và một số nhân viên ở lại hiện trường đã khôi phục bằng cách định tuyến lại nguồn điện khẩn cấp
  • Nguồn dự phòng pin (UPS) đã duy trì thời gian cho đến khi máy phát được thay thế, và kết quả là độ lệch so với UTC được ghi nhận dưới 5μs

Vận hành máy chủ NTP và phạm vi ảnh hưởng

  • NIST cung cấp dịch vụ thời gian Internet thông qua 6 máy chủ NTP chính
  • Theo kết quả lệnh sntp time-a-b.nist.gov, sai số do độ trễ mạng với người dùng thông thường ở mức khoảng 35 mili giây (35.000μs), nên sai lệch 5μs gần như không đáng kể
  • Vì vậy, các máy chủ không bị dừng và vẫn tiếp tục hoạt động; dù độ chính xác kém hơn bình thường khoảng 5.000 lần, điều này không ảnh hưởng tới phần lớn người dùng
  • Các trường đại học, lĩnh vực hàng không vũ trụ, viện nghiên cứu khoa học nhạy cảm ngay cả với sai số rất nhỏ, nên NIST đang trực tiếp phối hợp để hiệu chỉnh
  • Hệ thống GPS của Mỹ tự động chuyển sang khuôn viên WWV-Ft. Collins, giúp duy trì dịch vụ mà không xảy ra gián đoạn toàn phần

Tính mong manh của hạ tầng thời gian và công nghệ thay thế

  • Tác giả vận hành máy chủ NTP riêng bằng 2 đồng hồ GPS dựa trên Raspberry Pi, và chỉ ra rủi ro của việc phụ thuộc vào GPS
  • CISA trước đó đã cảnh báo về nguy cơ Mỹ phụ thuộc quá mức vào GPS, và chính phủ đang thúc đẩy phát triển công nghệ PNT (Position, Navigation, Timing) thay thế
  • Broadcast Positioning System (BPS) đang được thảo luận như một ứng viên thay thế GPS
  • Tác giả sử dụng đồng hồ nguyên tử rubidium và GPSDO để duy trì độ chính xác ở mức vài nano giây, và ngay cả khi tín hiệu GPS bị gián đoạn vẫn có thể giữ thời gian trong nhiều tháng
  • Tuy nhiên, các lĩnh vực như khoa học, RF, media và tài chính đòi hỏi độ chính xác ở cấp nano giây, và phần lớn đều tham chiếu thời gian chuẩn của NIST

Bài học và độ tin cậy của hệ thống

  • Sự cố lần này chứng minh hệ thống ứng phó thảm họa của NIST thực sự hoạt động, cho thấy khả năng “vận hành bình thường ngay cả khi có sai lệch cực nhỏ
  • Nguồn điện dư phòng, nhiều đồng hồ và hệ thống sao lưu GPS kết hợp với nhau để duy trì độ ổn định của hạ tầng thời gian trên toàn quốc
  • Tác giả nhấn mạnh rằng “hạ tầng định thời rất mong manh, và nhiều lớp sao lưu là điều bắt buộc
  • Ngay cả trong tình huống khủng hoảng ở cấp micro giây, đội ngũ NIST vẫn giải quyết được vấn đề, khôi phục ở mức mà phần lớn người dùng thậm chí không nhận ra

1 bình luận

 
GN⁺ 2025-12-24
Ý kiến trên Hacker News
  • Chương trình Time Over Fiber (TOF) của NIST là điều khiến tôi thấy thú vị nhất
    Dịch vụ này cung cấp truyền thời gian độ chính xác cao qua cáp quang, và nghe nói một số liên kết kết nối trực tiếp đã bị ảnh hưởng
    Đây là lần đầu tôi nghe về loại dịch vụ này; có lẽ nó có thể được dùng cho lĩnh vực tài chính (HFT, liên quan đến FINRA Rule 4590), đồng bộ hóa 5G, hoặc cho các cơ sở dữ liệu toàn cầu như Google Spanner
    Liên kết liên quan: thông báo của NIST, giới thiệu chương trình TOF, FINRA Rule 4590, bài viết về đồng bộ hóa 5G

    • Trong HFT, mức độ chính xác kiểu này là không cần thiết
      Với hệ thống giao dịch thời gian thực, GPS là đủ, và độ trễ (latency) quan trọng hơn độ chính xác ở cấp micro giây
      Yêu cầu pháp lý cũng cho phép sai số 1 giây, nên không đòi hỏi mức chính xác như TOF
    • Có lẽ đây là cho thí nghiệm khoa học
      Ví dụ như khi cần đồng bộ cực kỳ chính xác dữ liệu trên phạm vi rộng, chẳng hạn quan sát đồng thời sóng hấp dẫnvụ nổ tia gamma
    • Không thể khẳng định đó là khách hàng thương mại
      Ví dụ, nơi như Schriever Space Force Base là điểm điều khiển chính của GPS
    • Có lẽ ưu tiên trước hết là cho nghiên cứu khoa học như White Rabbit Project
      Ngoài ra nó cũng quan trọng như một mạng thời gian mặt đất dự phòng khi tín hiệu GNSS bị gián đoạn
      Bài liên quan: hệ thống định thời mặt đất độ chính xác cao của Trung Quốc
    • Nó cũng có thể được dùng làm đồng hồ chuẩn trong mạng SIGINT để tính TDOA (Time Difference of Arrival) với độ chính xác rất cao
  • Trên thực tế, chỉ máy chủ ở Boulder gặp vấn đề đồng bộ
    Cách nói “toàn bộ NIST bị offline” là cường điệu
    Theo trang trạng thái máy chủ, chỉ 5 trong số 16 máy chủ NTP IPv4 bị ảnh hưởng, còn lại vẫn hoạt động bình thường
    Hầu hết người dùng gần như không bị ảnh hưởng, vì vốn dĩ không nên dùng trực tiếp các máy chủ tầng trên
    Cá nhân tôi khuyên dùng pool.ntp.org

    • Tôi tò mò không biết thực tế ai đang dùng trực tiếp các máy chủ tầng trên
      Liệu có khả năng lỗi bị lan truyền không? Tôi cũng muốn biết pool.ntp.org có được phân tán để tránh tương quan về sự cố hoặc sai số hay không
    • time.nist.gov dùng DNS round-robin, nên một số người dùng có thể đã kết nối tới máy chủ ở Boulder và gặp sai số 5μs
  • Một đính chính nhỏ: UTC là viết tắt của “Coordinated Universal Time”
    Thứ tự chữ cái được điều chỉnh để không thiên về tiếng Anh hay tiếng Pháp

    • Nó cũng được diễn đạt là “Universal Time, Coordinated”
    • Theo Wikipedia, đây là kết quả của việc các tổ chức quốc tế đồng ý dùng cùng một chữ viết tắt trong mọi ngôn ngữ
      Tính nhất quán với hệ thống viết tắt cũ như UT0, UT1, UT2 cũng đã được cân nhắc
    • Nhân tiện, giờ chuẩn Iceland cũng giống UTC
    • Bối cảnh đặt tên này khá thú vị
    • Trong tiếng Pháp là “Universel Temps Coordonné
  • Hơi lạc đề một chút, nhưng tôi muốn khen chrony
    Trên nhiều môi trường phần cứng, nó ổn định hơn rất nhiều so với NTP client mặc định của OS trước đây

    • Thực tế, trên các bản phân phối như RHELSLES, chrony đã là mặc định
      Điều đó cho thấy hiệu năng và độ ổn định của nó đã được kiểm chứng
  • Chủ đề này quá thú vị nên tôi cứ đọc mãi
    Có lẽ là vì hôm nay tôi đã uống quá nhiều Adderall

  • Tôi nghe nói vài trader HFT quen biết đã kiếm được hàng trăm nghìn đô nhờ sự việc lần này

    • Tôi muốn biết điều đó có thể xảy ra bằng cách nào
      Không rõ họ cố tình khai thác hệ thống hay chỉ đơn giản là gặp một glitch may mắn
  • Trước đây người ta vẫn nói “truyền thời gian sai còn tệ hơn là không truyền gì”, nên tôi không hiểu vì sao lần này lại gửi thời gian có sai số

    • Sai số 5μs về cơ bản là vô nghĩa với người dùng NTP
      Theo mailing list của NIST, việc truyền qua Internet thường có độ bất định ở mức 1ms, nên hoàn toàn khác với độ chính xác khoa học
    • Câu hỏi hay
      Khi đó cả điện lẫn quyền truy cập quản trị đều bị cắt, nên không thể biết đồng hồ đã lệch bao nhiêu
      Nếu thời gian sai bị phát tán ngay khi điện vừa khôi phục, các hệ thống trên toàn thế giới có thể gặp lỗi đồng bộ
      Vì vậy ngắt an toàn (scram) là lựa chọn tốt hơn
      Truyện ngắn liên quan: The Time Rift of 2100
    • Đôi khi nguyên tắc là không có câu trả lời còn tốt hơn câu trả lời sai
      Ví dụ, báo cháy báo nhầm là “không có vấn đề gì” còn nguy hiểm hơn việc nó hoàn toàn không phản hồi
  • Tôi không hiểu tiêu đề video “đồng hồ của NIST suýt gây ra thảm họa” Chẳng phải chỉ cần hiệu chỉnh thời gian từ một campus khác là được sao?

    • Có người đùa đáp kiểu “lý do sẽ khiến bạn bất ngờ”
    • Thực ra nó giống một tiêu đề clickbait hơn
      Nếu thật sự có trường hợp cần mức chính xác như vậy thì nên có chuyên gia giải thích
  • Tôi tò mò trường hợp quan trọng nhất mà con người cần thời gian chính xác là gì

    • Tôi làm việc tại máy gia tốc hạt
      Chúng tôi dùng White Rabbit để đồng bộ hệ thống cấp nguồn RF và thiết bị thu thập dữ liệu ở cấp nano giây
    • Google Spanner là một ví dụ tiêu biểu
      Nó dùng TrueTime để đảm bảo tính nhất quán giao dịch trên toàn cầu
    • Nó cũng là yếu tố thiết yếu trong việc tính vector trạng thái của tàu vũ trụ
    • Các hệ thống như mạng kính thiên văn vô tuyến khẩu độ tổng hợp cũng cần đồng bộ đồng hồ giữa các địa điểm với độ chính xác cao
    • Nhân tiện, sai số 5μs tương đương khoảng 1500m quãng đường sóng vô tuyến truyền được
      Nếu vệ tinh GPS lệch tới mức đó, độ chính xác định vị sẽ tụt xuống cỡ Loran-C
  • Câu chuyện bắt nguồn từ một bài của NPR
    liên kết gốc