8 điểm bởi GN⁺ 23 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Tại Máy Va chạm Hadron Lớn, lượng dữ liệu khổng lồ phát sinh được lọc theo thời gian thực bằng các mô hình AI siêu nhỏ được triển khai trực tiếp trên chip silicon, chỉ chọn ra những sự kiện có ý nghĩa khoa học
  • Để xử lý luồng dữ liệu hàng trăm terabyte mỗi giây, hệ thống sử dụng phần cứng dựa trên FPGA và ASIC thay vì GPU hay TPU, đồng thời đưa ra quyết định với độ trễ ở mức nano giây
  • Thông qua công cụ HLS4ML, các mô hình PyTorch hoặc TensorFlow được chuyển thành mã C++ có thể tổng hợp để triển khai trực tiếp lên chip, và nhờ cấu trúc dựa trên bảng tra cứu, hệ thống có thể tạo đầu ra tức thì mà không cần phép toán dấu phẩy động
  • Level-1 Trigger của LHC gồm khoảng 1.000 FPGA, đánh giá dữ liệu trong vòng dưới 50 nano giây; ở các giai đoạn sau, 25.600 CPU và 400 GPU tiếp tục thực hiện lọc bổ sung
  • CERN đang phát triển thế hệ mô hình AI siêu nhỏ tiếp theo để chuẩn bị cho đợt nâng cấp High-Luminosity LHC vào năm 2031; cách tiếp cận này cũng có thể mở rộng sang các lĩnh vực ứng dụng siêu độ trễ thấp như hệ thống tự hành và chẩn đoán hình ảnh y khoa

Tổng quan

  • CERN triển khai trực tiếp các mô hình trí tuệ nhân tạo siêu nhỏ lên chip silicon để lọc theo thời gian thực lượng dữ liệu khổng lồ phát sinh từ Máy Va chạm Hadron Lớn (LHC)
    • Trong dữ liệu va chạm, chỉ những sự kiện có ý nghĩa khoa học mới được chọn, còn lại bị loại bỏ ngay lập tức
    • Để xử lý luồng dữ liệu lên tới hàng trăm terabyte mỗi giây, hệ thống sử dụng phần cứng tùy biến dựa trên FPGA và ASIC thay vì GPU hay TPU
  • Các mô hình AI nhúng trong phần cứng này đưa ra quyết định ngay ở cấp độ detector với độ trễ từ micro giây đến nano giây
    • Quá trình chọn lọc theo thời gian thực này được đánh giá là một trong những tác vụ có yêu cầu tính toán cao nhất trong khoa học hiện đại

Thách thức xử lý dữ liệu

  • LHC tạo ra khoảng 40.000 exabyte dữ liệu thô mỗi năm, tương đương khoảng một phần tư toàn bộ Internet hiện nay
    • Các bó proton di chuyển trong vòng tròn 27 km với tốc độ gần bằng tốc độ ánh sáng và giao cắt nhau mỗi 25 nano giây
    • Va chạm thực tế là hiếm, nhưng mỗi lần va chạm vẫn tạo ra vài megabyte dữ liệu
  • Không thể lưu trữ hoặc xử lý toàn bộ dữ liệu, nên chỉ khoảng 0,02% số sự kiện được giữ lại
    • Giai đoạn lọc đầu tiên, Level-1 Trigger, gồm khoảng 1.000 FPGA và đánh giá dữ liệu trong vòng dưới 50 nano giây
    • Thuật toán AXOL1TL chạy trực tiếp trên các chip này để nhận diện những sự kiện có triển vọng về mặt khoa học, còn phần còn lại bị loại bỏ ngay

Cách tiếp cận AI và stack công nghệ

  • Mô hình AI của CERN được thiết kế theo cấu trúc siêu nhỏ và hiệu năng cao, khác với các mô hình quy mô lớn trong công nghiệp thông thường, nhằm tối ưu cho suy luận siêu độ trễ thấp ở cấp detector
    • Thông qua công cụ mã nguồn mở HLS4ML, các mô hình xây dựng bằng PyTorch hoặc TensorFlow được chuyển đổi thành mã C++ có thể tổng hợp
    • Mã sau chuyển đổi được triển khai trực tiếp lên FPGA, SoC, ASIC, vận hành với mức tiêu thụ điện năng và diện tích silicon thấp hơn rất nhiều so với GPU hoặc TPU
  • Phần lớn tài nguyên trên chip được dùng để triển khai các bảng tra cứu (lookup table) được tính toán trước thay vì các lớp mạng nơ-ron
    • Các bảng này lưu sẵn kết quả cho những mẫu đầu vào phổ biến, nhờ đó tạo ra đầu ra tức thì mà không cần phép toán dấu phẩy động đối với phần lớn tín hiệu từ detector
    • Chính triết lý thiết kế ưu tiên phần cứng này giúp đạt được độ trễ ở cấp độ nano giây
  • Giai đoạn lọc thứ hai, High-Level Trigger, chạy trên một cụm tính toán gồm 25.600 CPU và 400 GPU
    • Ngay cả sau Level-1 Trigger, hệ thống vẫn phải xử lý vài terabyte dữ liệu mỗi giây, rồi nén xuống còn khoảng 1 petabyte dữ liệu khoa học mỗi ngày

Kế hoạch sắp tới

  • LHC đang chuẩn bị cho đợt nâng cấp High-Luminosity LHC (HL-LHC) dự kiến vận hành vào năm 2031
    • Lượng dữ liệu trên mỗi va chạm dự kiến sẽ tăng khoảng 10 lần so với hiện tại, và kích thước mỗi sự kiện cũng sẽ lớn hơn đáng kể
  • Để chuẩn bị, CERN đang phát triển thế hệ mô hình AI siêu nhỏ tiếp theo và tối ưu hóa việc triển khai trên FPGA và ASIC
    • Mục tiêu là tăng cường toàn bộ hệ thống trigger thời gian thực để vẫn duy trì hiệu năng siêu độ trễ thấp ngay cả khi tốc độ dữ liệu cao hơn rất nhiều
  • Sự chuẩn bị này được xem là nền tảng then chốt giúp vật lý hạt tiếp tục tạo ra những khám phá mới trong nhiều thập kỷ tới

Ý nghĩa và tác động

  • Trong khi ngành AI toàn cầu tập trung vào việc mở rộng các mô hình khổng lồ, CERN lại đang phát triển những mô hình AI nhỏ nhất, nhanh nhất và hiệu quả nhất
    • Các mô hình này được triển khai trực tiếp lên FPGA và ASIC, và được xem là một ví dụ ứng dụng thực tế của “Tiny AI”
  • Trong hệ thống trigger của LHC, các mô hình này đạt được mức hiệu năng mà các bộ tăng tốc AI thông thường không thể làm được
    • Trong môi trường khắc nghiệt đòi hỏi ra quyết định ở cấp độ nano giây, chúng hiện thực hóa hiệu quả tối đa với tài nguyên tối thiểu
  • Cách tiếp cận này không chỉ giới hạn trong vật lý hạt, mà còn có tiềm năng ứng dụng trong hệ thống tự hành, giao dịch tần suất cao, chẩn đoán hình ảnh y khoa, hàng không vũ trụ và các lĩnh vực cần suy luận thời gian thực với độ trễ cực thấp
    • Trong bối cảnh hiệu quả năng lượng và tiết kiệm tài nguyên tính toán ngày càng quan trọng, mô hình của CERN đưa ra một hướng thay thế cho việc chỉ mở rộng quy mô: chuyên biệt hóa cực độ và tối ưu hóa ở cấp phần cứng

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi là đồng tác giả của một trong hai mô hình trong bài báo này
    Để làm rõ một hiểu lầm: các mô hình này không được khắc trực tiếp vào silicon mà được triển khai trên FPGA
    Với axol1tl, các trọng số được hardwire vào fabric, nhưng vẫn có thể lập trình lại
    Các dự án như smartpixel của CERN hay HG-Cal readout thực sự đang nhắm tới silicon thật
    Slide liên quan: Tài liệu trình bày của CERN
    Quy trình phê duyệt bài báo khá dài, nhưng trong vài tháng tới sẽ có một phiên bản toàn diện hơn
    Ban đầu mô hình chỉ là một MLP dựa trên VAE đơn giản, và từ v5 trở đi đã thêm khối VICREG để chạy ở 40MHz trong 2 chu kỳ clock
    Sau đó nó được triển khai lên FPGA thông qua hls4ml-da4ml, bài báo liên quan
    Mô hình CICADA dựa trên VAE, chưng cất điểm số phát hiện bất thường bằng học có giám sát theo kiến trúc teacher-student
    Slide tham khảo: Tài liệu trình bày CICADA
    Nghiên cứu của tôi tập trung vào QAT (huấn luyện lượng tử hóa độ chính xác cao) và triển khai NN dựa trên distributed arithmetic
    Bài báo liên quan: arXiv:2405.00645, arXiv:2507.04535

    • Công trình này thực sự rất thú vị
      Hồi đầu làm tiến sĩ tôi cũng từng triển khai bộ gia tốc GNN trên FPGA và đã hợp tác với phía CERN/Fermilab
      Giờ tôi đã chuyển hướng sang nghiên cứu HLS và EDA, nên khá tò mò về những giới hạn chính hiện nay khi triển khai hệ thống trigger bằng phần cứng
      Bug trong các công cụ HLS thương mại, độ khó debug và thời gian build dài có vẻ là những rào cản lớn
      Tôi muốn biết liệu tooling EDA có thực sự là nút thắt cổ chai hay còn có yếu tố kỹ thuật nào khác quan trọng hơn
  • Họ đã dùng mạng nơ-ron dựa trên autoencoder có chứa các lớp convolution và huấn luyện bằng dữ liệu thí nghiệm trước đó
    Bài báo liên quan
    Bài viết hẳn đã tốt hơn nhiều nếu giải thích rõ họ dùng thuật toán AI nào

    • Dạo này “mô hình AI” nhiều khi thực chất chỉ là hồi quy tuyến tính
    • Phần lớn cách triển khai dựa trên FPGA nên cách nói “được khắc vào silicon” nghe có phần cường điệu
    • Có cảm giác nếu không phải LLM thì sẽ không được chú ý, nên từ “AI” bị dùng như một công cụ marketing
    • Việc các bài báo kỹ thuật lược bỏ thuật toán cốt lõi thực sự rất khó chịu
    • Khi biết cuối cùng đây là bài toán phát hiện bất thường (anomaly detection) thì thấy dễ hiểu hơn nhiều
  • Thực ra branch predictor của CPU hiện đại cũng dùng perceptron

    • Có thể xem bài viết về NN bên trong chip Samsung Galaxy S7bài báo IEEE làm ví dụ
    • Trước giờ tôi không biết có cấu trúc như vậy, nên muốn tìm hiểu thêm chúng được thiết kế và huấn luyện như thế nào
    • Dạo này thật tiếc khi “AI” lại thường được dùng với nghĩa kiểu “không hiểu bài toán nên cứ ném vào một hộp đen”
    • Perceptron rốt cuộc chỉ là bộ dự đoán tuyến tính nên khá đơn giản
    • Lĩnh vực HEP thực ra đã dùng FPGA cho trigger L0 từ vài chục năm trước rồi
      Ngay từ thời Delphi cũng đã có bài báo về ANN để chọn Higgs, và những thử nghiệm đó tiếp nối sang LHC
  • Chia sẻ vài video liên quan
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    Trang Tech Talk của ScyllaDB

  • Dự án này chạy ở 40MHz, nhưng công cụ CflexHDL mà tôi làm ra thực hiện ray tracing thời gian thực ở 148MHz
    Video demo
    Công cụ này đang nhận hỗ trợ từ Nlnet Foundation và cũng có kế hoạch tích hợp với các công cụ AI của CERN
    Tôi muốn nhấn mạnh tầm quan trọng của toolchain mã nguồn mở

  • Bài báo có hơi thổi phồng AI một chút
    Về bản chất, có thể xem đây là con chip chứa logic hard-code thu được từ machine learning

    • ML vốn là một phần của AI, không phải khái niệm chỉ xuất hiện sau ChatGPT
    • Trọng số của LLM rốt cuộc cũng chứa logic đã được học
    • Cách gọi “AI” nghe như để marketing
      Trên thực tế nó gần với một state machine chỉ dành cho suy luận hơn, và nếu môi trường thay đổi thì không phải huấn luyện lại mà là cần hardware respin
      Trong những tình huống như vậy mới thấy từ “AI” không chỉ là một tính từ trang trí
  • Điểm thú vị là, trái với AI thông thường, ở đây mô hình phải chứng minh lý do tồn tại của mình bằng cách chịu được các ràng buộc phần cứng
    Trong môi trường kiểu này, không chỉ độ trễ (latency) mà cả tính quyết định, ngân sách điện năng và độ ổn định dưới tải cực lớn còn quan trọng hơn

  • Cách nói “FPGA được khắc vào silicon” nghe khá kỳ
    Nếu CERN tape-out một ASIC thì đó sẽ là chuyện đáng kinh ngạc

    • Thực ra CERN có thiết kế ASIC tùy biến cho các mục đích khác
      Tài liệu trình bày liên quan
    • Cũng có thể họ đã thuê đơn vị bên ngoài sản xuất
    • Có vẻ cuối cùng tiêu đề bài báo đã được sửa lại
  • Đây không phải kiểu LLM đang được nhắc tới nhiều hiện nay, mà là mạng nơ-ron được triển khai trên FPGA

    • Marketing của các công ty LLM quá mạnh nên lúc đầu tôi cũng nghĩ theo hướng đó
    • Nếu là FPGA thì cách nói “được khắc vào silicon” là không chính xác
      Cũng không chắc ASIC có phù hợp cho trường hợp này hay không
  • Cảm ơn vì phản hồi
    Tôi đã sửa nội dung bài viết thành kiến trúc AXOL1TL dựa trên VAE và bổ sung bài báo arXiv liên quan cùng video trình bày của Thea Aarrestad

    • Tuy nhiên, câu “CERN đã từ bỏ AI dựa trên GPU/TPU” là không đúng sự thật
      CERN vẫn sử dụng GPU rất rộng rãi và cũng tích cực tận dụng GPU/CPU COTS tùy theo tình huống