6 điểm bởi GN⁺ 2025-12-19 | 2 bình luận | Chia sẻ qua WhatsApp
  • Thử nghiệm dùng tính năng RDMA (Remote Direct Memory Access) dựa trên Thunderbolt 5 mới được bổ sung trong macOS 26.2 để nhiều máy Mac Studio hoạt động như một bể nhớ khổng lồ duy nhất
  • Sử dụng công cụ phân cụm mã nguồn mở Exo 1.0 để cấu hình 1,5TB bộ nhớ hợp nhất, giúp tăng tốc chạy các mô hình AI lớn
  • M3 Ultra Mac Studio cho thấy hiệu năng tính toán và hiệu quả cao ngay cả ở chế độ một nút, và khi áp dụng RDMA thì độ trễ truy cập bộ nhớ giảm từ 300μs xuống dưới 50μs
  • Cũng tồn tại các hạn chế trong vận hành cụm như độ phức tạp của cáp Thunderbolt 5, không có switch và các ràng buộc quản trị của macOS
  • Sự kết hợp giữa RDMA và Exo cho thấy khả năng mở rộng môi trường AI·HPC dựa trên Mac, nhưng độ ổn định và khả năng mở rộng vẫn cần được cải thiện

Tổng quan thử nghiệm RDMA over Thunderbolt 5

  • Kiểm thử tính năng RDMA over Thunderbolt của macOS 26.2 bằng cụm Mac Studio do Apple cung cấp
    • RDMA cho phép nhiều máy Mac hoạt động như một RAM lớn duy nhất, từ đó tăng tốc xử lý các mô hình AI quy mô lớn
  • Trong bài thử nghiệm đã sử dụng công cụ phân cụm AI mã nguồn mở Exo 1.0
  • Giá của 4 máy Mac Studio cấu hình tổng cộng 1,5TB bộ nhớ hợp nhất vào khoảng 40.000 USD

Lịch sử HPC của Apple và vị trí của M3 Ultra

  • Sau thời kỳ Xserve và Xgrid, Apple hầu như không có thêm nhiều nỗ lực đáng kể liên quan đến HPC
  • M3 Ultra Mac Studio cho thấy hiệu năng phù hợp để chạy mô hình AI cục bộ, và nhờ hỗ trợ RDMA nên độ trễ khi phân cụm giảm từ 300μs xuống dưới 50μs
  • Máy vận hành yên tĩnh với mức điện năng dưới 250W, đồng thời phù hợp cho tính toán khoa học quy mô nhỏ và công việc sáng tạo

Cấu hình phần cứng và mạng

  • Hai máy phía dưới có cấu hình RAM 512GB / CPU 32 lõi, hai máy phía trên là RAM 256GB
  • Thunderbolt 5 cung cấp băng thông thực tế 50~60Gbps, nhưng do không có switch Thunderbolt nên từng máy Mac phải kết nối trực tiếp với nhau
  • So với Nvidia DGX Spark dùng cổng QSFP, độ ổn định mạng kém hơn
  • Có phụ kiện ThunderLok-A để cố định cáp Thunderbolt, nhưng không áp dụng vì cần chỉnh sửa thân máy Mac Studio

Benchmark hiệu năng M3 Ultra Mac Studio

  • Trên Geekbench, máy vượt cả Dell Pro Max (GB10) lẫn AMD AI Max+ 395 ở cả đơn nhân và đa nhân
  • Trong benchmark FP64 HPL, máy vượt mốc 1 Tflop, đạt hiệu năng khoảng gấp đôi Nvidia GB10
  • Suy luận mô hình AI lớn cũng cho kết quả tốt, đồng thời hiệu quả năng lượng trên cùng mức điện năng rất cao
  • Một M3 Ultra đơn lẻ còn vượt cụm 2 nút Dell Pro Max về cả hiệu năng lẫn hiệu quả

Quản lý cụm và các ràng buộc của macOS

  • macOS không thể nâng cấp hệ thống qua SSH, cần thao tác bằng GUI
  • Việc quản trị từ xa được thực hiện thông qua Screen Sharing
  • So với Linux, việc tự động hóa quản lý cụm khó hơn và cũng bất tiện do thiếu công cụ MDM

Kiểm thử HPL và Llama.cpp

  • HPL đạt 1,3 Tflops ở một nút, và khoảng 3,7 Tflops ở cấu hình 4 nút, tức cải thiện khoảng 3 lần
  • Khi dùng kết nối TCP dựa trên Thunderbolt thì xảy ra crash hệ thống, và khi không dùng RDMA thì hệ thống không ổn định
  • Trong thử nghiệm Llama.cpp, Thunderbolt 5 cho độ trễ thấp hơn Ethernet 2,5Gbps

Kích hoạt RDMA và thử nghiệm Exo 1.0

  • Quy trình kích hoạt RDMA: vào chế độ khôi phục → chạy lệnh rdma_ctl enable → khởi động lại
  • Exo 1.0 là công cụ duy nhất hỗ trợ RDMA, cho phép chạy phân tán trên nhiều máy Mac với các mô hình trên 600GB (như Kimi K2 Thinking)
  • Llama.cpp phân tán các lớp mô hình theo phương thức RPC nhưng kém hiệu quả
  • Exo cải thiện hiệu năng khi số lượng nút tăng lên, và đạt 32 token/giây với mô hình Qwen3 235B
  • Cũng đã chạy thành công các mô hình DeepSeek V3.1Kimi K2 Thinking (1 nghìn tỷ tham số)

Vấn đề ổn định và các điểm liên quan đến mã nguồn mở

  • Thử nghiệm được tiến hành trên phần mềm pre-release, nên có tồn tại yếu tố không ổn định
  • Khi RDMA hoạt động thì hiệu năng rất tốt, nhưng nếu thất bại thì phải khởi động lại toàn bộ cụm
  • Nhóm phát triển Exo từng ngừng hoạt động một thời gian trước khi quay lại, và dự án được phát hành theo giấy phép Apache 2.0
  • Bài viết cũng nhắc tới lo ngại về quy trình phát triển không công khai do có hợp tác với Apple

Những bài toán tiếp theo và câu hỏi còn bỏ ngỏ

  • Khả năng ra mắt M5 Ultra và mức cải thiện hiệu năng machine learning
  • Nhu cầu khôi phục khả năng mở rộng PCIe trên Mac Pro để cải thiện phân cụm
  • Khả năng chia sẻ tệp tốc độ cao nếu hỗ trợ SMB Direct
  • Kỳ vọng mở rộng hỗ trợ RDMA cho các phần mềm khác như Llama.cpp

Kết luận

  • Sự kết hợp giữa RDMA và Exo đã mở rộng mạnh mẽ khả năng ứng dụng Mac Studio trong AI·HPC
  • Tuy nhiên, các giới hạn mang tính cấu trúc của Thunderbolt 5 và ràng buộc quản trị của macOS vẫn là nút thắt cổ chai
  • Cần cải thiện khả năng mở rộng mạng, chẳng hạn như bổ sung cổng QSFP
  • Ngay cả khi làn sóng AI qua đi, Mac Studio vẫn giữ nguyên giá trị như một workstation yên tĩnh và mạnh mẽ

2 bình luận

 
kaydash 2025-12-21

Nhớ tới impala.

 
GN⁺ 2025-12-19
Ý kiến trên Hacker News
  • Đã tổng hợp những điều kỳ vọng ở M5 Max/Ultra
    Muốn nó hỗ trợ liên kết QSFP (200Gb/s trở lên) ở cấp độ DGX thay vì Thunderbolt. Kiến trúc RDMA thì ngầu thật, nhưng nếu không đạt tới mức tốc độ này thì hiệu quả kinh tế sẽ kém
    Muốn dùng Neural accelerator để giảm thời gian prefill của prompt. Không nhất thiết phải tới mức RTX 6000, cỡ 3090/4090 là đủ
    Kỳ vọng bản cấu hình cao nhất của Mac Studio sẽ có 1TB bộ nhớ hợp nhất. Tôi nghĩ tăng bộ nhớ sẽ hiệu quả hơn là dùng nhiều thiết bị
    Cũng muốn băng thông tăng lên +1TB/s. Ba thế hệ gần đây đều đang dừng ở 800GB/s
    Cũng hy vọng có thể ép xung. Mac Studio đâu phải laptop, nên tôi nghĩ tiêu thụ trên 600W cũng không sao. Hiện tại đang bị giới hạn ở khoảng 250W
    Ngoài ra, thiết lập RDMA này chỉ có thể kết nối tối đa 4 máy Mac. Vì tất cả các máy Mac phải được nối trực tiếp với nhau. Vì vậy tôi cho rằng Apple nên đầu tư vào liên kết tốc độ cao kiểu QSFP

    • 1TB bộ nhớ à, cũng nên chừa lại ít RAM cho những người dùng bình thường như chúng ta chứ? Cảm giác như kiểu “AI ơi, hãy làm cho nhân loại hạnh phúc đi!”
    • M4 đã đạt được tốc độ cần thiết trên mỗi kênh, và M5 còn cao hơn thế. Nếu có bản Ultra thì băng thông 1TB/s chắc chắn là khả thi. Max chỉ bằng một nửa Ultra nên có lẽ không tới mức đó
    • Mac Studio không có thiết kế nhiệt để chịu được mức nhiệt tương ứng với 650W trong thời gian dài. Mức này chỉ có thể khả thi trên thiết kế Mac Pro
    • Các cổng USB-C phía trước của M3 Ultra Mac Studio cũng là Thunderbolt 5 nên tổng cộng có 6 cổng. Xem thông số chính thức thì tôi thắc mắc vì sao lại cần giới hạn 4 máy
    • Apple Neural Engine đã hỗ trợ tính toán INT8 và FP16. Chỉ là các framework AI vẫn chưa tận dụng tốt điều này
      Ngoài ra tôi cũng nghi ngờ việc có cần nối mesh đầy đủ giữa mọi máy Mac hay không. Có cảm giác Thunderbolt hoạt động như giao diện mạng trên nền RDMA vậy
  • Tôi thắc mắc vì sao Apple lại đưa ra tính năng như RDMA vốn dành cho cụm máy chủ, nhưng lại bỏ qua những cải tiến chất lượng cơ bản như quản lý từ xa hay rackmount
    Tôi nghĩ có thể nội bộ họ đang dùng sản phẩm máy chủ dòng M, và những tính năng này là sản phẩm phụ từ đó

    • Có lẽ Apple đang chuẩn bị một sản phẩm cấp máy chủ thực sự, nên công bố RDMA trước để phần mềm bên thứ ba kịp hỗ trợ
    • Mac Studio có vị thế riêng cho suy luận LLM. Tôi nghĩ RDMA không phải cho máy chủ thông thường, mà là để ghép 4 máy Studio thành cụm suy luận LLM
    • Trước đây tôi từng nghe nói Apple dùng các máy M2 Mac Pro xếp trong rack cho tính năng Private Compute
    • Tôi tự hỏi liệu Apple có vận hành trung tâm dữ liệu riêng không. Tôi cứ nghĩ phần lớn được thuê ngoài cho GCP
    • Đây là điều tôi thắc mắc từ lâu. Vì sao tooling cho phát triển lại nghèo nàn đến vậy, và nội bộ Apple dùng môi trường gì. Nối Mac Mini bằng cáp Thunderbolt nghe hơi bí bách
  • Công việc của Jeff thật sự rất ấn tượng. Tin về RDMA trên nền Thunderbolt cũng rất thú vị
    Trên hết là tôi biết ơn năng lượng tích cực và những đóng góp bền bỉ của Jeff

  • Linux có hỗ trợ RDMA nhưng hiện vẫn chưa làm được trên Thunderbolt. Để triển khai được có lẽ sẽ cần khá nhiều việc
    Sẽ rất hay nếu có thể ghép 2~3 hộp Strix Halo giá rẻ (128GB DDR5-8000, 2 cổng USB4) để chạy các mô hình lớn

  • Hiện tại Thunderbolt không có switch nên kích thước cụm bị giới hạn
    Thay vào đó tôi tự hỏi có thể dùng RoCE (RDMA over Converged Ethernet) hay không. Tôi nghe nói RDMA nhanh hơn TCP khoảng 7~10 lần
    Cũng có adapter Ethernet Thunderbolt 10G~80G, nhưng độ trễ (latency) có thể là vấn đề
    Nếu có khe PCIe thì chỉ cần cắm card Infiniband là xong, nhưng cuối cùng vẫn là chuyện driver

    • Cũng có thể chuyển Thunderbolt sang PCIe để dùng NIC thông thường. Atto Thunderlink thực chất cũng chỉ là một vỏ bọc quanh Broadcom NIC
      Việc Apple đưa cả driver MLX5 vào iPadOS cũng khá bất ngờ. Tham khảo bài blog liên quan
    • macOS có sẵn driver cho card Mellanox ConnectX, nhưng tôi không biết liệu nó có thực sự hiện ra trong ibv_devices hay không
  • Tôi muốn xem dữ liệu đo riêng tốc độ nhập vào (prefill) và tốc độ xuất ra (decode)
    Trong bài viết của Exo có nói rằng trên phần cứng Mac, hai tốc độ này khác nhau khá nhiều

    • Có một phần dữ liệu liên quan trong issue GitHub này.
      Tôi định đề xuất nhóm Exo thêm tính năng benchmark
  • Điều thú vị là Thunderbolt 5 không vượt trội áp đảo như tôi tưởng
    So với Ethernet 2.5Gbps thì TB5 chỉ nhanh hơn khoảng 10%. M3 Studio hỗ trợ Ethernet 10Gbps nhưng chưa được thử nghiệm
    TB5 bị giới hạn 4 máy vì mọi CPU đều phải nối trực tiếp với nhau. Trong khi đó nếu dùng switch Ethernet thì có thể nối nhiều node hơn

    • Video này thử nghiệm bằng Ethernet 10Gbps
    • Theo kinh nghiệm trước đây với llama RPC, Ethernet 10G chỉ cải thiện tốc độ rất ít. Độ trễ mới là yếu tố quan trọng hơn, nhưng ngay cả vậy cũng có giới hạn
    • llama vẫn chưa được tối ưu nhiều nên khả năng mở rộng còn kém. RDMA có overhead thấp hơn Ethernet
  • Mỗi node trong cụm có 512GB RAM. Mô hình DeepSeek V3.1 cần 700GB RAM
    Việc tăng từ 1 node lên 2 node mà tốc độ suy luận chỉ tăng 32% là điều khó hiểu. Ngay cả với 4 node cũng tăng chưa tới 50%
    Có vẻ đang có nút thắt cổ chai nào đó

    • Băng thông mạng là 80Gbps nên đó chính là nút thắt cổ chai. Infiniband nhanh hơn gấp 10 lần
    • Trọng số (weights) của mô hình là chỉ đọc nên có thể memory-map từ SSD. Giới hạn thực sự là bộ nhớ activation. Cấu trúc MoE có thể giúp ích
    • TB5 RDMA chậm hơn rất nhiều so với truy cập trực tiếp vào bộ nhớ hệ thống
  • Cấu trúc mọi node đều kết nối với nhau làm tôi nhớ tới NUMALink của SGI.
    Siêu máy tính SGI có mỗi node được nối với tất cả các node khác bằng hai liên kết. Cáp thì rất nhiều nhưng không cần phải lo về framing hay điều khiển tắc nghẽn

    • Phần cứng SGI triển khai ccNUMA (cache-coherent NUMA). Hệ điều hành IRIX di chuyển tác vụ và bộ nhớ tới nơi gần về mặt vật lý để giảm độ trễ
      Các hệ thống giao dịch tần suất cao ngày nay cũng đặt tiến trình dựa trên vị trí CPU core và DIMM theo cùng một logic
    • Rack NVL72 cũng có cấu trúc tương tự khi nối hàng chục liên kết giữa các GPU
  • Tôi thích một vài chi tiết thú vị trong bài viết
    Sự biến mất bí ẩn của Exo, việc Jeff muốn có SMB Direct cho Mac, tốc độ suy luận của M3 Ultra, và cả chiếc Framework AI desktop giá $2100
    Nhờ đó mà tôi có cảm giác vừa phát hiện ra một rabbit hole mới