- Thử nghiệm dùng tính năng RDMA (Remote Direct Memory Access) dựa trên Thunderbolt 5 mới được bổ sung trong macOS 26.2 để nhiều máy Mac Studio hoạt động như một bể nhớ khổng lồ duy nhất
- Sử dụng công cụ phân cụm mã nguồn mở Exo 1.0 để cấu hình 1,5TB bộ nhớ hợp nhất, giúp tăng tốc chạy các mô hình AI lớn
- M3 Ultra Mac Studio cho thấy hiệu năng tính toán và hiệu quả cao ngay cả ở chế độ một nút, và khi áp dụng RDMA thì độ trễ truy cập bộ nhớ giảm từ 300μs xuống dưới 50μs
- Cũng tồn tại các hạn chế trong vận hành cụm như độ phức tạp của cáp Thunderbolt 5, không có switch và các ràng buộc quản trị của macOS
- Sự kết hợp giữa RDMA và Exo cho thấy khả năng mở rộng môi trường AI·HPC dựa trên Mac, nhưng độ ổn định và khả năng mở rộng vẫn cần được cải thiện
Tổng quan thử nghiệm RDMA over Thunderbolt 5
- Kiểm thử tính năng RDMA over Thunderbolt của macOS 26.2 bằng cụm Mac Studio do Apple cung cấp
- RDMA cho phép nhiều máy Mac hoạt động như một RAM lớn duy nhất, từ đó tăng tốc xử lý các mô hình AI quy mô lớn
- Trong bài thử nghiệm đã sử dụng công cụ phân cụm AI mã nguồn mở Exo 1.0
- Giá của 4 máy Mac Studio cấu hình tổng cộng 1,5TB bộ nhớ hợp nhất vào khoảng 40.000 USD
Lịch sử HPC của Apple và vị trí của M3 Ultra
- Sau thời kỳ Xserve và Xgrid, Apple hầu như không có thêm nhiều nỗ lực đáng kể liên quan đến HPC
- M3 Ultra Mac Studio cho thấy hiệu năng phù hợp để chạy mô hình AI cục bộ, và nhờ hỗ trợ RDMA nên độ trễ khi phân cụm giảm từ 300μs xuống dưới 50μs
- Máy vận hành yên tĩnh với mức điện năng dưới 250W, đồng thời phù hợp cho tính toán khoa học quy mô nhỏ và công việc sáng tạo
Cấu hình phần cứng và mạng
- Hai máy phía dưới có cấu hình RAM 512GB / CPU 32 lõi, hai máy phía trên là RAM 256GB
- Thunderbolt 5 cung cấp băng thông thực tế 50~60Gbps, nhưng do không có switch Thunderbolt nên từng máy Mac phải kết nối trực tiếp với nhau
- So với Nvidia DGX Spark dùng cổng QSFP, độ ổn định mạng kém hơn
- Có phụ kiện ThunderLok-A để cố định cáp Thunderbolt, nhưng không áp dụng vì cần chỉnh sửa thân máy Mac Studio
Benchmark hiệu năng M3 Ultra Mac Studio
- Trên Geekbench, máy vượt cả Dell Pro Max (GB10) lẫn AMD AI Max+ 395 ở cả đơn nhân và đa nhân
- Trong benchmark FP64 HPL, máy vượt mốc 1 Tflop, đạt hiệu năng khoảng gấp đôi Nvidia GB10
- Suy luận mô hình AI lớn cũng cho kết quả tốt, đồng thời hiệu quả năng lượng trên cùng mức điện năng rất cao
- Một M3 Ultra đơn lẻ còn vượt cụm 2 nút Dell Pro Max về cả hiệu năng lẫn hiệu quả
Quản lý cụm và các ràng buộc của macOS
- macOS không thể nâng cấp hệ thống qua SSH, cần thao tác bằng GUI
- Việc quản trị từ xa được thực hiện thông qua Screen Sharing
- So với Linux, việc tự động hóa quản lý cụm khó hơn và cũng bất tiện do thiếu công cụ MDM
Kiểm thử HPL và Llama.cpp
- HPL đạt 1,3 Tflops ở một nút, và khoảng 3,7 Tflops ở cấu hình 4 nút, tức cải thiện khoảng 3 lần
- Khi dùng kết nối TCP dựa trên Thunderbolt thì xảy ra crash hệ thống, và khi không dùng RDMA thì hệ thống không ổn định
- Trong thử nghiệm Llama.cpp, Thunderbolt 5 cho độ trễ thấp hơn Ethernet 2,5Gbps
Kích hoạt RDMA và thử nghiệm Exo 1.0
- Quy trình kích hoạt RDMA: vào chế độ khôi phục → chạy lệnh
rdma_ctl enable → khởi động lại
- Exo 1.0 là công cụ duy nhất hỗ trợ RDMA, cho phép chạy phân tán trên nhiều máy Mac với các mô hình trên 600GB (như Kimi K2 Thinking)
- Llama.cpp phân tán các lớp mô hình theo phương thức RPC nhưng kém hiệu quả
- Exo cải thiện hiệu năng khi số lượng nút tăng lên, và đạt 32 token/giây với mô hình Qwen3 235B
- Cũng đã chạy thành công các mô hình DeepSeek V3.1 và Kimi K2 Thinking (1 nghìn tỷ tham số)
Vấn đề ổn định và các điểm liên quan đến mã nguồn mở
- Thử nghiệm được tiến hành trên phần mềm pre-release, nên có tồn tại yếu tố không ổn định
- Khi RDMA hoạt động thì hiệu năng rất tốt, nhưng nếu thất bại thì phải khởi động lại toàn bộ cụm
- Nhóm phát triển Exo từng ngừng hoạt động một thời gian trước khi quay lại, và dự án được phát hành theo giấy phép Apache 2.0
- Bài viết cũng nhắc tới lo ngại về quy trình phát triển không công khai do có hợp tác với Apple
Những bài toán tiếp theo và câu hỏi còn bỏ ngỏ
- Khả năng ra mắt M5 Ultra và mức cải thiện hiệu năng machine learning
- Nhu cầu khôi phục khả năng mở rộng PCIe trên Mac Pro để cải thiện phân cụm
- Khả năng chia sẻ tệp tốc độ cao nếu hỗ trợ SMB Direct
- Kỳ vọng mở rộng hỗ trợ RDMA cho các phần mềm khác như Llama.cpp
Kết luận
- Sự kết hợp giữa RDMA và Exo đã mở rộng mạnh mẽ khả năng ứng dụng Mac Studio trong AI·HPC
- Tuy nhiên, các giới hạn mang tính cấu trúc của Thunderbolt 5 và ràng buộc quản trị của macOS vẫn là nút thắt cổ chai
- Cần cải thiện khả năng mở rộng mạng, chẳng hạn như bổ sung cổng QSFP
- Ngay cả khi làn sóng AI qua đi, Mac Studio vẫn giữ nguyên giá trị như một workstation yên tĩnh và mạnh mẽ
2 bình luận
Nhớ tới impala.
Ý kiến trên Hacker News
Đã tổng hợp những điều kỳ vọng ở M5 Max/Ultra
Muốn nó hỗ trợ liên kết QSFP (200Gb/s trở lên) ở cấp độ DGX thay vì Thunderbolt. Kiến trúc RDMA thì ngầu thật, nhưng nếu không đạt tới mức tốc độ này thì hiệu quả kinh tế sẽ kém
Muốn dùng Neural accelerator để giảm thời gian prefill của prompt. Không nhất thiết phải tới mức RTX 6000, cỡ 3090/4090 là đủ
Kỳ vọng bản cấu hình cao nhất của Mac Studio sẽ có 1TB bộ nhớ hợp nhất. Tôi nghĩ tăng bộ nhớ sẽ hiệu quả hơn là dùng nhiều thiết bị
Cũng muốn băng thông tăng lên +1TB/s. Ba thế hệ gần đây đều đang dừng ở 800GB/s
Cũng hy vọng có thể ép xung. Mac Studio đâu phải laptop, nên tôi nghĩ tiêu thụ trên 600W cũng không sao. Hiện tại đang bị giới hạn ở khoảng 250W
Ngoài ra, thiết lập RDMA này chỉ có thể kết nối tối đa 4 máy Mac. Vì tất cả các máy Mac phải được nối trực tiếp với nhau. Vì vậy tôi cho rằng Apple nên đầu tư vào liên kết tốc độ cao kiểu QSFP
Ngoài ra tôi cũng nghi ngờ việc có cần nối mesh đầy đủ giữa mọi máy Mac hay không. Có cảm giác Thunderbolt hoạt động như giao diện mạng trên nền RDMA vậy
Tôi thắc mắc vì sao Apple lại đưa ra tính năng như RDMA vốn dành cho cụm máy chủ, nhưng lại bỏ qua những cải tiến chất lượng cơ bản như quản lý từ xa hay rackmount
Tôi nghĩ có thể nội bộ họ đang dùng sản phẩm máy chủ dòng M, và những tính năng này là sản phẩm phụ từ đó
Công việc của Jeff thật sự rất ấn tượng. Tin về RDMA trên nền Thunderbolt cũng rất thú vị
Trên hết là tôi biết ơn năng lượng tích cực và những đóng góp bền bỉ của Jeff
Linux có hỗ trợ RDMA nhưng hiện vẫn chưa làm được trên Thunderbolt. Để triển khai được có lẽ sẽ cần khá nhiều việc
Sẽ rất hay nếu có thể ghép 2~3 hộp Strix Halo giá rẻ (128GB DDR5-8000, 2 cổng USB4) để chạy các mô hình lớn
Hiện tại Thunderbolt không có switch nên kích thước cụm bị giới hạn
Thay vào đó tôi tự hỏi có thể dùng RoCE (RDMA over Converged Ethernet) hay không. Tôi nghe nói RDMA nhanh hơn TCP khoảng 7~10 lần
Cũng có adapter Ethernet Thunderbolt 10G~80G, nhưng độ trễ (latency) có thể là vấn đề
Nếu có khe PCIe thì chỉ cần cắm card Infiniband là xong, nhưng cuối cùng vẫn là chuyện driver
Việc Apple đưa cả driver MLX5 vào iPadOS cũng khá bất ngờ. Tham khảo bài blog liên quan
ibv_deviceshay khôngTôi muốn xem dữ liệu đo riêng tốc độ nhập vào (prefill) và tốc độ xuất ra (decode)
Trong bài viết của Exo có nói rằng trên phần cứng Mac, hai tốc độ này khác nhau khá nhiều
Tôi định đề xuất nhóm Exo thêm tính năng benchmark
Điều thú vị là Thunderbolt 5 không vượt trội áp đảo như tôi tưởng
So với Ethernet 2.5Gbps thì TB5 chỉ nhanh hơn khoảng 10%. M3 Studio hỗ trợ Ethernet 10Gbps nhưng chưa được thử nghiệm
TB5 bị giới hạn 4 máy vì mọi CPU đều phải nối trực tiếp với nhau. Trong khi đó nếu dùng switch Ethernet thì có thể nối nhiều node hơn
Mỗi node trong cụm có 512GB RAM. Mô hình DeepSeek V3.1 cần 700GB RAM
Việc tăng từ 1 node lên 2 node mà tốc độ suy luận chỉ tăng 32% là điều khó hiểu. Ngay cả với 4 node cũng tăng chưa tới 50%
Có vẻ đang có nút thắt cổ chai nào đó
Cấu trúc mọi node đều kết nối với nhau làm tôi nhớ tới NUMALink của SGI.
Siêu máy tính SGI có mỗi node được nối với tất cả các node khác bằng hai liên kết. Cáp thì rất nhiều nhưng không cần phải lo về framing hay điều khiển tắc nghẽn
Các hệ thống giao dịch tần suất cao ngày nay cũng đặt tiến trình dựa trên vị trí CPU core và DIMM theo cùng một logic
Tôi thích một vài chi tiết thú vị trong bài viết
Sự biến mất bí ẩn của Exo, việc Jeff muốn có SMB Direct cho Mac, tốc độ suy luận của M3 Ultra, và cả chiếc Framework AI desktop giá $2100
Nhờ đó mà tôi có cảm giác vừa phát hiện ra một rabbit hole mới