Từ macOS 26.2, có thể xây dựng cụm AI tốc độ cao với RDMA qua Thunderbolt

(developer.apple.com)

11 điểm bởi GN⁺ 2025-12-13 | 4 bình luận | Chia sẻ qua WhatsApp

macOS Tahoe 26.2 mới bổ sung tính năng RDMA dựa trên Thunderbolt 5, cho phép giao tiếp độ trễ thấp như suy luận AI phân tán với MLX
Điều này có nghĩa là "có thể xem Mac như các nút tính toán phân tán tốc độ cao", giúp macOS vượt ra ngoài vai trò một hệ điều hành desktop đơn thuần để mở rộng thành nền tảng thử nghiệm AI cục bộ và HPC

RDMA là gì

RDMA(Remote Direct Memory Access) là phương thức giao tiếp trong đó một máy tính truy cập trực tiếp vào bộ nhớ của máy khác mà không cần CPU can thiệp
Nó bỏ qua network stack, sao chép qua kernel và context switch để giảm độ trễ (latency) xuống mức cực thấp và tăng mạnh thông lượng
Công nghệ này chủ yếu được dùng trong các mạng trung tâm dữ liệu như InfiniBand và RoCE
Đây đã trở thành công nghệ tiêu chuẩn trong tính toán hiệu năng cao (HPC), lưu trữ phân tán và huấn luyện/suy luận AI quy mô lớn
Điểm cốt lõi là "dù là giao tiếp qua mạng nhưng vẫn hoạt động nhanh như thể đang dùng chung một vùng nhớ"

Ý nghĩa của RDMA over Thunderbolt

Trên macOS 26.2, giao tiếp RDMA được hỗ trợ giữa các máy Mac kết nối bằng Thunderbolt 5
Nếu trước đây RDMA bị giới hạn trong thiết bị mạng cấp máy chủ, thì giờ đây nó cũng có thể dùng trên cụm Mac cục bộ chỉ nối với nhau bằng một sợi cáp
Có thể tận dụng trực tiếp băng thông cao và độ trễ cực thấp của Thunderbolt theo mô hình RDMA
Nói cách khác, nay đã có "một con đường để gộp nhiều máy Mac trên bàn làm việc lại như một trung tâm dữ liệu"

Vì sao phù hợp với workload AI

Trong huấn luyện hoặc suy luận AI phân tán, việc trao đổi tensor giữa các node rất dễ trở thành nút thắt cổ chai
RDMA giúp quá trình này không tiêu tốn CPU mà vẫn cung cấp mẫu giao tiếp gần với GPU ↔ GPU
Suy luận AI phân tán dựa trên MLX được nhắc đến trong release note là một kiến trúc được thiết kế với giả định có sẵn kiểu giao tiếp độ trễ thấp, băng thông cao như vậy
Mở rộng khả năng chia mô hình lên nhiều máy Mac và xây dựng cụm suy luận vận hành như một máy đơn
Với các nhóm nhỏ hoặc môi trường nghiên cứu, việc "dùng Mac để dựng cụm AI mà không cần máy chủ" trở thành một lựa chọn thực tế

Các kịch bản sử dụng nay trở nên khả thi

Kết nối nhiều máy Mac Studio / Mac Pro bằng Thunderbolt để tạo một farm suy luận AI cục bộ
Khi khó triển khai mô hình lớn trên một GPU đơn, có thể thử nghiệm suy luận phân mảnh mô hình
Mô phỏng phân tán cục bộ, pipeline dữ liệu tốc độ cao và nghiên cứu hệ thống phân tán mang tính thử nghiệm
Giảm mạnh chi phí xây dựng môi trường prototype/PoC trước khi chuyển sang trung tâm dữ liệu

4 bình luận

bus710 2025-12-14

Mạng Thunderbolt đúng là rất tiện
Vì có thể daisy chain nên cũng không cần hub

shakespeares 2025-12-13

Giờ chắc cũng sẽ khá nhiều người nối các thiết bị Mac lại để dựng một cụm suy luận rồi tự chạy dịch vụ tại nhà.

xguru 2025-12-13

Ghi chú phát hành chính thức của Apple chỉ có đúng một dòng nói rằng đã hỗ trợ "RDMA over Thunderbolt", nên đây là phần giải thích bổ sung được viết cho GN+.

GN⁺ 2025-12-13

Ý kiến trên Hacker News

Tôi đang theo dõi Twitter của đội ngũ MLX. Họ thường chia sẻ các trường hợp kết nối từ hai máy Mac trở lên để chạy các mô hình cần hơn 512GB RAM
Ví dụ có Kimi K2 Thinking (1T tham số) và DeepSeek R1 (671B). Trường hợp sau còn đi kèm Gist hướng dẫn thiết lập
- Những bài đăng này là ví dụ dùng song song hóa pipeline. Khi có N máy, mỗi máy sẽ nhận L/N lớp. Cách này không tăng tốc độ, nhưng cho phép chạy các mô hình lớn không thể chứa trong một máy đơn lẻ
  Trong bản phát hành Tahoe 26.2 sắp tới, song song hóa tensor sẽ khả dụng. Mỗi lớp sẽ được shard trên nhiều máy, nên với N máy có thể đạt gần N lần tốc độ. Tuy vậy, độ trễ giao tiếp vẫn là thách thức chính
- Tuần trước họ đã tiến hành thử nghiệm song song hóa tensor dựa trên RDMA. Liên kết thử nghiệm. Họ cũng nhắc đến cách обход cho fast sync
- Tôi hy vọng cách này sẽ không quá hấp dẫn với người không chuyên. Hiệu năng không mở rộng tốt với các workload song song hay xử lý ngữ cảnh
  Thay vào đó, nó phù hợp với cá nhân muốn thử nghiệm LLM tại chỗ, nhưng có lẽ sẽ không có lý do để các công ty nhiều tiền mua số lượng lớn thứ này thay cho GPU
- Điều đáng ngạc nhiên nhất là mức tiêu thụ điện. Hai máy cộng lại chỉ khoảng 50W, tôi còn nghi ngờ không biết mình có nhìn nhầm không
Tôi đã thử so sánh phần cứng cho suy luận với ngân sách $50.000
- Cụm Apple M3 Ultra ($50k): tối đa hóa dung lượng (3TB). Đây là lựa chọn duy nhất có thể chạy các mô hình 3T+ tham số (như Kimi K2), nhưng tốc độ thấp (~15 t/s)
- Workstation NVIDIA RTX 6000 ($50k): tối đa hóa thông lượng (>80 t/s). Rất tốt cho cả huấn luyện và suy luận, nhưng VRAM bị giới hạn ở 384GB nên chỉ chạy được các mô hình dưới 400B
- Để vừa có cùng dung lượng (3TB) vừa đạt thông lượng trên 100 t/s thì cần một cụm NVIDIA GH200 trị giá khoảng $270.000. Cụm Apple cung cấp 87% dung lượng đó với 18% chi phí
- Cũng có thể làm rẻ hơn nữa. Tôi đang chạy DeepSeek-R1 trên một workstation Xeon dual-socket (768GB RAM) giá $2.000 với tốc độ 1~2 token mỗi giây
- Tôi tò mò về cách tính cụm NVIDIA $50k. Nếu RTX 6000 khoảng $8k thì tầm 5 chiếc là 40k và có cỡ nửa TB. Dù vậy, cho suy luận thì Mac vẫn rất hiệu quả, và M5 Ultra có vẻ sẽ cho hiệu năng trên giá thành tốt hơn nữa
- Với cùng ngân sách đó, bạn cũng có thể mua 25 bo mạch desktop Framework (mỗi cái có 128GB VRAM, dùng Strix Halo). Tổng cộng là 3TB VRAM, nhưng việc gom thành cụm có lẽ sẽ khá thử thách
- Nếu tính đến tính năng tăng tốc song song vẫn chưa được triển khai, thì đây có vẻ là một thương vụ khá ổn cho môi trường suy luận on-premise
- Apple dùng LPDDR5X để giảm chi phí và tăng hiệu quả năng lượng, trong khi NVIDIA ưu tiên hiệu năng với GDDR/HBM
Giữa lúc thị trường RAM hỗn loạn như hiện nay, sẽ thật mỉa mai nếu nhờ chuỗi cung ứng ổn định của Apple mà máy tính Apple lại trở thành lựa chọn có giá trị tốt để xây cụm suy luận cỡ trung
- Nếu người dùng thương mại mua sạch những chiếc Mac ngon thì hơi phiền đấy
- Thực ra với một số nhu cầu thì chuyện đó đã xảy ra rồi
Ý tưởng ghép nhiều chiếc Mac Studio thành một cụm khiến tôi lo về các ràng buộc vật lý và quản trị
1. Vị trí nút nguồn khá bất tiện, nên khi rackmount sẽ không thoải mái
2. Thunderbolt rất tốt cho thiết bị ngoại vi, nhưng là interconnect dùng liên tục thì tôi lo về độ bền của cổng
3. Chất lượng cáp rất quan trọng. TB4/TB5 từng gặp nhiều vấn đề nếu không dùng cáp đắt tiền
4. Quản trị từ xa trên macOS kém hiệu quả hơn Linux. Ví dụ, muốn nâng cấp macOS 26.1 → 26.2 mà không dùng GUI thì khá khó. sudo softwareupdate -i -a chỉ xử lý được các bản cập nhật nhỏ
- Liên quan đến #2, dock của OWC có lỗ vít để cố định cáp. OWC Thunderbolt Dock và adapter ClingOn có thể giúp giảm áp lực lên cổng
- Vấn đề nút nguồn có thể giải quyết bằng vỏ RackMac Studio. Nó kéo dài nút bấm theo cơ chế cơ khí
- Dùng Thunderbolt làm interconnect máy chủ thì nhìn không đẹp lắm, nhưng nếu được cố định trong rack thì lại có ít áp lực vật lý hơn
- Nếu dùng giải pháp MDM, bạn không chỉ cập nhật phần mềm mà còn có cả LOM (quản lý nguồn từ xa). Cũng có MDM mã nguồn mở
- Phiên bản Mac Pro rackmount vẫn còn được bán, nhưng chưa được cập nhật lên M3 Ultra nên có vẻ sắp bị khai tử
Sẽ rất hay nếu Apple tự xây một đám mây dựa trên dòng M, tăng cường Metal cho AI và cung cấp các mô hình tự lưu trữ lấy quyền riêng tư làm trung tâm. Có lẽ họ sẽ rất thành công trong các ngành có nhiều dữ liệu nhạy cảm
- Đã có một khái niệm tương tự là Private Cloud Compute, nhưng chỉ dành cho iUser dùng các mô hình của Apple
- Trong trung tâm dữ liệu, thay vì bộ nhớ lớn trên từng GPU thì shard dựa trên interconnect tốc độ cao hiệu quả hơn. GPU của NVIDIA hay AMD vẫn vượt trội hơn về năng lực tính toán
Tôi tò mò liệu tính năng này có dùng được cho các workload phân tán thông thường ngoài AI hay không
- Tôi đã thử với HPL và mpirun, nhưng hiện RDMA vẫn chưa được hỗ trợ và chỉ dùng được kiểu Ring. Hơi thô nhưng vẫn chạy được
  Tham khảo: Hướng dẫn dùng MLX phân tán
Bài liên quan: Engadget - Xây siêu máy tính AI từ cụm máy Mac trong macOS Tahoe 26.2
George Hotz đã chạy GPU NVIDIA trên Mac qua USB4 bằng tinygrad
tweet của tinygrad
- Cũng có ví dụ chạy NVIDIA trên Mac Pro 2023 đang chạy Linux
Tôi không thật sự hiểu RDMA là gì, nhưng có phải nó có nghĩa là có thể kết nối nhiều máy Mac để chạy suy luận song song không? Nếu đúng vậy thì đây là một tính năng rất hay
- Thực ra đã có thể chạy suy luận trên nhiều máy Mac từ hơn 1 năm trước, nhưng giờ nó chạy nhanh hơn nhiều