- macOS Tahoe 26.2 mới bổ sung tính năng RDMA dựa trên Thunderbolt 5, cho phép giao tiếp độ trễ thấp như suy luận AI phân tán với MLX
- Điều này có nghĩa là "có thể xem Mac như các nút tính toán phân tán tốc độ cao", giúp macOS vượt ra ngoài vai trò một hệ điều hành desktop đơn thuần để mở rộng thành nền tảng thử nghiệm AI cục bộ và HPC
RDMA là gì
- RDMA(Remote Direct Memory Access) là phương thức giao tiếp trong đó một máy tính truy cập trực tiếp vào bộ nhớ của máy khác mà không cần CPU can thiệp
- Nó bỏ qua network stack, sao chép qua kernel và context switch để giảm độ trễ (latency) xuống mức cực thấp và tăng mạnh thông lượng
- Công nghệ này chủ yếu được dùng trong các mạng trung tâm dữ liệu như InfiniBand và RoCE
- Đây đã trở thành công nghệ tiêu chuẩn trong tính toán hiệu năng cao (HPC), lưu trữ phân tán và huấn luyện/suy luận AI quy mô lớn
- Điểm cốt lõi là "dù là giao tiếp qua mạng nhưng vẫn hoạt động nhanh như thể đang dùng chung một vùng nhớ"
Ý nghĩa của RDMA over Thunderbolt
- Trên macOS 26.2, giao tiếp RDMA được hỗ trợ giữa các máy Mac kết nối bằng Thunderbolt 5
- Nếu trước đây RDMA bị giới hạn trong thiết bị mạng cấp máy chủ, thì giờ đây nó cũng có thể dùng trên cụm Mac cục bộ chỉ nối với nhau bằng một sợi cáp
- Có thể tận dụng trực tiếp băng thông cao và độ trễ cực thấp của Thunderbolt theo mô hình RDMA
- Nói cách khác, nay đã có "một con đường để gộp nhiều máy Mac trên bàn làm việc lại như một trung tâm dữ liệu"
Vì sao phù hợp với workload AI
- Trong huấn luyện hoặc suy luận AI phân tán, việc trao đổi tensor giữa các node rất dễ trở thành nút thắt cổ chai
- RDMA giúp quá trình này không tiêu tốn CPU mà vẫn cung cấp mẫu giao tiếp gần với GPU ↔ GPU
- Suy luận AI phân tán dựa trên MLX được nhắc đến trong release note là một kiến trúc được thiết kế với giả định có sẵn kiểu giao tiếp độ trễ thấp, băng thông cao như vậy
- Mở rộng khả năng chia mô hình lên nhiều máy Mac và xây dựng cụm suy luận vận hành như một máy đơn
- Với các nhóm nhỏ hoặc môi trường nghiên cứu, việc "dùng Mac để dựng cụm AI mà không cần máy chủ" trở thành một lựa chọn thực tế
Các kịch bản sử dụng nay trở nên khả thi
- Kết nối nhiều máy Mac Studio / Mac Pro bằng Thunderbolt để tạo một farm suy luận AI cục bộ
- Khi khó triển khai mô hình lớn trên một GPU đơn, có thể thử nghiệm suy luận phân mảnh mô hình
- Mô phỏng phân tán cục bộ, pipeline dữ liệu tốc độ cao và nghiên cứu hệ thống phân tán mang tính thử nghiệm
- Giảm mạnh chi phí xây dựng môi trường prototype/PoC trước khi chuyển sang trung tâm dữ liệu
4 bình luận
Mạng Thunderbolt đúng là rất tiện
Vì có thể daisy chain nên cũng không cần hub
Giờ chắc cũng sẽ khá nhiều người nối các thiết bị Mac lại để dựng một cụm suy luận rồi tự chạy dịch vụ tại nhà.
Ghi chú phát hành chính thức của Apple chỉ có đúng một dòng nói rằng đã hỗ trợ "RDMA over Thunderbolt", nên đây là phần giải thích bổ sung được viết cho GN+.
Ý kiến trên Hacker News
Tôi đang theo dõi Twitter của đội ngũ MLX. Họ thường chia sẻ các trường hợp kết nối từ hai máy Mac trở lên để chạy các mô hình cần hơn 512GB RAM
Ví dụ có Kimi K2 Thinking (1T tham số) và DeepSeek R1 (671B). Trường hợp sau còn đi kèm Gist hướng dẫn thiết lập
Trong bản phát hành Tahoe 26.2 sắp tới, song song hóa tensor sẽ khả dụng. Mỗi lớp sẽ được shard trên nhiều máy, nên với N máy có thể đạt gần N lần tốc độ. Tuy vậy, độ trễ giao tiếp vẫn là thách thức chính
Thay vào đó, nó phù hợp với cá nhân muốn thử nghiệm LLM tại chỗ, nhưng có lẽ sẽ không có lý do để các công ty nhiều tiền mua số lượng lớn thứ này thay cho GPU
Tôi đã thử so sánh phần cứng cho suy luận với ngân sách $50.000
Giữa lúc thị trường RAM hỗn loạn như hiện nay, sẽ thật mỉa mai nếu nhờ chuỗi cung ứng ổn định của Apple mà máy tính Apple lại trở thành lựa chọn có giá trị tốt để xây cụm suy luận cỡ trung
Ý tưởng ghép nhiều chiếc Mac Studio thành một cụm khiến tôi lo về các ràng buộc vật lý và quản trị
sudo softwareupdate -i -achỉ xử lý được các bản cập nhật nhỏSẽ rất hay nếu Apple tự xây một đám mây dựa trên dòng M, tăng cường Metal cho AI và cung cấp các mô hình tự lưu trữ lấy quyền riêng tư làm trung tâm. Có lẽ họ sẽ rất thành công trong các ngành có nhiều dữ liệu nhạy cảm
Tôi tò mò liệu tính năng này có dùng được cho các workload phân tán thông thường ngoài AI hay không
Tham khảo: Hướng dẫn dùng MLX phân tán
Bài liên quan: Engadget - Xây siêu máy tính AI từ cụm máy Mac trong macOS Tahoe 26.2
George Hotz đã chạy GPU NVIDIA trên Mac qua USB4 bằng tinygrad
tweet của tinygrad
Tôi không thật sự hiểu RDMA là gì, nhưng có phải nó có nghĩa là có thể kết nối nhiều máy Mac để chạy suy luận song song không? Nếu đúng vậy thì đây là một tính năng rất hay