- Hãy quên những GPU NVIDIA đắt đỏ đi, bạn có thể gom các thiết bị sẵn có như iPhone, iPad, Android, Mac, Linux thành một GPU mạnh mẽ duy nhất
- Hỗ trợ LLaMA và nhiều mô hình khác
- Với "phân vùng mô hình động", mô hình được chia tối ưu dựa trên topology mạng hiện tại và tài nguyên thiết bị khả dụng
- Có thể chạy các mô hình lớn hơn mức một thiết bị đơn lẻ có thể xử lý
- Tự động phát hiện thiết bị để tìm các máy khác
- Cung cấp API tương thích ChatGPT
- Các thiết bị kết nối theo kiểu p2p thay vì cấu trúc Master-Worker (chiến lược phân chia mặc định là ring memory-weighted partitioning)
- Hỗ trợ các engine suy luận:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- Hỗ trợ các mô-đun mạng:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- Vấn đề đã biết
- Thư viện đang phát triển rất nhanh nên phần triển khai iOS đang chậm hơn bản Python
- Về lâu dài, dự án dự định thúc đẩy một cách tiếp cận hợp nhất để không cần duy trì các bản triển khai riêng biệt
Tóm tắt của GN⁺
- exo là phần mềm thử nghiệm có thể hợp nhất nhiều thiết bị khác nhau thành một cụm AI mạnh mẽ duy nhất
- Cung cấp nhiều tính năng như tự động phát hiện thiết bị, phân chia mô hình động, giúp chạy được các mô hình lớn hơn so với một thiết bị đơn lẻ
- Cung cấp API tương thích ChatGPT để dễ dàng chạy mô hình
- Đang thúc đẩy một cách tiếp cận hợp nhất để giải quyết vấn đề phần triển khai iOS bị chậm hơn
1 bình luận
Ý kiến trên Hacker News
mlx, một thư viện chỉ dành cho Apple Silicon. Họ nói nó chạy được trên "iPhone, iPad, Android, Mac, Linux, pretty much any device", nhưng tôi nghi ngờ không biết đã từng được kiểm thử thực tế hay chưapaddlertrên GitHub trên Windows để cân bằng tải giữa hai thiết bị. Nó sẽ hữu ích để chạy Llama 400B trên nhiều thiết bị. Nhưng hiện vẫn chưa có hỗ trợ Windows