21 điểm bởi GN⁺ 2024-07-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hãy quên những GPU NVIDIA đắt đỏ đi, bạn có thể gom các thiết bị sẵn có như iPhone, iPad, Android, Mac, Linux thành một GPU mạnh mẽ duy nhất
  • Hỗ trợ LLaMA và nhiều mô hình khác
  • Với "phân vùng mô hình động", mô hình được chia tối ưu dựa trên topology mạng hiện tại và tài nguyên thiết bị khả dụng
    • Có thể chạy các mô hình lớn hơn mức một thiết bị đơn lẻ có thể xử lý
  • Tự động phát hiện thiết bị để tìm các máy khác
  • Cung cấp API tương thích ChatGPT
  • Các thiết bị kết nối theo kiểu p2p thay vì cấu trúc Master-Worker (chiến lược phân chia mặc định là ring memory-weighted partitioning)
  • Hỗ trợ các engine suy luận:
    • ✅ MLX
    • ✅ tinygrad
    • 🚧 llama.cpp
  • Hỗ trợ các mô-đun mạng:
    • ✅ GRPC
    • 🚧 Radio
    • 🚧 Bluetooth
  • Vấn đề đã biết
    • Thư viện đang phát triển rất nhanh nên phần triển khai iOS đang chậm hơn bản Python
    • Về lâu dài, dự án dự định thúc đẩy một cách tiếp cận hợp nhất để không cần duy trì các bản triển khai riêng biệt

Tóm tắt của GN⁺

  • exo là phần mềm thử nghiệm có thể hợp nhất nhiều thiết bị khác nhau thành một cụm AI mạnh mẽ duy nhất
  • Cung cấp nhiều tính năng như tự động phát hiện thiết bị, phân chia mô hình động, giúp chạy được các mô hình lớn hơn so với một thiết bị đơn lẻ
  • Cung cấp API tương thích ChatGPT để dễ dàng chạy mô hình
  • Đang thúc đẩy một cách tiếp cận hợp nhất để giải quyết vấn đề phần triển khai iOS bị chậm hơn

1 bình luận

 
GN⁺ 2024-07-17
Ý kiến trên Hacker News
  • Cần mlx, một thư viện chỉ dành cho Apple Silicon. Họ nói nó chạy được trên "iPhone, iPad, Android, Mac, Linux, pretty much any device", nhưng tôi nghi ngờ không biết đã từng được kiểm thử thực tế hay chưa
  • Tôi đang suy nghĩ về cách biến hệ thống được tối ưu cho mạng cục bộ này thành thứ có thể dùng crowdsourcing một cách dễ dàng. Tôi đang tìm cách để mọi người trong văn phòng có thể dễ dàng tham gia mạng, hoặc quét mã QR để đóng góp cho các mô hình theo miền cụ thể
  • Ý tưởng này rất tuyệt và thân thiện với người dùng. Nó có thể biến nhiều thiết bị cũ thành thứ hữu ích. Nhưng tôi muốn họ cung cấp kết quả về tok, độ trễ và cấu hình ví dụ
  • Tôi đã chạy paddler trên GitHub trên Windows để cân bằng tải giữa hai thiết bị. Nó sẽ hữu ích để chạy Llama 400B trên nhiều thiết bị. Nhưng hiện vẫn chưa có hỗ trợ Windows
  • Tính năng này cho phép chạy các mô hình lớn hơn mức một thiết bị đơn có thể chạy được. Tuy nhiên, còn thiếu giải thích về cách nó thực sự hoạt động. Ví dụ, nếu một số lớp của mạng nơ-ron nằm trên deviceA và các lớp khác nằm trên deviceB, thì mỗi lần tạo token sẽ phải truyền dữ liệu đầu ra của lớp cuối trên deviceA sang deviceB
  • Điện toán swarm nên trở thành tiêu chuẩn của mọi hình thức điện toán. Có quá nhiều CPU không được sử dụng trên tất cả các thiết bị mà chúng ta sở hữu
  • Nó sẽ không hoạt động vì nút thắt cổ chai mạng. Phải truyền đi hàng gigabyte dữ liệu. Vì vậy sẽ cần Internet tốt (trên 20mb/s) và thiết bị tốt. Hệ thống này rồi cũng sẽ chỉ dừng lại ở một bản demo ngầu trên Twitter. Mong ai đó chứng minh là tôi sai
  • Cloud không thể bị đánh bại về mặt sức mạnh tính toán/giá cả, nhưng chuyển sang cục bộ có thể giải quyết vấn đề quyền riêng tư. Thế giới cần một Tu chính án thứ hai cho điện toán
  • Trước đây tôi từng hứng thú với việc chạy mô hình cục bộ trên Mac, PC, v.v. Nhưng giờ tôi nghĩ phần lớn tác vụ AI hữu ích sẽ diễn ra trên cloud. Bạn có thể chạy một mô hình Llama3 chậm trên mạng gia đình, nhưng chẳng có lý do gì phải làm vậy khi có thể chạy trên dịch vụ cloud với giá rẻ hoặc miễn phí. Apple đang thúc đẩy các mô hình AI cục bộ, nhưng tôi có lo ngại nghiêm trọng về tác động của chúng tới thời lượng pin
  • Các cụm lớn dùng mạng RDMA còn báo cáo rằng overhead giao tiếp là nút thắt cổ chai, nên tôi thắc mắc làm sao hệ thống này có thể tránh gặp nút thắt cổ chai lớn trên mạng gia đình