- Bài viết giới thiệu Petals, một công nghệ mới cho phép người dùng chạy các mô hình ngôn ngữ lớn (LLMs) tại nhà theo cách tương tự BitTorrent.
- Petals hỗ trợ nhiều LLM và các biến thể của chúng như Llama 2 (70B), Falcon (180B), BLOOM (176B).
- Công nghệ này hoạt động bằng cách tải một phần mô hình lên thiết bị của người dùng, sau đó kết nối với mạng lưới những người dùng khác cung cấp các phần còn lại.
- Petals cung cấp tốc độ suy luận một lô là 6 token/giây với Llama 2 và 4 token/giây với Falcon. Tốc độ này đủ cho chatbot và các ứng dụng tương tác.
- Petals vượt xa API LLM cổ điển bằng cách cho phép người dùng sử dụng bất kỳ phương pháp tinh chỉnh và lấy mẫu nào, chạy các tuyến tùy chỉnh qua mô hình, hoặc xem các trạng thái ẩn.
- Petals kết hợp tính linh hoạt của PyTorch và 🤗 Transformers với sự tiện lợi của API.
- Người dùng có thể thử Petals trên Google Colab và xem tài liệu trên GitHub.
- Bài viết liệt kê những người đóng góp chính cho dự án và cung cấp liên kết để đóng góp GPU.
- Người dùng có thể theo dõi quá trình phát triển của Petals qua Discord hoặc đăng ký email.
- Dự án này là một phần của hội thảo nghiên cứu BigScience.
1 bình luận
Ý kiến trên Hacker News