Petals - vận hành mô hình ngôn ngữ 100B+ tại nhà theo phong cách BitTorrent
(github.com/bigscience-workshop)- Chạy "cùng nhau" các mô hình ngôn ngữ siêu lớn như BLOOM-176B
- Kết nối GPU của bạn vào Petals
- Mỗi người tải một phần của mô hình và cùng những người khác thực hiện suy luận và tinh chỉnh
- Suy luận đạt khoảng 1 giây mỗi bước (token), nhanh hơn offloading 10 lần nên đủ dùng cho chatbot và các ứng dụng hội thoại khác
- Suy luận song song có thể đạt hàng trăm token mỗi giây
- Đang triển khai cơ chế khuyến khích rõ ràng (Bloom points) cho những người cung cấp thời gian GPU
3 bình luận
hay quá!!
Ơ, không phải bài này...
Ngay cả bản BLOOM-7B nhỏ hơn nhiều nếu tự chạy cục bộ thì nghe nói cũng mất khoảng 90 giây trên Ryzen (16 nhân) + RAM 32GB. Nếu chạy tốt đúng như họ nói thì cũng khá ổn đấy.. nhưng mà.. cảm giác hơi giống blockchain.. (Thep lời nhà phát triển thì họ không dùng blockchain)