2 điểm bởi GN⁺ 2023-09-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết giới thiệu Petals, một công nghệ mới cho phép người dùng chạy các mô hình ngôn ngữ lớn (LLMs) tại nhà theo cách tương tự BitTorrent.
  • Petals hỗ trợ nhiều LLM và các biến thể của chúng như Llama 2 (70B), Falcon (180B), BLOOM (176B).
  • Công nghệ này hoạt động bằng cách tải một phần mô hình lên thiết bị của người dùng, sau đó kết nối với mạng lưới những người dùng khác cung cấp các phần còn lại.
  • Petals cung cấp tốc độ suy luận một lô là 6 token/giây với Llama 24 token/giây với Falcon. Tốc độ này đủ cho chatbot và các ứng dụng tương tác.
  • Petals vượt xa API LLM cổ điển bằng cách cho phép người dùng sử dụng bất kỳ phương pháp tinh chỉnh và lấy mẫu nào, chạy các tuyến tùy chỉnh qua mô hình, hoặc xem các trạng thái ẩn.
  • Petals kết hợp tính linh hoạt của PyTorch🤗 Transformers với sự tiện lợi của API.
  • Người dùng có thể thử Petals trên Google Colab và xem tài liệu trên GitHub.
  • Bài viết liệt kê những người đóng góp chính cho dự án và cung cấp liên kết để đóng góp GPU.
  • Người dùng có thể theo dõi quá trình phát triển của Petals qua Discord hoặc đăng ký email.
  • Dự án này là một phần của hội thảo nghiên cứu BigScience.

1 bình luận

 
GN⁺ 2023-09-18
Ý kiến trên Hacker News
  • Bài viết về một phương pháp mới để chạy mô hình ngôn ngữ lớn (LLMs) tại nhà theo cách tương tự BitTorrent
  • Trọng số mô hình được chia thành các lớp trên nhiều máy để cùng phối hợp thực hiện suy luận hoặc tinh chỉnh
  • Một dự án tên là Ollama đang được phát triển, lưu trữ trọng số mô hình trên Docker registry để đảm bảo mỗi lần đều tải đúng trọng số cần thiết
  • Việc sử dụng lượng tử hóa/QLORA cho phép chạy các mô hình lớn trên phần cứng tiêu dùng với tốc độ chấp nhận được, đồng thời tránh độ trễ do tính song song giữa các máy chủ khác nhau
  • Việc tinh chỉnh các mô hình lớn như 70B là thách thức và đòi hỏi tài nguyên đắt đỏ, có đề xuất đóng góp tập thể kiểu "llama training horde"
  • Có lo ngại về điểm yếu của hệ thống, khi các bên tham gia độc hại có thể thay đổi đầu ra hoặc trả về kết quả rác để phá hoại hệ thống
  • Petals, một phần của dự án, cho phép người dùng chia sẻ GPU và đóng góp mã, mang lại trải nghiệm lập trình quen thuộc
  • Hệ thống có thể cung cấp một lượng token phân bổ nhất định, nên có thể mang lại lợi ích cho người dùng thiết bị cấu hình thấp
  • Dự án được xem là một yếu tố có thể thay đổi cuộc chơi, giúp nhiều nhà phát triển trong lĩnh vực này tiếp cận dễ dàng hơn
  • Petals vận hành một hệ thống khuyến khích tập trung tương tự AI Horde kudos, dù ở các khía cạnh khác thì đây là một hệ thống phân tán. Phần thưởng không thể đổi thành tiền và được thiết kế để sử dụng trong hệ thống
  • Một số người dùng gặp vấn đề về phiên bản phụ thuộc khi cố gắng chia sẻ GPU
  • Có đề xuất dùng "token" cho chu kỳ GPU, cùng ý tưởng chạy theo ánh nắng mặt trời để tối đa hóa việc sử dụng năng lượng điện mặt trời PV