1 điểm bởi GN⁺ 2023-12-21 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

PowerInfer: Phục vụ mô hình ngôn ngữ lớn quy mô lớn nhanh bằng GPU tiêu dùng

  • PowerInfer là một engine suy luận LLM CPU/GPU tận dụng tính cục bộ của kích hoạt.
  • PowerInfer và llama.cpp chạy trên cùng phần cứng và tận dụng hoàn toàn VRAM của RTX 4090.

Tổng quan

  • PowerInfer là một engine thực hiện suy luận mô hình ngôn ngữ lớn (LLM) tốc độ cao bằng một GPU tiêu dùng đơn lẻ được trang bị trên máy tính cá nhân (PC).
  • Nền tảng thiết kế của PowerInfer là khai thác mức cục bộ cao xuất hiện trong suy luận LLM, với đặc trưng là phân bố lũy thừa trong kích hoạt neuron.
  • Phân bố này cho thấy một số ít neuron “nóng” được kích hoạt ổn định, còn phần lớn neuron “lạnh” thay đổi theo đầu vào.
  • PowerInfer tận dụng nhận định này để thiết kế engine suy luận lai GPU-CPU: các neuron “nóng” được nạp sẵn lên GPU, còn các neuron “lạnh” được tính trên CPU, từ đó giảm mạnh yêu cầu bộ nhớ GPU và truyền dữ liệu giữa CPU-GPU.
  • PowerInfer tích hợp bộ dự đoán thích ứng và toán tử thưa nhận biết neuron để tối ưu hiệu quả của kích hoạt neuron và độ thưa trong tính toán.
  • Kết quả đánh giá cho thấy PowerInfer đạt tốc độ sinh token trung bình 13.20 token/giây, tối đa 29.08 token/giây với nhiều LLM khác nhau (ví dụ: OPT-175B) trên một GPU NVIDIA RTX 4090, chỉ thấp hơn 18% so với GPU A100 cấp máy chủ.
  • Giữ nguyên độ chính xác của mô hình trong khi nhanh hơn llama.cpp tới 11.69 lần.

Tính năng

  • Thiết kế lấy tính cục bộ làm trung tâm: tận dụng kích hoạt thưa và khái niệm neuron “nóng”/“lạnh” để suy luận LLM hiệu quả, đảm bảo tốc độ cao với yêu cầu tài nguyên thấp.

  • Khai thác CPU/GPU lai: tích hợp liền mạch khả năng bộ nhớ/tính toán của CPU và GPU để cân bằng tải công việc và xử lý nhanh.

  • Tích hợp đơn giản: tương thích với các mô hình thưa dựa trên ReLU phổ biến.

  • Dễ triển khai cục bộ: được tối ưu sâu cho triển khai cục bộ trên phần cứng tiêu dùng, cho phép suy luận và phục vụ LLM độ trễ thấp trên một GPU duy nhất.

  • Tương thích ngược: tuy khác llama.cpp, nhưng có thể dùng hầu hết examples/ như llama.cpp, chẳng hạn phục vụ máy chủ và sinh theo lô.

Bắt đầu

  • Cung cấp hướng dẫn cài đặttrọng số mô hình.

Cấu hình và cài đặt

  • Hướng dẫn cách lấy mã nguồn và build.

Trọng số mô hình

  • Mô hình PowerInfer được lưu ở định dạng PowerInfer GGUF, bao gồm trọng số LLM và trọng số bộ dự đoán.
  • Có thể tải trọng số PowerInfer GGUF qua Hugging Face.
  • Hướng dẫn cách chuyển đổi trọng số mô hình gốc và trọng số bộ dự đoán sang PowerInfer GGUF.

Suy luận

  • Cung cấp hướng dẫn cho suy luận chỉ dùng CPU hoặc suy luận lai CPU-GPU sử dụng toàn bộ VRAM khả dụng.

Lượng tử hóa

  • Hướng dẫn hỗ trợ lượng tử hóa tối ưu cho mô hình INT4(Q4_0) và cách sử dụng.

Đánh giá

  • PowerInfer đạt mức tăng tốc tới 11 lần và 8 lần tương ứng cho mô hình FP16 và INT4.

Câu hỏi thường gặp

  • Hướng dẫn hỗ trợ khắc phục lỗi CUDA_ERROR_OUT_OF_MEMORY và xử lý các vấn đề khác.

Việc cần làm

  • Giới thiệu kế hoạch phát hành mã lõi của PowerInfer, mô hình Mistral-7B, hỗ trợ Windows, text-generation-webui, mã đánh giá perplexity, hỗ trợ Metal cho Mac, mã mô hình OPT, mã huấn luyện bộ dự đoán, phân tách trực tuyến cho mạng FFN, hỗ trợ Multi-GPU, v.v.

Bài báo và trích dẫn

  • Có thể xem chi tiết kỹ thuật của PowerInfer trong bài báo.
  • Nếu PowerInfer hữu ích hoặc hỗ trợ cho dự án và nghiên cứu liên quan, nhóm phát triển đề nghị trích dẫn bài báo.

Lời cảm ơn

  • Cảm ơn thư viện toán tử có thể sửa đổi ggml và runtime thực thi của llama.cpp.
  • Cảm ơn sự hỗ trợ của THUNLP đối với các mô hình thưa dựa trên ReLU.
  • Cảm ơn nghiên cứu Deja Vu đã truyền cảm hứng cho PowerInfer.

GN⁺ nhận định

  • PowerInfer là một engine đột phá cho phép suy luận mô hình ngôn ngữ lớn nhanh và hiệu quả bằng GPU tiêu dùng.
  • Thông qua khái niệm neuron “nóng”/“lạnh” và khai thác CPU/GPU lai, nó mang lại tốc độ suy luận tiệm cận cấp máy chủ trong khi vẫn tiết kiệm tài nguyên.
  • Công nghệ này mở ra cơ hội để nhà phát triển cá nhân hoặc nhóm nhỏ thử nghiệm và triển khai các mô hình hiệu năng cao mà không cần tiếp cận phần cứng cấp máy chủ trong nghiên cứu và phát triển AI.

Chưa có bình luận nào.

Chưa có bình luận nào.