💫 IPEX-LLM
IPEX-LLM là thư viện PyTorch để chạy LLM với độ trễ rất thấp trên CPU và GPU Intel.
- Được xây dựng dựa trên nhiều dự án xuất sắc như Intel Extension for PyTorch (
IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ.
- Cung cấp khả năng tích hợp liền mạch với
llama.cpp, Text-Generation-WebUI, HuggingFace transformers, v.v.
- Có hơn 50 mô hình đã được tối ưu hóa/xác thực trong
ipex-llm, và có thể xem danh sách đầy đủ tại đây.
Cập nhật mới nhất 🔥
bigdl-llm đã được đổi tên thành ipex-llm, và dự án BigDL gốc có thể được tìm thấy tại đây.
ipex-llm giờ đây có thể tải trực tiếp mô hình từ ModelScope(魔搭).
ipex-llm đã bổ sung hỗ trợ INT2, cho phép chạy các LLM lớn (ví dụ: Mixtral-8x7B) trên GPU Intel với 16GB VRAM.
- Người dùng giờ đây có thể sử dụng
ipex-llm thông qua GUI của Text-Generation-WebUI.
ipex-llm hiện hỗ trợ Self-Speculative Decoding, giúp tăng tốc độ trễ suy luận FP16 và BF16 khoảng 30% tương ứng trên GPU và CPU Intel.
ipex-llm giờ đây hỗ trợ danh sách toàn diện cho fine-tuning LLM trên GPU Intel.
Demo ipex-llm
- Có thể xem hiệu năng đã được tối ưu hóa của các mô hình
chatglm2-6b và llama-2-13b-chat trên CPU Intel Core thế hệ 12 và GPU Intel Arc ở bên dưới.
Bắt đầu nhanh với ipex-llm
Cài đặt ipex-llm
- Windows GPU: cài đặt
ipex-llm trên Windows có GPU Intel
- Linux GPU: cài đặt
ipex-llm trên Linux có GPU Intel
- Docker: sử dụng Docker
ipex-llm trên CPU và GPU Intel
- Tham khảo hướng dẫn cài đặt để biết thêm chi tiết
Chạy ipex-llm
- llama.cpp: chạy
ipex-llm cho llama.cpp trên GPU Intel
- vLLM: chạy
ipex-llm trong vLLM trên GPU và CPU Intel
- FastChat: chạy
ipex-llm trong dịch vụ FastChat trên GPU và CPU Intel
- LangChain-Chatchat RAG: chạy
ipex-llm trong LangChain-Chatchat
- Text-Generation-WebUI: chạy
ipex-llm trong WebUI của oobabooga
- Benchmarking: chạy benchmark của
ipex-llm trên CPU và GPU Intel
Ví dụ mã
- Suy luận low-bit
- Suy luận INT4: suy luận LLM INT4 trên GPU và CPU Intel
- Suy luận FP8/FP4: suy luận LLM FP8 và FP4 trên GPU Intel
- Suy luận INT8: suy luận LLM INT8 trên GPU và CPU Intel
- Suy luận INT2: suy luận LLM INT2 trên GPU Intel
- Suy luận FP16/BF16
- Suy luận LLM FP16: kèm tối ưu hóa self-speculative decoding khi khả dụng trên GPU Intel
- Suy luận LLM BF16: kèm tối ưu hóa self-speculative decoding khi khả dụng trên CPU Intel
- Lưu và tải
- Mô hình low-bit: lưu và tải mô hình low-bit của
ipex-llm
- GGUF: tải trực tiếp mô hình GGUF vào
ipex-llm
- AWQ: tải trực tiếp mô hình AWQ vào
ipex-llm
- GPTQ: tải trực tiếp mô hình GPTQ vào
ipex-llm
- Fine-tuning
- Fine-tuning LLM trên GPU Intel, bao gồm LoRA, QLoRA, DPO, QA-LoRA và ReLoRA
- Fine-tuning QLoRA trên CPU Intel
- Tích hợp với các thư viện cộng đồng
- HuggingFace transformers
- Mô hình PyTorch tiêu chuẩn
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
- Hướng dẫn
- Tham khảo website tài liệu
ipex-llm để biết thêm chi tiết
Các mô hình đã được xác thực
- Hơn 50 mô hình đã được tối ưu hóa/xác thực trong
ipex-llm bao gồm LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper, v.v., và có thể xem danh sách ở bên dưới.
Ý kiến của GN⁺
IPEX-LLM là một công cụ mạnh mẽ cho phép tối ưu hóa và chạy mô hình ngôn ngữ lớn trên phần cứng Intel, có thể mang lại nhiều hỗ trợ cho nghiên cứu và phát triển AI.
- Thư viện này được tích hợp với nhiều mô hình khác nhau, mang lại lợi thế giúp người dùng dễ dàng tiếp cận và khai thác.
- Tuy nhiên, vì được tối ưu riêng cho phần cứng Intel nên có thể không đảm bảo hiệu năng tối ưu trên phần cứng của các nhà sản xuất khác.
- Khi áp dụng công nghệ này, cần có sự hiểu biết đầy đủ về khả năng tương thích phần cứng và tinh chỉnh hiệu năng.
- Công cụ này cho phép đẩy nhanh quá trình suy luận và fine-tuning các mô hình ngôn ngữ lớn, từ đó góp phần tiết kiệm thời gian và tài nguyên.
1 bình luận
Ý kiến trên Hacker News
Kỳ vọng về một cuộc cách mạng VRAM GPU
Đánh giá tích cực về hỗ trợ phần mềm của Intel
Yêu cầu gợi ý về GPU Intel
Quan tâm đến benchmark hiệu năng
Đề xuất cải thiện tính tiện dụng khi dùng GPU đám mây
Các nhà cung cấp đám mây không có GPU Intel
Bày tỏ mong đợi về bài đánh giá sản phẩm