Thư viện PyTorch để chạy LLM trên CPU và GPU Intel

(github.com/intel-analytics)

1 điểm bởi GN⁺ 2024-04-05 | 1 bình luận | Chia sẻ qua WhatsApp

IPEX-LLM là thư viện dành cho PyTorch giúp tăng tốc LLM trên Intel GPU, NPU và CPU, nhưng dự án hiện đã được lưu trữ và Intel không bảo đảm phát triển hay hỗ trợ
Phạm vi hỗ trợ bao gồm iGPU trên PC cục bộ, GPU rời như Arc·Flex·Max, Intel Core Ultra NPU và CPU; tích hợp với llama.cpp, Ollama, vLLM, HuggingFace transformers, LangChain, LlamaIndex, v.v.
Hơn 70 mô hình đã được tối ưu hóa hoặc kiểm chứng trên ipex-llm, bao gồm Llama, Phi, Mistral, Mixtral, DeepSeek, Qwen, ChatGLM, MiniCPM, Qwen-VL, MiniCPM-V, v.v.
Các cập nhật mới nhất bao gồm việc chạy DeepSeek V3/R1 671B và Qwen3MoE 235B bằng FlashMoE trên 1–2 GPU Intel Arc, hỗ trợ ipex-llm 2.2.0, PyTorch 2.6 GPU, Ollama và llama.cpp Portable Zip
README nêu rõ có vấn đề bảo mật đã biết; Intel không bảo đảm bảo trì, sửa lỗi, phát hành mới hay cập nhật, và cũng không còn nhận bản vá nữa

Trạng thái dự án và mục đích cơ bản

IPEX-LLM là thư viện tăng tốc LLM nhằm tăng tốc LLM trên phần cứng Intel
Phần cứng mục tiêu là Intel GPU, NPU và CPU
- Ví dụ GPU gồm iGPU trên PC cục bộ, GPU rời như Arc, Flex, Max
- NPU nhắm đến dòng Intel Core Ultra
Phần đầu dự án nêu rõ trạng thái đã lưu trữ
- Intel không cung cấp hoặc bảo đảm việc phát triển hay hỗ trợ
- Không bảo đảm bảo trì, sửa lỗi, phát hành mới hay cập nhật
- Intel không còn nhận bản vá cho dự án này
- Có các vấn đề bảo mật đã biết

Hệ sinh thái được tích hợp

ipex-llm liên kết với nhiều công cụ chạy, serving và phát triển LLM
- llama.cpp
- Ollama
- vLLM
- HuggingFace transformers
- LangChain
- LlamaIndex
- Text-Generation-WebUI
- DeepSpeed-AutoTP
- FastChat
- Axolotl
- HuggingFace PEFT
- HuggingFace TRL
- AutoGen
- ModelScope
Tài liệu bắt đầu nhanh bao quát Ollama, llama.cpp, Arc B580, NPU, PyTorch/HuggingFace, vLLM, FastChat, serving đa Intel GPU, Text-Generation-WebUI, Axolotl và benchmarking
Hướng dẫn Docker bao gồm suy luận C++ GPU, suy luận Python GPU, vLLM GPU·CPU, FastChat GPU và môi trường phát triển GPU trên VSCode

Mô hình và phạm vi tối ưu hóa

README cho biết hơn 70 mô hình đã được tối ưu hóa hoặc kiểm chứng trên ipex-llm
Các nhóm mô hình ví dụ gồm
- Dòng LLaMA/LLaMA2/LLaMA 3
- Mistral, Mixtral, Gemma
- LLaVA, Whisper
- ChatGLM2/ChatGLM3
- Baichuan/Baichuan2
- Dòng Qwen/Qwen-1.5/Qwen2
- InternLM
- DeepSeek, MiniCPM, Qwen-VL, MiniCPM-V, v.v.
Độ chính xác được hỗ trợ và lượng tử hóa được cấu thành xoay quanh suy luận low-bit
- FP8, FP6, FP4, INT4
- INT8
- INT2 được cung cấp dựa trên cơ chế IQ2 của llama.cpp
Ví dụ lưu và tải bao gồm tải mô hình low-bit như INT4, FP4, FP6, INT8, FP8, FP16 cùng các mô hình GGUF, AWQ, GPTQ

Tính năng được nhấn mạnh trong các cập nhật mới nhất

Bản cập nhật tháng 5/2025 cho biết có thể chạy DeepSeek V3/R1 671B và Qwen3MoE 235B bằng FlashMoE của ipex-llm trên 1–2 GPU Intel Arc
- GPU ví dụ là Arc A770 hoặc B580
Tháng 4/2025, ipex-llm 2.2.0 được phát hành, bao gồm Ollama Portable Zip và llama.cpp Portable Zip
llama.cpp Portable Zip đi kèm cảnh báo bảo mật
- Việc tải mô hình dựa trên mmap có thể làm rò rỉ dữ liệu qua kênh bên trong môi trường multi-tenant hoặc host dùng chung
- Có thể vô hiệu hóa mmap bằng tùy chọn --no-mmap
Tháng 4/2025, hỗ trợ PyTorch 2.6 cho Intel GPU được bổ sung
Tháng 3/2025, hỗ trợ mô hình Gemma3 và nội dung chạy DeepSeek-R1-671B-Q4_K_M trên 1–2 Arc A770 với Xeon được bổ sung
Tháng 2/2025, Ollama Portable Zip cho Intel GPU, llama.cpp Portable Zip cho Intel GPU·NPU và hỗ trợ vLLM 0.6.6 trên Intel Arc GPU được bổ sung
Tháng 12/2024, hỗ trợ Python và C++ cho Intel Core Ultra NPU được bổ sung; các dòng mục tiêu là 100H, 200V, 200K, 200H

Demo và dữ liệu hiệu năng·độ chính xác

Demo cung cấp ví dụ chạy LLM cục bộ trên Intel Core Ultra iGPU, Intel Core Ultra NPU, một Arc GPU và nhiều Arc GPU
- Intel Core Ultra iGPU: chạy Mistral-7B Q4_K bằng Ollama
- Intel Core Ultra NPU: chạy Llama3.2-3B SYM_INT4 bằng HuggingFace
- 2 Intel Arc dGPU: chạy DeepSeek-R1-Distill-Qwen-32B Q4_K bằng llama.cpp
- Intel Xeon + Arc dGPU: chạy Qwen3MoE-235B Q4_K bằng FlashMoE
Phần hiệu năng cung cấp dữ liệu về tốc độ sinh token trên Intel Core Ultra và Intel Arc GPU
Có thể tự chạy benchmark hiệu năng ipex-llm thông qua hướng dẫn benchmarking
Phần độ chính xác mô hình cung cấp kết quả Perplexity đo trên bộ dữ liệu Wikitext
- Các độ chính xác so sánh là sym_int4, q4_k, fp6, fp8_e5m2, fp8_e4m3, fp16
- Các mô hình mục tiêu gồm Llama-2-7B-chat-hf, Mistral-7B-Instruct-v0.2, Baichuan2-7B-chat, Qwen1.5-7B-chat, Llama-3.1-8B-Instruct, gemma-2-9b-it, v.v.
Hiệu năng thay đổi tùy theo cách sử dụng, cấu hình và các yếu tố khác; ipex-llm có thể không được tối ưu hóa ở cùng mức trên các sản phẩm không phải của Intel

Ví dụ phát triển và sử dụng

Ví dụ mã được chia thành suy luận low-bit, suy luận FP16/BF16, suy luận phân tán, lưu·tải, fine-tuning và tích hợp thư viện cộng đồng
Fine-tuning trên Intel GPU bao gồm LoRA, QLoRA, DPO, QA-LoRA, ReLoRA
Ví dụ fine-tuning QLoRA cũng được cung cấp trên Intel CPU
Hướng dẫn ứng dụng bao quát quy trình sử dụng ipex-llm trong GraphRAG, RAGFlow, LangChain-Chatchat, Continue, Open WebUI, PrivateGPT, Dify
Tài liệu API cung cấp API Auto Classes theo phong cách HuggingFace Transformers và API tối ưu hóa mô hình PyTorch tùy ý

1 bình luận

GN⁺ 2024-04-05

Ý kiến trên Hacker News

Công ty từng cố chấp với 4 nhân quá lâu có cơ hội gỡ lại ở thế hệ GPU tiêu dùng tiếp theo bằng cách phá vỡ tình trạng mắc kẹt ở 8~16GB VRAM mà AMD và Nvidia gần như đã áp đặt trong 10 năm qua
Nếu có 32~48GB với mức giá không quá nặng, đó sẽ là một cảnh khá nên thơ, và Intel có vẻ cũng đang đi đúng hướng về mặt hỗ trợ phần mềm
- Intel đang bắt kịp Nvidia trong lĩnh vực AI, lý do lớn nhất là sản phẩm của họ thiếu sức cạnh tranh
  Intel Arc A770 16GB ra mắt tháng 10/2022 có giá khoảng 300 USD, còn Nvidia 4060 Ti 16GB khoảng 500 USD, nhưng trong các tác vụ AI thực tế, 4060 Ti nhanh gần gấp đôi: https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-120...
  Vấn đề còn lớn hơn ở chỗ về lý thuyết Arc A770 nhanh hơn. Xét theo TFLOPS, hiệu năng của nó hơn gấp đôi Nvidia 4060: https://cdn.mos.cms.futurecdn.net/Q7WgNxqfgyjCJ5kk8apUQE-120...
  Nhưng toàn bộ hệ sinh thái liên quan đến AI đã được phát triển và tối ưu để chạy trên CUDA của Nvidia, nên hiệu năng thực tế thấp hơn
  Rốt cuộc đây là vấn đề về độ nhận biết và hệ sinh thái. Nếu Intel tung ra GPU workstation có 32GB hoặc 64GB VRAM, không phải dạng quái vật enterprise đắt vô lý mà là dạng lập trình viên có thể mua được, thì sẽ bán cực chạy
  Nó cũng không cần phải là card nhanh nhất. Chỉ cần cho VRAM nhiều hơn đối thủ là đủ. Hiện nay trong huấn luyện hay tạo video, thiếu VRAM là nút thắt lớn hơn tốc độ GPU, không hiểu sao Intel lại không thấy điều này
- VRAM trên 24GB có lẽ khó rẻ đi trước khi GDDR7 xuất hiện, và ngay cả GDDR7 có lẽ cũng chỉ đẩy lên được khoảng 36GB
  Dòng GDDR6 xếp chồng cao cấp hơn nhiều khả năng sẽ khá đắt, và vì vấn đề toàn vẹn tín hiệu nên cũng không thể cứ gắn thêm die tùy ý
- Điều với chúng ta trông hiển nhiên thì với các product manager lại trông như tiêu chuẩn ngành
  Nghĩ lại lần cuối cùng thấy một tay chơi trong ngành làm lung lay trật tự cũ là khi nào, Intel cũng không phải là công ty đã thay đổi nhiều đến vậy
- Tôi đồng ý rằng 32~48GB với giá dễ chịu thì sẽ rất tuyệt
  Nghe nói trên một số BIOS bo mạch chủ Asrock, có thể đặt VRAM lên tới 64GB với Ryzen5, và hiện tôi đang điều tra trên nhiều phần cứng AMD khác nhau
- Nếu AMD làm ra driver chất lượng cao thì tôi sẵn sàng trả tiền để được chứng kiến :-)
Tôi tò mò về dữ liệu benchmark
Tốc độ trong ví dụ trông khá ổn
Không biết có khuyến nghị nào về GPU Intel nhiều VRAM có thể dùng cho việc này không
- Có Max GPU(Ponte Vecchio) dành cho trung tâm dữ liệu, cung cấp bộ nhớ HBM2e 128GB, cache L2 408MB và cache L1 64MB
  Gaudi cũng có thông số tương tự, nhưng theo tài liệu marketing thì đó là bên có các nhân chuyên biệt cho tác vụ AI
  Có thể mua trong các hệ thống hoàn chỉnh của Dell và Supermicro: https://www.supermicro.com/en/accelerators/intel
  Đọc thêm: https://www.servethehome.com/intel-shows-gpu-max-1550-perfor...
- Với người dùng phổ thông thì có Intel Arc A770 16GB VRAM
  Cao hơn nữa thì bắt đầu chuyển sang dòng sản phẩm enterprise
Tôi tò mò liệu có benchmark hiệu năng so với llamafile hay thứ khác không
[0] - https://github.com/mozilla-Ocho/llamafile
- llama.cpp vốn đã có thể dùng GPU Intel, và cả ARC lẫn GPU tích hợp đều hỗ trợ nhiều backend
  Các backend được hỗ trợ là SYCL, Vulkan, OpenCL
  Tôi không có phần cứng trực tiếp, nhưng vì Intel đang đẩy mạnh phía trung tâm dữ liệu nên trên ARC có lẽ SYCL sẽ nhanh hơn
  [1]: https://www.intel.com/content/www/us/en/developer/articles/t...
Sẽ tốt nếu có kèm script GPU đám mây để chạy các ví dụ
Một cách cho chạy ngay trên nhà cung cấp đám mây, thay vì bắt người dùng đoán GPU nào tương thích, có vẻ sẽ hữu ích; tôi đang cân nhắc tự làm thử
Trong số các nhà cung cấp đám mây lớn, không có bên nào cung cấp GPU Intel
- GPU Intel đã thâm nhập khá tốt ở thị trường Đông Nam Á, và Intel cũng sắp ra thế hệ mới
  Hơn nữa, khác với giấy phép GRID của Nvidia, nó cho phép ảo hóa GPU mà không mất thêm phí bản quyền, nên nhà cung cấp hosting có thể chia nhỏ card để cung cấp
  Tôi có cảm giác các dịch vụ dựa trên Intel sẽ tăng lên rất nhiều trong tương lai
- Không hẳn là đám mây, nhưng với người dùng phổ thông thì đây là một đề xuất khá tốt
  Nó cung cấp bộ nhớ 16GB và hiệu năng gần 4060 Ti với mức giá khoảng 65%
- Dù vậy, có nhiều nơi cung cấp CPU Intel

Thư viện PyTorch để chạy LLM trên CPU và GPU Intel

Trạng thái dự án và mục đích cơ bản

Hệ sinh thái được tích hợp

Mô hình và phạm vi tối ưu hóa

Tính năng được nhấn mạnh trong các cập nhật mới nhất

Demo và dữ liệu hiệu năng·độ chính xác

Ví dụ phát triển và sử dụng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News