1 điểm bởi GN⁺ 2024-04-05 | 1 bình luận | Chia sẻ qua WhatsApp

💫 IPEX-LLM

  • IPEX-LLM là thư viện PyTorch để chạy LLM với độ trễ rất thấp trên CPU và GPU Intel.
  • Được xây dựng dựa trên nhiều dự án xuất sắc như Intel Extension for PyTorch (IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ.
  • Cung cấp khả năng tích hợp liền mạch với llama.cpp, Text-Generation-WebUI, HuggingFace transformers, v.v.
  • hơn 50 mô hình đã được tối ưu hóa/xác thực trong ipex-llm, và có thể xem danh sách đầy đủ tại đây.

Cập nhật mới nhất 🔥

  • bigdl-llm đã được đổi tên thành ipex-llm, và dự án BigDL gốc có thể được tìm thấy tại đây.
  • ipex-llm giờ đây có thể tải trực tiếp mô hình từ ModelScope(魔搭).
  • ipex-llm đã bổ sung hỗ trợ INT2, cho phép chạy các LLM lớn (ví dụ: Mixtral-8x7B) trên GPU Intel với 16GB VRAM.
  • Người dùng giờ đây có thể sử dụng ipex-llm thông qua GUI của Text-Generation-WebUI.
  • ipex-llm hiện hỗ trợ Self-Speculative Decoding, giúp tăng tốc độ trễ suy luận FP16 và BF16 khoảng 30% tương ứng trên GPU và CPU Intel.
  • ipex-llm giờ đây hỗ trợ danh sách toàn diện cho fine-tuning LLM trên GPU Intel.

Demo ipex-llm

  • Có thể xem hiệu năng đã được tối ưu hóa của các mô hình chatglm2-6bllama-2-13b-chat trên CPU Intel Core thế hệ 12 và GPU Intel Arc ở bên dưới.

Bắt đầu nhanh với ipex-llm

Cài đặt ipex-llm

  • Windows GPU: cài đặt ipex-llm trên Windows có GPU Intel
  • Linux GPU: cài đặt ipex-llm trên Linux có GPU Intel
  • Docker: sử dụng Docker ipex-llm trên CPU và GPU Intel
  • Tham khảo hướng dẫn cài đặt để biết thêm chi tiết

Chạy ipex-llm

  • llama.cpp: chạy ipex-llm cho llama.cpp trên GPU Intel
  • vLLM: chạy ipex-llm trong vLLM trên GPU và CPU Intel
  • FastChat: chạy ipex-llm trong dịch vụ FastChat trên GPU và CPU Intel
  • LangChain-Chatchat RAG: chạy ipex-llm trong LangChain-Chatchat
  • Text-Generation-WebUI: chạy ipex-llm trong WebUI của oobabooga
  • Benchmarking: chạy benchmark của ipex-llm trên CPU và GPU Intel

Ví dụ mã

  • Suy luận low-bit
    • Suy luận INT4: suy luận LLM INT4 trên GPU và CPU Intel
    • Suy luận FP8/FP4: suy luận LLM FP8FP4 trên GPU Intel
    • Suy luận INT8: suy luận LLM INT8 trên GPU và CPU Intel
    • Suy luận INT2: suy luận LLM INT2 trên GPU Intel
  • Suy luận FP16/BF16
    • Suy luận LLM FP16: kèm tối ưu hóa self-speculative decoding khi khả dụng trên GPU Intel
    • Suy luận LLM BF16: kèm tối ưu hóa self-speculative decoding khi khả dụng trên CPU Intel
  • Lưu và tải
    • Mô hình low-bit: lưu và tải mô hình low-bit của ipex-llm
    • GGUF: tải trực tiếp mô hình GGUF vào ipex-llm
    • AWQ: tải trực tiếp mô hình AWQ vào ipex-llm
    • GPTQ: tải trực tiếp mô hình GPTQ vào ipex-llm
  • Fine-tuning
    • Fine-tuning LLM trên GPU Intel, bao gồm LoRA, QLoRA, DPO, QA-LoRA và ReLoRA
    • Fine-tuning QLoRA trên CPU Intel
  • Tích hợp với các thư viện cộng đồng
    • HuggingFace transformers
    • Mô hình PyTorch tiêu chuẩn
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModeScope
  • Hướng dẫn
    • Tham khảo website tài liệu ipex-llm để biết thêm chi tiết

Các mô hình đã được xác thực

  • Hơn 50 mô hình đã được tối ưu hóa/xác thực trong ipex-llm bao gồm LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper, v.v., và có thể xem danh sách ở bên dưới.

Ý kiến của GN⁺

  • IPEX-LLM là một công cụ mạnh mẽ cho phép tối ưu hóa và chạy mô hình ngôn ngữ lớn trên phần cứng Intel, có thể mang lại nhiều hỗ trợ cho nghiên cứu và phát triển AI.
  • Thư viện này được tích hợp với nhiều mô hình khác nhau, mang lại lợi thế giúp người dùng dễ dàng tiếp cận và khai thác.
  • Tuy nhiên, vì được tối ưu riêng cho phần cứng Intel nên có thể không đảm bảo hiệu năng tối ưu trên phần cứng của các nhà sản xuất khác.
  • Khi áp dụng công nghệ này, cần có sự hiểu biết đầy đủ về khả năng tương thích phần cứng và tinh chỉnh hiệu năng.
  • Công cụ này cho phép đẩy nhanh quá trình suy luận và fine-tuning các mô hình ngôn ngữ lớn, từ đó góp phần tiết kiệm thời gian và tài nguyên.

1 bình luận

 
GN⁺ 2024-04-05
Ý kiến trên Hacker News
  • Kỳ vọng về một cuộc cách mạng VRAM GPU

    Một công ty có cơ hội thoát khỏi tình trạng "4 nhân mãi mãi" và phá vỡ giới hạn lâu nay của AMD và Nvidia là "8-16GB VRAM mãi mãi" với đợt ra mắt GPU tiêu dùng tiếp theo. Sẽ thật thi vị nếu họ cung cấp 32-48GB VRAM với mức giá hợp lý.

  • Đánh giá tích cực về hỗ trợ phần mềm của Intel

    Intel đang đi đúng hướng về mặt hỗ trợ phần mềm. Tôi muốn xem dữ liệu benchmark, và tốc độ trong ví dụ được đưa ra có vẻ khá tốt.

  • Yêu cầu gợi ý về GPU Intel

    Cần gợi ý về GPU Intel có nhiều VRAM. Hỏi xem có sản phẩm nào tương thích với cái này không.

  • Quan tâm đến benchmark hiệu năng

    Tôi quan tâm đến việc so sánh hiệu năng với llamafile hoặc các benchmark khác. Có kèm theo liên kết đến benchmark đó.

  • Đề xuất cải thiện tính tiện dụng khi dùng GPU đám mây

    Sẽ rất hay nếu có một script để chạy ví dụ trên GPU tương thích từ nhà cung cấp đám mây. Hỏi xem có ai quan tâm không, và đang cân nhắc tự cấu hình.

  • Các nhà cung cấp đám mây không có GPU Intel

    Các nhà cung cấp đám mây lớn không cung cấp GPU Intel.

  • Bày tỏ mong đợi về bài đánh giá sản phẩm

    Mong chờ bài review và quan tâm đến việc đánh giá các sản phẩm trong tương lai.