2 điểm bởi GN⁺ 2025-03-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Có thể chạy DeepSeek-R1-671B-Q4_K_M trên Xeon với 1 hoặc 2 Arc A770 bằng llama.cpp Portable Zip mới nhất
  • Hướng dẫn này giải thích cách chạy trực tiếp llama.cpp bằng ipex-llm trên GPU Intel

Môi trường được hỗ trợ

  • Bộ xử lý Intel Core Ultra
  • Bộ xử lý Intel Core thế hệ 11 - 14
  • GPU Intel Arc A-Series
  • GPU Intel Arc B-Series

Mục lục

  • Khởi động nhanh trên Windows
    • Chuẩn bị trước
    • Bước 1: Tải xuống và giải nén
    • Bước 2: Cấu hình runtime
    • Bước 3: Chạy mô hình GGUF
  • Khởi động nhanh trên Linux
    • Chuẩn bị trước
    • Bước 1: Tải xuống và giải nén
    • Bước 2: Cấu hình runtime
    • Bước 3: Chạy mô hình GGUF
  • (Tính năng mới) Chạy DeepSeek V3/R1 671B bằng FlashMoE
  • Mẹo và khắc phục sự cố
    • Lỗi: phát hiện thiết bị sycl khác nhau
    • Sử dụng nhiều GPU
    • Môi trường hiệu năng
  • Thông tin chi tiết

Khởi động nhanh trên Windows

Chuẩn bị trước

  • Kiểm tra phiên bản driver GPU và cập nhật nếu cần
    • Với bộ xử lý Intel Core Ultra hoặc GPU Intel Arc B-Series, khuyến nghị dùng driver mới nhất
    • Với các Intel iGPU/dGPU khác, khuyến nghị driver phiên bản 32.0.101.6078

Bước 1: Tải xuống và giải nén

  • Người dùng Windows tải IPEX-LLM llama.cpp portable zip và giải nén vào một thư mục

Bước 2: Cấu hình runtime

  • Mở "Command Prompt" và truy cập thư mục bằng lệnh cd /d PATH\TO\EXTRACTED\FOLDER
  • Cần hoặc nên thiết lập một số biến môi trường để dùng tăng tốc GPU
    • Thiết lập set SYCL_CACHE_PERSISTENT=1
  • Người dùng nhiều GPU xem phần mẹo để biết cách chọn GPU cụ thể

Bước 3: Chạy mô hình GGUF

  • Tải xuống hoặc sao chép mô hình GGUF từ cộng đồng vào thư mục cục bộ
  • Sau khi đặt đường dẫn mô hình, chạy bằng lệnh llama-cli.exe

Khởi động nhanh trên Linux

Chuẩn bị trước

  • Kiểm tra phiên bản driver GPU và cập nhật nếu cần
  • Khuyến nghị cài driver theo hướng dẫn cài đặt driver GPU client Intel

Bước 1: Tải xuống và giải nén

  • Người dùng Linux tải IPEX-LLM llama.cpp portable tgz và giải nén vào một thư mục

Bước 2: Cấu hình runtime

  • Mở "Terminal" và truy cập thư mục bằng lệnh cd /PATH/TO/EXTRACTED/FOLDER
  • Cần hoặc nên thiết lập một số biến môi trường để dùng tăng tốc GPU
    • Thiết lập export SYCL_CACHE_PERSISTENT=1
  • Người dùng nhiều GPU xem phần mẹo để biết cách chọn GPU cụ thể

Bước 3: Chạy mô hình GGUF

  • Tải xuống hoặc sao chép mô hình GGUF từ cộng đồng vào thư mục cục bộ
  • Sau khi đặt đường dẫn mô hình, chạy bằng lệnh ./llama-cli

FlashMoE cho DeepSeek V3/R1

  • FlashMoE là công cụ dòng lệnh dựa trên llama.cpp, được tối ưu cho mô hình MoE
  • Có thể sử dụng trên nền tảng Linux
  • Các mô hình GGUF MoE đã được kiểm thử: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, v.v.

Mẹo và khắc phục sự cố

Lỗi: phát hiện thiết bị sycl khác nhau

  • Nếu phát hiện các thiết bị sycl khác nhau, hiệu năng sẽ bị giới hạn theo thiết bị chậm nhất
  • Có thể tắt kiểm tra này và dùng tất cả thiết bị bằng cách thiết lập SYCL_DEVICE_CHECK=0

Sử dụng nhiều GPU

  • Nếu có nhiều GPU Intel, mặc định sẽ chạy trên tất cả GPU
  • Để dùng GPU cụ thể, hãy thiết lập biến môi trường ONEAPI_DEVICE_SELECTOR

Môi trường hiệu năng

  • Có thể cải thiện hiệu năng bằng cách thiết lập SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
  • Chế độ này có thể tăng hiệu năng nhưng cũng có thể phát sinh ngoại lệ

Hướng dẫn này cung cấp cách chạy llama.cpp hiệu quả trên GPU Intel, bao gồm nhiều thiết lập và phương pháp tối ưu hóa khác nhau.

Chưa có bình luận nào.

Chưa có bình luận nào.