Chạy DeepSeek-R1-671B-Q4_K_M trên Xeon với 1 hoặc 2 Arc A770
(github.com/intel)- Có thể chạy DeepSeek-R1-671B-Q4_K_M trên Xeon với 1 hoặc 2 Arc A770 bằng llama.cpp Portable Zip mới nhất
- Hướng dẫn này giải thích cách chạy trực tiếp llama.cpp bằng
ipex-llmtrên GPU Intel
Môi trường được hỗ trợ
- Bộ xử lý Intel Core Ultra
- Bộ xử lý Intel Core thế hệ 11 - 14
- GPU Intel Arc A-Series
- GPU Intel Arc B-Series
Mục lục
- Khởi động nhanh trên Windows
- Chuẩn bị trước
- Bước 1: Tải xuống và giải nén
- Bước 2: Cấu hình runtime
- Bước 3: Chạy mô hình GGUF
- Khởi động nhanh trên Linux
- Chuẩn bị trước
- Bước 1: Tải xuống và giải nén
- Bước 2: Cấu hình runtime
- Bước 3: Chạy mô hình GGUF
- (Tính năng mới) Chạy DeepSeek V3/R1 671B bằng FlashMoE
- Mẹo và khắc phục sự cố
- Lỗi: phát hiện thiết bị sycl khác nhau
- Sử dụng nhiều GPU
- Môi trường hiệu năng
- Thông tin chi tiết
Khởi động nhanh trên Windows
Chuẩn bị trước
- Kiểm tra phiên bản driver GPU và cập nhật nếu cần
- Với bộ xử lý Intel Core Ultra hoặc GPU Intel Arc B-Series, khuyến nghị dùng driver mới nhất
- Với các Intel iGPU/dGPU khác, khuyến nghị driver phiên bản 32.0.101.6078
Bước 1: Tải xuống và giải nén
- Người dùng Windows tải IPEX-LLM llama.cpp portable zip và giải nén vào một thư mục
Bước 2: Cấu hình runtime
- Mở "Command Prompt" và truy cập thư mục bằng lệnh
cd /d PATH\TO\EXTRACTED\FOLDER - Cần hoặc nên thiết lập một số biến môi trường để dùng tăng tốc GPU
- Thiết lập
set SYCL_CACHE_PERSISTENT=1
- Thiết lập
- Người dùng nhiều GPU xem phần mẹo để biết cách chọn GPU cụ thể
Bước 3: Chạy mô hình GGUF
- Tải xuống hoặc sao chép mô hình GGUF từ cộng đồng vào thư mục cục bộ
- Sau khi đặt đường dẫn mô hình, chạy bằng lệnh
llama-cli.exe
Khởi động nhanh trên Linux
Chuẩn bị trước
- Kiểm tra phiên bản driver GPU và cập nhật nếu cần
- Khuyến nghị cài driver theo hướng dẫn cài đặt driver GPU client Intel
Bước 1: Tải xuống và giải nén
- Người dùng Linux tải IPEX-LLM llama.cpp portable tgz và giải nén vào một thư mục
Bước 2: Cấu hình runtime
- Mở "Terminal" và truy cập thư mục bằng lệnh
cd /PATH/TO/EXTRACTED/FOLDER - Cần hoặc nên thiết lập một số biến môi trường để dùng tăng tốc GPU
- Thiết lập
export SYCL_CACHE_PERSISTENT=1
- Thiết lập
- Người dùng nhiều GPU xem phần mẹo để biết cách chọn GPU cụ thể
Bước 3: Chạy mô hình GGUF
- Tải xuống hoặc sao chép mô hình GGUF từ cộng đồng vào thư mục cục bộ
- Sau khi đặt đường dẫn mô hình, chạy bằng lệnh
./llama-cli
FlashMoE cho DeepSeek V3/R1
- FlashMoE là công cụ dòng lệnh dựa trên llama.cpp, được tối ưu cho mô hình MoE
- Có thể sử dụng trên nền tảng Linux
- Các mô hình GGUF MoE đã được kiểm thử: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, v.v.
Mẹo và khắc phục sự cố
Lỗi: phát hiện thiết bị sycl khác nhau
- Nếu phát hiện các thiết bị sycl khác nhau, hiệu năng sẽ bị giới hạn theo thiết bị chậm nhất
- Có thể tắt kiểm tra này và dùng tất cả thiết bị bằng cách thiết lập
SYCL_DEVICE_CHECK=0
Sử dụng nhiều GPU
- Nếu có nhiều GPU Intel, mặc định sẽ chạy trên tất cả GPU
- Để dùng GPU cụ thể, hãy thiết lập biến môi trường
ONEAPI_DEVICE_SELECTOR
Môi trường hiệu năng
- Có thể cải thiện hiệu năng bằng cách thiết lập
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS - Chế độ này có thể tăng hiệu năng nhưng cũng có thể phát sinh ngoại lệ
Hướng dẫn này cung cấp cách chạy llama.cpp hiệu quả trên GPU Intel, bao gồm nhiều thiết lập và phương pháp tối ưu hóa khác nhau.
Chưa có bình luận nào.