Cách chạy cục bộ mô hình DeepSeek R1 671b trên máy chủ EPYC giá $2000

(digitalspaceport.com)

3 điểm bởi GN⁺ 2025-02-02 | 1 bình luận | Chia sẻ qua WhatsApp

Deepseek AI Rig dựa trên hệ thống AMD EPYC Rome mang lại hiệu năng ấn tượng
Với mô hình Q4 671b, hệ thống đạt từ 4.25 đến 3.5 TPS, cho thấy hoàn toàn có thể chạy chỉ với CPU
Hệ thống này có thể hoạt động mà không cần VRAM GPU dung lượng lớn, và có thể là một dự án thú vị cho những ai thích thử thách kỹ thuật.
Phiên bản distilled có hiệu năng kém hơn, vì vậy nên dùng "mô hình đầy đủ"
- Hỗ trợ cửa sổ ngữ cảnh trên 16K để mang lại hiệu năng tốt hơn

Phần cứng tính toán CPU cho AI cục bộ

Hệ thống được cấu hình theo hướng dẫn quad 3090 trước đây vẫn rất mạnh. Bo mạch chủ MZ32-AR0 cho phép thiết lập RAM hệ thống 512GB đến 1TB với chi phí thấp. Hiện đang dùng RAM DDR4 2400, nhưng hiệu năng có thể cải thiện nếu dùng RAM DDR4 ECC tốc độ 3200.
Thành phần và chi phí:
- Khung rack: $55
- Bo mạch chủ MZ32-AR0: $500
- Tản nhiệt nước 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 64 nhân: $650
- 512GB RAM ECC 2400: $400
- 1TB NVMe – Samsung 980 Pro: $75
- PSU 850W: $80
Tổng chi phí: khoảng $2000

Lắp ráp rack

Lắp ráp giống hướng dẫn trước đó, nhưng bỏ qua GPU và riser card
Nếu có kế hoạch bổ sung GPU sau này, nên dùng PSU 1500W hoặc 1600W ngay từ đầu
Khuyến nghị dùng 4 quạt 80mm để tạo một bức tường quạt nhằm giảm nhiệt độ cho các thanh RAM

Ghi chú về nâng cấp bo mạch chủ

Nếu dùng CPU AMD EPYC 7V13, nên sử dụng bo mạch chủ MZ32-AR0 phiên bản V3
Bo mạch chủ phiên bản V1 có thể không hỗ trợ CPU Milan, vì vậy cần cập nhật BIOS để nâng cấp lên V3

Thiết lập phần mềm self-hosted AI cục bộ

Khuyến nghị cài đặt Ubuntu 24.04 bản server
Thiết lập BMC để cố định địa chỉ IP mạng thành IP tĩnh
Trong thiết lập BIOS, thực hiện các thay đổi sau:
- Đặt NPS thành 1
- Đặt CCD thành Auto
- Tắt SMT
- Tắt SVM
- Tắt IOMMU
- Đặt cTDP thành 200
- Đặt deterministic control thành manual và chuyển thanh trượt sang performance
- Đặt quick power policy thành performance
- Đặt BoostFMax thành manual và đặt giá trị thành 3400

Cài đặt Ollama

Dùng các lệnh sau để cài Ollama:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

Thiết lập biến môi trường và tạo tệp ollama.service để đăng ký như một dịch vụ

Tải mô hình DeepSeek 671b

Dùng lệnh sau để tải mô hình DeepSeek 671b:
```
ollama pull deepseek-r1:671b  
```
Mô hình này chiếm khoảng 400GB dung lượng đĩa, vì vậy cần chuẩn bị đủ không gian lưu trữ

Cài đặt OpenWEBUI

Cài đặt OpenWEBUI bằng Docker
Dùng Docker Compose để cấu hình và chạy dịch vụ OpenWEBUI

Kết nối OpenWEBUI với Ollama

Trong phần cài đặt của OpenWEBUI, thêm máy chủ Ollama và kiểm tra trạng thái kết nối
Trong các tham số nâng cao, thiết lập cấu hình GPU, Reasoning Effort, Context Length, num_thread v.v.

Chạy thử

Trong OpenWEBUI, bắt đầu một cuộc trò chuyện mới và chọn mô hình DeepSeek-r1:671b để thử nghiệm

Làm theo hướng dẫn này, bạn có thể chạy cục bộ mô hình DeepSeek R1 671b với ngân sách khoảng $2000

1 bình luận

GN⁺ 2025-02-02

Ý kiến trên Hacker News

Chi phí để chạy mô hình 671B với lượng tử hóa Q4 trên máy chủ Epyc một socket là $2K, dùng 512GB RAM. Với Q8, máy chủ Epyc hai socket có thể cung cấp 6-8 TPS với 768GB RAM và có giá $6K. Họ thắc mắc tốc độ RAM ảnh hưởng đến TPS như thế nào.
Chi phí của R1 trên mạng là $2/MTok, trong khi bộ máy này xử lý hơn 4 tok/s với chi phí $0.04 mỗi giờ. Chi phí điện được ước tính là $0.20 mỗi giờ. Ngoài yếu tố quyền riêng tư ra thì họ cho rằng điều này không có nhiều ý nghĩa.
Điều kỳ lạ của AI hiện nay là ai cũng muốn chạy những mô hình tốt nhất, nhưng chi phí phần cứng lại quá đắt. Vào những năm 1990, người ta có thể chạy Linux trên phần cứng giá rẻ. Các mô hình AI mới nhất thì cần nhiều RAM hơn. Họ tự hỏi trước đây đã từng có giai đoạn nào như vậy chưa. Trò chơi máy tính có thể là một ví dụ phù hợp.
Họ nghĩ sẽ thú vị hơn nếu có thể đạt 5-10 tokens/sec với các mô hình nhỏ hơn (33b-70b). Họ không muốn bỏ tiền cho GPU $3k hay một bộ máy $2k.
Họ thắc mắc liệu các mô hình nhỏ chỉ dùng để dịch Anh-Tây Ban Nha hoặc hiểu các tiện ích Unix và bash có ý nghĩa hay không. Họ không biết việc giới hạn nội dung huấn luyện có ảnh hưởng đến chất lượng đầu ra hoặc kích thước mô hình hay không.
Họ đã dựng một workstation với EPYC 9274F và 384GB RAM, nhưng không đạt được hiệu năng như kỳ vọng. Họ đã chạy nhiều bài benchmark khác nhau nhưng kết quả còn chưa bằng một nửa benchmark của Fujitsu.
Họ ngạc nhiên vì chiếc NVIDIA Digits giá $3000 không được nhắc đến thường xuyên hơn. Trước đây họ hoài nghi về AI, nhưng giờ đang định chạy DeepSeek cục bộ.
Họ ngạc nhiên vì có thể mua được với $2K. Họ đang tìm các gợi ý để dựng một desktop điện năng thấp.
Với tư cách là một YouTuber, họ chia sẻ số liệu về điện năng và tốc độ RAM. Công suất khi nhàn rỗi là 60w, khi tải là 260w, và tốc độ RAM là 2400.
Họ đã chạy mô hình trên r6a.16xlarge, nhưng sau prompt đầu tiên thì việc nạp mô hình mất rất nhiều thời gian. Với 512GB RAM, họ không thể dùng kích thước ngữ cảnh lớn hơn 4k. Có thể họ đã bỏ sót điều gì đó vì không quen với việc cấu hình mô hình.