Cách chạy cục bộ mô hình DeepSeek R1 671b trên máy chủ EPYC giá $2000
(digitalspaceport.com)- Deepseek AI Rig dựa trên hệ thống AMD EPYC Rome mang lại hiệu năng ấn tượng
- Với mô hình Q4 671b, hệ thống đạt từ 4.25 đến 3.5 TPS, cho thấy hoàn toàn có thể chạy chỉ với CPU
- Hệ thống này có thể hoạt động mà không cần VRAM GPU dung lượng lớn, và có thể là một dự án thú vị cho những ai thích thử thách kỹ thuật.
- Phiên bản distilled có hiệu năng kém hơn, vì vậy nên dùng "mô hình đầy đủ"
- Hỗ trợ cửa sổ ngữ cảnh trên 16K để mang lại hiệu năng tốt hơn
Phần cứng tính toán CPU cho AI cục bộ
- Hệ thống được cấu hình theo hướng dẫn quad 3090 trước đây vẫn rất mạnh. Bo mạch chủ MZ32-AR0 cho phép thiết lập RAM hệ thống 512GB đến 1TB với chi phí thấp. Hiện đang dùng RAM DDR4 2400, nhưng hiệu năng có thể cải thiện nếu dùng RAM DDR4 ECC tốc độ 3200.
- Thành phần và chi phí:
- Khung rack: $55
- Bo mạch chủ MZ32-AR0: $500
- Tản nhiệt nước 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 64 nhân: $650
- 512GB RAM ECC 2400: $400
- 1TB NVMe – Samsung 980 Pro: $75
- PSU 850W: $80
- Tổng chi phí: khoảng $2000
Lắp ráp rack
- Lắp ráp giống hướng dẫn trước đó, nhưng bỏ qua GPU và riser card
- Nếu có kế hoạch bổ sung GPU sau này, nên dùng PSU 1500W hoặc 1600W ngay từ đầu
- Khuyến nghị dùng 4 quạt 80mm để tạo một bức tường quạt nhằm giảm nhiệt độ cho các thanh RAM
Ghi chú về nâng cấp bo mạch chủ
- Nếu dùng CPU AMD EPYC 7V13, nên sử dụng bo mạch chủ MZ32-AR0 phiên bản V3
- Bo mạch chủ phiên bản V1 có thể không hỗ trợ CPU Milan, vì vậy cần cập nhật BIOS để nâng cấp lên V3
Thiết lập phần mềm self-hosted AI cục bộ
- Khuyến nghị cài đặt Ubuntu 24.04 bản server
- Thiết lập BMC để cố định địa chỉ IP mạng thành IP tĩnh
- Trong thiết lập BIOS, thực hiện các thay đổi sau:
- Đặt NPS thành 1
- Đặt CCD thành Auto
- Tắt SMT
- Tắt SVM
- Tắt IOMMU
- Đặt cTDP thành 200
- Đặt deterministic control thành manual và chuyển thanh trượt sang performance
- Đặt quick power policy thành performance
- Đặt BoostFMax thành manual và đặt giá trị thành 3400
Cài đặt Ollama
-
Dùng các lệnh sau để cài Ollama:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -C /usr -xzf ollama-linux-amd64.tgz sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama sudo usermod -a -G ollama $(whoami) -
Thiết lập biến môi trường và tạo tệp ollama.service để đăng ký như một dịch vụ
Tải mô hình DeepSeek 671b
-
Dùng lệnh sau để tải mô hình DeepSeek 671b:
ollama pull deepseek-r1:671b -
Mô hình này chiếm khoảng 400GB dung lượng đĩa, vì vậy cần chuẩn bị đủ không gian lưu trữ
Cài đặt OpenWEBUI
- Cài đặt OpenWEBUI bằng Docker
- Dùng Docker Compose để cấu hình và chạy dịch vụ OpenWEBUI
Kết nối OpenWEBUI với Ollama
- Trong phần cài đặt của OpenWEBUI, thêm máy chủ Ollama và kiểm tra trạng thái kết nối
- Trong các tham số nâng cao, thiết lập cấu hình GPU, Reasoning Effort, Context Length, num_thread v.v.
Chạy thử
- Trong OpenWEBUI, bắt đầu một cuộc trò chuyện mới và chọn mô hình DeepSeek-r1:671b để thử nghiệm
Làm theo hướng dẫn này, bạn có thể chạy cục bộ mô hình DeepSeek R1 671b với ngân sách khoảng $2000
1 bình luận
Ý kiến trên Hacker News
Chi phí để chạy mô hình 671B với lượng tử hóa Q4 trên máy chủ Epyc một socket là $2K, dùng 512GB RAM. Với Q8, máy chủ Epyc hai socket có thể cung cấp 6-8 TPS với 768GB RAM và có giá $6K. Họ thắc mắc tốc độ RAM ảnh hưởng đến TPS như thế nào.
Chi phí của R1 trên mạng là $2/MTok, trong khi bộ máy này xử lý hơn 4 tok/s với chi phí $0.04 mỗi giờ. Chi phí điện được ước tính là $0.20 mỗi giờ. Ngoài yếu tố quyền riêng tư ra thì họ cho rằng điều này không có nhiều ý nghĩa.
Điều kỳ lạ của AI hiện nay là ai cũng muốn chạy những mô hình tốt nhất, nhưng chi phí phần cứng lại quá đắt. Vào những năm 1990, người ta có thể chạy Linux trên phần cứng giá rẻ. Các mô hình AI mới nhất thì cần nhiều RAM hơn. Họ tự hỏi trước đây đã từng có giai đoạn nào như vậy chưa. Trò chơi máy tính có thể là một ví dụ phù hợp.
Họ nghĩ sẽ thú vị hơn nếu có thể đạt 5-10 tokens/sec với các mô hình nhỏ hơn (33b-70b). Họ không muốn bỏ tiền cho GPU $3k hay một bộ máy $2k.
Họ thắc mắc liệu các mô hình nhỏ chỉ dùng để dịch Anh-Tây Ban Nha hoặc hiểu các tiện ích Unix và bash có ý nghĩa hay không. Họ không biết việc giới hạn nội dung huấn luyện có ảnh hưởng đến chất lượng đầu ra hoặc kích thước mô hình hay không.
Họ đã dựng một workstation với EPYC 9274F và 384GB RAM, nhưng không đạt được hiệu năng như kỳ vọng. Họ đã chạy nhiều bài benchmark khác nhau nhưng kết quả còn chưa bằng một nửa benchmark của Fujitsu.
Họ ngạc nhiên vì chiếc NVIDIA Digits giá $3000 không được nhắc đến thường xuyên hơn. Trước đây họ hoài nghi về AI, nhưng giờ đang định chạy DeepSeek cục bộ.
Họ ngạc nhiên vì có thể mua được với $2K. Họ đang tìm các gợi ý để dựng một desktop điện năng thấp.
Với tư cách là một YouTuber, họ chia sẻ số liệu về điện năng và tốc độ RAM. Công suất khi nhàn rỗi là 60w, khi tải là 260w, và tốc độ RAM là 2400.
Họ đã chạy mô hình trên r6a.16xlarge, nhưng sau prompt đầu tiên thì việc nạp mô hình mất rất nhiều thời gian. Với 512GB RAM, họ không thể dùng kích thước ngữ cảnh lớn hơn 4k. Có thể họ đã bỏ sót điều gì đó vì không quen với việc cấu hình mô hình.