GPU lớn không cần PC lớn

(jeffgeerling.com)

9 điểm bởi GN⁺ 2025-12-21 | 1 bình luận | Chia sẻ qua WhatsApp

Các thử nghiệm chạy GPU AMD, Intel, Nvidia trên Raspberry Pi 5 và so sánh với PC desktop cho thấy trong nhiều trường hợp, mức suy giảm hiệu năng chỉ khoảng 2–5%
Bốn hạng mục được thử nghiệm gồm transcoding Jellyfin, rendering GravityMark, suy luận LLM/AI, và cấu hình đa GPU để đo hiệu quả và hiệu năng trên chi phí
Trong trường hợp kết nối 4 Nvidia RTX A5000, chênh lệch hiệu năng so với máy chủ Intel nằm trong 2%, trong đó khả năng chia sẻ bộ nhớ giữa các GPU qua PCIe switch đóng vai trò then chốt
Tổng chi phí của hệ thống Raspberry Pi eGPU khoảng $350–400, trong khi PC là $1500–2000; điện năng tiêu thụ cũng thấp hơn đáng kể ở Pi (nhàn rỗi 4–5W so với 30W)
Đây là minh chứng cho tiềm năng của Raspberry Pi như một nền tảng thay thế tiêu thụ điện thấp, chi phí thấp để khai thác GPU lớn hiệu quả

Tổng quan thử nghiệm

Kiểm chứng khả năng tận dụng GPU của Raspberry Pi 5 ngay cả khi bị giới hạn bởi băng thông PCIe Gen 3 x1 (8 GT/s)
- Đối tượng so sánh là PC desktop hiện đại (PCIe Gen 5 x16, 512 GT/s)
Các bài test gồm transcoding media (Jellyfin), rendering GPU (GravityMark), hiệu năng LLM/AI, và cấu hình đa GPU
Thử nghiệm vận hành đồng thời 2 GPU bằng PCIe Gen 4 external switch và backplane 3 khe của Dolphin ICS

Trường hợp Raspberry Pi kết nối 4 GPU

Người dùng GitHub mpsparrow đã kết nối 4 GPU Nvidia RTX A5000 vào một Pi duy nhất
- Khi chạy mô hình Llama 3 70B, chênh lệch hiệu năng so với máy chủ Intel nằm trong 2% (11.83 vs 12 tokens/sec)
PCIe switch cho phép chia sẻ bộ nhớ giữa các GPU, giúp vượt qua hạn chế băng thông của Pi
Ngay cả với cấu hình một GPU, một số tác vụ cũng cho thấy hiệu năng tương đương hoặc nhỉnh hơn desktop

So sánh chi phí và hiệu quả

Cấu hình Raspberry Pi eGPU: khoảng $350–400, cấu hình Intel PC: khoảng $1500–2000
Điện năng tiêu thụ khi nhàn rỗi: Pi 4–5W, PC 30W
Nếu loại trừ GPU, Pi vượt trội về cả chi phí lẫn hiệu quả điện năng trong cùng điều kiện

Benchmark transcoding Jellyfin

Khi dùng Nvidia 4070 Ti, PC chiếm ưu thế về throughput thô (2GB/s)
- Pi đạt khoảng PCIe 850MB/s, USB SSD 300MB/s
Tuy nhiên, với streaming media H.264/H.265, Pi vẫn xử lý mượt transcoding 1080p và 4K
- Hỗ trợ mã hóa phần cứng NVENC, đồng thời 2 phiên transcoding song song cũng ổn định
GPU AMD gặp một số vấn đề về độ ổn định trong transcoding

Bài test rendering GravityMark

Thử nghiệm chủ yếu với GPU AMD; PC nhanh hơn đôi chút nhưng chênh lệch rất nhỏ
Với RX 460, Pi ghi nhận hiệu quả cao hơn PC (hiệu năng/W)
Với các GPU đời cũ dùng cùng băng thông PCIe Gen 3, Pi có lợi thế tương đối

So sánh hiệu năng AI và LLM

Bài test với AMD Radeon AI Pro R9700 (32GB VRAM) cho hiệu năng thấp hơn kỳ vọng, có thể do driver hoặc thiết lập BAR
Khi dùng Nvidia RTX 3060 (12GB), Pi nhanh hơn PC với mô hình Llama 2 13B
Kết quả đo hiệu quả cho thấy Pi vượt trội hơn PC về throughput trên điện năng tiêu thụ
Ngay cả với RTX 4090, chênh lệch hiệu năng với mô hình lớn (Qwen3 30B) vẫn trong 5%, và trong nhiều trường hợp Pi hiệu quả hơn
Cả backend CUDA lẫn backend Vulkan đều hoạt động bình thường trên Pi

Thử nghiệm cấu hình GPU kép

Sử dụng bo mạch PCIe interconnect của Dolphin và MXH932 HBA
Tắt ACS để cho phép truy cập bộ nhớ trực tiếp giữa các GPU
Khi kết hợp các mẫu GPU khác nhau (4070, A4000), không hỗ trợ gộp VRAM, nên mức cải thiện hiệu năng bị hạn chế
Với cấu hình các GPU giống nhau, có thể chạy các mô hình lớn hơn (như Qwen3 30B)
Tổ hợp AMD RX 7900 XT + R9700 không chạy được một số mô hình do vấn đề driver
Intel PC nhìn chung vẫn nhanh hơn, nhưng Pi vẫn giữ được hiệu năng sát nút ở các mô hình lớn

Kết luận

Hiệu năng tuyệt đối và độ tiện dụng vẫn nghiêng về PC
Tuy nhiên, với workload lấy GPU làm trung tâm trong môi trường điện năng thấp, chi phí thấp, Raspberry Pi là một lựa chọn thay thế thực tế
Giảm được 20–30W điện năng nhàn rỗi; các SBC nền tảng Rockchip và Qualcomm còn có thể mang lại hiệu quả và băng thông I/O cao hơn
Mục tiêu của thử nghiệm là tìm hiểu giới hạn của Pi và cấu trúc của điện toán GPU, và qua đó xác nhận tiềm năng của các hệ thống nhỏ gọn

1 bình luận

GN⁺ 2025-12-21

Ý kiến trên Hacker News

Để chạy LLM cục bộ thì cuối cùng GPU mới là yếu tố cốt lõi
Vì vậy tôi đang nghĩ xem đâu là chiếc máy tính rẻ nhất có thể ghép cùng GPU
Tôi không có khả năng hiểu hay sửa những vấn đề như BAR, nên hiện chỉ đang dùng một hộp x86 giá rẻ gắn GPU tạm ổn
Nhưng tôi vẫn không ngừng nghĩ rằng chắc hẳn phải có cách hiệu quả hơn
- Tôi đang vận hành một trang crowdsourcing để thu thập các tổ hợp phần cứng tối ưu cho LLM cục bộ
  Trang là inferbench.com, mã nguồn có trong kho GitHub
- Hiện tại vẫn khó đạt hiệu năng thật sự có ý nghĩa chỉ với một thiết bị PCIe đơn lẻ
  Tôi cho rằng GPU cần ít nhất 128GB RAM
  Hiệu năng CPU không cần cao, nhưng phải hỗ trợ nhiều làn PCIe, nên các CPU máy chủ cấu hình thấp như AMD EPYC là phù hợp
- Bạn đã nghĩ đến việc dùng Apple silicon như M4 Max hay M3 Ultra chưa?
  Với LLM cỡ trung thì chúng khá hợp
- Hệ thống bạn nói đến về cơ bản chính là vai trò mà DGX Spark đảm nhiệm
Tôi không hiểu vì sao bạn lại thấy phần đa GPU là điều bất ngờ
Hầu hết framework LLM (ví dụ llama.cpp) đều chia mô hình theo từng layer, nên phát sinh phụ thuộc tuần tự và dùng nhiều GPU cũng không tạo được xử lý song song
Một số GPU lại nhanh hơn cho xử lý prompt, còn số khác nhanh hơn cho sinh token, nên đôi khi trộn Radeon và NVIDIA lại có hiệu quả
Mức tăng hiệu năng thực sự chỉ có ở các backend như chế độ tensor parallel
Cách này chia mạng nơ-ron theo hướng luồng dữ liệu, nên cần kết nối tốt giữa các GPU (PCIe x16, NVlink, Infinity Fabric, v.v.)
Nếu không có những thứ đó, mức sử dụng GPU có thể trông lúc cao lúc thấp
Cách chia nhỏ LLM để có thể chạy nhiều tác vụ song song, ví dụ tách vai trò “manager” và “engineer”, như một kiến trúc agent, là điều khá thú vị
- Đúng vậy, đó chính là khái niệm của hệ thống agent
  Mô hình manager tạo prompt, các mô hình cấp dưới xử lý song song rồi trả kết quả về
- Nói rằng kích thước truyền giữa các layer chỉ ở mức kilobyte là hơi phóng đại
  Trên thực tế nó tăng lên mức megabyte tùy theo độ dài chuỗi
  Ví dụ nếu hidden state của Qwen3 30B là 5120 thì với lượng tử hóa 8 bit sẽ là 5120 byte mỗi token
  Chỉ cần vượt 200 token là đã lên mức MB
  Ngay cả băng thông PCIe x1 (khoảng 2GB/s) cũng đủ, nhưng độ trễ (latency) mới có thể là vấn đề lớn hơn
Thật sự rất vui khi có người làm những thử nghiệm như thế này
Tôi cũng từng nối eGPU vào laptop dự phòng và nghĩ rằng: “Liệu làm việc này với Raspberry Pi cũng được chăng?”
Tôi cũng muốn thấy cả hiệu năng chơi game
Chỉ là rất khó tìm game AAA hỗ trợ ARM, và bắt ép giả lập x86 bằng FEX thì không công bằng
- Có lẽ mấu chốt là tìm được game không bị nghẽn ở CPU
Khi dùng constrained decoding (dựa trên JSON schema) thì mức sử dụng CPU tăng lên 100%
Tôi cũng thấy hiện tượng tương tự trên instance vLLM của mình
PCIe 3.0 cho khoảng 1GB/s mỗi làn, tức là đạt tốc độ cỡ 10Gb Ethernet
Biết đâu trong tương lai GPU sẽ hoạt động độc lập mà không cần hệ thống host
Thực tế đã từng có trường hợp gắn SSD vào GPU như Radeon Pro SSG,
và chỉ cần một chip RISC-V nhỏ hoặc bộ điều khiển cỡ Raspberry Pi có lẽ cũng đủ
Bài liên quan: TechPowerUp
Kiến trúc trong đó GPU kết nối trực tiếp với switch mạng để giao tiếp 400Gbe hoặc dựa trên CXL là điều khả thi
Ngoài ra, các công nghệ flash thế hệ mới như High Bandwidth Flash cũng có thể thay thế DRAM
Bài liên quan: ServeTheHome, Tom’s Hardware
Những dữ liệu này khiến tôi phải nghĩ lại về cấu hình PC chính của mình
Có lẽ một mini PC giá 300 USD chạy dưới 20W là đủ
Nó dư sức cho lướt web, xem video và chơi game nhẹ,
còn việc nặng thì chỉ cần truy cập workstation từ xa
- Tôi đang thử nghiệm với tổ hợp Proxmox VM + eGPU
  Chỉ với 1 vCPU và 4GB RAM cũng đủ cho lướt web và các dự án cá nhân
  Có vẻ các hãng phần cứng đã quảng bá quá đà rằng “dân chuyên nghiệp cần laptop hiệu năng cao”
- Tôi đổi từ mini PC Ryzen 8 nhân sang desktop 8 nhân thì tốc độ unit test tăng lên rất nhiều
  Sự khác biệt TDP tạo ra chênh lệch hiệu năng lớn
- Tôi cũng dùng mini PC Beelink, bàn làm việc gọn gàng hơn hẳn
  còn thiết bị hiệu năng cao thì để trong không gian cách âm nên rất dễ chịu
Tôi nghi ngờ ngay từ đầu rằng vì sao cấu trúc PCI/CPU lại cần thiết
Có vẻ hướng đi đúng là đặt CPU và MPP trong cùng một package như Apple và NVIDIA
- Cách đó có lợi cho những tác vụ nhạy cảm với độ trễ, nhưng
  với các phép tính quy mô lớn như AI hay HPC thì có thể không tạo ra khác biệt lớn

GPU lớn không cần PC lớn

Tổng quan thử nghiệm

Trường hợp Raspberry Pi kết nối 4 GPU

So sánh chi phí và hiệu quả

Benchmark transcoding Jellyfin

Bài test rendering GravityMark

So sánh hiệu năng AI và LLM

Thử nghiệm cấu hình GPU kép

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News