- Các thử nghiệm chạy GPU AMD, Intel, Nvidia trên Raspberry Pi 5 và so sánh với PC desktop cho thấy trong nhiều trường hợp, mức suy giảm hiệu năng chỉ khoảng 2–5%
- Bốn hạng mục được thử nghiệm gồm transcoding Jellyfin, rendering GravityMark, suy luận LLM/AI, và cấu hình đa GPU để đo hiệu quả và hiệu năng trên chi phí
- Trong trường hợp kết nối 4 Nvidia RTX A5000, chênh lệch hiệu năng so với máy chủ Intel nằm trong 2%, trong đó khả năng chia sẻ bộ nhớ giữa các GPU qua PCIe switch đóng vai trò then chốt
- Tổng chi phí của hệ thống Raspberry Pi eGPU khoảng $350–400, trong khi PC là $1500–2000; điện năng tiêu thụ cũng thấp hơn đáng kể ở Pi (nhàn rỗi 4–5W so với 30W)
- Đây là minh chứng cho tiềm năng của Raspberry Pi như một nền tảng thay thế tiêu thụ điện thấp, chi phí thấp để khai thác GPU lớn hiệu quả
Tổng quan thử nghiệm
- Kiểm chứng khả năng tận dụng GPU của Raspberry Pi 5 ngay cả khi bị giới hạn bởi băng thông PCIe Gen 3 x1 (8 GT/s)
- Đối tượng so sánh là PC desktop hiện đại (PCIe Gen 5 x16, 512 GT/s)
- Các bài test gồm transcoding media (Jellyfin), rendering GPU (GravityMark), hiệu năng LLM/AI, và cấu hình đa GPU
- Thử nghiệm vận hành đồng thời 2 GPU bằng PCIe Gen 4 external switch và backplane 3 khe của Dolphin ICS
Trường hợp Raspberry Pi kết nối 4 GPU
- Người dùng GitHub mpsparrow đã kết nối 4 GPU Nvidia RTX A5000 vào một Pi duy nhất
- Khi chạy mô hình Llama 3 70B, chênh lệch hiệu năng so với máy chủ Intel nằm trong 2% (11.83 vs 12 tokens/sec)
- PCIe switch cho phép chia sẻ bộ nhớ giữa các GPU, giúp vượt qua hạn chế băng thông của Pi
- Ngay cả với cấu hình một GPU, một số tác vụ cũng cho thấy hiệu năng tương đương hoặc nhỉnh hơn desktop
So sánh chi phí và hiệu quả
- Cấu hình Raspberry Pi eGPU: khoảng $350–400, cấu hình Intel PC: khoảng $1500–2000
- Điện năng tiêu thụ khi nhàn rỗi: Pi 4–5W, PC 30W
- Nếu loại trừ GPU, Pi vượt trội về cả chi phí lẫn hiệu quả điện năng trong cùng điều kiện
Benchmark transcoding Jellyfin
- Khi dùng Nvidia 4070 Ti, PC chiếm ưu thế về throughput thô (2GB/s)
- Pi đạt khoảng PCIe 850MB/s, USB SSD 300MB/s
- Tuy nhiên, với streaming media H.264/H.265, Pi vẫn xử lý mượt transcoding 1080p và 4K
- Hỗ trợ mã hóa phần cứng NVENC, đồng thời 2 phiên transcoding song song cũng ổn định
- GPU AMD gặp một số vấn đề về độ ổn định trong transcoding
Bài test rendering GravityMark
- Thử nghiệm chủ yếu với GPU AMD; PC nhanh hơn đôi chút nhưng chênh lệch rất nhỏ
- Với RX 460, Pi ghi nhận hiệu quả cao hơn PC (hiệu năng/W)
- Với các GPU đời cũ dùng cùng băng thông PCIe Gen 3, Pi có lợi thế tương đối
So sánh hiệu năng AI và LLM
- Bài test với AMD Radeon AI Pro R9700 (32GB VRAM) cho hiệu năng thấp hơn kỳ vọng, có thể do driver hoặc thiết lập BAR
- Khi dùng Nvidia RTX 3060 (12GB), Pi nhanh hơn PC với mô hình Llama 2 13B
- Kết quả đo hiệu quả cho thấy Pi vượt trội hơn PC về throughput trên điện năng tiêu thụ
- Ngay cả với RTX 4090, chênh lệch hiệu năng với mô hình lớn (Qwen3 30B) vẫn trong 5%, và trong nhiều trường hợp Pi hiệu quả hơn
- Cả backend CUDA lẫn backend Vulkan đều hoạt động bình thường trên Pi
Thử nghiệm cấu hình GPU kép
- Sử dụng bo mạch PCIe interconnect của Dolphin và MXH932 HBA
- Tắt ACS để cho phép truy cập bộ nhớ trực tiếp giữa các GPU
- Khi kết hợp các mẫu GPU khác nhau (4070, A4000), không hỗ trợ gộp VRAM, nên mức cải thiện hiệu năng bị hạn chế
- Với cấu hình các GPU giống nhau, có thể chạy các mô hình lớn hơn (như Qwen3 30B)
- Tổ hợp AMD RX 7900 XT + R9700 không chạy được một số mô hình do vấn đề driver
- Intel PC nhìn chung vẫn nhanh hơn, nhưng Pi vẫn giữ được hiệu năng sát nút ở các mô hình lớn
Kết luận
- Hiệu năng tuyệt đối và độ tiện dụng vẫn nghiêng về PC
- Tuy nhiên, với workload lấy GPU làm trung tâm trong môi trường điện năng thấp, chi phí thấp, Raspberry Pi là một lựa chọn thay thế thực tế
- Giảm được 20–30W điện năng nhàn rỗi; các SBC nền tảng Rockchip và Qualcomm còn có thể mang lại hiệu quả và băng thông I/O cao hơn
- Mục tiêu của thử nghiệm là tìm hiểu giới hạn của Pi và cấu trúc của điện toán GPU, và qua đó xác nhận tiềm năng của các hệ thống nhỏ gọn
1 bình luận
Ý kiến trên Hacker News
Để chạy LLM cục bộ thì cuối cùng GPU mới là yếu tố cốt lõi
Vì vậy tôi đang nghĩ xem đâu là chiếc máy tính rẻ nhất có thể ghép cùng GPU
Tôi không có khả năng hiểu hay sửa những vấn đề như BAR, nên hiện chỉ đang dùng một hộp x86 giá rẻ gắn GPU tạm ổn
Nhưng tôi vẫn không ngừng nghĩ rằng chắc hẳn phải có cách hiệu quả hơn
Trang là inferbench.com, mã nguồn có trong kho GitHub
Tôi cho rằng GPU cần ít nhất 128GB RAM
Hiệu năng CPU không cần cao, nhưng phải hỗ trợ nhiều làn PCIe, nên các CPU máy chủ cấu hình thấp như AMD EPYC là phù hợp
Với LLM cỡ trung thì chúng khá hợp
Tôi không hiểu vì sao bạn lại thấy phần đa GPU là điều bất ngờ
Hầu hết framework LLM (ví dụ llama.cpp) đều chia mô hình theo từng layer, nên phát sinh phụ thuộc tuần tự và dùng nhiều GPU cũng không tạo được xử lý song song
Một số GPU lại nhanh hơn cho xử lý prompt, còn số khác nhanh hơn cho sinh token, nên đôi khi trộn Radeon và NVIDIA lại có hiệu quả
Mức tăng hiệu năng thực sự chỉ có ở các backend như chế độ tensor parallel
Cách này chia mạng nơ-ron theo hướng luồng dữ liệu, nên cần kết nối tốt giữa các GPU (PCIe x16, NVlink, Infinity Fabric, v.v.)
Nếu không có những thứ đó, mức sử dụng GPU có thể trông lúc cao lúc thấp
Cách chia nhỏ LLM để có thể chạy nhiều tác vụ song song, ví dụ tách vai trò “manager” và “engineer”, như một kiến trúc agent, là điều khá thú vị
Mô hình manager tạo prompt, các mô hình cấp dưới xử lý song song rồi trả kết quả về
Trên thực tế nó tăng lên mức megabyte tùy theo độ dài chuỗi
Ví dụ nếu hidden state của Qwen3 30B là 5120 thì với lượng tử hóa 8 bit sẽ là 5120 byte mỗi token
Chỉ cần vượt 200 token là đã lên mức MB
Ngay cả băng thông PCIe x1 (khoảng 2GB/s) cũng đủ, nhưng độ trễ (latency) mới có thể là vấn đề lớn hơn
Thật sự rất vui khi có người làm những thử nghiệm như thế này
Tôi cũng từng nối eGPU vào laptop dự phòng và nghĩ rằng: “Liệu làm việc này với Raspberry Pi cũng được chăng?”
Tôi cũng muốn thấy cả hiệu năng chơi game
Chỉ là rất khó tìm game AAA hỗ trợ ARM, và bắt ép giả lập x86 bằng FEX thì không công bằng
Khi dùng constrained decoding (dựa trên JSON schema) thì mức sử dụng CPU tăng lên 100%
Tôi cũng thấy hiện tượng tương tự trên instance vLLM của mình
PCIe 3.0 cho khoảng 1GB/s mỗi làn, tức là đạt tốc độ cỡ 10Gb Ethernet
Biết đâu trong tương lai GPU sẽ hoạt động độc lập mà không cần hệ thống host
Thực tế đã từng có trường hợp gắn SSD vào GPU như Radeon Pro SSG,
và chỉ cần một chip RISC-V nhỏ hoặc bộ điều khiển cỡ Raspberry Pi có lẽ cũng đủ
Bài liên quan: TechPowerUp
Kiến trúc trong đó GPU kết nối trực tiếp với switch mạng để giao tiếp 400Gbe hoặc dựa trên CXL là điều khả thi
Ngoài ra, các công nghệ flash thế hệ mới như High Bandwidth Flash cũng có thể thay thế DRAM
Bài liên quan: ServeTheHome, Tom’s Hardware
Những dữ liệu này khiến tôi phải nghĩ lại về cấu hình PC chính của mình
Có lẽ một mini PC giá 300 USD chạy dưới 20W là đủ
Nó dư sức cho lướt web, xem video và chơi game nhẹ,
còn việc nặng thì chỉ cần truy cập workstation từ xa
Chỉ với 1 vCPU và 4GB RAM cũng đủ cho lướt web và các dự án cá nhân
Có vẻ các hãng phần cứng đã quảng bá quá đà rằng “dân chuyên nghiệp cần laptop hiệu năng cao”
Sự khác biệt TDP tạo ra chênh lệch hiệu năng lớn
còn thiết bị hiệu năng cao thì để trong không gian cách âm nên rất dễ chịu
Tôi nghi ngờ ngay từ đầu rằng vì sao cấu trúc PCI/CPU lại cần thiết
Có vẻ hướng đi đúng là đặt CPU và MPP trong cùng một package như Apple và NVIDIA
với các phép tính quy mô lớn như AI hay HPC thì có thể không tạo ra khác biệt lớn