9 điểm bởi GN⁺ 2025-12-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các thử nghiệm chạy GPU AMD, Intel, Nvidia trên Raspberry Pi 5 và so sánh với PC desktop cho thấy trong nhiều trường hợp, mức suy giảm hiệu năng chỉ khoảng 2–5%
  • Bốn hạng mục được thử nghiệm gồm transcoding Jellyfin, rendering GravityMark, suy luận LLM/AI, và cấu hình đa GPU để đo hiệu quả và hiệu năng trên chi phí
  • Trong trường hợp kết nối 4 Nvidia RTX A5000, chênh lệch hiệu năng so với máy chủ Intel nằm trong 2%, trong đó khả năng chia sẻ bộ nhớ giữa các GPU qua PCIe switch đóng vai trò then chốt
  • Tổng chi phí của hệ thống Raspberry Pi eGPU khoảng $350–400, trong khi PC$1500–2000; điện năng tiêu thụ cũng thấp hơn đáng kể ở Pi (nhàn rỗi 4–5W so với 30W)
  • Đây là minh chứng cho tiềm năng của Raspberry Pi như một nền tảng thay thế tiêu thụ điện thấp, chi phí thấp để khai thác GPU lớn hiệu quả

Tổng quan thử nghiệm

  • Kiểm chứng khả năng tận dụng GPU của Raspberry Pi 5 ngay cả khi bị giới hạn bởi băng thông PCIe Gen 3 x1 (8 GT/s)
    • Đối tượng so sánh là PC desktop hiện đại (PCIe Gen 5 x16, 512 GT/s)
  • Các bài test gồm transcoding media (Jellyfin), rendering GPU (GravityMark), hiệu năng LLM/AI, và cấu hình đa GPU
  • Thử nghiệm vận hành đồng thời 2 GPU bằng PCIe Gen 4 external switch và backplane 3 khe của Dolphin ICS

Trường hợp Raspberry Pi kết nối 4 GPU

  • Người dùng GitHub mpsparrow đã kết nối 4 GPU Nvidia RTX A5000 vào một Pi duy nhất
    • Khi chạy mô hình Llama 3 70B, chênh lệch hiệu năng so với máy chủ Intel nằm trong 2% (11.83 vs 12 tokens/sec)
  • PCIe switch cho phép chia sẻ bộ nhớ giữa các GPU, giúp vượt qua hạn chế băng thông của Pi
  • Ngay cả với cấu hình một GPU, một số tác vụ cũng cho thấy hiệu năng tương đương hoặc nhỉnh hơn desktop

So sánh chi phí và hiệu quả

  • Cấu hình Raspberry Pi eGPU: khoảng $350–400, cấu hình Intel PC: khoảng $1500–2000
  • Điện năng tiêu thụ khi nhàn rỗi: Pi 4–5W, PC 30W
  • Nếu loại trừ GPU, Pi vượt trội về cả chi phí lẫn hiệu quả điện năng trong cùng điều kiện

Benchmark transcoding Jellyfin

  • Khi dùng Nvidia 4070 Ti, PC chiếm ưu thế về throughput thô (2GB/s)
    • Pi đạt khoảng PCIe 850MB/s, USB SSD 300MB/s
  • Tuy nhiên, với streaming media H.264/H.265, Pi vẫn xử lý mượt transcoding 1080p và 4K
    • Hỗ trợ mã hóa phần cứng NVENC, đồng thời 2 phiên transcoding song song cũng ổn định
  • GPU AMD gặp một số vấn đề về độ ổn định trong transcoding

Bài test rendering GravityMark

  • Thử nghiệm chủ yếu với GPU AMD; PC nhanh hơn đôi chút nhưng chênh lệch rất nhỏ
  • Với RX 460, Pi ghi nhận hiệu quả cao hơn PC (hiệu năng/W)
  • Với các GPU đời cũ dùng cùng băng thông PCIe Gen 3, Pi có lợi thế tương đối

So sánh hiệu năng AI và LLM

  • Bài test với AMD Radeon AI Pro R9700 (32GB VRAM) cho hiệu năng thấp hơn kỳ vọng, có thể do driver hoặc thiết lập BAR
  • Khi dùng Nvidia RTX 3060 (12GB), Pi nhanh hơn PC với mô hình Llama 2 13B
  • Kết quả đo hiệu quả cho thấy Pi vượt trội hơn PC về throughput trên điện năng tiêu thụ
  • Ngay cả với RTX 4090, chênh lệch hiệu năng với mô hình lớn (Qwen3 30B) vẫn trong 5%, và trong nhiều trường hợp Pi hiệu quả hơn
  • Cả backend CUDA lẫn backend Vulkan đều hoạt động bình thường trên Pi

Thử nghiệm cấu hình GPU kép

  • Sử dụng bo mạch PCIe interconnect của DolphinMXH932 HBA
  • Tắt ACS để cho phép truy cập bộ nhớ trực tiếp giữa các GPU
  • Khi kết hợp các mẫu GPU khác nhau (4070, A4000), không hỗ trợ gộp VRAM, nên mức cải thiện hiệu năng bị hạn chế
  • Với cấu hình các GPU giống nhau, có thể chạy các mô hình lớn hơn (như Qwen3 30B)
  • Tổ hợp AMD RX 7900 XT + R9700 không chạy được một số mô hình do vấn đề driver
  • Intel PC nhìn chung vẫn nhanh hơn, nhưng Pi vẫn giữ được hiệu năng sát nút ở các mô hình lớn

Kết luận

  • Hiệu năng tuyệt đối và độ tiện dụng vẫn nghiêng về PC
  • Tuy nhiên, với workload lấy GPU làm trung tâm trong môi trường điện năng thấp, chi phí thấp, Raspberry Pi là một lựa chọn thay thế thực tế
  • Giảm được 20–30W điện năng nhàn rỗi; các SBC nền tảng Rockchip và Qualcomm còn có thể mang lại hiệu quả và băng thông I/O cao hơn
  • Mục tiêu của thử nghiệm là tìm hiểu giới hạn của Pi và cấu trúc của điện toán GPU, và qua đó xác nhận tiềm năng của các hệ thống nhỏ gọn

1 bình luận

 
GN⁺ 2025-12-21
Ý kiến trên Hacker News
  • Để chạy LLM cục bộ thì cuối cùng GPU mới là yếu tố cốt lõi
    Vì vậy tôi đang nghĩ xem đâu là chiếc máy tính rẻ nhất có thể ghép cùng GPU
    Tôi không có khả năng hiểu hay sửa những vấn đề như BAR, nên hiện chỉ đang dùng một hộp x86 giá rẻ gắn GPU tạm ổn
    Nhưng tôi vẫn không ngừng nghĩ rằng chắc hẳn phải có cách hiệu quả hơn

    • Tôi đang vận hành một trang crowdsourcing để thu thập các tổ hợp phần cứng tối ưu cho LLM cục bộ
      Trang là inferbench.com, mã nguồn có trong kho GitHub
    • Hiện tại vẫn khó đạt hiệu năng thật sự có ý nghĩa chỉ với một thiết bị PCIe đơn lẻ
      Tôi cho rằng GPU cần ít nhất 128GB RAM
      Hiệu năng CPU không cần cao, nhưng phải hỗ trợ nhiều làn PCIe, nên các CPU máy chủ cấu hình thấp như AMD EPYC là phù hợp
    • Bạn đã nghĩ đến việc dùng Apple silicon như M4 Max hay M3 Ultra chưa?
      Với LLM cỡ trung thì chúng khá hợp
    • Hệ thống bạn nói đến về cơ bản chính là vai trò mà DGX Spark đảm nhiệm
  • Tôi không hiểu vì sao bạn lại thấy phần đa GPU là điều bất ngờ
    Hầu hết framework LLM (ví dụ llama.cpp) đều chia mô hình theo từng layer, nên phát sinh phụ thuộc tuần tự và dùng nhiều GPU cũng không tạo được xử lý song song
    Một số GPU lại nhanh hơn cho xử lý prompt, còn số khác nhanh hơn cho sinh token, nên đôi khi trộn Radeon và NVIDIA lại có hiệu quả
    Mức tăng hiệu năng thực sự chỉ có ở các backend như chế độ tensor parallel
    Cách này chia mạng nơ-ron theo hướng luồng dữ liệu, nên cần kết nối tốt giữa các GPU (PCIe x16, NVlink, Infinity Fabric, v.v.)
    Nếu không có những thứ đó, mức sử dụng GPU có thể trông lúc cao lúc thấp
    Cách chia nhỏ LLM để có thể chạy nhiều tác vụ song song, ví dụ tách vai trò “manager” và “engineer”, như một kiến trúc agent, là điều khá thú vị

    • Đúng vậy, đó chính là khái niệm của hệ thống agent
      Mô hình manager tạo prompt, các mô hình cấp dưới xử lý song song rồi trả kết quả về
    • Nói rằng kích thước truyền giữa các layer chỉ ở mức kilobyte là hơi phóng đại
      Trên thực tế nó tăng lên mức megabyte tùy theo độ dài chuỗi
      Ví dụ nếu hidden state của Qwen3 30B là 5120 thì với lượng tử hóa 8 bit sẽ là 5120 byte mỗi token
      Chỉ cần vượt 200 token là đã lên mức MB
      Ngay cả băng thông PCIe x1 (khoảng 2GB/s) cũng đủ, nhưng độ trễ (latency) mới có thể là vấn đề lớn hơn
  • Thật sự rất vui khi có người làm những thử nghiệm như thế này
    Tôi cũng từng nối eGPU vào laptop dự phòng và nghĩ rằng: “Liệu làm việc này với Raspberry Pi cũng được chăng?”

  • Tôi cũng muốn thấy cả hiệu năng chơi game
    Chỉ là rất khó tìm game AAA hỗ trợ ARM, và bắt ép giả lập x86 bằng FEX thì không công bằng

    • Có lẽ mấu chốt là tìm được game không bị nghẽn ở CPU
  • Khi dùng constrained decoding (dựa trên JSON schema) thì mức sử dụng CPU tăng lên 100%
    Tôi cũng thấy hiện tượng tương tự trên instance vLLM của mình

  • PCIe 3.0 cho khoảng 1GB/s mỗi làn, tức là đạt tốc độ cỡ 10Gb Ethernet
    Biết đâu trong tương lai GPU sẽ hoạt động độc lập mà không cần hệ thống host
    Thực tế đã từng có trường hợp gắn SSD vào GPU như Radeon Pro SSG,
    và chỉ cần một chip RISC-V nhỏ hoặc bộ điều khiển cỡ Raspberry Pi có lẽ cũng đủ
    Bài liên quan: TechPowerUp
    Kiến trúc trong đó GPU kết nối trực tiếp với switch mạng để giao tiếp 400Gbe hoặc dựa trên CXL là điều khả thi
    Ngoài ra, các công nghệ flash thế hệ mới như High Bandwidth Flash cũng có thể thay thế DRAM
    Bài liên quan: ServeTheHome, Tom’s Hardware

  • Những dữ liệu này khiến tôi phải nghĩ lại về cấu hình PC chính của mình
    Có lẽ một mini PC giá 300 USD chạy dưới 20W là đủ
    Nó dư sức cho lướt web, xem video và chơi game nhẹ,
    còn việc nặng thì chỉ cần truy cập workstation từ xa

    • Tôi đang thử nghiệm với tổ hợp Proxmox VM + eGPU
      Chỉ với 1 vCPU và 4GB RAM cũng đủ cho lướt web và các dự án cá nhân
      Có vẻ các hãng phần cứng đã quảng bá quá đà rằng “dân chuyên nghiệp cần laptop hiệu năng cao”
    • Tôi đổi từ mini PC Ryzen 8 nhân sang desktop 8 nhân thì tốc độ unit test tăng lên rất nhiều
      Sự khác biệt TDP tạo ra chênh lệch hiệu năng lớn
    • Tôi cũng dùng mini PC Beelink, bàn làm việc gọn gàng hơn hẳn
      còn thiết bị hiệu năng cao thì để trong không gian cách âm nên rất dễ chịu
  • Tôi nghi ngờ ngay từ đầu rằng vì sao cấu trúc PCI/CPU lại cần thiết
    Có vẻ hướng đi đúng là đặt CPU và MPP trong cùng một package như Apple và NVIDIA

    • Cách đó có lợi cho những tác vụ nhạy cảm với độ trễ, nhưng
      với các phép tính quy mô lớn như AI hay HPC thì có thể không tạo ra khác biệt lớn