Chia sẻ kinh nghiệm cấu hình máy local LLM tại nhà

6 điểm bởi popopo 2025-11-09 | 9 bình luận | Chia sẻ qua WhatsApp

Sau khi xem Nvidia DGX Spark, tôi đã kỳ vọng rất nhiều vào GB10, nhưng đọc review thì thấy thất vọng nhiều hơn. Có vẻ băng thông bộ nhớ đang kìm hãm các mặt hiệu năng khác.

Cũng có trường hợp hiệu năng cho ra tương đương hoặc thậm chí tốt hơn AMD Strix Halo.

(Dù công bố là bộ nhớ hợp nhất 64GB, nhưng có tùy chọn 128GB, có thể cấp phát 96GB vRAM)

Nghe nói có hỗ trợ FP4, CUDA, và nếu mở rộng với ConnectX-7 thì sẽ được cộng thêm 128GB bộ nhớ, nhưng giá máy lại hơn gấp đôi so với Strix Halo nên tôi khó mà với tới.

Dù hệ sinh thái AMD ROCm còn thiếu so với CUDA, các chương trình tôi tự làm đến giờ vẫn chạy tốt nên tôi đang nghiêng về phía này hơn (khoảng 30 triệu won là có thể mua SoC 128GB 2TB). Tôi muốn hỏi mọi người đã cấu hình hệ thống như thế nào khi cân nhắc ngân sách và điện năng tiêu thụ.

Tôi đang định chọn AMD Strix Halo, còn OS thì sẽ dùng Bazzite dựa trên Fedora. Vì driver đồ họa đều được cài sẵn mặc định, chỉ cần cài thêm Distrobox và mise là có vẻ chạy được các chương trình tôi tự làm cùng những model cần thiết.

9 bình luận

popopo 2025-11-18

Máy Strix Halo tôi mua trong đợt giảm giá Ngày Độc thân đã đến, tôi cài Bazzite và thử tạo vài ảnh bằng distrobox. Hiệu năng đúng như dự đoán (LLM thì không cao lắm). Cứ xem nó như một mini PC hiệu năng cao là được.

Nghe nói có thể cấp phát hơn 96GB bộ nhớ hợp nhất cho vRAM, nhưng không rõ là vì nó thay đổi động nên không kiểm tra được hay sao, đến giờ tôi vẫn chưa thấy trường hợp nào được cấp phát quá 96GB.

Về cấu hình, tôi tham khảo trang https://strixhalo.wiki/. Ở đó cũng có bảng so sánh hướng dẫn mua hàng (Strix Halo - Mac - DGS Spark - 6000), nên xem qua sẽ khá hữu ích.

Quảng cáo cho Bazzite: hệ điều hành được quản lý bằng image bất biến, còn các chương trình khác thì được quản lý như pin rời (flatpak, brew, v.v.). Chỉ với lệnh cập nhật là từ firmware đến toàn bộ gói đều được cập nhật. Nếu cảm thấy OS bị bừa bộn thì chỉ cần dọn thư mục người dùng là được (OS thì không thể đụng vào theo cách thông thường). Driver AMD đã được cài sẵn đầy đủ nên có thể dùng ROMc ngay.

Hệ điều hành được đưa ra như một bệ phóng container... là Fedora CoreOS, còn Bazzite, vốn bổ sung đủ loại thiết lập người dùng lên trên đó, cũng rất tiện cho nhu cầu sử dụng thông thường lẫn phát triển và trải nghiệm dùng cực kỳ tốt. Container (distrobox), wine, tailscale đều được cài sẵn. Chỉ cần thêm mise vào là có thể quản lý gần như mọi chức năng mình muốn.

Ban đầu tôi định vừa thiết lập từ đầu vừa làm luôn hướng dẫn, nhưng vì chỉ cần sao chép nguyên thư mục tài khoản người dùng Bazzite cũ là toàn bộ thiết lập đã được chuyển sang, nên rốt cuộc lại... không viết được hướng dẫn thiết lập.

minsuchae 2025-11-11

Theo ý kiến cá nhân của tôi, với Mac và Nvidia DGX Spark thì dùng bộ nhớ hợp nhất, còn các trường hợp khác thì phần lớn sẽ tách RAM và VRAM.
Trong đó, một số sản phẩm còn dùng cách cấp phát VRAM cho GPU tích hợp bằng chính RAM hệ thống.
Với người không chuyên, tôi khuyên dùng Mac hoặc Nvidia DGX Spark; còn nếu bạn có thể tự mày mò ở mức độ nhất định thì dùng AMD cũng có thể là lựa chọn tốt hơn.
Mỗi bên đều có ưu và nhược điểm riêng.

Với Mac, Nvidia DGX Spark và các dòng tương tự, nhược điểm là không thể tự nâng cấp RAM nên phải cấu hình sẵn ngay từ lúc mua.
Còn AMD có ưu điểm là có thể tự nâng cấp RAM, nhưng vẫn tồn tại giới hạn về mức phân bổ VRAM.

Nói cách khác, nếu xét trên góc độ muốn dùng từ 128GB trở lên làm VRAM, thì Mac Studio là lựa chọn có lợi nhất.
Ít phải vất vả tinh chỉnh hơn, nhưng Mac Studio có nhược điểm là phù hợp cho inference hơn, còn bất lợi khi huấn luyện. (khi huấn luyện thì chậm hơn AMD)

Với Nvidia DGX Spark, nếu muốn cấu hình bộ nhớ trên 128GB thì có nhược điểm là còn phải mua thêm cáp riêng của Nvidia. Tuy nhiên, trong huấn luyện AI thì CUDA về cơ bản là nền tảng được dùng mặc định nên ít phải vật lộn nhất. Ngoài ra, về hiệu năng thì có tin đồn là nếu không tính VRAM, nó ở mức tương đương 5070 và cũng có giới hạn về băng thông bộ nhớ...(nếu tính đến việc huấn luyện thì vẫn là một lựa chọn ổn)

Phân bổ VRAM bằng đồ họa tích hợp
Gần đây do giá bộ nhớ tăng nên đây là một lựa chọn có phần đáng tiếc, nhưng dù vậy nếu xét các tùy chọn RAM thì vẫn rẻ hơn Mac rất nhiều. Tuy nhiên, do AMD ROCm còn thiếu thốn nên có nhược điểm là phải tự thân vất vả xử lý, vì vậy không khuyến nghị cho người không chuyên (hơn nữa, việc tăng VRAM cao hơn nữa thực tế gần như là không thể...)

Có lẽ có thể tóm gọn như vậy.
Nếu chỉ xét hiệu năng trên giá thành thì AMD đúng là tốt... nhưng nếu muốn dùng thoải mái, ít phải lo nghĩ thì Mac Studio cũng không phải lựa chọn tệ. Nếu chỉ xét inference thì hoàn toàn có thể rơi vào vùng đáng tiền...

minsuchae 2025-11-11

Trong trường hợp của AMD, ưu điểm là có thể tự nâng cấp RAM, nhưng vẫn tồn tại giới hạn về việc phân bổ VRAM
-> Tôi đã viết sai phần này vì viết mà không sắp xếp lại nội dung. Khi chia giữa RAM hệ thống và VRAM thì trong một số trường hợp có thể nâng cấp được một phần, còn với laptop thì cũng có nhiều mẫu không thể nâng cấp.

dhy0613 2025-11-11

Tôi không chờ 5070Ti Super nữa mà bị Radeon mê hoặc nên đã ráp và dùng như thế này.

9800x3D
7900 XTX cũ
96GB RAM

Chia nhỏ phân vùng, cài Ubuntu 24.10 rồi cài ROCm 7.1 thì với phía ComfyUI, nơi tôi dùng cho LLM inference và PyTorch, mọi thứ chạy khá ổn mà không có vấn đề lớn nào.

Việc không dùng được SageAttention hơi là một điểm trừ, nhưng nghĩ đến mức giá thì tôi cũng thấy chấp nhận được.

clastneo 2025-11-10

Tôi đang nghĩ đến việc mua mẫu Mac Studio lớn, nhưng không ngờ là giờ đã có nhiều lựa chọn cho Home LLM như vậy.
Không biết bạn có thể chia sẻ cách bạn cấu hình phần thiết lập bên phía Strix không?

popopo 2025-11-10

Tôi vẫn chưa mua Strix halo, và đã thử tính toán khoảng 600 triệu trường hợp bằng cách dùng 16GB vRAM trên một máy tính chơi game dùng GPU AMD tương tự.

Tôi chỉ lắp một lần rồi vừa làm vừa tìm kiếm, nên không nhớ chính xác.

Vì đang dùng Bazzite nên driver đồ họa đã được cài sẵn, không có gì đặc biệt; sau khi cài ROMc và các mô-đun liên quan vào Rocky Linux bên trong distrobox, tôi đã thực hiện nhiều phép tính sử dụng GPU.

Vì băng thông bộ nhớ nhanh khá cao, có lẽ cũng đáng cân nhắc Mac Studio chăng? Nếu chọn cấu hình 128GB 2TB thì giá là 4.000 USD. Phần kiến trúc Mac có lẽ sẽ không khác biệt quá lớn so với đi theo AMD.

clastneo 2025-11-11

Tôi sẽ tham khảo câu trả lời.
Cảm ơn bạn đã trả lời rất nhiệt tình!

popopo 2025-11-09

Kết quả nhờ Gemini so sánh dựa trên https://www.youtube.com/watch?v=Pww8rIzr1pg

📊 So sánh các tùy chọn chạy LLM 128GB (tháng 11/2025, có phản ánh benchmark)

Phản ánh nội dung video: dựa trên benchmark của Hardware Unboxed, Strix Halo cho thấy ưu thế so với M3 Max (cải thiện khoảng 30~35%), còn hệ thống GB10 "Spark" thể hiện hiệu năng NPU/GPU chuyên dụng vượt trội hơn rất nhiều so với các APU/chipset tích hợp này. (dựa trên suy luận Llama 3 70B Q4, đơn vị T/s)

Tùy chọn cấu hình (128GB) T/s (ước tính) Điện năng hệ thống (ước tính) T/W (hiệu suất điện năng) Chi phí hệ thống (ước tính) Cost/T (hiệu quả chi phí)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~5,2 triệu won 4,33 vạn won/T
4 x RTX 5080 32GB (mới) 240 T/s 1500 W 0.16 ~12 triệu won 5,0 vạn won/T
6 x RTX 3090 (đã qua sử dụng) 90 T/s 2300 W 0.04 ~7 triệu won 7,8 vạn won/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~2,6 triệu won 8,67 vạn won/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~6 triệu won 27,3 vạn won/T

💡 Phân tích và kết luận (đã sửa lỗi)

Tôi xin đính chính sai sót nghiêm trọng trước đó và phân tích lại cho đúng với nội dung video.

Quán quân về "giá trên hiệu năng (Cost/T)": NVIDIA "Spark" (GB10)  

    Cost/T (hiệu quả chi phí): 4,33 vạn won/T  

    Như trong video của Hardware Unboxed cho thấy, hệ thống 'Spark' giá $3999 mang lại hiệu năng suy luận LLM (T/s) vượt trội hơn nhiều so với hệ thống 'Strix Halo' giá $2000.  

    Vì vậy, chi phí xây dựng hệ thống trên mỗi token (Cost/T) của nó là thấp nhất trong tất cả các lựa chọn, trở thành quán quân về 'giá/hiệu năng'.  

    T/W (hiệu suất điện năng) cũng đạt 0.30, hiệu quả vượt trội so với cấu hình đa GPU.  

Quán quân về "ngân sách tuyệt đối": AMD Strix Halo (128GB)  

    Cost/T (hiệu quả chi phí): 8,67 vạn won/T  

    Giá trị của hệ thống này không nằm ở tốc độ tuyệt đối (30 T/s), mà ở việc có thể bước vào môi trường VRAM 128GB với 'chi phí thấp nhất' áp đảo là **khoảng 2,6 triệu won ($2000)**.  

    Như đã được xác nhận trong video là vượt qua M3 Max, đây là một lựa chọn 'nhập môn' rất tốt cho các nhà phát triển cá nhân.  

Quán quân về "tốc độ tuyệt đối": 4 x RTX 5080 32GB  

    T/s (tốc độ): 240 T/s  

    Các hệ thống tích hợp như 'Spark' hay 'Strix Halo' rất mạnh cho suy luận (Inference), nhưng có thể có giới hạn khi trực tiếp 'fine-tuning (tinh chỉnh)' mô hình.  

    Nếu bạn muốn tốc độ suy luận nhanh nhất đồng thời có cả sự linh hoạt để trực tiếp huấn luyện/chỉnh sửa mô hình, thì cấu hình nhiều GPU rời (4 x 5080) vẫn là lựa chọn mạnh nhất.

popopo 2025-11-10

Video cho rằng trong phạm vi ngân sách 4K, cấu hình quad 3090 vượt trội hơn hẳn DGX Spark về hiệu năng

https://www.youtube.com/watch?v=md6a4ENM9pg

Lập luận cho rằng Strix Halo là một lựa chọn mua rất tệ để làm máy chạy Local LLM

https://reddit.com/r/LocalLLaMA/…

Có vẻ như lập luận chính là mức tiêu thụ điện khó có thể trở thành tiêu chí quan trọng, và vì băng thông nên dù có nạp các mô hình lớn vào bộ nhớ cũng không thể tận dụng được...

Chia sẻ kinh nghiệm cấu hình máy local LLM tại nhà

Bài viết liên quan

9 bình luận