whichllm - Tìm local LLM thực sự chạy được và cho hiệu năng tốt nhất trên phần cứng của bạn

xguru · 2026-05-18T10:06:01+09:00

Công cụ CLI tự động đề xuất local LLM phù hợp với phần cứng của người dùng dựa trên benchmark đo thực tế, không chỉ dựa vào số lượng tham số Tự động phát hiện GPU/CPU/RAM và xếp hạng các model hàng đầu trong số các model HuggingFace phù hợp với hệ thống Hỗ trợ NVIDIA, AMD, Apple Silicon và cả hệ thống chỉ dùng CPU Mục tiêu cốt lõi không phải là chọn model lớn nhất vừa với VRAM, mà là chọn model thực sự tốt nhất trong số đó Ví dụ: khi mô phỏng RTX 4090, dù model 32B có thể chạy vừa, công cụ vẫn đề xuất model 27B thế hệ mới hơn (Qwen3.6-27B) ở vị trí số 1 Chấm điểm hợp nhất từ nhiều benchmark: tích hợp LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard để tạo ra điểm số 0–100 Nhận biết tính mới của model (Recency-aware): các leaderboard cũ bị trừ điểm theo dòng dõi model, ngăn model năm 2024 vượt qua model thế hệ hiện tại chỉ nhờ điểm số của phiên bản cũ 5 cấp độ phân loại bằng chứng - gắn thẻ direct / variant / base_model / line_interp / self_reported rồi áp dụng mức giảm độ tin cậy Cũng chặn việc uploader tự khai báo sai sự thật và việc các nhánh fork nhỏ mượn điểm số lớn từ base model ở khác họ model Nếu số lượng tham số chênh lệch hơn 2 lần so với dominant member của family thì từ chối kế thừa Ước tính VRAM/tốc độ có nhận biết kiến trúc - VRAM gồm trọng số + bộ nhớ đệm GQA KV + activation + overhead; tốc độ là bandwidth-bound và phản ánh tách biệt active so với total của MoE, cũng như unified memory so với partial offload qua PCIe Hỗ trợ workflow một lệnh để tải model và chạy chat ngay bằng whichllm run Tự động tạo môi trường cô lập bằng uv, cài dependency, tải model và chạy chat tương tác Hỗ trợ mọi định dạng GGUF / AWQ / GPTQ / FP16 / BF16 Lệnh lập kế hoạch phần cứng whichllm --gpu "RTX 5090" - mô phỏng GPU bất kỳ để kiểm tra trước khi mua whichllm plan "llama 3 70b" - tra ngược GPU cần thiết cho một model cụ thể whichllm upgrade "RTX 4090" "RTX 5090" "H100" - so sánh máy hiện tại với các GPU ứng viên Tích hợp Ollama: có thể tạo pipeline theo dạng whichllm --top 1 --json | jq -r '.models[0].model_id' Xuất code snippet: whichllm snippet "qwen 7b" cung cấp mã Python có thể sao chép-dán, từ lời gọi llama_cpp.Llama.from_pretrained đến hoàn tất chat Giấy phép MIT

(github.com/Andyyyy64)

71 điểm bởi xguru 2026-05-18 | 3 bình luận | Chia sẻ qua WhatsApp

Công cụ CLI tự động đề xuất local LLM phù hợp với phần cứng của người dùng dựa trên benchmark đo thực tế, không chỉ dựa vào số lượng tham số
Tự động phát hiện GPU/CPU/RAM và xếp hạng các model hàng đầu trong số các model HuggingFace phù hợp với hệ thống
- Hỗ trợ NVIDIA, AMD, Apple Silicon và cả hệ thống chỉ dùng CPU
Mục tiêu cốt lõi không phải là chọn model lớn nhất vừa với VRAM, mà là chọn model thực sự tốt nhất trong số đó
- Ví dụ: khi mô phỏng RTX 4090, dù model 32B có thể chạy vừa, công cụ vẫn đề xuất model 27B thế hệ mới hơn (Qwen3.6-27B) ở vị trí số 1
Chấm điểm hợp nhất từ nhiều benchmark: tích hợp LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard để tạo ra điểm số 0–100
Nhận biết tính mới của model (Recency-aware): các leaderboard cũ bị trừ điểm theo dòng dõi model, ngăn model năm 2024 vượt qua model thế hệ hiện tại chỉ nhờ điểm số của phiên bản cũ
5 cấp độ phân loại bằng chứng - gắn thẻ direct / variant / base_model / line_interp / self_reported rồi áp dụng mức giảm độ tin cậy
- Cũng chặn việc uploader tự khai báo sai sự thật và việc các nhánh fork nhỏ mượn điểm số lớn từ base model ở khác họ model
- Nếu số lượng tham số chênh lệch hơn 2 lần so với dominant member của family thì từ chối kế thừa
Ước tính VRAM/tốc độ có nhận biết kiến trúc - VRAM gồm trọng số + bộ nhớ đệm GQA KV + activation + overhead; tốc độ là bandwidth-bound và phản ánh tách biệt active so với total của MoE, cũng như unified memory so với partial offload qua PCIe
Hỗ trợ workflow một lệnh để tải model và chạy chat ngay bằng whichllm run
- Tự động tạo môi trường cô lập bằng uv, cài dependency, tải model và chạy chat tương tác
- Hỗ trợ mọi định dạng GGUF / AWQ / GPTQ / FP16 / BF16
Lệnh lập kế hoạch phần cứng
- whichllm --gpu "RTX 5090" - mô phỏng GPU bất kỳ để kiểm tra trước khi mua
- whichllm plan "llama 3 70b" - tra ngược GPU cần thiết cho một model cụ thể
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - so sánh máy hiện tại với các GPU ứng viên
Tích hợp Ollama: có thể tạo pipeline theo dạng whichllm --top 1 --json | jq -r '.models[0].model_id'
Xuất code snippet: whichllm snippet "qwen 7b" cung cấp mã Python có thể sao chép-dán, từ lời gọi llama_cpp.Llama.from_pretrained đến hoàn tất chat
Giấy phép MIT

3 bình luận

xguru 2026-05-18

Tôi thì đề xuất 5 cái này. Có đến 3 cái là Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 29 ngày trước

Tôi đang dùng trang https://www.canirun.ai/, nhưng có lẽ cũng nên thử một lần.

popopo 2026-05-18

╭────────────────────────────────────────────────────── Thông tin phần cứng ──────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — bộ nhớ chia sẻ — BW: 256 GB/s         │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 nhân (AVX2, AVX-512)                                                        │  
│ RAM: 117.5 GB                                                                                                                │  
│ Dung lượng đĩa trống: 174.1 GB                                                                                               │  
│ HĐH: linux                                                                                                                   │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               Các mô hình được đề xuất  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Mức độ tin cậy của lựa chọn hàng đầu: Cao (benchmark trực tiếp, chênh lệch +2.9)  
  Tham chiếu benchmark: bản chụp tuyển chọn 2026-05; đã gộp live AA / LiveBench / Aider khi có thể truy cập.

whichllm - Tìm local LLM thực sự chạy được và cho hiệu năng tốt nhất trên phần cứng của bạn

Bài viết liên quan

3 bình luận