- Công cụ CLI tự động đề xuất local LLM phù hợp với phần cứng của người dùng dựa trên benchmark đo thực tế, không chỉ dựa vào số lượng tham số
- Tự động phát hiện GPU/CPU/RAM và xếp hạng các model hàng đầu trong số các model HuggingFace phù hợp với hệ thống
- Hỗ trợ NVIDIA, AMD, Apple Silicon và cả hệ thống chỉ dùng CPU
- Mục tiêu cốt lõi không phải là chọn model lớn nhất vừa với VRAM, mà là chọn model thực sự tốt nhất trong số đó
- Ví dụ: khi mô phỏng RTX 4090, dù model 32B có thể chạy vừa, công cụ vẫn đề xuất model 27B thế hệ mới hơn (Qwen3.6-27B) ở vị trí số 1
- Chấm điểm hợp nhất từ nhiều benchmark: tích hợp LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard để tạo ra điểm số 0–100
- Nhận biết tính mới của model (Recency-aware): các leaderboard cũ bị trừ điểm theo dòng dõi model, ngăn model năm 2024 vượt qua model thế hệ hiện tại chỉ nhờ điểm số của phiên bản cũ
- 5 cấp độ phân loại bằng chứng - gắn thẻ
direct / variant / base_model / line_interp / self_reported rồi áp dụng mức giảm độ tin cậy
- Cũng chặn việc uploader tự khai báo sai sự thật và việc các nhánh fork nhỏ mượn điểm số lớn từ base model ở khác họ model
- Nếu số lượng tham số chênh lệch hơn 2 lần so với dominant member của family thì từ chối kế thừa
- Ước tính VRAM/tốc độ có nhận biết kiến trúc - VRAM gồm trọng số + bộ nhớ đệm GQA KV + activation + overhead; tốc độ là bandwidth-bound và phản ánh tách biệt active so với total của MoE, cũng như unified memory so với partial offload qua PCIe
- Hỗ trợ workflow một lệnh để tải model và chạy chat ngay bằng
whichllm run
- Tự động tạo môi trường cô lập bằng
uv, cài dependency, tải model và chạy chat tương tác
- Hỗ trợ mọi định dạng GGUF / AWQ / GPTQ / FP16 / BF16
- Lệnh lập kế hoạch phần cứng
whichllm --gpu "RTX 5090" - mô phỏng GPU bất kỳ để kiểm tra trước khi mua
whichllm plan "llama 3 70b" - tra ngược GPU cần thiết cho một model cụ thể
whichllm upgrade "RTX 4090" "RTX 5090" "H100" - so sánh máy hiện tại với các GPU ứng viên
- Tích hợp Ollama: có thể tạo pipeline theo dạng
whichllm --top 1 --json | jq -r '.models[0].model_id'
- Xuất code snippet:
whichllm snippet "qwen 7b" cung cấp mã Python có thể sao chép-dán, từ lời gọi llama_cpp.Llama.from_pretrained đến hoàn tất chat
- Giấy phép MIT
1 bình luận
Tôi thì đề xuất 5 cái này. Có đến 3 cái là Qwen.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B