- Công cụ giúp tìm ra các mô hình thực sự có thể chạy được chỉ với một lệnh duy nhất, dựa trên hàng trăm mô hình LLM và nhà cung cấp, cùng RAM·CPU·GPU của hệ thống bạn
- Chấm điểm từng mô hình theo chất lượng, tốc độ, mức độ phù hợp và ngữ cảnh để hiển thị khả năng chạy, đồng thời hỗ trợ cả TUI (giao diện terminal) và chế độ CLI
- Hỗ trợ nhiều GPU, kiến trúc MoE, lượng tử hóa động, ước tính tốc độ và tích hợp với runtime cục bộ (Ollama, llama.cpp, MLX)
- Phân tích chế độ chạy (GPU, CPU+GPU, CPU) và mức độ phù hợp (Perfect, Good, Marginal, Too Tight) cho từng mô hình để đề xuất tổ hợp tối ưu
- Cung cấp tự động hóa việc chọn mô hình theo phần cứng cho các nhà phát triển muốn sử dụng LLM hiệu quả trong môi trường cục bộ
Tổng quan tính năng chính
- llmfit là công cụ chạy trên terminal, phát hiện cấu hình phần cứng của hệ thống để đánh giá liệu một mô hình LLM có thực sự chạy được hay không
- Đọc thông tin RAM, CPU, GPU để tính điểm chất lượng, tốc độ, mức độ phù hợp và ngữ cảnh cho từng mô hình
- Kết quả được hiển thị dưới dạng TUI tương tác hoặc CLI truyền thống
- Hỗ trợ các tính năng đa GPU, Mixture-of-Experts (MoE), chọn lượng tử hóa động, ước tính tốc độ, tích hợp runtime cục bộ
- Hỗ trợ các runtime cục bộ như Ollama, llama.cpp, MLX, đồng thời có thể tự động phát hiện mô hình đã cài đặt và tải về
- Thông qua chế độ Plan, có thể tính ngược cấu hình phần cứng tối thiểu và khuyến nghị cần thiết cho một mô hình cụ thể
- Hoạt động trên nhiều nền tảng như macOS, Linux, Windows, Ascend
Cài đặt và chạy
- Trên macOS/Linux có thể cài bằng lệnh
brew install llmfit hoặc curl -fsSL https://llmfit.axjns.dev/install.sh | sh
- Trên Windows có thể cài bằng
cargo install llmfit
- Khi chạy lệnh
llmfit, giao diện TUI sẽ mở ra và hiển thị cấu hình hệ thống cùng danh sách mô hình
- Ở chế độ CLI, cung cấp nhiều lệnh con như
llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json
Cách hoạt động
- Phát hiện phần cứng: sử dụng
sysinfo, nvidia-smi, rocm-smi, system_profiler... để thu thập thông tin RAM·CPU·GPU
- Cơ sở dữ liệu mô hình: lấy hàng trăm mô hình từ HuggingFace API và lưu vào
data/hf_models.json
- Bao gồm các mô hình chính như Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite
- Lượng tử hóa động: duyệt qua các tầng từ Q8_0 đến Q2_K và tự động chọn mức lượng tử hóa chất lượng cao nhất trong phạm vi bộ nhớ khả dụng
- Ước tính tốc độ: dùng công thức dựa trên băng thông bộ nhớ GPU
(bandwidth_GB_s / model_size_GB) × 0.55
- Tích hợp sẵn bảng băng thông cho khoảng 80 loại GPU
- Phân tích độ phù hợp: đánh giá khả năng chạy và phần bộ nhớ dư theo từng chế độ GPU·CPU+GPU·CPU
Giao diện người dùng
- Phím điều khiển TUI:
f để lọc theo mức độ phù hợp, a để lọc theo khả dụng, s để thay đổi tiêu chí sắp xếp
p để vào chế độ Plan, d để tải mô hình, t để đổi giao diện màu
- Trong chế độ Plan, có thể chỉnh độ dài ngữ cảnh, mức lượng tử hóa, tốc độ token mục tiêu... để tính toán VRAM/RAM/CPU cần thiết
- Theme: cung cấp 6 giao diện màu tích hợp sẵn gồm Default, Dracula, Solarized, Nord, Monokai, Gruvbox
Runtime và tính năng tích hợp
- Tích hợp Ollama: kết nối với instance Ollama cục bộ hoặc từ xa (biến môi trường
OLLAMA_HOST) để phát hiện và tải mô hình đã cài đặt
- Tích hợp llama.cpp: tải file GGUF từ HuggingFace vào cache cục bộ và hiển thị trạng thái cài đặt
- Tích hợp MLX: hỗ trợ cache mô hình và liên kết máy chủ cho Apple Silicon
- Tích hợp OpenClaw: thông qua kỹ năng
llmfit-advisor, tác nhân OpenClaw có thể tự động đề xuất và cấu hình mô hình phù hợp với phần cứng
Quản lý cơ sở dữ liệu mô hình
- Tự động tạo danh sách mô hình từ HuggingFace API bằng script
scripts/scrape_hf_models.py
- Cập nhật dữ liệu và build lại binary bằng lệnh
make update-models
- Mô hình được phân loại theo các nhóm như phổ thông, coding, suy luận, đa phương thức, chat, embedding
- Cache nguồn GGUF (
data/gguf_sources_cache.json) lưu đường dẫn tải xuống trong 7 ngày
Hỗ trợ nền tảng
- Linux/macOS (Apple Silicon): hỗ trợ đầy đủ
- Windows: hỗ trợ phát hiện RAM·CPU và GPU NVIDIA (
nvidia-smi)
- Khi phát hiện GPU thất bại, có thể chỉ định thủ công VRAM bằng tùy chọn
--memory=
Giấy phép
1 bình luận
Ý kiến trên Hacker News
Dự án này trông khá hay và hữu ích, nhưng tôi ước nó là một website
Việc chạy một file thực thi khiến tôi thấy ngại. Tôi nghĩ loại tính năng này hoàn toàn có thể được triển khai trên web
Theo phần mô tả trên GitHub, nó cần đọc ở cấp độ hệ thống dung lượng RAM, số lượng GPU, loại backend (CUDA, Metal, v.v.)
Do các ràng buộc sandbox của trình duyệt, JavaScript không thể truy cập trực tiếp những thông tin này
Nếu làm bản web, sẽ cần người dùng tải lên báo cáo
.spxcủa macOS hoặc báo cáoinxicủa Linux, hoặc tự chọn cấu hình phần cứng theo cách thủ côngCách tiếp cận này kém tiện hơn, nhưng có ưu điểm là có thể thử các tổ hợp phần cứng giả định
Thực ra tôi không nghĩ người chạy model cục bộ lại thường không biết phần cứng của mình
Dự án này thực sự rất tuyệt
Thứ thực sự cần chỉ là kích thước LLM và băng thông bộ nhớ
Có thể dùng một công thức đơn giản để xác định model có phù hợp hay không
Ví dụ, để chạy model 32B ở 4bit thì cần tối thiểu 16GB VRAM
Nếu tính bằng
tok/s = memory_bandwidth / llm_size, thì RTX3090 (960GB/s) sẽ cho khoảng 60 tok/sVới model MoE, số lượng tham số được kích hoạt sẽ quyết định tốc độ
Cộng thêm khoảng đệm 10% thì sẽ ra ước tính thực tế hơn
Nếu tải tham số model bằng
mmap, thì khi RAM đủ nhiều có thể mở rộng mà không bị giảm hiệu năngNhìn thì đẹp mắt, nhưng trên máy của tôi Qwen 3.5 chạy tốt mà công cụ lại báo là không thể
Rốt cuộc kiểu công cụ này có lẽ chỉ nên dùng như tham khảo gần đúng
Nếu áp dụng tuning tùy biến như Unsloth thì trên thực tế có thể chạy được nhiều model hơn
Model ra mắt quá nhanh nên chắc việc bảo trì cũng không dễ
Cách này về lâu dài có thể làm giảm tuổi thọ ổ đĩa
Ý tưởng thì hay, nhưng các model được đề xuất hơi lỗi thời
Nó đề xuất Qwen 2.5 hoặc Starcoder 2 cho chiếc M4 MacBook Pro (128GB RAM) của tôi
Như nhiều người đã nói, cái này nên làm thành website hơn là công cụ CLI
Chỉ cần nhập thông số CPU, RAM, GPU vào form là đủ để tính toán
Tôi không hiểu vì sao lại phải tải về rồi chạy
Chỉ cần nhập cấu hình bằng dropdown rồi xem kết quả là được
Nó bao phủ khá tốt phần lớn trường hợp, nhưng với những trường hợp như AMD iGPU không được ROCm hỗ trợ thì vẫn có thể chạy theo hướng dựa trên Vulkan
Nếu cấu hình driver để dùng RAM hệ thống như VRAM, thì vẫn có thể nạp những model vốn dĩ không chạy được
Đặc biệt hữu ích với layer offload hoặc model MoE đã lượng tử hóa
Claude cũng có thể đưa ra gợi ý model khá ổn nếu bạn nhập thông số hệ thống
Không chắc thông tin đó có cập nhật hay không. Tôi đã thử dựa trên Ollama và LM Studio
Tôi thường để Claude hoặc Codex chạy tuần tự nhiều model bằng Ollama, rồi tự động đánh giá hiệu năng
Chỉ khoảng 30 phút là có thể tìm ra model phù hợp với hệ thống của tôi