llmfit - Công cụ terminal tìm và tự động tối ưu mô hình LLM phù hợp với phần cứng của bạn

(github.com/AlexsJones)

28 điểm bởi GN⁺ 2026-03-03 | 1 bình luận | Chia sẻ qua WhatsApp

Công cụ giúp tìm ra các mô hình thực sự có thể chạy được chỉ với một lệnh duy nhất, dựa trên hàng trăm mô hình LLM và nhà cung cấp, cùng RAM·CPU·GPU của hệ thống bạn
Chấm điểm từng mô hình theo chất lượng, tốc độ, mức độ phù hợp và ngữ cảnh để hiển thị khả năng chạy, đồng thời hỗ trợ cả TUI (giao diện terminal) và chế độ CLI
Hỗ trợ nhiều GPU, kiến trúc MoE, lượng tử hóa động, ước tính tốc độ và tích hợp với runtime cục bộ (Ollama, llama.cpp, MLX)
Phân tích chế độ chạy (GPU, CPU+GPU, CPU) và mức độ phù hợp (Perfect, Good, Marginal, Too Tight) cho từng mô hình để đề xuất tổ hợp tối ưu
Cung cấp tự động hóa việc chọn mô hình theo phần cứng cho các nhà phát triển muốn sử dụng LLM hiệu quả trong môi trường cục bộ

Tổng quan tính năng chính

llmfit là công cụ chạy trên terminal, phát hiện cấu hình phần cứng của hệ thống để đánh giá liệu một mô hình LLM có thực sự chạy được hay không
- Đọc thông tin RAM, CPU, GPU để tính điểm chất lượng, tốc độ, mức độ phù hợp và ngữ cảnh cho từng mô hình
- Kết quả được hiển thị dưới dạng TUI tương tác hoặc CLI truyền thống
Hỗ trợ các tính năng đa GPU, Mixture-of-Experts (MoE), chọn lượng tử hóa động, ước tính tốc độ, tích hợp runtime cục bộ
Hỗ trợ các runtime cục bộ như Ollama, llama.cpp, MLX, đồng thời có thể tự động phát hiện mô hình đã cài đặt và tải về
Thông qua chế độ Plan, có thể tính ngược cấu hình phần cứng tối thiểu và khuyến nghị cần thiết cho một mô hình cụ thể
Hoạt động trên nhiều nền tảng như macOS, Linux, Windows, Ascend

Cài đặt và chạy

Trên macOS/Linux có thể cài bằng lệnh brew install llmfit hoặc curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Trên Windows có thể cài bằng cargo install llmfit
Khi chạy lệnh llmfit, giao diện TUI sẽ mở ra và hiển thị cấu hình hệ thống cùng danh sách mô hình
Ở chế độ CLI, cung cấp nhiều lệnh con như llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json

Cách hoạt động

Phát hiện phần cứng: sử dụng sysinfo, nvidia-smi, rocm-smi, system_profiler... để thu thập thông tin RAM·CPU·GPU
Cơ sở dữ liệu mô hình: lấy hàng trăm mô hình từ HuggingFace API và lưu vào data/hf_models.json
- Bao gồm các mô hình chính như Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite
Lượng tử hóa động: duyệt qua các tầng từ Q8_0 đến Q2_K và tự động chọn mức lượng tử hóa chất lượng cao nhất trong phạm vi bộ nhớ khả dụng
Ước tính tốc độ: dùng công thức dựa trên băng thông bộ nhớ GPU (bandwidth_GB_s / model_size_GB) × 0.55
- Tích hợp sẵn bảng băng thông cho khoảng 80 loại GPU
Phân tích độ phù hợp: đánh giá khả năng chạy và phần bộ nhớ dư theo từng chế độ GPU·CPU+GPU·CPU

Giao diện người dùng

Phím điều khiển TUI:
- f để lọc theo mức độ phù hợp, a để lọc theo khả dụng, s để thay đổi tiêu chí sắp xếp
- p để vào chế độ Plan, d để tải mô hình, t để đổi giao diện màu
Trong chế độ Plan, có thể chỉnh độ dài ngữ cảnh, mức lượng tử hóa, tốc độ token mục tiêu... để tính toán VRAM/RAM/CPU cần thiết
Theme: cung cấp 6 giao diện màu tích hợp sẵn gồm Default, Dracula, Solarized, Nord, Monokai, Gruvbox

Runtime và tính năng tích hợp

Tích hợp Ollama: kết nối với instance Ollama cục bộ hoặc từ xa (biến môi trường OLLAMA_HOST) để phát hiện và tải mô hình đã cài đặt
Tích hợp llama.cpp: tải file GGUF từ HuggingFace vào cache cục bộ và hiển thị trạng thái cài đặt
Tích hợp MLX: hỗ trợ cache mô hình và liên kết máy chủ cho Apple Silicon
Tích hợp OpenClaw: thông qua kỹ năng llmfit-advisor, tác nhân OpenClaw có thể tự động đề xuất và cấu hình mô hình phù hợp với phần cứng

Quản lý cơ sở dữ liệu mô hình

Tự động tạo danh sách mô hình từ HuggingFace API bằng script scripts/scrape_hf_models.py
Cập nhật dữ liệu và build lại binary bằng lệnh make update-models
Mô hình được phân loại theo các nhóm như phổ thông, coding, suy luận, đa phương thức, chat, embedding
Cache nguồn GGUF (data/gguf_sources_cache.json) lưu đường dẫn tải xuống trong 7 ngày

Hỗ trợ nền tảng

Linux/macOS (Apple Silicon): hỗ trợ đầy đủ
Windows: hỗ trợ phát hiện RAM·CPU và GPU NVIDIA (nvidia-smi)
Khi phát hiện GPU thất bại, có thể chỉ định thủ công VRAM bằng tùy chọn --memory=

Giấy phép

Giấy phép MIT

1 bình luận

GN⁺ 2026-03-03

Ý kiến trên Hacker News

Dự án này trông khá hay và hữu ích, nhưng tôi ước nó là một website
Việc chạy một file thực thi khiến tôi thấy ngại. Tôi nghĩ loại tính năng này hoàn toàn có thể được triển khai trên web
- Công cụ này phụ thuộc vào phát hiện phần cứng, nên trên web sẽ có giới hạn
  Theo phần mô tả trên GitHub, nó cần đọc ở cấp độ hệ thống dung lượng RAM, số lượng GPU, loại backend (CUDA, Metal, v.v.)
  Do các ràng buộc sandbox của trình duyệt, JavaScript không thể truy cập trực tiếp những thông tin này
  Nếu làm bản web, sẽ cần người dùng tải lên báo cáo .spx của macOS hoặc báo cáo inxi của Linux, hoặc tự chọn cấu hình phần cứng theo cách thủ công
  Cách tiếp cận này kém tiện hơn, nhưng có ưu điểm là có thể thử các tổ hợp phần cứng giả định
- Hugging Face cũng cung cấp tính năng tương tự, nhưng phải nhập thủ công thông tin phần cứng
  Thực ra tôi không nghĩ người chạy model cục bộ lại thường không biết phần cứng của mình
- Gần đây tôi thấy một trang tên là whatmodelscanirun.com, khá đáng tham khảo
- Hugging Face cũng đã có sẵn tính năng này
- Cũng có inferbench.com, một trang cơ sở dữ liệu model LLM do cộng đồng xây dựng. Nó chia sẻ tốc độ token và thông tin cấu hình
Dự án này thực sự rất tuyệt
Thứ thực sự cần chỉ là kích thước LLM và băng thông bộ nhớ
Có thể dùng một công thức đơn giản để xác định model có phù hợp hay không
Ví dụ, để chạy model 32B ở 4bit thì cần tối thiểu 16GB VRAM
Nếu tính bằng tok/s = memory_bandwidth / llm_size, thì RTX3090 (960GB/s) sẽ cho khoảng 60 tok/s
Với model MoE, số lượng tham số được kích hoạt sẽ quyết định tốc độ
Cộng thêm khoảng đệm 10% thì sẽ ra ước tính thực tế hơn
- KV cache có số lần ghi trên mỗi token thấp nên khá dễ swap
  Nếu tải tham số model bằng mmap, thì khi RAM đủ nhiều có thể mở rộng mà không bị giảm hiệu năng
- Đây là một quy tắc kinh nghiệm hay. Tuy nhiên trong đa số trường hợp, kích thước context window càng lớn thì lượng RAM dùng càng tăng theo cấp số nhân
- Tôi chưa biết công thức này, cảm ơn vì đã chia sẻ
Nhìn thì đẹp mắt, nhưng trên máy của tôi Qwen 3.5 chạy tốt mà công cụ lại báo là không thể
Rốt cuộc kiểu công cụ này có lẽ chỉ nên dùng như tham khảo gần đúng
Nếu áp dụng tuning tùy biến như Unsloth thì trên thực tế có thể chạy được nhiều model hơn
Model ra mắt quá nhanh nên chắc việc bảo trì cũng không dễ
- Có lẽ đang xảy ra swap giữa đĩa và RAM
  Cách này về lâu dài có thể làm giảm tuổi thọ ổ đĩa
Ý tưởng thì hay, nhưng các model được đề xuất hơi lỗi thời
Nó đề xuất Qwen 2.5 hoặc Starcoder 2 cho chiếc M4 MacBook Pro (128GB RAM) của tôi
Như nhiều người đã nói, cái này nên làm thành website hơn là công cụ CLI
Chỉ cần nhập thông số CPU, RAM, GPU vào form là đủ để tính toán
Tôi không hiểu vì sao lại phải tải về rồi chạy
Chỉ cần nhập cấu hình bằng dropdown rồi xem kết quả là được
Nó bao phủ khá tốt phần lớn trường hợp, nhưng với những trường hợp như AMD iGPU không được ROCm hỗ trợ thì vẫn có thể chạy theo hướng dựa trên Vulkan
Nếu cấu hình driver để dùng RAM hệ thống như VRAM, thì vẫn có thể nạp những model vốn dĩ không chạy được
Đặc biệt hữu ích với layer offload hoặc model MoE đã lượng tử hóa
Claude cũng có thể đưa ra gợi ý model khá ổn nếu bạn nhập thông số hệ thống
- Tôi cũng đã hỏi Claude rằng “LLM cục bộ tốt nhất có thể chạy trên máy tính này là gì?”, và nó đã gợi ý model tôi đang cài cùng thêm một model khác
  Không chắc thông tin đó có cập nhật hay không. Tôi đã thử dựa trên Ollama và LM Studio
Tôi thường để Claude hoặc Codex chạy tuần tự nhiều model bằng Ollama, rồi tự động đánh giá hiệu năng
Chỉ khoảng 30 phút là có thể tìm ra model phù hợp với hệ thống của tôi
- Không biết bạn có thể chia sẻ prompt đó không

llmfit - Công cụ terminal tìm và tự động tối ưu mô hình LLM phù hợp với phần cứng của bạn

Tổng quan tính năng chính

Cài đặt và chạy

Cách hoạt động

Giao diện người dùng

Runtime và tính năng tích hợp

Quản lý cơ sở dữ liệu mô hình

Hỗ trợ nền tảng

Giấy phép

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News