Chạy LLM trên máy cục bộ
(abishekmuthian.com)- Có thể tìm thấy thông tin hữu ích để bắt đầu chạy LLM cục bộ trên subreddit r/LocalLLaMA và blog Ollama
Cấu hình phần cứng
- Sử dụng laptop nền tảng Linux với CPU Core i9 (32 luồng), GPU 4090 (16GB VRAM) và 96GB RAM
- Các model vừa với VRAM sẽ chạy nhanh, còn model lớn sẽ được offload sang RAM nên có thể chậm hơn
- Không cần máy tính quá mạnh; các model nhỏ vẫn có thể chạy trên GPU cũ hoặc chỉ với CPU
Công cụ sử dụng
- Ollama: middleware bao gồm thư viện Python và JavaScript để chạy Llama.cpp, dùng trong Docker
- Open WebUI: cung cấp giao diện thân thiện cho nhập liệu văn bản và hình ảnh
- llamafile: cho phép chạy LLM bằng một tệp thực thi duy nhất
- AUTOMATIC1111 và Fooocus: công cụ tạo ảnh; với workflow phức tạp thì dùng ComfyUI
- Continue: hỗ trợ tự động hoàn thành mã trong VSCode
- Obsidian Smart Connections: cung cấp khả năng truy vấn ghi chú bằng Ollama
Chọn model
- Tải các LLM mới nhất qua trang model của Ollama
- Theo dõi cập nhật model bằng RSS
- Tải model tạo ảnh từ CivitAI (lưu ý: một số model được tối ưu cho việc tạo ảnh người lớn)
- Các model dùng chủ yếu:
- Llama3.2: dùng cho truy vấn chung và Smart Connections
- Deepseek-coder-v2: hoàn thành mã trong VSCode
- Qwen2.5-coder: hội thoại liên quan đến mã
- Stable Diffusion: tạo ảnh
Cập nhật
- Dùng WatchTower để cập nhật container Docker
- Cập nhật model thông qua Open Web UI
Fine-tuning và lượng tử hóa
- Hiện tại chưa thực hiện fine-tuning hoặc lượng tử hóa (để tránh các tác vụ nhiệt độ cao kéo dài do khả năng có lỗi CPU)
Kết luận
- Chạy LLM cục bộ mang lại khả năng kiểm soát hoàn toàn dữ liệu và độ trễ phản hồi thấp
- Điều này khả thi nhờ các dự án mã nguồn mở và các model miễn phí
- Sẽ cập nhật nội dung khi dùng thử công cụ hoặc model mới
Chưa có bình luận nào.