Chạy LLM trên máy cục bộ

(abishekmuthian.com)

27 điểm bởi GN⁺ 2024-12-30 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Có thể tìm thấy thông tin hữu ích để bắt đầu chạy LLM cục bộ trên subreddit r/LocalLLaMA và blog Ollama

Cấu hình phần cứng

Sử dụng laptop nền tảng Linux với CPU Core i9 (32 luồng), GPU 4090 (16GB VRAM) và 96GB RAM
Các model vừa với VRAM sẽ chạy nhanh, còn model lớn sẽ được offload sang RAM nên có thể chậm hơn
Không cần máy tính quá mạnh; các model nhỏ vẫn có thể chạy trên GPU cũ hoặc chỉ với CPU

Ollama: middleware bao gồm thư viện Python và JavaScript để chạy Llama.cpp, dùng trong Docker
Open WebUI: cung cấp giao diện thân thiện cho nhập liệu văn bản và hình ảnh
llamafile: cho phép chạy LLM bằng một tệp thực thi duy nhất
AUTOMATIC1111 và Fooocus: công cụ tạo ảnh; với workflow phức tạp thì dùng ComfyUI
Continue: hỗ trợ tự động hoàn thành mã trong VSCode
Obsidian Smart Connections: cung cấp khả năng truy vấn ghi chú bằng Ollama

Tải các LLM mới nhất qua trang model của Ollama
Theo dõi cập nhật model bằng RSS
Tải model tạo ảnh từ CivitAI (lưu ý: một số model được tối ưu cho việc tạo ảnh người lớn)
Các model dùng chủ yếu:
- Llama3.2: dùng cho truy vấn chung và Smart Connections
- Deepseek-coder-v2: hoàn thành mã trong VSCode
- Qwen2.5-coder: hội thoại liên quan đến mã
- Stable Diffusion: tạo ảnh
Quảng cáo

Hiện tại chưa thực hiện fine-tuning hoặc lượng tử hóa (để tránh các tác vụ nhiệt độ cao kéo dài do khả năng có lỗi CPU)

Chạy LLM cục bộ mang lại khả năng kiểm soát hoàn toàn dữ liệu và độ trễ phản hồi thấp
Điều này khả thi nhờ các dự án mã nguồn mở và các model miễn phí
Sẽ cập nhật nội dung khi dùng thử công cụ hoặc model mới