27 điểm bởi GN⁺ 2024-12-30 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Có thể tìm thấy thông tin hữu ích để bắt đầu chạy LLM cục bộ trên subreddit r/LocalLLaMA và blog Ollama

Cấu hình phần cứng

  • Sử dụng laptop nền tảng Linux với CPU Core i9 (32 luồng), GPU 4090 (16GB VRAM) và 96GB RAM
  • Các model vừa với VRAM sẽ chạy nhanh, còn model lớn sẽ được offload sang RAM nên có thể chậm hơn
  • Không cần máy tính quá mạnh; các model nhỏ vẫn có thể chạy trên GPU cũ hoặc chỉ với CPU

Công cụ sử dụng

  • Ollama: middleware bao gồm thư viện Python và JavaScript để chạy Llama.cpp, dùng trong Docker
  • Open WebUI: cung cấp giao diện thân thiện cho nhập liệu văn bản và hình ảnh
  • llamafile: cho phép chạy LLM bằng một tệp thực thi duy nhất
  • AUTOMATIC1111Fooocus: công cụ tạo ảnh; với workflow phức tạp thì dùng ComfyUI
  • Continue: hỗ trợ tự động hoàn thành mã trong VSCode
  • Obsidian Smart Connections: cung cấp khả năng truy vấn ghi chú bằng Ollama

Chọn model

  • Tải các LLM mới nhất qua trang model của Ollama
  • Theo dõi cập nhật model bằng RSS
  • Tải model tạo ảnh từ CivitAI (lưu ý: một số model được tối ưu cho việc tạo ảnh người lớn)
  • Các model dùng chủ yếu:
    • Llama3.2: dùng cho truy vấn chung và Smart Connections
    • Deepseek-coder-v2: hoàn thành mã trong VSCode
    • Qwen2.5-coder: hội thoại liên quan đến mã
    • Stable Diffusion: tạo ảnh
    Quảng cáo

Cập nhật

  • Dùng WatchTower để cập nhật container Docker
  • Cập nhật model thông qua Open Web UI

Fine-tuning và lượng tử hóa

  • Hiện tại chưa thực hiện fine-tuning hoặc lượng tử hóa (để tránh các tác vụ nhiệt độ cao kéo dài do khả năng có lỗi CPU)

Kết luận

  • Chạy LLM cục bộ mang lại khả năng kiểm soát hoàn toàn dữ liệu và độ trễ phản hồi thấp
  • Điều này khả thi nhờ các dự án mã nguồn mở và các model miễn phí
  • Sẽ cập nhật nội dung khi dùng thử công cụ hoặc model mới

Chưa có bình luận nào.

Chưa có bình luận nào.