Hướng dẫn Llama.cpp – Cách chạy LLM cục bộ từ đầu trên mọi phần cứng (steelph0enix.github.io) 2 điểm bởi GN⁺ 2024-11-30 | 1 bình luận | Chia sẻ qua WhatsApp Bài viết liên quan Chạy LLM trên máy cục bộ 27 điểm · 0 bình luận · 2024-12-30 ntransformer - Engine suy luận NVMe-to-GPU chạy Llama 3.1 70B trên một RTX 3090 duy nhất 15 điểm · 1 bình luận · 2026-02-23 Ask HN: Mô hình LLM tốt nhất có thể dùng trên phần cứng tiêu dùng là gì? 13 điểm · 1 bình luận · 2025-06-01 1 bình luận GN⁺ 2024-11-30 Ý kiến trên Hacker News Việc số lượng bài blog tăng lên là tín hiệu tích cực, nhưng cách build llama.cpp có cảm giác khá phức tạp Có thể dùng lệnh ccmake . để thiết lập các tham số phù hợp với phần cứng rồi build Chia sẻ trải nghiệm chạy thành công Llama.cpp trên một chiếc laptop Dell cũ Ngay cả với cấu hình tối thiểu vẫn chạy được, tuy chậm nhưng đưa ra câu trả lời chính xác Muốn thử chạy các mô hình lớn hơn trên phần cứng tốt hơn Muốn cài Llama.cpp, nhưng cuối cùng lại cài kobold.cpp vì UX tốt hơn Chia sẻ trải nghiệm thử build trên Windows và AMD Vulkan và MSYS2 là cách chạy dễ nhất Đặt câu hỏi về các giới hạn của những LLM mà Llama.cpp hỗ trợ Thắc mắc liệu nó có chỉ hỗ trợ một số mô hình transformer nhất định hay không Chia sẻ trải nghiệm chuyển sang Ollama Thiết lập server và client của Ollama hoạt động đơn giản, gọn gàng Nhấn mạnh rằng Ollama không chỉ là một wrapper đơn giản của llama.cpp Ollama cung cấp nhiều tính năng cho giao diện mô hình và đóng gói Đặt câu hỏi vì sao dùng Llama.cpp thay vì giao diện web ChatGPT Thắc mắc liệu quyền riêng tư có phải là lý do chính hay không Dù dùng ChatGPT và Claude hằng ngày, vẫn không tìm ra lý do để dùng LLM ngoài các dịch vụ đó Thảo luận về Ollama và việc tự chạy trực tiếp llama.cpp Việc thiết lập CUDA không phải lúc nào cũng dễ, và suy luận cục bộ có thể nhanh hơn Chạy bằng PyTorch dễ hơn, và các mô hình AWQ có thể cài đặt đơn giản
1 bình luận
Ý kiến trên Hacker News
Việc số lượng bài blog tăng lên là tín hiệu tích cực, nhưng cách build llama.cpp có cảm giác khá phức tạp
ccmake .để thiết lập các tham số phù hợp với phần cứng rồi buildChia sẻ trải nghiệm chạy thành công Llama.cpp trên một chiếc laptop Dell cũ
Muốn cài Llama.cpp, nhưng cuối cùng lại cài kobold.cpp vì UX tốt hơn
Chia sẻ trải nghiệm thử build trên Windows và AMD
Đặt câu hỏi về các giới hạn của những LLM mà Llama.cpp hỗ trợ
Chia sẻ trải nghiệm chuyển sang Ollama
Nhấn mạnh rằng Ollama không chỉ là một wrapper đơn giản của llama.cpp
Đặt câu hỏi vì sao dùng Llama.cpp thay vì giao diện web ChatGPT
Dù dùng ChatGPT và Claude hằng ngày, vẫn không tìm ra lý do để dùng LLM ngoài các dịch vụ đó
Thảo luận về Ollama và việc tự chạy trực tiếp llama.cpp