1 bình luận

 
GN⁺ 2024-11-30
Ý kiến trên Hacker News
  • Việc số lượng bài blog tăng lên là tín hiệu tích cực, nhưng cách build llama.cpp có cảm giác khá phức tạp

    • Có thể dùng lệnh ccmake . để thiết lập các tham số phù hợp với phần cứng rồi build
  • Chia sẻ trải nghiệm chạy thành công Llama.cpp trên một chiếc laptop Dell cũ

    • Ngay cả với cấu hình tối thiểu vẫn chạy được, tuy chậm nhưng đưa ra câu trả lời chính xác
    • Muốn thử chạy các mô hình lớn hơn trên phần cứng tốt hơn
  • Muốn cài Llama.cpp, nhưng cuối cùng lại cài kobold.cpp vì UX tốt hơn

  • Chia sẻ trải nghiệm thử build trên Windows và AMD

    • Vulkan và MSYS2 là cách chạy dễ nhất
  • Đặt câu hỏi về các giới hạn của những LLM mà Llama.cpp hỗ trợ

    • Thắc mắc liệu nó có chỉ hỗ trợ một số mô hình transformer nhất định hay không
  • Chia sẻ trải nghiệm chuyển sang Ollama

    • Thiết lập server và client của Ollama hoạt động đơn giản, gọn gàng
  • Nhấn mạnh rằng Ollama không chỉ là một wrapper đơn giản của llama.cpp

    • Ollama cung cấp nhiều tính năng cho giao diện mô hình và đóng gói
  • Đặt câu hỏi vì sao dùng Llama.cpp thay vì giao diện web ChatGPT

    • Thắc mắc liệu quyền riêng tư có phải là lý do chính hay không
  • Dù dùng ChatGPT và Claude hằng ngày, vẫn không tìm ra lý do để dùng LLM ngoài các dịch vụ đó

  • Thảo luận về Ollama và việc tự chạy trực tiếp llama.cpp

    • Việc thiết lập CUDA không phải lúc nào cũng dễ, và suy luận cục bộ có thể nhanh hơn
    • Chạy bằng PyTorch dễ hơn, và các mô hình AWQ có thể cài đặt đơn giản