3 điểm bởi GN⁺ 2025-02-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dự án này chia sẻ kết quả về cách chạy mô hình Deepseek R1 Distill 8B Q40 trên thiết bị Raspberry Pi 5 8GB.
  • Đánh giá hiệu năng và suy luận của mô hình bằng nhiều Raspberry Pi.
  • Kết quả đánh giá và dự đoán
    • 2 x Raspberry Pi 5 8GB
      • Đánh giá: 7,70 token/giây
      • Dự đoán: 3,54 token/giây
    • 4 x Raspberry Pi 5 8GB
      • Đánh giá: 11,68 token/giây
      • Dự đoán: 6,43 token/giây
  • Thông tin khác
    • Bài kiểm thử được thực hiện khi mạng ở trạng thái đóng.
    • Xác nhận hiệu năng trong môi trường cụm sử dụng nhiều thiết bị.

1 bình luận

 
GN⁺ 2025-02-17
Ý kiến Hacker News
  • Các bài trình diễn chạy 'Deepseek R1' trên Raspberry Pi luôn theo một mô-típ giống nhau: thực chất là chạy llama hoặc qwen đã được điều chỉnh bằng kỹ thuật chưng cất của Deepseek
    • Bản demo cho thấy câu hỏi được "giải quyết" khi dưới 500 token
    • Cần lưu ý rằng với độ dài ngữ cảnh hữu ích trong thế giới thực (8-16k token), sẽ không thể đạt được tốc độ như vậy khi xử lý mô hình "suy nghĩ"
    • Ngay cả epyc với nhiều kênh bộ nhớ cũng giảm xuống còn khoảng 2-4 t/s sau độ dài ngữ cảnh khoảng 4096
  • Với £320 có thể mua 4 chiếc Pi5, nhưng nếu tìm được một chiếc 3080 12GB hàng cũ thì có lẽ sẽ đạt tốc độ token cao hơn hơn 10 lần
  • Điểm thú vị ở đây là có thể chạy suy luận llama theo kiểu phân tán trên nhiều máy tính
    • Đây là một cụm Beowulf hiện đại
  • Tôi không hiểu nhiều Raspberry Pi được dùng song song theo cách nào. Hy vọng ai đó có thể chỉ dẫn thêm theo hướng này
  • Nếu muốn thử mô hình này trên Mac, bạn có thể dùng plugin llm-mlx mới để chạy như sau
    • brew install llm hoặc pipx install llm hoặc uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • Tôi vừa chạy thử và đạt hiệu năng 22 token/giây
  • Tôi tự hỏi bao giờ thì có thể apt-get install tất cả công nghệ AI mới này
  • Tôi thắc mắc việc thêm bộ nhớ có giúp ích không. Gần đây đã có Rpi 5 với RAM 16GB được phát hành
  • Một sản phẩm dựa trên LLM tương tự Alexa hay Google Home cần một LLM chạy cục bộ thay vì kết nối lên đám mây. Tôi không hiểu vì sao nó עדיין chưa tồn tại, hoặc vì sao chưa ai làm việc này