13 điểm bởi xguru 2023-05-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hỗ trợ lượng tử hóa số nguyên (integer quantization): có thể chuyển đổi mô hình ggml Whisper từ trọng số số thực 16 bit mặc định sang trọng số số nguyên 4, 6, 8 bit
    • Giảm dung lượng trên đĩa và mức sử dụng bộ nhớ, nhờ đó chạy nhanh hơn trên một số kiến trúc
    • Được hiện thực nhờ phần mã đã được đóng góp cho dự án llama.cpp
  • Hỗ trợ GPU NVIDIA thông qua cuBLAS