9 điểm bởi xguru 2023-09-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Bao gồm trình biên dịch deep learning TensorRT, các kernel được tối ưu hóa, các bước tiền xử lý/hậu xử lý, cùng các thành phần cơ bản cho giao tiếp multi-GPU/multi-node
  • Có thể nhanh chóng cung cấp hiệu năng tối đa và khả năng tùy biến cho LLM mà không cần kiến thức chuyên sâu về C++ hay CUDA
  • Cung cấp API Python dạng mô-đun mã nguồn mở để tăng tính dễ sử dụng và khả năng mở rộng
  • Hỗ trợ GPU Ampere, Lovelace, Hopper
  • Khi thử nghiệm áp dụng TensorRT-LLM trên nền tảng H100
    • GPT-J-6B tăng hiệu năng suy luận 8 lần, giảm TCO 5,3 lần, giảm mức tiêu thụ năng lượng 5,6 lần
    • Llama2 70B tăng hiệu năng suy luận 4,6 lần, giảm TCO 3 lần, giảm mức tiêu thụ năng lượng 3,2 lần
  • Bao gồm công nghệ lập lịch tối ưu hóa có tên In-flight Batching
  • GPU NVIDIA H100 được trang bị TensorRT-LLM cung cấp khả năng giúp người dùng dễ dàng chuyển đổi trọng số mô hình sang định dạng FP8 mới và biên dịch mô hình để tự động tận dụng các kernel FP8 đã được tối ưu hóa
    • Có được nhờ công nghệ Hopper Transformer Engine và không cần thay đổi mã mô hình
  • Hiện đã có bản early access và dự kiến phát hành trong vài tuần tới

Chưa có bình luận nào.

Chưa có bình luận nào.