NVIDIA công bố mã nguồn mở TensorRT-LLM giúp tăng tốc suy luận LLM

xguru · 2023-09-13T10:17:02+09:00

Bao gồm trình biên dịch deep learning TensorRT, các kernel được tối ưu hóa, các bước tiền xử lý/hậu xử lý, cùng các thành phần cơ bản cho giao tiếp multi-GPU/multi-node Có thể nhanh chóng cung cấp hiệu năng tối đa và khả năng tùy biến cho LLM mà không cần kiến thức chuyên sâu về C++ hay CUDA Cung cấp API Python dạng mô-đun mã nguồn mở để tăng tính dễ sử dụng và khả năng mở rộng Hỗ trợ GPU Ampere, Lovelace, Hopper Khi thử nghiệm áp dụng TensorRT-LLM trên nền tảng H100 GPT-J-6B tăng hiệu năng suy luận 8 lần, giảm TCO 5,3 lần, giảm mức tiêu thụ năng lượng 5,6 lần Llama2 70B tăng hiệu năng suy luận 4,6 lần, giảm TCO 3 lần, giảm mức tiêu thụ năng lượng 3,2 lần Bao gồm công nghệ lập lịch tối ưu hóa có tên In-flight Batching GPU NVIDIA H100 được trang bị TensorRT-LLM cung cấp khả năng giúp người dùng dễ dàng chuyển đổi trọng số mô hình sang định dạng FP8 mới và biên dịch mô hình để tự động tận dụng các kernel FP8 đã được tối ưu hóa Có được nhờ công nghệ Hopper Transformer Engine và không cần thay đổi mã mô hình Hiện đã có bản early access và dự kiến phát hành trong vài tuần tới

(developer.nvidia.com)

9 điểm bởi xguru 2023-09-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Bao gồm trình biên dịch deep learning TensorRT, các kernel được tối ưu hóa, các bước tiền xử lý/hậu xử lý, cùng các thành phần cơ bản cho giao tiếp multi-GPU/multi-node
Có thể nhanh chóng cung cấp hiệu năng tối đa và khả năng tùy biến cho LLM mà không cần kiến thức chuyên sâu về C++ hay CUDA
Cung cấp API Python dạng mô-đun mã nguồn mở để tăng tính dễ sử dụng và khả năng mở rộng
Hỗ trợ GPU Ampere, Lovelace, Hopper
Khi thử nghiệm áp dụng TensorRT-LLM trên nền tảng H100
- GPT-J-6B tăng hiệu năng suy luận 8 lần, giảm TCO 5,3 lần, giảm mức tiêu thụ năng lượng 5,6 lần
- Llama2 70B tăng hiệu năng suy luận 4,6 lần, giảm TCO 3 lần, giảm mức tiêu thụ năng lượng 3,2 lần
Bao gồm công nghệ lập lịch tối ưu hóa có tên In-flight Batching
GPU NVIDIA H100 được trang bị TensorRT-LLM cung cấp khả năng giúp người dùng dễ dàng chuyển đổi trọng số mô hình sang định dạng FP8 mới và biên dịch mô hình để tự động tận dụng các kernel FP8 đã được tối ưu hóa
- Có được nhờ công nghệ Hopper Transformer Engine và không cần thay đổi mã mô hình
Hiện đã có bản early access và dự kiến phát hành trong vài tuần tới

NVIDIA công bố mã nguồn mở TensorRT-LLM giúp tăng tốc suy luận LLM

Bài viết liên quan

Chưa có bình luận nào.