1 điểm bởi xguru 2 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • nvidia-smi hoặc nvtop chỉ xác nhận việc kernel có đang chạy trên GPU hay không, nên ngay cả khi chỉ dùng một phần rất nhỏ năng lực phần cứng, chúng vẫn có thể hiển thị mức sử dụng 100%
  • Utilyze đọc trực tiếp bộ đếm hiệu năng GPU để hiển thị mức sử dụng tài nguyên thực chất theo thời gian thực, với overhead ở mức có thể bỏ qua
  • Công cụ tính giới hạn trên Attainable SOL — mức sử dụng tối đa có thể đạt được trong thực tế với tổ hợp workload·model·phần cứng — giúp xác định hiện tại còn có thể đẩy thêm bao nhiêu
  • Tự động phát hiện các máy chủ suy luận đang chạy để nhận diện model được nạp trên từng GPU; backend hiện tại chỉ hỗ trợ vLLM (SGLang và các backend khác sẽ được bổ sung sau)
  • Phần cứng được hỗ trợ là NVIDIA Ampere trở lên (A100, H100, H200, B200, RTX 3000+); hiện hỗ trợ một số model trên H100-80G và A100-80G với cấu hình tối đa 8 GPU trong một node
  • Trên Linux, chạy máy chủ profiling; trên macOS/Windows, kết nối bằng client từ xa dựa trên WebSocket
  • Một ID thiết bị đơn lẻ chỉ có thể được một instance giám sát — giới hạn từ cách API truy cập thiết bị của NVIDIA Perf SDK hoạt động
  • Để chạy mà không cần sudo, cần đặt NVreg_RestrictProfilingToAdminUsers=0 rồi khởi động lại
  • Giấy phép Apache-2.0

Chưa có bình luận nào.

Chưa có bình luận nào.