5 điểm bởi xguru 2023-12-20 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • AMD gần đây đã công bố bộ tăng tốc đồ họa MI300X và tuyên bố hiệu năng cao hơn tối đa 1,6 lần so với H100 của Nvidia
    • Đáp lại, Nvidia phản bác rằng AMD đã không sử dụng các tối ưu hóa của hãng khi so sánh với H100
  • AMD chỉ ra rằng Nvidia đã không tính đến độ trễ thường gặp trong khối lượng công việc máy chủ, mà chỉ đưa ra hiệu năng thông lượng không mô phỏng tình huống thực tế
    • Ngoài ra, AMD cho rằng Nvidia đã benchmark một tập hợp workload suy luận được chọn lọc bằng cách dùng TensorRT-LLM nội bộ của H100
  • AMD nhấn mạnh rằng họ đã tiến hành thử nghiệm bằng vLLM được sử dụng rộng rãi và kiểu dữ liệu FP16, đồng thời vLLM không hỗ trợ FP8
  • AMD chỉ trích Nvidia vì đưa ra hiệu năng thông lượng mà không phản ánh môi trường máy chủ thực tế và không tính đến độ trễ

Kết quả thử nghiệm cập nhật của AMD có tính đến tối ưu hóa và độ trễ

  • AMD đã thực hiện ba bài kiểm tra hiệu năng bằng TensorRT-LLM của Nvidia
  • Bài kiểm tra thứ nhất so sánh với cả hai công ty đều dùng vLLM trên bộ dữ liệu FP16: MI300X nhanh hơn 2,1 lần
  • Trong bài kiểm tra thứ hai, hiệu năng vLLM của MI300X được so sánh với TensorRT-LLM: MI300X nhanh hơn 1,3 lần
  • Trong bài kiểm tra thứ ba, vLLM(FP16) của MI300X được so sánh với TensorRT-LLM(FP8): 1,7 giây so với 1,6 giây, H100 nhanh hơn đôi chút
  • Cũng cần thừa nhận rằng để sử dụng FP8 thì phải từ bỏ FP16 cùng với hệ thống đóng TensorRT-LLM, và về bản chất là phải từ bỏ vLLM vĩnh viễn

Chưa có bình luận nào.

Chưa có bình luận nào.