NVIDIA phát hành GPU Tensor Core H200

(nvidia.com)

4 điểm bởi GN⁺ 2023-11-15 | 1 bình luận | Chia sẻ qua WhatsApp

GPU mạnh nhất thế giới

NVIDIA H200 Tensor Core GPU tăng tốc các workload AI tạo sinh và điện toán hiệu năng cao (HPC) với hiệu năng và dung lượng bộ nhớ mang tính thay đổi cuộc chơi.
Là GPU đầu tiên được trang bị HBM3e, H200 thúc đẩy tăng tốc AI tạo sinh, các mô hình ngôn ngữ lớn (LLMs) và các workload HPC cho điện toán khoa học.

Hiệu năng cải thiện dựa trên kiến trúc NVIDIA Hopper

NVIDIA HGX H200 dựa trên kiến trúc NVIDIA Hopper™ nổi bật với NVIDIA H200 Tensor Core GPU, được trang bị bộ nhớ tiên tiến để xử lý dữ liệu quy mô lớn.

Trải nghiệm mức tăng hiệu năng

Suy luận Llama2 70B nhanh hơn 1,9 lần, và suy luận GPT-3 175B nhanh hơn 1,6 lần.
Điện toán hiệu năng cao nhanh hơn tới 110 lần so với CPU.

Hiệu năng cao hơn cùng bộ nhớ lớn hơn và nhanh hơn

NVIDIA H200 cung cấp 141GB bộ nhớ HBM3e và băng thông bộ nhớ 4,8TB/s để tăng tốc AI tạo sinh và LLMs, nâng cao hiệu quả năng lượng và giảm tổng chi phí sở hữu.

Thu được insight với suy luận LLM hiệu năng cao

Bộ tăng tốc suy luận AI cần cung cấp thông lượng cao nhất và TCO thấp nhất khi được triển khai cho tập người dùng quy mô lớn.
H200 mang lại tốc độ suy luận nhanh hơn tới 2 lần so với GPU H100 khi xử lý LLMs.

Tăng tốc điện toán hiệu năng cao

Băng thông bộ nhớ rất quan trọng với các ứng dụng HPC vì cho phép truyền dữ liệu nhanh hơn và giảm các nút thắt xử lý phức tạp.
Băng thông bộ nhớ cao của H200 giúp việc truy cập và thao tác dữ liệu hiệu quả hơn, cho phép tạo ra kết quả nhanh hơn tới 110 lần so với CPU.

Giảm năng lượng và TCO

Việc áp dụng H200 đưa hiệu quả năng lượng và TCO lên một tầm cao mới.
Nó mang lại hiệu năng vượt trội trong cùng cấu hình điện năng, đồng thời đem lại lợi ích xanh hơn và kinh tế hơn.

Hiệu năng

Kiến trúc NVIDIA Hopper mang lại mức tăng hiệu năng chưa từng có, đồng thời tiếp tục nâng cao tiêu chuẩn hiệu năng thông qua các cải tiến phần mềm liên tục cho H100.
Việc ra mắt H200 tiếp nối thêm nhiều cải thiện hiệu năng, đồng thời bảo đảm vị thế dẫn đầu về hiệu năng hiện tại và tương lai thông qua các cải tiến liên tục cho phần mềm được hỗ trợ.

Sẵn sàng cho doanh nghiệp: phần mềm AI đơn giản hóa phát triển và triển khai

NVIDIA H200 cùng với NVIDIA AI Enterprise đơn giản hóa việc xây dựng nền tảng sẵn sàng cho AI, đồng thời tăng tốc phát triển và triển khai AI tạo sinh, thị giác máy tính, AI giọng nói và nhiều lĩnh vực khác.
Chúng cung cấp bảo mật, khả năng quản trị, độ ổn định và hỗ trợ cấp doanh nghiệp, giúp thu được insight có thể hành động nhanh hơn và đạt được giá trị kinh doanh cụ thể sớm hơn.

Thông số kỹ thuật của NVIDIA H200 Tensor Core GPU

Hình thức: H200 SXM
FP64: 34 TFLOPS
FP64 Tensor Core: 67 TFLOPS
FP32: 67 TFLOPS
TF32 Tensor Core: 989 TFLOPS
BFLOAT16 Tensor Core: 1,979 TFLOPS
FP16 Tensor Core: 1,979 TFLOPS
FP8 Tensor Core: 3,958 TFLOPS
INT8 Tensor Core: 3,958 TFLOPS
Bộ nhớ GPU: 141GB
Băng thông bộ nhớ GPU: 4.8TB/s
Bộ giải mã: 7 NVDEC
Công suất thiết kế nhiệt tối đa (TDP): tối đa 700W (có thể cấu hình)
GPU đa phiên bản: tối đa 7 MIGs @16.5GB mỗi phiên bản

Ý kiến của GN⁺

Điểm quan trọng nhất trong bài viết này là NVIDIA đã giới thiệu GPU mạnh nhất thế giới cho các workload AI và HPC thông qua H200 Tensor Core GPU. GPU này được kỳ vọng sẽ không chỉ tăng tốc AI tạo sinh và các mô hình ngôn ngữ lớn mà còn đóng góp vào sự phát triển của các workload HPC cho điện toán khoa học. Tiến bộ công nghệ này cũng sẽ hấp dẫn với các kỹ sư phần mềm mới vào nghề và có tiềm năng mang lại những thay đổi đột phá cho các dự án mà họ tham gia. Bộ nhớ tiên tiến và năng lực xử lý của H200 được kỳ vọng sẽ tăng tốc sự phát triển trong các lĩnh vực AI và nghiên cứu khoa học bằng cách cho phép tính toán nhanh hơn, hiệu quả năng lượng cao hơn và TCO thấp hơn.

1 bình luận

GN⁺ 2023-11-15

Ý kiến trên Hacker News

Die GPU H200 giống hệt H100, nhưng dùng toàn bộ các stack bộ nhớ 24GB nhanh hơn.

Bộ tăng tốc H200 của NVIDIA dựa trên cùng silicon như H100 141GB, nhưng không phải là silicon mới như website của Nvidia gợi ý.
Thắc mắc liệu các nhà sản xuất chip khác có thể bắt kịp hoặc vượt NVIDIA trong lĩnh vực AI trong vài năm tới hay không.

Đặt câu hỏi liệu vị thế dẫn đầu và chuyên môn của NVIDIA trong AI có thể bị các nhà sản xuất chip khác thách thức trong vài năm tới, hay lợi thế dẫn đầu của họ là điều không thể với tới.
Ấn tượng với mức tăng hiệu năng của NVIDIA trong thời gian ngắn, nhưng cảm thấy lĩnh vực này cần thêm đối thủ cạnh tranh khác.

Bày tỏ sự ấn tượng với mức cải thiện hiệu năng mà NVIDIA đạt được trong thời gian ngắn, đồng thời hy vọng thị trường này sẽ có thêm các đối thủ như AMD.
Đặt câu hỏi về các chỉ số dùng cho suy luận và liệu có nên kỳ vọng mức tăng hiệu năng tương tự trong huấn luyện hay không.

Các chỉ số hiệu năng chủ yếu được nhắc tới là cho giai đoạn suy luận của mô hình AI, nên có câu hỏi liệu ở giai đoạn huấn luyện mô hình cũng sẽ thấy mức cải thiện tương tự hay không.
Thắc mắc về vị trí của H200 khi so với B100 cũng ra mắt trong cùng năm.

Khi B100 được phát hành trong cùng năm với hiệu năng cao gấp đôi, có người đặt câu hỏi về vai trò và mức giá của H200.
Bị sốc trước giá của GPU H100 và hỏi chi phí sẽ ra sao nếu muốn dùng cho thử nghiệm cá nhân và hackathon.

Bày tỏ sự choáng váng trước mức giá cao ngoài dự kiến của GPU H100 khi muốn dùng cho thử nghiệm cá nhân và hackathon, đồng thời hỏi về giá của H200.
Trên thiết bị di động, không gian màn hình thực sự có thể xem được bị hạn chế nghiêm trọng do banner cookie và banner quảng cáo trên trang web.

Nêu vấn đề rằng trong môi trường di động, vùng hiển thị thực tế của trang web chỉ còn khoảng một phần tư do banner cookie và banner quảng cáo.
Không có giải thích nào về thuật ngữ "GPU", và hoàn toàn không có chức năng xuất hình ảnh tích hợp.

Nhắc đến việc GPU không hề tích hợp chức năng xuất hình ảnh.
Yêu cầu giải thích trong bức ảnh có gì, và nhận xét rằng nó trông giống như một thành phố hay tòa nhà bước ra từ Blade Runner.

Vì khó hiểu các thành phần trong ảnh là gì nên có người yêu cầu giải thích, đồng thời cho rằng nó gợi cảm giác giống một thành phố hoặc tòa nhà trong Blade Runner.
Hỏi liệu giới hạn tốc độ suy luận là do băng thông bộ nhớ hay do năng lực tính toán.

Thắc mắc yếu tố đang giới hạn tốc độ suy luận của mô hình AI là băng thông bộ nhớ hay khả năng xử lý tính toán.