Jensen Huang của Nvidia công bố chip AI mới Blackwell: “Cần một GPU lớn hơn”

(cnbc.com)

2 điểm bởi GN⁺ 2024-03-19 | 2 bình luận | Chia sẻ qua WhatsApp

Trong bối cảnh nhu cầu GPU Nvidia bùng nổ sau làn sóng AI, thế hệ Blackwell mới là tuyên bố nhằm củng cố hơn nữa vị thế nhà cung cấp cho việc huấn luyện và triển khai các mô hình lớn
Chip Blackwell đầu tiên GB200 dự kiến bắt đầu xuất xưởng vào cuối năm nay, với hiệu năng AI tăng từ 4 petaflops lên 20 petaflops so với thế hệ Hopper có H100
GB200 kết hợp hai GPU B200 Blackwell và CPU Grace nền tảng Arm, và Amazon, Google, Microsoft, Oracle sẽ bán quyền truy cập qua đám mây
Phần mềm mới NIM giúp việc triển khai suy luận AI trở nên dễ dàng hơn ngay cả trên các GPU Nvidia hiện có, và giấy phép Nvidia enterprise có giá 4.500 USD mỗi GPU mỗi năm
Nvidia đang tăng cường chiến lược nền tảng phần mềm vượt ra ngoài việc bán chip, để giữ khách hàng ở lại trong hệ sinh thái Nvidia thay vì chuyển sang chip cạnh tranh

Công bố Blackwell và vị thế nhà cung cấp AI của Nvidia

Nvidia đã công bố thế hệ chip AI mới cùng phần mềm để chạy mô hình AI tại hội nghị nhà phát triển ở San Jose ngày 18/3/2024
Vào thời điểm công bố, các doanh nghiệp và hãng phần mềm vẫn đang cạnh tranh để giành nguồn cung Hopper H100 thế hệ hiện tại và các chip tương tự
Jensen Huang nói: “Hopper rất tuyệt, nhưng cần một GPU lớn hơn.”
Sau khi ChatGPT của OpenAI châm ngòi cho làn sóng AI vào cuối năm 2022, cổ phiếu Nvidia đã tăng gấp 5 lần và tổng doanh thu tăng hơn 3 lần
- Các công ty như Microsoft và Meta đã chi hàng tỷ USD để mua các GPU máy chủ cao cấp của Nvidia
- Cổ phiếu Nvidia giảm hơn 1% trong giao dịch ngoài giờ hôm thứ Hai
Cấu hình và hiệu năng của GB200
- Tên của thế hệ bộ xử lý đồ họa AI mới là Blackwell, và chip Blackwell đầu tiên là GB200
- Nvidia cập nhật kiến trúc GPU khoảng 2 năm một lần để mang lại bước nhảy lớn về hiệu năng
- Kiến trúc Hopper công bố năm 2022 được dùng trong các chip như H100, và nhiều mô hình AI được công bố trong năm qua đã được huấn luyện trên nền Hopper
- Hiệu năng AI của GB200 dựa trên Blackwell đạt 20 petaflops, cao hơn mức 4 petaflops của H100
- Năng lực tính toán tăng lên có thể được dùng để các công ty AI huấn luyện những mô hình lớn hơn và phức tạp hơn
- Chip này tích hợp transformer engine để chạy AI dựa trên transformer, một trong những công nghệ cốt lõi đằng sau ChatGPT
- GPU Blackwell do TSMC sản xuất, kết hợp hai die được chế tạo riêng thành một chip duy nhất
Máy chủ và cung cấp qua đám mây
- GB200 kết hợp hai GPU B200 Blackwell và một CPU Grace nền tảng Arm
- Nvidia cũng sẽ cung cấp toàn bộ máy chủ GB200 NVLink 2 gồm 72 GPU Blackwell cùng các linh kiện Nvidia khác
- Amazon, Google, Microsoft, Oracle sẽ bán quyền truy cập GB200 dưới dạng dịch vụ đám mây
- Amazon Web Services dự kiến xây dựng cụm máy chủ với 20.000 chip GB200
- Hệ thống này có thể triển khai mô hình 27 nghìn tỷ tham số, lớn hơn rất nhiều so với GPT-4, vốn được đưa tin là có 1,7 nghìn tỷ tham số
- Nvidia không công bố giá của GB200 hay các hệ thống sử dụng nó
- Theo ước tính của các nhà phân tích, H100 nền Hopper có giá 25.000~40.000 USD mỗi chip, còn cả hệ thống có thể lên tới 200.000 USD
- Nvidia cũng sẽ bán bộ xử lý đồ họa B200 dưới dạng hệ thống hoàn chỉnh chiếm trọn một rack máy chủ

NIM và chiến lược nền tảng của Nvidia

Nvidia bổ sung sản phẩm mới NIM (Nvidia Inference Microservice) vào gói đăng ký phần mềm Nvidia enterprise
NIM giúp việc suy luận — quá trình chạy phần mềm AI — trở nên dễ dàng hơn trên các GPU Nvidia hiện có
- Suy luận đòi hỏi ít tài nguyên tính toán hơn so với giai đoạn huấn luyện ban đầu của mô hình AI mới
- Mục tiêu là giúp doanh nghiệp tiếp tục tận dụng hàng trăm triệu GPU Nvidia mà họ đã sở hữu
Đối tượng chính của NIM là các doanh nghiệp muốn tự chạy mô hình AI thay vì mua kết quả AI như một dịch vụ từ các công ty như OpenAI
Kết nối khách hàng mua máy chủ nền Nvidia với gói đăng ký Nvidia enterprise là chiến lược cốt lõi
- Chi phí giấy phép là 4.500 USD mỗi GPU mỗi năm
Triển khai mô hình và cách nhà phát triển sử dụng
- Nvidia sẽ hợp tác với các công ty AI như Microsoft và Hugging Face để điều chỉnh mô hình AI chạy trên toàn bộ các chip Nvidia tương thích
- Nhà phát triển có thể dùng NIM để chạy mô hình hiệu quả trên máy chủ riêng hoặc máy chủ Nvidia trên đám mây mà không cần quy trình thiết lập dài dòng
- Manuvir Das cho biết cách làm là chỉ cần thay một dòng, chuyển phần trước đây gọi OpenAI trong mã hiện có sang trỏ tới NIM nhận từ Nvidia
- Nvidia cho biết phần mềm này không chỉ hỗ trợ chạy AI trên máy chủ đám mây mà còn trên laptop có gắn GPU
Từ công ty chip thành nền tảng phần mềm
- NIM là sản phẩm bổ sung thêm lý do để khách hàng ở lại với chip Nvidia thay vì chip cạnh tranh
- Nvidia không còn chỉ là nhà cung cấp chip kiểu đánh thuê, mà đang tiến gần hơn tới vai trò nhà cung cấp nền tảng để các công ty khác xây dựng phần mềm trên đó
- Huang nói: “Blackwell không phải tên của một con chip, mà là tên của một nền tảng.”
- Das nói rằng trước đây sản phẩm thương mại có thể bán là GPU và phần mềm chỉ đóng vai trò giúp tận dụng GPU, nhưng giờ Nvidia đã có một mảng kinh doanh phần mềm thương mại

2 bình luận

corelyai 2024-03-20

Hội nghị nhà phát triển Nvidia: giới thiệu chip Blackwell và các công nghệ tương lai

Nvidia đã giới thiệu Blackwell, một nền tảng đột phá với 208 tỷ transistor nằm trên hai die liền kề để tạo thành một con chip khổng lồ có thể truyền 10 terabyte dữ liệu mỗi giây, đồng thời cung cấp khả năng tương thích về hình dạng và chức năng với Hopper.
Switch liên kết MVY của Blackwell, được trang bị 500 tỷ transistor, cho phép giao tiếp tốc độ cao tối đa giữa các GPU, giúp xây dựng hệ thống AI exaflop trong một rack duy nhất.
Nvidia Blackwell công bố hợp tác với AWS, Google, Oracle và Microsoft để tăng tốc nhiều dịch vụ AI khác nhau và tích hợp công nghệ Nvidia vào các nền tảng đó.
Nvidia đã công bố AI Foundry, hợp tác với các công ty như SAP, ServiceNow, Cohesity, Snowflake và Dell để xây dựng các giải pháp AI tạo sinh và nhà máy AI.
Bằng cách truyền Omniverse Cloud lên Vision Pro để hỗ trợ tích hợp liền mạch và quy trình làm việc giữa nhiều công cụ thiết kế khác nhau, Nvidia cũng giới thiệu Project Groot, Isaac Lab và OSMO dành cho robot ứng dụng AI.
Robot bdx của Disney chạy trên Jetson đã xuất hiện đặc biệt và trình diễn khả năng học tập trong Isaac Sim.

Đây là nội dung video CNET được tóm tắt bằng corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)

GN⁺ 2024-03-19

Ý kiến trên Hacker News

Nhìn vào keynote tại sự kiện và nội dung hội nghị, có thể thấy Nvidia đang đi lên phía trên của stack, như các công ty phần cứng tốt thường làm
Dĩ nhiên họ vẫn sẽ tiếp tục tạo ra phần cứng lớn hơn, nhưng điểm cốt lõi là họ đang tạo NIM, giống như Docker cho LLM. Họ đang xây dựng một hệ thống container để có thể tải xuống hoặc mua NIM rồi triển khai dễ dàng trên phần cứng Nvidia, nên sẽ rất thú vị để xem điều này ảnh hưởng thế nào đến các startup AI
- Tôi nghĩ nó sẽ không ảnh hưởng nhiều đến phần lớn AI hướng tới người tiêu dùng. Vì UI và sự tiện lợi vốn đã là điểm bán hàng lớn
  Mối đe dọa lớn hơn là khi chức năng cốt lõi của doanh nghiệp được đưa vào phần mềm phổ biến. Giống như hiện nay iPhone có thể xóa nền, khiến nhu cầu trả tiền cho dịch vụ xóa nền biến mất; nếu một sản phẩm AI có thể dễ dàng trở thành một tính năng trong ứng dụng công việc hiện có, thì doanh nghiệp đó đang sống nhờ thời gian vay mượn
- Cũng có lựa chọn mã nguồn mở: https://github.com/geniusrise
- Tôi không theo kịp mọi xu hướng trong lĩnh vực AI, nên tò mò ở đây đang nói đến loại startup AI nào
  Có phải là kiểu startup AI-as-a-Service cung cấp “hạ tầng” không?
Hướng đi rằng “Nvidia đang chuyển từ một nhà cung cấp chip kiểu lính đánh thuê sang gần với nhà cung cấp nền tảng, nơi các công ty khác có thể xây dựng phần mềm, giống Microsoft hay Apple” là điều dễ hiểu từ góc độ tăng trưởng
Nếu trở thành dịch vụ nền tảng cho AI thì sẽ có lợi nhuận hơn cho Nvidia, nhưng việc cân bằng với các quan hệ đối tác hiện có như AWS và Microsoft sẽ khó. Có vẻ sắp tới sẽ có các thương vụ mua lại hoặc giải pháp tùy chỉnh để cạnh tranh; may cho Nvidia là phần lớn AI hiện vẫn còn phụ thuộc vào CUDA, nên diễn biến sẽ rất thú vị
- Có vẻ Nvidia đang chuẩn bị cho một thế giới trong đó một nửa khách hàng là các hyperscaler chỉ dùng GPU và CUDA, còn phần đuôi dài khách hàng còn lại dùng nền tảng cấp cao hơn, sinh lời hơn
  Họ không có đủ đòn bẩy để ép khách hàng về một phía, và chỉ bán GPU thì dễ hơn, nhưng có vẻ họ hiểu rằng khách hàng tinh vi có thể chuyển sang chip khác, trong khi nền tảng có tác dụng giữ chân các khách hàng nhỏ
- Cuối cùng tôi nghĩ sẽ có vụ kiện chống độc quyền, Nvidia sẽ bị yêu cầu mở chuẩn CUDA, rồi AMD sẽ trở thành đối thủ cạnh tranh
  Nếu muốn, Nvidia có thể tự nguyện mở chuẩn để tránh các vụ kiện như vậy; cá nhân tôi nghĩ đó là lựa chọn khôn ngoan, nhưng trong lịch sử gần như mọi công ty đều chọn kiện tụng thay vì tự nguyện mở
- AWS đang thúc đẩy ARM rất mạnh, nhưng mọi người vẫn mua lượng lớn năng lực tính toán x86/x64
  Ngay cả khi AWS có giải pháp phần cứng + phần mềm riêng cho mạng nơ-ron, việc thoát khỏi nền tảng CUDA có thể mất vài năm, thậm chí vài thập kỷ
- Nếu GPU AMD/Intel có hiệu năng và mức độ phổ biến ngang Nvidia, Microsoft và AWS cũng đã hợp tác với họ
  Microsoft có quan hệ đối tác với cả OpenAI lẫn Mistral. Không có gì đảm bảo sự thuận tiện hiện tại sẽ được duy trì trong tương lai, và Nvidia cũng biết rõ điều đó
FP4 là gì, dấu phẩy động 4 bit à? Nếu vậy thì biểu đồ so sánh nhanh hơn 30 lần so với Hopper [0] hơi gây hiểu lầm
[0] https://youtu.be/Y2F8yisiS6E?t=4698
- FP4 là dấu phẩy động 4 bit, và có tốc độ gấp đôi dấu phẩy động 8 bit. Cũng có FP6, tuy không tính toán nhanh hơn FP8 nhưng có thể tận dụng băng thông bộ nhớ và hiệu quả cache tốt hơn của định dạng 6 bit
  Một số người liên hệ nó với bài báo này [1] về LLM 4 bit, và trong số tác giả có một nhân viên Nvidia
  1: https://arxiv.org/pdf/2310.16836.pdf
- Chỉ gây hiểu lầm một phần. Vì trong LLM, FP4 không chỉ hữu dụng bằng một nửa FP8
  Nếu có phần cứng vượt trội ở FP4 thì bạn sẽ dùng nó, và có thể đạt tăng tốc trong khi giảm thiểu mất mát độ chính xác. Có pha chút sáng tạo kiểu marketing, nhưng không hoàn toàn sai nếu xem như thước đo mức sử dụng thực tế
- https://arxiv.org/pdf/2310.10537.pdf
  Bài trước cũng đã đề cập: https://news.ycombinator.com/item?id=37930663
- Tôi tò mò làm sao 4 bit có thể đủ. Các phép tính trung gian có được thực hiện ở độ rộng lớn hơn rồi hạ xuống lại FP4 không?
- Đúng vậy. Có nói về transformer engine nhận biết độ chính xác, và điều đó có thể giúp việc dùng FP4 dễ hơn, nhưng không phải nhanh hơn 30 lần trong cùng điều kiện
  Thực tế nó gần với việc đặt hai Hopper cạnh nhau trên một node quy trình được cải thiện nhẹ, nên không có gì đáng ngạc nhiên; nếu không tận dụng các tính năng mới như vậy hoặc bộ nhớ tăng thêm, khoảng 2,5 lần nghe hợp lý hơn
Vài năm trước họ đã mua lại Bright Cluster Manager, vậy mục tiêu mua lại tiếp theo sẽ là ai? Có vẻ họ muốn cung cấp toàn bộ stack cho khách hàng
- Canonical là một mục tiêu đã chín muồi. Trong vài năm qua Canonical đã cố đưa Ubuntu và các công cụ khác phát triển trong thế giới enterprise nhưng không đạt thành công lớn, và phần lớn bộ công cụ phát triển của Nvidia được xây dựng xoay quanh Ubuntu
- Run:AI https://news.ycombinator.com/item?id=39738342
- Họ cũng có thể mua lại Anthropic hoặc Mistral để tạo AGI/ASI
Đây là thời đại mà petaflop hai chữ số được sản xuất hàng loạt
“Năng lực tính toán cần thiết để tái tạo các hoạt động liên quan của não người được nhiều tác giả ước tính nằm trong khoảng từ 10^12 đến 10^28 FLOPS.” Một petaflop là 10^15. Thời đại điên rồ thật
- Tôi sẽ rất vui nếu dùng nó để thiết kế một nhà máy điện nhiệt hạch khả thi. Nếu phần lớn được dùng cho nhắm mục tiêu quảng cáo thì sẽ rất thất vọng
Thật tiếc cho Masayoshi Son của Softbank. Năm 2019 ông ấy nắm giữ 3,1 tỷ USD cổ phần Nvidia, mà nếu giữ đến nay thì đã thành 60 tỷ USD, tức gấp 19 lần
Ông ấy cực kỳ lạc quan về AI và robotics, nhưng đã đi trước thời đại quá xa
- Chỉnh nhẹ: Masayoshi Son
Ở đây “công ty nền tảng” có nghĩa là đa chip à?
Có vẻ hợp lý vì việc nhồi nhiều transistor như vậy vào một die đơn đang trở nên phi thực tế
- Tôi không rõ bức tranh tổng thể của dòng sản phẩm, nhưng nhìn vào các con số vật lý và cấu hình mà Jensen khoe thì có vẻ họ thực chất muốn chơi kiểu mainframe
  Hướng đi là khóa các ứng dụng cao cấp chạy trên chassis độc quyền, mạng liên kết cụm độc quyền và middleware độc quyền. Làm tôi nhớ đến thương vụ mua lại Mellanox
- Nó có nghĩa là toàn bộ các chip chính cần cho các trung tâm dữ liệu quy mô lớn và phần lớn các tầng phần mềm bên trên
  Về phần cứng gồm GPU, NVLINK là fabric GPU-GPU, CPU, NIC, InfiniBand là fabric mạng, và switch. Ngoài ra họ còn đóng góp và thúc đẩy để mọi người xây dựng nhiều tầng software stack như CUDA, Riva, Megatron, Omniverse lên trên đó
- Không, điều này có nghĩa là tìm kiếm địa tô
  Cứ tưởng tượng AWS còn bán cả mọi máy tính trên thế giới là được. Giờ cấu trúc sẽ là chỉ có thể thuê từ đó mà thôi
Tôi tò mò không biết khi nào ngành này sẽ bắt đầu xử lý vấn đề khả năng mở rộng của LLM. Từ góc nhìn của Nvidia, việc liên tục tung ra GPU lớn hơn và tốt hơn dĩ nhiên là có lợi, nhưng lợi ích chung là gì?
Việc có đủ tài nguyên thì có thể tạo ra mô hình ngôn ngữ tốt đã được chứng minh rồi. Bài toán bây giờ là đưa các mô hình này vào những giải pháp không đòi hỏi lượng tài nguyên khó tưởng tượng cho các ca sử dụng trung bình
- Phát triển phần mềm lãng phí thì dễ và giúp duy trì động lực phát triển. Chừng nào tăng trưởng còn là vua, cách làm nhanh và bừa bộn sẽ luôn thắng các hệ thống nhỏ được tối ưu tốt
  Đây không chỉ là vấn đề của AI mà là vấn đề của mọi phần mềm chúng ta dùng. Chỉ có hai nhóm người tối ưu và điều chỉnh cho phù hợp với hệ thống nhỏ hơn: lập trình viên đam mê, và những người được trả tiền để làm việc đó. Ví dụ như các đội phần mềm của nhà sản xuất điện thoại
Giá cổ phiếu không thay đổi trong giao dịch ngoài giờ. Nhiều người đã kỳ vọng một cú bật mạnh vì thông báo lớn này
- Giá cổ phiếu không phải là chỉ báo ngắn hạn tốt cho tình hình phát triển của Nvidia, hay bất kỳ công ty nào. Nvidia đang làm rất tốt
  Chỉ là cổ phiếu đó thật sự đang được định giá cao đến mức buồn cười
- Vốn hóa thị trường 2 nghìn tỷ USD thì mọi thứ đã được phản ánh vào giá rồi
- Nếu muốn một cú tăng kiểu đó thì chắc phải chờ dự báo kết quả kinh doanh. Hiện tại cổ phiếu đang bị mua quá mức cực độ, nên đang chật vật để vượt và duy trì trên 1.000 USD/cổ phiếu
  Trước mắt Microsoft và OpenAI sẽ dùng con chip này, nhưng về dài hạn họ sẽ nhìn vào đó để tự làm chip riêng, giảm phụ thuộc vào Nvidia, và chuẩn bị chuyển đi khi hợp đồng kết thúc
- Nvidia không phải là một cổ phiếu bí mật. Nếu có giá trị ẩn trong cổ phiếu, khả năng cao phần lớn đã được phản ánh vào giá
- Không chỉ vậy, trong phiên cũng đã hụt hơi. Có thể nó đã quá nóng đến mức giờ khó có tin tức nào kéo lên thêm được nữa
Họ tuyên bố đã giảm điện năng tiêu thụ 25 lần, liệu điều đó có thể đúng không? Có ai biết con số này từ đâu ra không?
- Con số đó đến từ đây [1]. Về cơ bản là so sánh rack H100 với rack B8
  Tuy nhiên tôi nghĩ cũng có thể là lỗi đánh máy. Có lẽ phép so sánh còn bao gồm cả làm mát bằng chất lỏng so với làm mát bằng không khí
  [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
- Bạn đọc được trong bài viết được liên kết à? Tôi không tìm thấy
  Có lẽ vì hiệu suất tăng 5 lần dẫn đến cải thiện hiệu quả, cộng với việc giờ có thể dùng 27 nghìn tỷ tham số thay vì 1,7 nghìn tỷ, nên cùng một khối lượng công việc có thể hoàn thành trong 1/25 thời gian, và vì vậy họ gọi là giảm tiêu thụ điện. Như bạn nói, tôi hoài nghi việc mức tiêu thụ điện tối đa tự thân lại thấp hơn 25 lần

Jensen Huang của Nvidia công bố chip AI mới Blackwell: “Cần một GPU lớn hơn”

Công bố Blackwell và vị thế nhà cung cấp AI của Nvidia

Cấu hình và hiệu năng của GB200

Máy chủ và cung cấp qua đám mây

NIM và chiến lược nền tảng của Nvidia

Triển khai mô hình và cách nhà phát triển sử dụng

Từ công ty chip thành nền tảng phần mềm

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News