- NVIDIA đã tăng trưởng nhanh nhờ làn sóng AI và thế độc quyền GPU, nhưng vị thế dài hạn đang bị đe dọa bởi việc các ông lớn đám mây tự phát triển chip và chiến lược tích hợp theo chiều dọc
- Nhu cầu GPU từ startup và các nhà cung cấp đám mây độc lập đang giảm, và sự suy giảm lợi nhuận của các mô hình kinh doanh có mức độ phụ thuộc cao vào NVIDIA đang ngày càng rõ rệt
- Google, Amazon, Microsoft, Meta đang nhanh chóng giảm phụ thuộc vào NVIDIA thông qua chip tùy chỉnh hiệu năng cao và các hệ thống tích hợp theo chiều dọc
- Hạ tầng phân tán và tối ưu hóa dựa trên kết nối cụm đang trở thành yếu tố cốt lõi của huấn luyện AI, và đây là thay đổi mang tính cấu trúc mà NVIDIA khó ứng phó
- NVIDIA đang cố gắng cải thiện phần cứng và phần mềm, nhưng vẫn có khả năng suy yếu năng lực cạnh tranh trước chiến lược tích hợp dọc sâu rộng của các hyperscaler
Từ vị thế thống trị đến khủng hoảng của NVIDIA: biến động lớn của thị trường điện toán AI
- NVIDIA đã tăng trưởng rất nhanh nhờ làn sóng AI, thế độc quyền GPU và việc cung cấp máy chủ DGX, đạt thành tích kỷ lục là tăng thêm 2 nghìn tỷ USD vốn hóa thị trường trong 13 tháng
- Tuy nhiên, thế hệ H100 là đỉnh cao về lợi nhuận, còn dòng B200 ra mắt sau đó đi kèm suy giảm lợi nhuận và chi phí sản xuất tăng cao
- Về dài hạn, cấu trúc độc quyền của NVIDIA đang bị lung lay khi các hyperscaler hợp nhất nhu cầu và giành lợi thế cạnh tranh bằng phát triển chip tùy chỉnh
Tái cấu trúc nhu cầu AI và sự thu hẹp của thị trường startup
- Hơn một nửa nhu cầu trung tâm dữ liệu của NVIDIA đến từ các hyperscaler như Google, Microsoft, Amazon, Meta
- Phần nhu cầu còn lại đến từ startup, VC, doanh nghiệp đám mây vừa và nhỏ, nhưng do mua GPU quá mức, ROI thấp và mảng cho thuê GPU đang thua lỗ
- Các mô hình tùy chỉnh quy mô nhỏ như BloombergGPT đang gặp khó trên thị trường, trong khi các mô hình khép kín quy mô lớn dựa trên API đã trở thành chuẩn
- Các đám mây độc lập như Coreweave, Lambda dù được NVIDIA hậu thuẫn vẫn lâm vào khủng hoảng vì thiếu hiệu quả kinh tế, lợi nhuận giảm và nhu cầu chững lại
- Giá thuê GPU đã giảm mạnh xuống còn $1.99 mỗi giờ, ROE dưới 10%, ở mức không bền vững
Chiến lược phát triển chip tùy chỉnh của các hyperscaler
- Google TPU đã đạt đến thế hệ thứ 6 và đã hoàn toàn thay thế NVIDIA trong các mô hình như Gemini-Ultra, DeepMind, YouTube
- Trainium và Inferentia của Amazon, thông qua hợp tác với Anthropic, đang thay thế suy luận và huấn luyện mô hình lớn, đồng thời cung cấp Neuron SDK hoạt động không cần CUDA
- Bộ tăng tốc Maia và CPU Cobalt của Microsoft đang được dùng cho các workload AI nội bộ, còn SDK dựa trên Triton làm tăng khả năng thay thế CUDA
- Meta đang vận hành các tính năng AI của Instagram và WhatsApp bằng chip MTIA, đồng thời một phần việc huấn luyện Llama 3.1 cũng được thực hiện trên chip tự phát triển
- Xu hướng này phù hợp hơn với cấu trúc thị trường AI thiên về suy luận, và về sau suy luận dựa trên GPU có thể bị chip tùy chỉnh, thậm chí cả giải pháp dựa trên CPU lấn át
Chuyển dịch sang cấu trúc lấy hệ thống làm trung tâm và giới hạn của NVIDIA
- Các hyperscaler tập trung vào tối ưu hóa toàn hệ thống hơn là hiệu năng của từng con chip đơn lẻ
- Google kết nối số lượng lớn TPU nhỏ, dùng mạng quang riêng (Apollo) và cấu trúc liên kết mạng torus để giảm thiểu điện năng và độ trễ
- Microsoft xây dựng mạng cáp quang và bộ thu phát ColorZ để mở ra khả năng huấn luyện đa trung tâm dữ liệu, qua đó có được hạ tầng hiệu năng cao chi phí thấp hơn so với NVIDIA
- Vì vậy, mô hình phân tán kết nối nhiều trung tâm dữ liệu quy mô nhỏ để huấn luyện đang nổi lên như xu thế chủ đạo
- Để vượt qua ràng buộc về điện năng và giới hạn mở rộng hạ tầng, các công ty đang thử kết nối trung tâm dữ liệu trên quy mô toàn quốc (ví dụ: Microsoft tái khởi động Three Mile Island, AWS mua lại nhà máy điện hạt nhân)
Nỗ lực ứng phó về phần cứng và phần mềm của NVIDIA cùng những khó khăn mang tính cấu trúc
- NVIDIA đang cố ứng phó bằng máy chủ GB200, Spectrum-X, DCGM, RAS
- Thiết kế mạng dựa trên Infiniband dễ tổn thương trước các cụm quy mô lớn và thiếu thiết kế chịu lỗi đầy đủ
- Pathways của Google và Singularity của Microsoft có thế mạnh về hệ thống tự xây dựng có khả năng chịu lỗi và phát hiện lỗi bộ nhớ GPU
- BaseCommand của NVIDIA dựa trên Kubernetes thua kém Borg, MegaScaler của hyperscaler về khả năng mở rộng và mức độ tích hợp
- Là người đến sau trong hệ thống làm mát, NVIDIA thua Google về hiệu quả điện năng, tuổi thọ và hiệu suất không gian (ví dụ: Google PUE 1.1 so với NVIDIA từ 1.4 trở lên)
Kết luận
- NVIDIA vẫn sở hữu hiệu năng GPU mạnh mẽ, nhưng về tối ưu hệ thống, tích hợp hạ tầng và hiệu quả chi phí thì có giới hạn cấu trúc khiến hãng lép vế trước hyperscaler
- Các hyperscaler đã hoàn tất tích hợp theo chiều dọc từ chip đến hạ tầng và phần mềm, qua đó giành được khả năng thay thế hoàn toàn
- Nếu không rời khỏi chiến lược lấy GPU làm trung tâm trong quá khứ để tiến tới đổi mới toàn hệ thống, NVIDIA có nguy cơ khó duy trì vai trò dẫn đầu bền vững trong thị trường điện toán AI sắp tới
3 bình luận
Một người đã không mua cổ phiếu Nvidia vì Google Tensor, Tesla Dojo và AMD..
Tôi cũng tò mò về nhược điểm của những “con chip tùy biến của các hyperscaler”.
Vì nó có vẻ được mô tả như thể vượt trội hơn về mọi mặt vậy.
Ý kiến trên Hacker News
Có ý kiến cho rằng đây lại là một bài viết khác dựa trên giả định rằng trong lúc Nvidia không làm gì thì các đối thủ đột nhiên thành công và đe dọa Nvidia
Dù giá cổ phiếu của Marvell đã giảm hơn 50% trong năm nay, nhu cầu đối với GPU của Nvidia vẫn rất mạnh
Có ý kiến cho rằng chính dịch vụ sẽ bảo vệ Nvidia
Có ý kiến cho rằng thị trường đang đánh giá thấp vị thế chiến lược của Nvidia
Có ý kiến cho rằng AMD đã đạt thỏa thuận bí mật với Nvidia và cố tình tạo ra tình huống này
Nvidia đang chuyển từ thế độc quyền trên thực tế sang tình thế phải cạnh tranh
Có ý kiến cho rằng thế hệ H100 thể hiện quyền định giá mạnh nhất, và sẽ tiếp tục tạo ra lợi nhuận do thiếu lựa chọn thay thế
Có ý kiến cho rằng chất lượng quản lý driver GPU của Nvidia đang giảm sút