Tương lai của điện toán: vương miện của Nvidia đang lung lay

(mohitdagarwal.substack.com)

2 điểm bởi GN⁺ 2025-04-24 | 3 bình luận | Chia sẻ qua WhatsApp

NVIDIA đã tăng trưởng nhanh nhờ làn sóng AI và thế độc quyền GPU, nhưng vị thế dài hạn đang bị đe dọa bởi việc các ông lớn đám mây tự phát triển chip và chiến lược tích hợp theo chiều dọc
Nhu cầu GPU từ startup và các nhà cung cấp đám mây độc lập đang giảm, và sự suy giảm lợi nhuận của các mô hình kinh doanh có mức độ phụ thuộc cao vào NVIDIA đang ngày càng rõ rệt
Google, Amazon, Microsoft, Meta đang nhanh chóng giảm phụ thuộc vào NVIDIA thông qua chip tùy chỉnh hiệu năng cao và các hệ thống tích hợp theo chiều dọc
Hạ tầng phân tán và tối ưu hóa dựa trên kết nối cụm đang trở thành yếu tố cốt lõi của huấn luyện AI, và đây là thay đổi mang tính cấu trúc mà NVIDIA khó ứng phó
NVIDIA đang cố gắng cải thiện phần cứng và phần mềm, nhưng vẫn có khả năng suy yếu năng lực cạnh tranh trước chiến lược tích hợp dọc sâu rộng của các hyperscaler

Từ vị thế thống trị đến khủng hoảng của NVIDIA: biến động lớn của thị trường điện toán AI

NVIDIA đã tăng trưởng rất nhanh nhờ làn sóng AI, thế độc quyền GPU và việc cung cấp máy chủ DGX, đạt thành tích kỷ lục là tăng thêm 2 nghìn tỷ USD vốn hóa thị trường trong 13 tháng
Tuy nhiên, thế hệ H100 là đỉnh cao về lợi nhuận, còn dòng B200 ra mắt sau đó đi kèm suy giảm lợi nhuận và chi phí sản xuất tăng cao
Về dài hạn, cấu trúc độc quyền của NVIDIA đang bị lung lay khi các hyperscaler hợp nhất nhu cầu và giành lợi thế cạnh tranh bằng phát triển chip tùy chỉnh

Tái cấu trúc nhu cầu AI và sự thu hẹp của thị trường startup

Hơn một nửa nhu cầu trung tâm dữ liệu của NVIDIA đến từ các hyperscaler như Google, Microsoft, Amazon, Meta
Phần nhu cầu còn lại đến từ startup, VC, doanh nghiệp đám mây vừa và nhỏ, nhưng do mua GPU quá mức, ROI thấp và mảng cho thuê GPU đang thua lỗ
Các mô hình tùy chỉnh quy mô nhỏ như BloombergGPT đang gặp khó trên thị trường, trong khi các mô hình khép kín quy mô lớn dựa trên API đã trở thành chuẩn
Các đám mây độc lập như Coreweave, Lambda dù được NVIDIA hậu thuẫn vẫn lâm vào khủng hoảng vì thiếu hiệu quả kinh tế, lợi nhuận giảm và nhu cầu chững lại
Giá thuê GPU đã giảm mạnh xuống còn $1.99 mỗi giờ, ROE dưới 10%, ở mức không bền vững

Chiến lược phát triển chip tùy chỉnh của các hyperscaler

Google TPU đã đạt đến thế hệ thứ 6 và đã hoàn toàn thay thế NVIDIA trong các mô hình như Gemini-Ultra, DeepMind, YouTube
Trainium và Inferentia của Amazon, thông qua hợp tác với Anthropic, đang thay thế suy luận và huấn luyện mô hình lớn, đồng thời cung cấp Neuron SDK hoạt động không cần CUDA
Bộ tăng tốc Maia và CPU Cobalt của Microsoft đang được dùng cho các workload AI nội bộ, còn SDK dựa trên Triton làm tăng khả năng thay thế CUDA
Meta đang vận hành các tính năng AI của Instagram và WhatsApp bằng chip MTIA, đồng thời một phần việc huấn luyện Llama 3.1 cũng được thực hiện trên chip tự phát triển
Xu hướng này phù hợp hơn với cấu trúc thị trường AI thiên về suy luận, và về sau suy luận dựa trên GPU có thể bị chip tùy chỉnh, thậm chí cả giải pháp dựa trên CPU lấn át

Chuyển dịch sang cấu trúc lấy hệ thống làm trung tâm và giới hạn của NVIDIA

Các hyperscaler tập trung vào tối ưu hóa toàn hệ thống hơn là hiệu năng của từng con chip đơn lẻ
Google kết nối số lượng lớn TPU nhỏ, dùng mạng quang riêng (Apollo) và cấu trúc liên kết mạng torus để giảm thiểu điện năng và độ trễ
Microsoft xây dựng mạng cáp quang và bộ thu phát ColorZ để mở ra khả năng huấn luyện đa trung tâm dữ liệu, qua đó có được hạ tầng hiệu năng cao chi phí thấp hơn so với NVIDIA
Vì vậy, mô hình phân tán kết nối nhiều trung tâm dữ liệu quy mô nhỏ để huấn luyện đang nổi lên như xu thế chủ đạo
Để vượt qua ràng buộc về điện năng và giới hạn mở rộng hạ tầng, các công ty đang thử kết nối trung tâm dữ liệu trên quy mô toàn quốc (ví dụ: Microsoft tái khởi động Three Mile Island, AWS mua lại nhà máy điện hạt nhân)

Nỗ lực ứng phó về phần cứng và phần mềm của NVIDIA cùng những khó khăn mang tính cấu trúc

NVIDIA đang cố ứng phó bằng máy chủ GB200, Spectrum-X, DCGM, RAS
Thiết kế mạng dựa trên Infiniband dễ tổn thương trước các cụm quy mô lớn và thiếu thiết kế chịu lỗi đầy đủ
Pathways của Google và Singularity của Microsoft có thế mạnh về hệ thống tự xây dựng có khả năng chịu lỗi và phát hiện lỗi bộ nhớ GPU
BaseCommand của NVIDIA dựa trên Kubernetes thua kém Borg, MegaScaler của hyperscaler về khả năng mở rộng và mức độ tích hợp
Là người đến sau trong hệ thống làm mát, NVIDIA thua Google về hiệu quả điện năng, tuổi thọ và hiệu suất không gian (ví dụ: Google PUE 1.1 so với NVIDIA từ 1.4 trở lên)

Kết luận

NVIDIA vẫn sở hữu hiệu năng GPU mạnh mẽ, nhưng về tối ưu hệ thống, tích hợp hạ tầng và hiệu quả chi phí thì có giới hạn cấu trúc khiến hãng lép vế trước hyperscaler
Các hyperscaler đã hoàn tất tích hợp theo chiều dọc từ chip đến hạ tầng và phần mềm, qua đó giành được khả năng thay thế hoàn toàn
Nếu không rời khỏi chiến lược lấy GPU làm trung tâm trong quá khứ để tiến tới đổi mới toàn hệ thống, NVIDIA có nguy cơ khó duy trì vai trò dẫn đầu bền vững trong thị trường điện toán AI sắp tới

3 bình luận

kandk 2025-04-24

Một người đã không mua cổ phiếu Nvidia vì Google Tensor, Tesla Dojo và AMD..

kimjoin2 2025-04-24

Tôi cũng tò mò về nhược điểm của những “con chip tùy biến của các hyperscaler”.
Vì nó có vẻ được mô tả như thể vượt trội hơn về mọi mặt vậy.

GN⁺ 2025-04-24

Ý kiến trên Hacker News

Có ý kiến cho rằng đây lại là một bài viết khác dựa trên giả định rằng trong lúc Nvidia không làm gì thì các đối thủ đột nhiên thành công và đe dọa Nvidia
- Những người bi quan về Nvidia có thể rồi sẽ đúng vào một ngày nào đó, nhưng cho đến nay phần lớn đều đã sai
Dù giá cổ phiếu của Marvell đã giảm hơn 50% trong năm nay, nhu cầu đối với GPU của Nvidia vẫn rất mạnh
- Nhấn mạnh rằng những gì cloud cung cấp không thể thay thế GPU
- Đồng ý với tầm nhìn của Jensen rằng Nvidia sẽ trở thành công ty trị giá 10 nghìn tỷ USD
- Đề cập khả năng Nvidia ra mắt AI phone, dịch vụ cạnh tranh với LLM, AI PC, xe tự lái, robot, v.v.
- Cho rằng tình hình hiện tại giống như việc Warren Buffet hối tiếc vì đã không đầu tư vào Google và Apple
Có ý kiến cho rằng chính dịch vụ sẽ bảo vệ Nvidia
- Họ sở hữu hệ sinh thái với CUDA, Infiniband, NGC, NVLink, v.v., và cần mở rộng thông qua các ứng dụng bổ sung như AI Foundry
- Có thể tạo doanh thu khi thị trường chậm lại thông qua thiết kế tùy chỉnh và tư vấn dự án GPU
Có ý kiến cho rằng thị trường đang đánh giá thấp vị thế chiến lược của Nvidia
- Nvidia không cần phải thắng mãi trong cuộc chơi phần cứng, vì họ đang xây dựng toàn bộ AI stack
- Đây là công ty duy nhất cung cấp một cách toàn diện phần cứng, mạng, phần mềm, mô hình và công cụ cho nhà phát triển
- Nvidia đang xây dựng một nền tảng tích hợp, và nó sẽ trở thành tiêu chuẩn của ngành
Có ý kiến cho rằng AMD đã đạt thỏa thuận bí mật với Nvidia và cố tình tạo ra tình huống này
- Nvidia đang chia sẻ vị thế độc quyền tại TSMC với Apple
Nvidia đang chuyển từ thế độc quyền trên thực tế sang tình thế phải cạnh tranh
- Điều này không lý tưởng, nhưng cũng không phải đòn chí mạng
Có ý kiến cho rằng thế hệ H100 thể hiện quyền định giá mạnh nhất, và sẽ tiếp tục tạo ra lợi nhuận do thiếu lựa chọn thay thế
- Có nghi vấn về độ bền vững trong dài hạn
- Các hyperscaler đang hợp nhất nhu cầu AI và tiến hành phát triển chip có sức cạnh tranh
- Cũng có những công ty khác đang xây dựng các GPU farm quy mô lớn
Có ý kiến cho rằng chất lượng quản lý driver GPU của Nvidia đang giảm sút
- Tuy nhiên, rất khó nói là chất lượng quản lý đang giảm khi sản phẩm đã bán hết sạch trong nhiều năm qua