- Google TPU là chip ASIC chuyên dụng được thiết kế để xử lý khối lượng suy luận AI quy mô lớn, mang lại hiệu quả và năng lực cạnh tranh chi phí tốt hơn so với GPU
- Điểm khác biệt cốt lõi là tối đa hóa hiệu suất tính toán (Operations per Joule) thông qua kiến trúc Systolic Array, giúp giảm thiểu truy cập bộ nhớ
- TPUv7 (Ironwood) mới nhất đã cải thiện vượt bậc về hiệu năng và băng thông bộ nhớ so với thế hệ trước, đạt mức hiệu năng tương đương Nvidia Blackwell GPU
- Giới hạn về hệ sinh thái của TPU và cấu trúc chỉ cung cấp độc quyền trên GCP là những rào cản lớn đối với việc mở rộng, nhưng Google đang tái cơ cấu tổ chức và tăng cường hỗ trợ để mở rộng khách hàng bên ngoài
- Nhờ khôi phục biên lợi nhuận đám mây và tăng cường năng lực cạnh tranh thông qua chip tự phát triển, Google có khả năng trở thành người chiến thắng then chốt trên thị trường hạ tầng AI về dài hạn
Lịch sử TPU và bối cảnh phát triển
- Năm 2013, Google tính toán rằng do lượng sử dụng tìm kiếm bằng giọng nói tăng lên, họ sẽ cần gấp đôi công suất trung tâm dữ liệu
- CPU và GPU hiện có khi đó khó xử lý hiệu quả tác vụ deep learning (phép nhân ma trận quy mô lớn)
- Vì vậy, Google quyết định phát triển ASIC chuyên dụng cho mạng nơ-ron TensorFlow, và sau 15 tháng đã triển khai silicon vào trung tâm dữ liệu
- Đến năm 2015, TPU đã được áp dụng cho các dịch vụ chủ lực như Google Maps, Photos, Translate
- TPU được công bố chính thức tại Google I/O 2016, rồi sau đó phát triển thành hạ tầng cốt lõi để giảm chi phí suy luận AI
Khác biệt về cấu trúc giữa TPU và GPU
- GPU là bộ xử lý song song đa dụng, còn TPU là kiến trúc chuyên biệt theo miền ứng dụng
- GPU được thiết kế cho xử lý đồ họa nên chứa logic điều khiển phức tạp như cache, dự đoán nhánh
- TPU loại bỏ các thành phần này và giảm thiểu di chuyển dữ liệu bằng cấu trúc Systolic Array
- Systolic Array của TPU tải dữ liệu một lần rồi truyền qua luồng tính toán liên tục, từ đó giải quyết nút thắt Von Neumann
- Các cải tiến của Ironwood (thế hệ 7)
- Tăng cường SparseCore để nâng cao hiệu quả xử lý embedding quy mô lớn
- Dung lượng HBM 192GB, băng thông 7.370GB/s
- Hiệu năng Inter-Chip Interconnect (ICI) được nâng lên, đạt băng thông tối đa 1.2TB/s
- Google xây dựng TPU Pod quy mô lớn bằng Optical Circuit Switch (OCS) và mạng 3D torus
- Hiệu quả điện năng cao nhưng độ linh hoạt thấp hơn so với InfiniBand
So sánh hiệu năng TPU và GPU
- TPUv7 (BF16 4.614 TFLOPS) so với TPUv5p (459 TFLOPS) cho thấy hiệu năng tăng khoảng 10 lần
- Tóm tắt phỏng vấn trong ngành
- TPU vượt trội về hiệu quả điện năng theo hiệu năng và hiệu quả chi phí
- Trong một số ứng dụng nhất định, TPU đạt hiệu năng/đô la cao hơn 1,4 lần
- TPUv6 có lợi thế hiệu quả 60~65% so với GPU, trong khi thế hệ trước là 40~45%
- TPU tỏa nhiệt ít hơn, tiêu thụ điện ít hơn và gây gánh nặng môi trường thấp hơn
- Một số khách hàng có thể giảm chi phí xuống còn 1/5 khi dùng TPU Pod
- Do cấu trúc ASIC, TPU có thể giảm 30% kích thước và giảm 50% điện năng tiêu thụ
- Theo tài liệu nội bộ của Google, TPUv7 có hiệu năng trên mỗi watt cao gấp 2 lần TPUv6e
- CEO Nvidia Jensen Huang cũng gọi TPU là một “trường hợp đặc biệt” và dành sự chú ý cho nó
Những vấn đề cản trở việc triển khai TPU
- Rào cản đầu tiên là hệ sinh thái (sự độc quyền của CUDA)
- Cả đại học lẫn ngành công nghiệp đều đào tạo và phát triển xoay quanh CUDA
- TPU tập trung vào JAX và TensorFlow, còn hỗ trợ PyTorch chỉ mới được tăng cường tương đối muộn
- Sự lan rộng của chiến lược đa đám mây cũng là một giới hạn
- Phần lớn doanh nghiệp phân tán dữ liệu trên AWS/Azure/GCP, nên chi phí di chuyển dữ liệu (egress) lớn khiến workload dựa trên GPU linh hoạt hơn
- TPU là độc quyền trên GCP, còn Nvidia có mặt trên cả ba nền tảng đám mây lớn
- Nếu đã chọn TPU mà giá thay đổi hoặc môi trường thay đổi, chi phí viết lại sẽ rất lớn
- Gần đây Google mới bắt đầu mở rộng tổ chức để bán ra bên ngoài và thúc đẩy phổ biến TPU; một số cựu và đương nhiệm nhân sự cũng nhắc đến khả năng cung cấp ra ngoài trong tương lai thông qua neocloud
Giá trị chiến lược của TPU và Google Cloud
- Trong kỷ nguyên AI, ngành đám mây đang chuyển từ cấu trúc biên lợi nhuận cao (50~70%) sang biên lợi nhuận thấp (20~35%)
- Nguyên nhân là áp lực chi phí từ biên lợi nhuận 75% của Nvidia
- Chỉ những doanh nghiệp sở hữu ASIC riêng (đặc biệt là TPU) mới có thể quay lại biên lợi nhuận đám mây truyền thống (khoảng 50%)
- Những yếu tố tạo lợi thế cho Google
- TPU là ASIC cho đám mây trưởng thành nhất
- Google tự thực hiện phần lớn frontend trong thiết kế chip, bao gồm RTL
- Broadcom chỉ phụ trách thiết kế vật lý (backend), với cấu trúc biên lợi nhuận thấp hơn Nvidia nên tăng thêm năng lực cạnh tranh về chi phí cho TPU
- Google sở hữu toàn bộ stack tối ưu hóa phần mềm, cho phép tối đa hóa hiệu năng phần cứng
- Trên nền TPU, các mô hình chủ lực như Gemini 3 được huấn luyện và suy luận
- Việc sử dụng TPU cũng đang được mở rộng trên toàn bộ các dịch vụ AI nội bộ
- SemiAnalysis đánh giá rằng “TPU thế hệ 7 của Google đạt đẳng cấp tương đương Nvidia Blackwell”
- TPU được xem là lợi thế cạnh tranh dài hạn của GCP và là động lực cốt lõi để mở rộng thị phần trên thị trường hạ tầng AI
1 bình luận
Ý kiến trên Hacker News
Vũ khí thực sự của Google không phải bản thân silicon TPU, mà là khả năng mở rộng song song quy mô lớn thông qua liên kết OCS (Optical Circuit Switch)
Theo trích dẫn từ The Next Platform, có thể kết nối 9.216 TPU Ironwood để tận dụng 1,77PB bộ nhớ HBM. Đây là quy mô áp đảo so với hệ thống rack-scale dùng GPU Blackwell của Nvidia (20,7TB HBM)
Nvidia vượt trội ở cấp độ chip đơn lẻ, nhưng trong huấn luyện hoặc suy luận phân tán quy mô lớn thì không có gì sánh được với khả năng mở rộng bằng chuyển mạch quang của Google
Phần lớn doanh nghiệp không cần tự mua phần cứng hay tự huấn luyện mô hình, mà chỉ cần dùng các dịch vụ kiểu như app store AI do Google cung cấp
Ví dụ, mô hình Mixture of Experts có rất nhiều giao tiếp all-to-all nên phía NVLink hiệu quả hơn hẳn
Liên kết tweet chính thức của Nvidia
Song song hóa mô hình có lợi với mạng nhỏ và nhanh, còn song song hóa dữ liệu có lợi với mạng lớn. Chính sự cân bằng này đang giúp Nvidia chiến thắng
Gemini 3 Pro đã gần như thuộc thế hệ cũ. Google có nhiều tài nguyên hơn Anthropic rất nhiều, nhưng nếu phần cứng là vũ khí bí mật thì họ đáng lẽ đã thống trị thị trường từ lâu
Nhưng thực tế lại khác
Có ý kiến cho rằng CUDA quan trọng với huấn luyện, nhưng ít quan trọng hơn ở giai đoạn suy luận
Nhưng suy luận là quá trình đơn giản, chỉ lặp lại việc áp dụng các trọng số cố định, nên TPU có thể hiệu quả hơn
Không có lý do gì để Nvidia không thể làm chip chuyên biệt như TPU
Nvidia thuê TSMC sản xuất rồi bán với giá cao, còn Google dùng nội bộ nên tiết kiệm được biên lợi nhuận
Có bài Reuters nói rằng Meta đang đàm phán đầu tư hàng tỷ USD vào chip của Google
ASIC cho LLM phức tạp hơn rất nhiều so với ASIC cho tiền mã hóa. Tiền mã hóa chỉ cần xử lý một thuật toán băm cố định, còn LLM thì liên tục tiến hóa
Nên vẫn hơi khó hiểu TPU có ý nghĩa gì trong bối cảnh này
Giá như có nhiều lựa chọn TPU độc lập cho cá nhân hơn. Hiện tại Coral từ năm 2019 gần như là lựa chọn duy nhất
Cuộc tranh luận này mang tính học thuật kiểu như RISC vs CISC. GPU Nvidia rốt cuộc cũng đang được thiết kế để làm cùng công việc với TPU
Ngay cả trong nội bộ Google, 5 năm nữa có thể khác biệt lớn cũng không còn
Google hưởng lợi từ TPU, nhưng với lập trình viên bên ngoài thì không có lợi ích trực tiếp
Maia của Microsoft, chip trung tâm dữ liệu của AMD/NVIDIA, cùng các thương vụ mua lại công ty chuyên về mạng đều đang đi theo cùng một hướng
Google đang đi trước, nhưng rốt cuộc đây sẽ là cuộc cạnh tranh hội tụ
Mô hình thưa (sparse model) có thể giảm 16 lần lượng tính toán và dung lượng lưu trữ mà vẫn giữ được chất lượng tương đương
TPU yếu trong xử lý ma trận thưa, nhưng mạnh trong huấn luyện mô hình dense
Tài liệu kiến trúc hệ thống TPU
Giới thiệu OpenXLA SparseCore
Cuối cùng vẫn còn câu hỏi: vạch đích của cuộc cạnh tranh này nằm ở đâu, hay mức đáy nằm ở đâu?