7 điểm bởi GN⁺ 2025-11-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Google TPUchip ASIC chuyên dụng được thiết kế để xử lý khối lượng suy luận AI quy mô lớn, mang lại hiệu quả và năng lực cạnh tranh chi phí tốt hơn so với GPU
  • Điểm khác biệt cốt lõi là tối đa hóa hiệu suất tính toán (Operations per Joule) thông qua kiến trúc Systolic Array, giúp giảm thiểu truy cập bộ nhớ
  • TPUv7 (Ironwood) mới nhất đã cải thiện vượt bậc về hiệu năng và băng thông bộ nhớ so với thế hệ trước, đạt mức hiệu năng tương đương Nvidia Blackwell GPU
  • Giới hạn về hệ sinh thái của TPU và cấu trúc chỉ cung cấp độc quyền trên GCP là những rào cản lớn đối với việc mở rộng, nhưng Google đang tái cơ cấu tổ chức và tăng cường hỗ trợ để mở rộng khách hàng bên ngoài
  • Nhờ khôi phục biên lợi nhuận đám mây và tăng cường năng lực cạnh tranh thông qua chip tự phát triển, Google có khả năng trở thành người chiến thắng then chốt trên thị trường hạ tầng AI về dài hạn

Lịch sử TPU và bối cảnh phát triển

  • Năm 2013, Google tính toán rằng do lượng sử dụng tìm kiếm bằng giọng nói tăng lên, họ sẽ cần gấp đôi công suất trung tâm dữ liệu
    • CPU và GPU hiện có khi đó khó xử lý hiệu quả tác vụ deep learning (phép nhân ma trận quy mô lớn)
  • Vì vậy, Google quyết định phát triển ASIC chuyên dụng cho mạng nơ-ron TensorFlow, và sau 15 tháng đã triển khai silicon vào trung tâm dữ liệu
  • Đến năm 2015, TPU đã được áp dụng cho các dịch vụ chủ lực như Google Maps, Photos, Translate
  • TPU được công bố chính thức tại Google I/O 2016, rồi sau đó phát triển thành hạ tầng cốt lõi để giảm chi phí suy luận AI

Khác biệt về cấu trúc giữa TPU và GPU

  • GPU là bộ xử lý song song đa dụng, còn TPU là kiến trúc chuyên biệt theo miền ứng dụng
    • GPU được thiết kế cho xử lý đồ họa nên chứa logic điều khiển phức tạp như cache, dự đoán nhánh
    • TPU loại bỏ các thành phần này và giảm thiểu di chuyển dữ liệu bằng cấu trúc Systolic Array
  • Systolic Array của TPU tải dữ liệu một lần rồi truyền qua luồng tính toán liên tục, từ đó giải quyết nút thắt Von Neumann
  • Các cải tiến của Ironwood (thế hệ 7)
    • Tăng cường SparseCore để nâng cao hiệu quả xử lý embedding quy mô lớn
    • Dung lượng HBM 192GB, băng thông 7.370GB/s
    • Hiệu năng Inter-Chip Interconnect (ICI) được nâng lên, đạt băng thông tối đa 1.2TB/s
  • Google xây dựng TPU Pod quy mô lớn bằng Optical Circuit Switch (OCS)mạng 3D torus
    • Hiệu quả điện năng cao nhưng độ linh hoạt thấp hơn so với InfiniBand

So sánh hiệu năng TPU và GPU

  • TPUv7 (BF16 4.614 TFLOPS) so với TPUv5p (459 TFLOPS) cho thấy hiệu năng tăng khoảng 10 lần
  • Tóm tắt phỏng vấn trong ngành
    • TPU vượt trội về hiệu quả điện năng theo hiệu nănghiệu quả chi phí
    • Trong một số ứng dụng nhất định, TPU đạt hiệu năng/đô la cao hơn 1,4 lần
    • TPUv6 có lợi thế hiệu quả 60~65% so với GPU, trong khi thế hệ trước là 40~45%
    • TPU tỏa nhiệt ít hơn, tiêu thụ điện ít hơngây gánh nặng môi trường thấp hơn
  • Một số khách hàng có thể giảm chi phí xuống còn 1/5 khi dùng TPU Pod
  • Do cấu trúc ASIC, TPU có thể giảm 30% kích thước và giảm 50% điện năng tiêu thụ
  • Theo tài liệu nội bộ của Google, TPUv7 có hiệu năng trên mỗi watt cao gấp 2 lần TPUv6e
  • CEO Nvidia Jensen Huang cũng gọi TPU là một “trường hợp đặc biệt” và dành sự chú ý cho nó

Những vấn đề cản trở việc triển khai TPU

  • Rào cản đầu tiên là hệ sinh thái (sự độc quyền của CUDA)
    • Cả đại học lẫn ngành công nghiệp đều đào tạo và phát triển xoay quanh CUDA
    • TPU tập trung vào JAX và TensorFlow, còn hỗ trợ PyTorch chỉ mới được tăng cường tương đối muộn
  • Sự lan rộng của chiến lược đa đám mây cũng là một giới hạn
    • Phần lớn doanh nghiệp phân tán dữ liệu trên AWS/Azure/GCP, nên chi phí di chuyển dữ liệu (egress) lớn khiến workload dựa trên GPU linh hoạt hơn
    • TPU là độc quyền trên GCP, còn Nvidia có mặt trên cả ba nền tảng đám mây lớn
  • Nếu đã chọn TPU mà giá thay đổi hoặc môi trường thay đổi, chi phí viết lại sẽ rất lớn
  • Gần đây Google mới bắt đầu mở rộng tổ chức để bán ra bên ngoài và thúc đẩy phổ biến TPU; một số cựu và đương nhiệm nhân sự cũng nhắc đến khả năng cung cấp ra ngoài trong tương lai thông qua neocloud

Giá trị chiến lược của TPU và Google Cloud

  • Trong kỷ nguyên AI, ngành đám mây đang chuyển từ cấu trúc biên lợi nhuận cao (50~70%) sang biên lợi nhuận thấp (20~35%)
    • Nguyên nhân là áp lực chi phí từ biên lợi nhuận 75% của Nvidia
  • Chỉ những doanh nghiệp sở hữu ASIC riêng (đặc biệt là TPU) mới có thể quay lại biên lợi nhuận đám mây truyền thống (khoảng 50%)
  • Những yếu tố tạo lợi thế cho Google
    • TPU là ASIC cho đám mây trưởng thành nhất
    • Google tự thực hiện phần lớn frontend trong thiết kế chip, bao gồm RTL
    • Broadcom chỉ phụ trách thiết kế vật lý (backend), với cấu trúc biên lợi nhuận thấp hơn Nvidia nên tăng thêm năng lực cạnh tranh về chi phí cho TPU
    • Google sở hữu toàn bộ stack tối ưu hóa phần mềm, cho phép tối đa hóa hiệu năng phần cứng
  • Trên nền TPU, các mô hình chủ lực như Gemini 3 được huấn luyện và suy luận
    • Việc sử dụng TPU cũng đang được mở rộng trên toàn bộ các dịch vụ AI nội bộ
  • SemiAnalysis đánh giá rằng “TPU thế hệ 7 của Google đạt đẳng cấp tương đương Nvidia Blackwell”
  • TPU được xem là lợi thế cạnh tranh dài hạn của GCP và là động lực cốt lõi để mở rộng thị phần trên thị trường hạ tầng AI

1 bình luận

 
GN⁺ 2025-11-28
Ý kiến trên Hacker News
  • Vũ khí thực sự của Google không phải bản thân silicon TPU, mà là khả năng mở rộng song song quy mô lớn thông qua liên kết OCS (Optical Circuit Switch)
    Theo trích dẫn từ The Next Platform, có thể kết nối 9.216 TPU Ironwood để tận dụng 1,77PB bộ nhớ HBM. Đây là quy mô áp đảo so với hệ thống rack-scale dùng GPU Blackwell của Nvidia (20,7TB HBM)
    Nvidia vượt trội ở cấp độ chip đơn lẻ, nhưng trong huấn luyện hoặc suy luận phân tán quy mô lớn thì không có gì sánh được với khả năng mở rộng bằng chuyển mạch quang của Google

    • Google sở hữu toàn bộ stack tích hợp theo chiều dọc. Nhờ vậy, họ có thể cung cấp dịch vụ AI ở quy mô đám mây với chi phí thấp hơn nhiều mà vẫn sinh lời
      Phần lớn doanh nghiệp không cần tự mua phần cứng hay tự huấn luyện mô hình, mà chỉ cần dùng các dịch vụ kiểu như app store AI do Google cung cấp
    • Thực ra hai hệ thống có cấu trúc mạng hoàn toàn khác nhau. NVLink của Nvidia là fabric chuyển mạch all-to-all, còn TPU là cấu trúc 3D torus
      Ví dụ, mô hình Mixture of Experts có rất nhiều giao tiếp all-to-all nên phía NVLink hiệu quả hơn hẳn
    • Nvidia vẫn đăng tweet khẳng định công nghệ của họ tốt hơn
      Liên kết tweet chính thức của Nvidia
    • Nếu tuyên bố của Google là đúng thì họ phải áp đảo trong benchmark MLPerf, nhưng thực tế không phải vậy
      Song song hóa mô hình có lợi với mạng nhỏ và nhanh, còn song song hóa dữ liệu có lợi với mạng lớn. Chính sự cân bằng này đang giúp Nvidia chiến thắng
    • Để đạt cùng mức dung lượng bộ nhớ, Google cần số chip nhiều hơn 100 lần
  • Gemini 3 Pro đã gần như thuộc thế hệ cũ. Google có nhiều tài nguyên hơn Anthropic rất nhiều, nhưng nếu phần cứng là vũ khí bí mật thì họ đáng lẽ đã thống trị thị trường từ lâu
    Nhưng thực tế lại khác

    1. Việc khai thác phần cứng hiệu quả là rất khó, và đến lúc tối ưu xong thì đã chuyển sang mô hình tiếp theo
    2. Đa số công ty có thể giải quyết bằng tiền. H100 vẫn chạy đủ tốt
    3. Chỉ riêng các kỹ thuật nghiên cứu mới cũng có thể cải thiện mạnh hiệu năng mô hình
    4. Phát triển mô hình vẫn cần rất nhiều lao động thủ công như tinh lọc bộ dữ liệu và công việc đánh giá
    5. Phần cứng tùy biến tạo ra các vấn đề tùy biến. Không thể lên Stack Overflow tìm câu trả lời cho sự cố của cụm TPU
  • Có ý kiến cho rằng CUDA quan trọng với huấn luyện, nhưng ít quan trọng hơn ở giai đoạn suy luận

    • Chip NVIDIA đa dụng hơn. Trong lúc huấn luyện cần nhiều chức năng như phép toán đặc biệt kiểu sin, cos, lưu tính toán trung gian, xử lý gradient...
      Nhưng suy luận là quá trình đơn giản, chỉ lặp lại việc áp dụng các trọng số cố định, nên TPU có thể hiệu quả hơn
    • Thị trường chip huấn luyện có thể là bong bóng, nhưng thị trường suy luận còn lớn hơn nhiều. Một ngày nào đó khi chất lượng mô hình đã đủ tốt, nhu cầu huấn luyện sẽ giảm và hệ thống suy luận tiết kiệm điện sẽ trở thành xu hướng chính
    • CUDA quan trọng vì sự phụ thuộc vào hệ sinh thái. Phần lớn phần mềm huấn luyện hiện nay đều được xây dựng trên CUDA
    • Huấn luyện là quá trình chia nhỏ một bài toán khổng lồ và quản lý các phụ thuộc dữ liệu, còn suy luận là tập hợp của nhiều bài toán nhỏ độc lập
    • CUDA có trải nghiệm lập trình viên tốt hơn nhiều. Khi năng suất nghiên cứu là yếu tố quan trọng, điều này mang tính quyết định
  • Không có lý do gì để Nvidia không thể làm chip chuyên biệt như TPU

    • Cuối cùng Nvidia cũng sẽ làm vậy. Nhưng Google là vừa nhà thiết kế chip vừa công ty AI, nên họ giữ được toàn bộ lợi ích
      Nvidia thuê TSMC sản xuất rồi bán với giá cao, còn Google dùng nội bộ nên tiết kiệm được biên lợi nhuận
    • DeepMind làm việc trực tiếp với nhóm TPU để thiết kế chip tùy biến theo dự án. OpenAI cũng đã công bố phát triển chip riêng vì lý do tương tự, nhưng đây là việc đòi hỏi vốn cực lớn
    • TPU rẻ hơn GPU của NVidia và được tích hợp dọc cho nội bộ Google
    • Rủi ro của Nvidia không phải khủng hoảng mang tính sống còn mà là biên lợi nhuận suy giảm. Dù số chip bán ra tăng 100 lần, nếu biên lợi nhuận rơi xuống 5% thì vốn hóa thị trường vẫn sẽ giảm
    • Thực tế Nvidia đã tiến hóa theo cùng hướng này với Tensor Core
  • bài Reuters nói rằng Meta đang đàm phán đầu tư hàng tỷ USD vào chip của Google

  • ASIC cho LLM phức tạp hơn rất nhiều so với ASIC cho tiền mã hóa. Tiền mã hóa chỉ cần xử lý một thuật toán băm cố định, còn LLM thì liên tục tiến hóa
    Nên vẫn hơi khó hiểu TPU có ý nghĩa gì trong bối cảnh này

    • Với LLM, băng thông bộ nhớ và interconnect là yếu tố quan trọng. Trong khi đó tiền mã hóa là bài toán thiên 100% về tính toán
    • Phần lớn LLM xoay quanh phép nhân ma trận, nên TPU tăng tốc tốt cho việc này. PyTorch cũng hỗ trợ TPU
    • ASIC vẫn có thể lập trình được. TPU phải chạy nhiều mô hình khác nhau nên không giống chip hard-code cố định
    • Kiến trúc LLM có thay đổi, nhưng các thành phần chung như phép toán ma trận và kiểu dấu chấm động vẫn giống nhau. Vì vậy TPU về thực chất là ASIC cho LLM
    • Tiền mã hóa cũng thay đổi. Ví dụ Monero dùng cấu trúc ở mức CPU để ngăn ASIC
  • Giá như có nhiều lựa chọn TPU độc lập cho cá nhân hơn. Hiện tại Coral từ năm 2019 gần như là lựa chọn duy nhất

  • Cuộc tranh luận này mang tính học thuật kiểu như RISC vs CISC. GPU Nvidia rốt cuộc cũng đang được thiết kế để làm cùng công việc với TPU
    Ngay cả trong nội bộ Google, 5 năm nữa có thể khác biệt lớn cũng không còn
    Google hưởng lợi từ TPU, nhưng với lập trình viên bên ngoài thì không có lợi ích trực tiếp

    • Việc Google không bán TPU là đúng, nhưng các công ty khác cũng đang phát triển chip riêng
      Maia của Microsoft, chip trung tâm dữ liệu của AMD/NVIDIA, cùng các thương vụ mua lại công ty chuyên về mạng đều đang đi theo cùng một hướng
      Google đang đi trước, nhưng rốt cuộc đây sẽ là cuộc cạnh tranh hội tụ
  • Mô hình thưa (sparse model) có thể giảm 16 lần lượng tính toán và dung lượng lưu trữ mà vẫn giữ được chất lượng tương đương
    TPU yếu trong xử lý ma trận thưa, nhưng mạnh trong huấn luyện mô hình dense

  • Cuối cùng vẫn còn câu hỏi: vạch đích của cuộc cạnh tranh này nằm ở đâu, hay mức đáy nằm ở đâu?