- Google đã công bố hai dòng TPU thế hệ thứ 8, tổng hợp hơn 10 năm lịch sử phát triển TPU, với kiến trúc chuyên biệt tương ứng cho TPU 8t dành riêng cho huấn luyện mô hình quy mô lớn và TPU 8i dành riêng cho suy luận tốc độ cao
- TPU 8t có thể mở rộng một superpod đơn lên tới 9.600 chip, 121 ExaFlops, với hiệu năng tính toán trên mỗi pod tăng khoảng 3 lần so với thế hệ trước
- TPU 8i được thiết kế lại cho suy luận kiểu agent với trọng tâm tối ưu băng thông bộ nhớ và độ trễ; mở rộng SRAM on-chip, host CPU Axion và cải tiến mạng hỗ trợ MoE để đạt cải thiện 80% hiệu năng trên chi phí
- Cả hai chip đều chạy trên host CPU Axion dựa trên ARM do Google tự thiết kế, với hiệu năng trên mỗi watt tăng tối đa 2 lần so với thế hệ trước
- Đây là chiến lược hạ tầng tách biệt và tối ưu riêng cho huấn luyện và suy luận phù hợp với thời đại AI agent liên tục suy luận, lập kế hoạch và thực thi; dự kiến sẽ được cung cấp rộng rãi vào nửa cuối năm nay và có thể dùng như một phần của Google AI Hypercomputer
Tổng quan về TPU thế hệ thứ 8
- Google công bố Tensor Processor Unit (TPU) thế hệ thứ 8 tại Google Cloud Next, gồm hai kiến trúc: TPU 8t cho huấn luyện và TPU 8i cho suy luận
- Được thiết kế để vận hành các siêu máy tính tùy biến, bao phủ toàn bộ các workload huấn luyện mô hình tiên tiến, phát triển agent và suy luận quy mô lớn
- Google đã vận hành các mô hình nền tảng chủ lực, bao gồm Gemini, trên TPU suốt nhiều năm; thế hệ thứ 8 mang lại đồng thời quy mô, hiệu quả và hiệu năng trên toàn bộ các workload huấn luyện, phục vụ và agentic
- Trong kỷ nguyên AI agent, mô hình phải thực hiện vòng lặp liên tục gồm suy luận vấn đề, chạy workflow nhiều bước và học từ chính hành động của mình, tạo ra các yêu cầu mới cho hạ tầng
- Được thiết kế cùng với Google DeepMind để xử lý những workload AI khắt khe nhất và thích ứng với các kiến trúc mô hình đang tiến hóa
Triết lý thiết kế hơn 10 năm
- TPU đã định hình tiêu chuẩn cho các thành phần siêu máy tính ML như tính toán số tùy biến, làm mát bằng chất lỏng và interconnect tùy biến; thế hệ thứ 8 là kết tinh của hơn 10 năm phát triển
- Nguyên tắc thiết kế cốt lõi: đồng thiết kế (co-design) silicon cùng với phần cứng, mạng và phần mềm (bao gồm kiến trúc mô hình và yêu cầu ứng dụng) để đạt cải thiện mạnh mẽ cả về hiệu quả điện năng lẫn hiệu năng tuyệt đối
- Google nêu ví dụ Citadel Securities chọn TPU cho workload AI của mình như một trường hợp từ tổ chức tiên phong
Vì sao tách biệt huấn luyện và suy luận
- Chu kỳ phát triển phần cứng dài hơn rất nhiều so với phần mềm, nên khi thiết kế mỗi thế hệ TPU cần dự đoán trước công nghệ và nhu cầu tại thời điểm ra mắt
- Google đã dự đoán từ nhiều năm trước rằng nhu cầu suy luận sẽ tăng theo việc triển khai production các mô hình AI frontier
- Khi AI agent nổi lên, yêu cầu của huấn luyện và phục vụ ngày càng khác nhau, nên Google cho rằng các chip chuyên biệt riêng sẽ có lợi hơn cho cộng đồng
- TPU 8t được tối ưu cho huấn luyện quy mô lớn với thông lượng tính toán cao hơn và băng thông scale-up lớn hơn
- TPU 8i được tối ưu cho workload suy luận nhạy cảm với độ trễ với băng thông bộ nhớ lớn hơn, vì các tương tác giữa agent sẽ khuếch đại ngay cả những kém hiệu quả nhỏ ở quy mô lớn
- Cả hai chip đều có thể chạy nhiều loại workload, nhưng việc chuyên biệt hóa mang lại cải thiện hiệu quả đáng kể
TPU 8t: cỗ máy chuyên huấn luyện
- Mục tiêu là rút ngắn chu kỳ phát triển mô hình frontier từ vài tháng xuống vài tuần
- Kết hợp cân bằng giữa thông lượng tính toán hàng đầu, bộ nhớ chia sẻ và băng thông liên chip với hiệu quả điện năng tối ưu và thời gian tính toán hữu ích cao
- Hiệu năng tính toán trên mỗi pod tăng khoảng 3 lần so với thế hệ trước
-
Mở rộng quy mô lớn (Massive Scale)
- Một TPU 8t superpod đơn có thể mở rộng tới 9.600 chip, 2 petabyte HBM chia sẻ
- Băng thông liên chip tăng 2 lần so với thế hệ trước
- Cung cấp 121 ExaFlops năng lực tính toán, cho phép những mô hình phức tạp nhất tận dụng một pool bộ nhớ lớn duy nhất
-
Tối đa hóa mức sử dụng (Maximum Utilization)
- Tích hợp truy cập lưu trữ nhanh hơn 10 lần
- TPUDirect lấy dữ liệu trực tiếp vào TPU để đảm bảo mức sử dụng tối đa cho toàn bộ hệ thống end-to-end
-
Mở rộng gần tuyến tính (Near-Linear Scaling)
- Kết hợp Virgo Network mới với phần mềm JAX và Pathways để mở rộng gần tuyến tính tới 1 triệu chip trong một cụm logic duy nhất
-
Độ tin cậy và tính sẵn sàng
- Mục tiêu goodput (thời gian tính toán hữu ích thực sự) trên 97%
- Bao gồm các tính năng RAS (Reliability, Availability, Serviceability) toàn diện
- Telemetry thời gian thực trên hàng chục nghìn chip
- Tự động phát hiện liên kết ICI lỗi và định tuyến vòng tránh mà không làm gián đoạn công việc
- OCS (Optical Circuit Switching) tái cấu hình phần cứng quanh vùng sự cố mà không cần can thiệp của con người
- Ở quy mô huấn luyện frontier, lỗi phần cứng, độ trễ mạng và khởi động lại checkpoint đều là thời gian không huấn luyện; chênh lệch 1 điểm phần trăm có thể tương đương nhiều ngày huấn luyện
TPU 8i: động cơ suy luận
- Trong kỷ nguyên agentic, người dùng kỳ vọng có thể đặt câu hỏi, giao việc và nhận kết quả; TPU 8i được tối ưu cho các tác vụ nơi nhiều agent chuyên biệt swarming và phối hợp trong các luồng phức tạp
- Google đã thiết kế lại stack để loại bỏ "hiệu ứng phòng chờ", với bốn đổi mới cốt lõi
-
Phá vỡ bức tường bộ nhớ (Breaking the Memory Wall)
- Trang bị 288GB HBM và 384MB SRAM on-chip (gấp 3 lần thế hệ trước)
- Giữ toàn bộ working set đang hoạt động của mô hình trên chip để tránh bộ xử lý bị nhàn rỗi
-
Hiệu quả dựa trên Axion
- Tăng gấp đôi số host CPU vật lý trên mỗi server và sử dụng CPU Axion dựa trên ARM do Google tự thiết kế
- Tối ưu hiệu năng toàn hệ thống thông qua cô lập NUMA (Non-Uniform Memory Architecture)
-
Mở rộng mô hình MoE
- Với các mô hình Mixture of Expert (MoE) mới nhất, băng thông ICI được tăng gấp đôi lên 19,2 Tb/s
- Kiến trúc Boardfly mới giúp giảm đường kính mạng tối đa hơn 50%, để hoạt động như một đơn vị gắn kết với độ trễ thấp
-
Loại bỏ độ trễ (Eliminating Lag)
- CAE (Collectives Acceleration Engine) on-chip mới offload các phép toán toàn cục, giảm độ trễ on-chip tới 5 lần
-
Hiệu năng trên chi phí
- Hiệu năng trên mỗi đô la tăng 80% so với thế hệ trước, cho phép phục vụ gần gấp đôi lưu lượng khách hàng với cùng chi phí
Đồng thiết kế với Gemini, mở cho mọi người
- TPU thế hệ thứ 8 là biểu hiện mới nhất của triết lý đồng thiết kế trong đó mọi thông số đều được xây dựng để giải quyết những thách thức lớn nhất của AI
- Topology Boardfly: được thiết kế theo nhu cầu truyền thông của các mô hình suy luận hàng đầu hiện nay
- Dung lượng SRAM của TPU 8i: được xác định để phù hợp với footprint KV cache của các mô hình suy luận quy mô production
- Mục tiêu băng thông của Virgo Network: được rút ra từ yêu cầu song song hóa khi huấn luyện mô hình nghìn tỷ tham số
- Cả hai chip đều lần đầu tiên chạy trên host CPU Axion dựa trên ARM do Google tự thiết kế, giúp tối ưu không chỉ chip mà cả toàn hệ thống
-
Framework và khả năng tiếp cận
- Hỗ trợ native JAX, MaxText, PyTorch, SGLang, vLLM
- Cung cấp truy cập bare metal, cho phép truy cập trực tiếp phần cứng mà không có overhead ảo hóa
- Đóng góp mã nguồn mở: triển khai tham chiếu MaxText, Tunix cho reinforcement learning và các tuyến đường cốt lõi từ phát triển đến triển khai production
Thiết kế hiệu quả điện năng ở quy mô lớn
- Trong các trung tâm dữ liệu hiện nay, không chỉ nguồn cung chip mà cả điện năng cũng là ràng buộc giới hạn
- Google tối ưu hiệu quả trên toàn bộ stack, đồng thời áp dụng quản lý điện năng tích hợp để điều chỉnh động mức tiêu thụ điện theo nhu cầu thời gian thực
- Cả TPU 8t và TPU 8i đều đạt hiệu năng trên mỗi watt tăng tối đa 2 lần so với thế hệ trước (Ironwood)
- Hiệu quả không chỉ là chỉ số ở cấp chip mà là cam kết ở cấp hệ thống từ silicon đến trung tâm dữ liệu
- Tích hợp kết nối mạng lên cùng chip với tính toán để giảm mạnh chi phí điện cho việc di chuyển dữ liệu trong TPU pod
- Trung tâm dữ liệu cũng được đồng thiết kế với TPU, giúp năng lực tính toán trên mỗi đơn vị điện năng tăng 6 lần so với 5 năm trước
- Cả hai chip đều được hỗ trợ bởi công nghệ làm mát bằng chất lỏng thế hệ thứ 4, duy trì mật độ hiệu năng mà làm mát bằng không khí không thể đạt được
- Việc sở hữu toàn bộ stack từ host Axion đến accelerator cho phép Google thực hiện tối ưu hiệu quả năng lượng ở cấp hệ thống mà không thể đạt được nếu thiết kế host và chip độc lập
Hạ tầng cho kỷ nguyên agentic
- Mọi bước chuyển lớn của điện toán đều cần đổi mới hạ tầng, và kỷ nguyên agentic cũng vậy
- Hạ tầng phải tiến hóa để đáp ứng yêu cầu của các agent tự trị vận hành vòng lặp liên tục gồm suy luận, lập kế hoạch, thực thi và học hỏi
- TPU 8t và TPU 8i là câu trả lời cho thách thức này: hai kiến trúc chuyên biệt nhằm tái định nghĩa việc xây dựng các mô hình AI tốt nhất, các bầy agent được điều phối hoàn hảo và việc quản lý những tác vụ suy luận phức tạp nhất
- Cả hai chip đều dự kiến cung cấp rộng rãi vào nửa cuối năm nay
- Có thể sử dụng như một phần của AI Hypercomputer của Google
- Kết hợp thành một stack tích hợp gồm phần cứng theo mục đích (tính toán, lưu trữ, mạng), phần mềm mở (framework, engine suy luận) và mô hình tiêu thụ linh hoạt (orchestration, quản lý cụm, mô hình cung cấp)
1 bình luận
Ý kiến trên Hacker News
Tôi cảm thấy Gemini 3 đã cho thấy huấn luyện tập trung vào hiệu quả có thể đi xa đến đâu. Tôi đoán Pro và Flash có lẽ nhỏ hơn các model cỡ Opus hay GPT-5 khoảng 5 đến 10 lần Gọi công cụ thường hay lỗi, và trong các tác vụ agentic thì nhìn chung khá yếu nên có vẻ phần tinh chỉnh suy luận và thực thi vẫn còn thiếu. Dù vậy, nếu chỉ nhìn vào khả năng giải quyết vấn đề thuần túy không cần công cụ hay tìm kiếm thì cảm giác là ngang ngửa Opus và GPT, trong khi kích thước có vẻ nhỏ hơn rất nhiều Có vẻ đến một lúc nào đó khi Google kết thúc giai đoạn tạo mẫu preview và tung ra một model chính thức tử tế, họ sẽ làm mọi người bất ngờ với một model vượt SOTA hiện tại khoảng một thế hệ. Các model từ trước đến nay cho tôi cảm giác như những nguyên mẫu bị đẩy vội ra GA để trình diễn với nhà đầu tư và đưa vào dòng sản phẩm như một bản chứng minh khái niệm
Giờ muốn làm AI quy mô lớn thì về cơ bản либо mua của NVidia, либо thuê từ Google. Và Google có thể thiết kế chip, engine và hệ thống theo góc nhìn toàn bộ datacenter, nên họ tối ưu được cả những phần mà nhà cung cấp chip không thể tập trung hóa Vì vậy tôi đoán khi quy mô thực sự đủ lớn thì hệ thống của Google sẽ luôn hiệu quả chi phí hơn. Nói thêm là vì những lý do này mà tôi đang giữ vị thế long với GOOG
Trong khi các công ty khác giành sự chú ý của chu kỳ tin tức, Google dường như đang âm thầm đi theo một quỹ đạo mạnh dần lên và tích lũy thị phần người dùng Có lẽ nhờ đã tích hợp theo chiều dọc AI ngay từ đầu nên họ cũng gần như không có vấn đề hạ tầng, và từng có lúc trông như một công ty đã hết thời nhưng giờ lại cho cảm giác đang phình to ra khắp nơi như thủy triều lên
Từ góc nhìn của người dùng cả Gemini, ChatGPT và Claude, thì Gemini liên tục dùng ít token hơn hẳn hai model còn lại Cuối cùng có vẻ việc Gemini dừng ở mức hiện tại là vì ngân sách thinking nhỏ hơn Google có lẽ là bên có nhiều compute nhất và cấu trúc chi phí thấp nhất, nên tôi thấy lạ là tại sao họ không đẩy mạnh compute suy luận như hai bên kia. Không rõ là do gánh nặng từ các dịch vụ khác hay là chiến lược tập trung vào huấn luyện, nhưng đây là điểm khá thú vị
Mô tả rằng một TPU 8t superpod có thể mở rộng tới 9.600 chip và 2PB bộ nhớ chia sẻ băng thông cao nghe khá ấn tượng Tôi không rành lĩnh vực này lắm, nhưng ít nhất trong mắt tôi nó trông như một lợi thế cạnh tranh khá lớn của Google
Việc TPU 8t và TPU 8i đạt hiệu năng trên mỗi watt cao hơn tối đa 2 lần so với thế hệ trước nghe khá ấn tượng Đặc biệt càng thú vị hơn khi thế hệ trước còn mới đến mức là sản phẩm năm 2025. Việc phần cứng cho huấn luyện và suy luận được tách riêng cũng rất đáng chú ý, và tôi tự hỏi các công ty dùng phần cứng NV có chia như vậy không hay là thiên về đa dụng hơn
Tôi đang dùng Gemini cùng Junie của JetBrains, và dù bản thân Junie không tốt bằng Claude Code thì nó vẫn vượt xa các công cụ hiện tại của Google theo cảm nhận của tôi Với tổ hợp này tôi vẫn đang có được kết quả ổn định khá tốt với chi phí tương đối rẻ
Trong số các nhà cung cấp suy luận lớn, tôi cảm thấy Google là một trong những bên có chính sách khai tử model khó chịu nhất Họ xóa model đúng 1 năm sau khi phát hành và ép chuyển sang thế hệ tiếp theo, trong khi cứ tưởng dùng silicon tự phát triển thì sẽ ổn định hơn, hóa ra lại ngược lại. Rate limiting cũng gắt hơn OpenAI rất nhiều, nên tôi không rõ là do TPU hay chỉ là một quyết định chính sách kỳ quặc
Nếu AI có người thắng cuộc cuối cùng, thì tôi chỉ hình dung hoặc là Google với toàn bộ stack trong tay, hoặc là Apple bên triển khai được nhiều edge site có khả năng AI nhất, sẽ là kẻ thắng
Ở link này có phần giải thích kiến trúc chi tiết hơn. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive