Ironwood - TPU đầu tiên của Google cho kỷ nguyên suy luận

(blog.google)

6 điểm bởi GN⁺ 2025-04-10 | 1 bình luận | Chia sẻ qua WhatsApp

Google đã công bố Ironwood, Tensor Processing Unit (TPU) thế hệ thứ 7
Ironwood là TPU đầu tiên được thiết kế riêng cho suy luận AI, đồng thời là mẫu mạnh mẽ và tiết kiệm năng lượng nhất từ trước đến nay
Được thiết kế để chạy các mô hình AI hiệu năng cao như mô hình ngôn ngữ lớn (LLM) và Mixture of Experts (MoE)
Có thể mở rộng tối đa 9.216 chip và cung cấp 42,5 exaflops hiệu năng tính toán
Con số này tương đương hiệu năng hơn 24 lần so với El Capitan, siêu máy tính nhanh nhất thế giới

Nếu AI trước đây chủ yếu phản hồi các yêu cầu của người dùng, thì Ironwood đặt nền tảng cho kỷ nguyên AI chủ động diễn giải dữ liệu và tạo ra insight
Trong kỷ nguyên suy luận này, AI sẽ thu thập và phân tích dữ liệu thay cho người dùng để tạo ra các kết quả chuyên sâu hơn
Để đáp ứng những yêu cầu AI mới như vậy, Ironwood được trang bị khả năng xử lý song song quy mô lớn và truy cập dữ liệu tốc độ cao

Khi triển khai dưới dạng TPU pod gồm 9.216 chip, hệ thống cung cấp hiệu năng 42,5 exaflops
Mỗi chip đạt 4.614 TFLOPs, hỗ trợ huấn luyện và suy luận cho các mô hình LLM và MoE quy mô lớn
Tính năng SparseCore được nâng cấp để tăng tốc xử lý embedding siêu lớn, có thể áp dụng trong nhiều lĩnh vực như tài chính, khoa học
Phần mềm Pathways cho phép quản lý hiệu quả hàng chục nghìn chip Ironwood

Tỷ lệ hiệu năng trên điện năng tiêu thụ được cải thiện gấp 2 lần so với thế hệ trước
- Hiệu quả điện năng cao hơn khoảng 30 lần so với Trillium
- Duy trì hiệu năng ổn định ngay cả trong các tác vụ tải nặng liên tục nhờ công nghệ làm mát bằng chất lỏng hiệu năng cao
Dung lượng bộ nhớ băng thông cao (HBM) tăng mạnh
- 192GB mỗi chip, gấp 6 lần so với Trillium
- Có lợi cho việc xử lý mô hình lớn và tập dữ liệu lớn
Quảng cáo
Băng thông bộ nhớ HBM được cải thiện
- 7,2 TBps mỗi chip, tăng 4,5 lần so với Trillium
Băng thông Inter-Chip Interconnect (ICI) được nâng cấp
- 1,2 Tbps hai chiều, cải thiện 1,5 lần so với Trillium
- Giao tiếp nhanh giữa các chip giúp phù hợp với huấn luyện và suy luận phân tán quy mô lớn

Ironwood là thành phần cốt lõi trong kiến trúc Google Cloud Hypercomputer, được tối ưu cho các nhu cầu AI tạo sinh thế hệ tiếp theo
Những mô hình AI mới nhất như Gemini 2.5 và AlphaFold cũng đang chạy trên nền tảng TPU
Khách hàng Google Cloud có thể dùng Ironwood để xử lý workload AI với hiệu năng cao, độ trễ thấp và hiệu quả năng lượng tốt hơn
Dự kiến sẽ được cung cấp cho khách hàng trong năm 2025 và được kỳ vọng sẽ trở thành nền tảng thúc đẩy các đổi mới mới trong nghiên cứu AI cũng như ứng dụng thực tế

1 bình luận

iwanhae 2025-04-10

Dạo này tôi cứ nghĩ tốc độ Time to first token của Gemini nhanh vượt trội là vì lý do này đây...