- Google đã công bố Ironwood, Tensor Processing Unit (TPU) thế hệ thứ 7
- Ironwood là TPU đầu tiên được thiết kế riêng cho suy luận AI, đồng thời là mẫu mạnh mẽ và tiết kiệm năng lượng nhất từ trước đến nay
- Được thiết kế để chạy các mô hình AI hiệu năng cao như mô hình ngôn ngữ lớn (LLM) và Mixture of Experts (MoE)
- Có thể mở rộng tối đa 9.216 chip và cung cấp 42,5 exaflops hiệu năng tính toán
- Con số này tương đương hiệu năng hơn 24 lần so với El Capitan, siêu máy tính nhanh nhất thế giới
Kỷ nguyên suy luận được hiện thực hóa với Ironwood
- Nếu AI trước đây chủ yếu phản hồi các yêu cầu của người dùng, thì Ironwood đặt nền tảng cho kỷ nguyên AI chủ động diễn giải dữ liệu và tạo ra insight
- Trong kỷ nguyên suy luận này, AI sẽ thu thập và phân tích dữ liệu thay cho người dùng để tạo ra các kết quả chuyên sâu hơn
- Để đáp ứng những yêu cầu AI mới như vậy, Ironwood được trang bị khả năng xử lý song song quy mô lớn và truy cập dữ liệu tốc độ cao
Cấu hình phần cứng và hiệu năng của Ironwood
- Khi triển khai dưới dạng TPU pod gồm 9.216 chip, hệ thống cung cấp hiệu năng 42,5 exaflops
- Mỗi chip đạt 4.614 TFLOPs, hỗ trợ huấn luyện và suy luận cho các mô hình LLM và MoE quy mô lớn
- Tính năng SparseCore được nâng cấp để tăng tốc xử lý embedding siêu lớn, có thể áp dụng trong nhiều lĩnh vực như tài chính, khoa học
- Phần mềm Pathways cho phép quản lý hiệu quả hàng chục nghìn chip Ironwood
Các đặc điểm công nghệ chính của Ironwood
- Tỷ lệ hiệu năng trên điện năng tiêu thụ được cải thiện gấp 2 lần so với thế hệ trước
- Hiệu quả điện năng cao hơn khoảng 30 lần so với Trillium
- Duy trì hiệu năng ổn định ngay cả trong các tác vụ tải nặng liên tục nhờ công nghệ làm mát bằng chất lỏng hiệu năng cao
- Dung lượng bộ nhớ băng thông cao (HBM) tăng mạnh
- 192GB mỗi chip, gấp 6 lần so với Trillium
- Có lợi cho việc xử lý mô hình lớn và tập dữ liệu lớn
- Băng thông bộ nhớ HBM được cải thiện
- 7,2 TBps mỗi chip, tăng 4,5 lần so với Trillium
- Băng thông Inter-Chip Interconnect (ICI) được nâng cấp
- 1,2 Tbps hai chiều, cải thiện 1,5 lần so với Trillium
- Giao tiếp nhanh giữa các chip giúp phù hợp với huấn luyện và suy luận phân tán quy mô lớn
Tác động và khả năng ứng dụng của Ironwood
- Ironwood là thành phần cốt lõi trong kiến trúc Google Cloud Hypercomputer, được tối ưu cho các nhu cầu AI tạo sinh thế hệ tiếp theo
- Những mô hình AI mới nhất như Gemini 2.5 và AlphaFold cũng đang chạy trên nền tảng TPU
- Khách hàng Google Cloud có thể dùng Ironwood để xử lý workload AI với hiệu năng cao, độ trễ thấp và hiệu quả năng lượng tốt hơn
- Dự kiến sẽ được cung cấp cho khách hàng trong năm 2025 và được kỳ vọng sẽ trở thành nền tảng thúc đẩy các đổi mới mới trong nghiên cứu AI cũng như ứng dụng thực tế
1 bình luận
Dạo này tôi cứ nghĩ tốc độ Time to first token của Gemini nhanh vượt trội là vì lý do này đây...