Tổng quan về dự án Dojo của Tesla
(perspectives.mvdirona.com)<p>Bài viết của James Hamilton, VP tại AWS<br />
- Hệ thống machine learning Dojo thú vị ở 3 khía cạnh <br />
1. Mạng quy mô lớn <br />
→ Mỗi chip D1 cung cấp kết nối mạng 16.000Gbps (4 kênh 4Tbps), và được kết hợp thành MCM 25 chip (Multi-Chip Modules) để cung cấp băng thông 36.000Gbps (4x 9Tb)<br />
2. Tỷ lệ bộ nhớ trên tính toán cực nhỏ <br />
→ Mỗi chip D1 có 354 functional unit, mỗi unit chỉ có 1,25 megabyte SRAM và không có DRAM, nên một chip D1 còn chưa có tới nửa 1GB bộ nhớ (442,5Mb)<br />
→ Đặt một pool DRAM lớn ở cuối cụm rack 5 đơn vị, còn bản thân rack tính toán thì không có DRAM<br />
→ Nếu nghĩ về việc làm sao nó có thể hoạt động với lượng bộ nhớ ít như vậy, thì có lẽ đây là sự kết hợp giữa băng thông mạng khổng lồ và một hệ thống được thiết kế để chạy các mô hình thị giác dùng ít bộ nhớ hơn nhiều so với các tác vụ huấn luyện ML thông thường khác<br />
3. Mật độ điện năng cực cao <br />
→ Mỗi chip D1 chỉ tiêu thụ 400W, đây là mức đúng như kỳ vọng tiên tiến hiện nay cho kích thước này, nhưng họ đã kết hợp nó vào MCM 25 chip khá dày đặc để chỉ tiêu thụ 15kW (10kW cho D1 và 5kW cho bộ điều chỉnh điện áp)<br />
→ Như vậy một hệ thống huấn luyện Dojo 10 rack được lấp đầy hoàn toàn sẽ là 1,8 megawatt <br />
→ Xét về quy mô, một trung tâm dữ liệu cỡ trung thường sẽ vận hành trong khoảng 30~40 megawatt<br />
<br />
- Dù là chi tiết nhỏ, việc đặt VRD (Voltage Regulator Down) trực tiếp lên tile có vẻ là một nỗ lực tốt để cấp nguồn 52V cao bất thường. Ngay cả khi tính đến mức tiêu thụ 15kW, ở 52V vẫn tiêu thụ 288A<br />
- 354 functional unit được tích hợp vào một chip D1 645mm^2. 25 chip D1 tạo thành một mô-đun đa chip gọi là training tile, 12 training tile tạo thành một rack, và 10 rack lấp đầy Exapod.<br />
- "Một hệ thống khá đột phá"</p>
1 bình luận