Tổng quan về dự án Dojo của Tesla

xguru · 2021-08-24T10:48:52+09:00

Bài viết của James Hamilton, VP tại AWS Hệ thống machine learning Dojo thú vị ở 3 khía cạnh Mạng quy mô lớn → Mỗi chip D1 cung cấp kết nối mạng 16.000Gbps (4 kênh 4Tbps), và được kết hợp thành MCM 25 chip (Multi-Chip Modules) để cung cấp băng thông 36.000Gbps (4x 9Tb) Tỷ lệ bộ nhớ trên tính toán cực nhỏ → Mỗi chip D1 có 354 functional unit, mỗi unit chỉ có 1,25 megabyte SRAM và không có DRAM, nên một chip D1 còn chưa có tới nửa 1GB bộ nhớ (442,5Mb) → Đặt một pool DRAM lớn ở cuối cụm rack 5 đơn vị, còn bản thân rack tính toán thì không có DRAM → Nếu nghĩ về việc làm sao nó có thể hoạt động với lượng bộ nhớ ít như vậy, thì có lẽ đây là sự kết hợp giữa băng thông mạng khổng lồ và một hệ thống được thiết kế để chạy các mô hình thị giác dùng ít bộ nhớ hơn nhiều so với các tác vụ huấn luyện ML thông thường khác Mật độ điện năng cực cao → Mỗi chip D1 chỉ tiêu thụ 400W, đây là mức đúng như kỳ vọng tiên tiến hiện nay cho kích thước này, nhưng họ đã kết hợp nó vào MCM 25 chip khá dày đặc để chỉ tiêu thụ 15kW (10kW cho D1 và 5kW cho bộ điều chỉnh điện áp) → Như vậy một hệ thống huấn luyện Dojo 10 rack được lấp đầy hoàn toàn sẽ là 1,8 megawatt → Xét về quy mô, một trung tâm dữ liệu cỡ trung thường sẽ vận hành trong khoảng 30~40 megawatt Dù là chi tiết nhỏ, việc đặt VRD (Voltage Regulator Down) trực tiếp lên tile có vẻ là một nỗ lực tốt để cấp nguồn 52V cao bất thường. Ngay cả khi tính đến mức tiêu thụ 15kW, ở 52V vẫn tiêu thụ 288A 354 functional unit được tích hợp vào một chip D1 645mm^2. 25 chip D1 tạo thành một mô-đun đa chip gọi là training tile, 12 training tile tạo thành một rack, và 10 rack lấp đầy Exapod. "Một hệ thống khá đột phá"

(perspectives.mvdirona.com)

11 điểm bởi xguru 2021-08-24 | 1 bình luận | Chia sẻ qua WhatsApp

Bài viết của James Hamilton, VP tại AWS

Hệ thống machine learning Dojo thú vị ở 3 khía cạnh

Mạng quy mô lớn

→ Mỗi chip D1 cung cấp kết nối mạng 16.000Gbps (4 kênh 4Tbps), và được kết hợp thành MCM 25 chip (Multi-Chip Modules) để cung cấp băng thông 36.000Gbps (4x 9Tb)

Tỷ lệ bộ nhớ trên tính toán cực nhỏ

→ Mỗi chip D1 có 354 functional unit, mỗi unit chỉ có 1,25 megabyte SRAM và không có DRAM, nên một chip D1 còn chưa có tới nửa 1GB bộ nhớ (442,5Mb)

→ Đặt một pool DRAM lớn ở cuối cụm rack 5 đơn vị, còn bản thân rack tính toán thì không có DRAM

→ Nếu nghĩ về việc làm sao nó có thể hoạt động với lượng bộ nhớ ít như vậy, thì có lẽ đây là sự kết hợp giữa băng thông mạng khổng lồ và một hệ thống được thiết kế để chạy các mô hình thị giác dùng ít bộ nhớ hơn nhiều so với các tác vụ huấn luyện ML thông thường khác

Mật độ điện năng cực cao

→ Mỗi chip D1 chỉ tiêu thụ 400W, đây là mức đúng như kỳ vọng tiên tiến hiện nay cho kích thước này, nhưng họ đã kết hợp nó vào MCM 25 chip khá dày đặc để chỉ tiêu thụ 15kW (10kW cho D1 và 5kW cho bộ điều chỉnh điện áp)

→ Như vậy một hệ thống huấn luyện Dojo 10 rack được lấp đầy hoàn toàn sẽ là 1,8 megawatt

→ Xét về quy mô, một trung tâm dữ liệu cỡ trung thường sẽ vận hành trong khoảng 30~40 megawatt

Dù là chi tiết nhỏ, việc đặt VRD (Voltage Regulator Down) trực tiếp lên tile có vẻ là một nỗ lực tốt để cấp nguồn 52V cao bất thường. Ngay cả khi tính đến mức tiêu thụ 15kW, ở 52V vẫn tiêu thụ 288A
354 functional unit được tích hợp vào một chip D1 645mm^2. 25 chip D1 tạo thành một mô-đun đa chip gọi là training tile, 12 training tile tạo thành một rack, và 10 rack lấp đầy Exapod.
"Một hệ thống khá đột phá"

1 bình luận

xguru 2021-08-24

Các bài viết về Tesla AI Day để đọc cùng

Cảm nhận về Tesla AI Day https://vi.news.hada.io/topic?id=4859
Tóm tắt nội dung Tesla AI Day.gif https://gall.dcinside.com/mgallery/board/…
Tesla AI Day bản đầy đủ có phụ đề tiếng Hàn phần 1 https://www.youtube.com/watch?v=Ah-TMrKSvic

Tổng quan về dự án Dojo của Tesla

Bài viết liên quan

1 bình luận