Mở rộng năng lực AI của Tesla - H100, Dojo D1, D2, HW 4.0, X.AI và các nhà cung cấp dịch vụ đám mây

xguru · 2023-07-04T10:47:01+09:00

Tesla đang muốn trở thành một trong những công ty AI hàng đầu thế giới Tất nhiên, hãng vẫn chưa đưa ra được công nghệ tự lái tốt nhất, và trong thế giới AI tạo sinh, Tesla cũng chưa thực sự hiện diện nổi bật.. Hiện tại Tesla đang sở hữu một hạ tầng AI nội bộ tương đối nhỏ, ở quy mô 4.000 V100 và 16.000 A100 Trong khi Microsoft hay Meta đang sở hữu hơn 100.000 GPU và còn đang muốn tăng gấp đôi con số này Hạ tầng AI yếu của Tesla một phần là do sự chậm trễ của chip huấn luyện D1 nội bộ Nhưng giờ đây tình hình đang thay đổi rất nhanh Tesla đang tăng năng lực AI hơn 10 lần chỉ trong 1,5 năm Một phần là cho các chức năng nội bộ, nhưng một phần là dành cho X.AI Tesla đã tự thiết kế chip AI từ năm 2016 cho ô tô, và từ năm 2018 cho trung tâm dữ liệu Cho đến nay hãng chưa thể sản xuất được, nhưng đến năm 2023 đang tăng cường sản xuất Kiến trúc này phù hợp với các trường hợp sử dụng đặc thù của Tesla, nhưng không hữu ích cho LLM (tập trung vào mạng xử lý hình ảnh) Tesla HW 4.0, chip FSD thế hệ 2 Chip thực hiện suy luận AI bên trong xe Tesla được gọi là chip FSD Tesla tin rằng để đạt được tự lái hoàn toàn thì không cần hiệu năng quá lớn trên xe, nên sức mạnh của chip gắn trên xe bị giới hạn khá nhiều Ngoài ra, vì Tesla bán xe với số lượng lớn nên hãng chịu ràng buộc chi phí nghiêm ngặt hơn rất nhiều so với Waymo/Cruise Waymo/Cruise trong giai đoạn phát triển và thử nghiệm ban đầu đã dùng GPU kích thước đầy đủ đắt hơn hơn 10 lần, và cũng đang tạo ra SoC nhanh hơn, đắt hơn Các chip thế hệ 2 đang được áp dụng cho các xe bán ra từ tháng 2/2023 Thế hệ 1 dùng tiến trình 14nm của Samsung, gồm 12 Arm Cortex-A72 (2.2Ghz) cấu thành từ 3 cụm quad-core Thế hệ 2 gồm 20 Arm Cortex-A72 cấu thành từ 5 cụm quad-core Phần quan trọng nhất của thế hệ 2 là ba lõi NPU 3 lõi này mỗi lõi dùng 32MiB SRAM để lưu trọng số mô hình và activation Ở mỗi chu kỳ, 256 byte dữ liệu activation và 128 byte dữ liệu trọng số được đọc từ SRAM vào MAC (Multiply Accumulate Unit) MAC được thiết kế theo dạng lưới, mỗi lõi NPU có lưới 96x96 với tổng cộng 9.216 MAC, có thể thực hiện 18.432 phép toán mỗi chu kỳ xung Với NPU chạy ở 2.2Ghz, năng lực tính toán đạt 121.641 TOPS (trillion operations per second) Chip FSD thế hệ 2 được trang bị 256GB bộ nhớ NVMe và 16GB Micron DDR6 (14Gbps) trên bus nhớ 128bit với băng thông 224GB/s Băng thông tăng 3,3x so với thế hệ 1 HW 4.0 có 2 chip FSD Mức tăng hiệu năng của bo mạch HW4 cũng làm mức tiêu thụ điện tăng lên (gấp đôi HW3) Dù HW4 mạnh hơn, Tesla vẫn muốn hỗ trợ FSD trên HW3, để những người dùng HW3 hiện có đã mua FSD không cần phải retrofit (nâng cấp phần cứng) Hệ thống infotainment dùng AMD GPU/APU. Nó nằm trên cùng bo mạch với chip FSD (trước đây nằm trên một daughterboard riêng) Nền tảng HW4 hỗ trợ 12 camera. 1 cái dùng để dự phòng và 11 cái được sử dụng thực tế Trước đây cụm camera phía trước dùng 3 camera độ phân giải thấp 1,2 megapixel, còn nền tảng mới dùng 2 camera 5 megapixel Hiện tại Tesla không dùng cảm biến nào ngoài LIDAR và camera Trước đây hãng có dùng radar nhưng đã loại bỏ từ giữa vòng đời thế hệ Nhờ đó chi phí sản xuất xe giảm đáng kể, và hãng tin rằng xe tự lái thuần camera là khả thi nên đang tối ưu theo hướng này Dĩ nhiên, hãng cũng từng nói rằng nếu có radar thực sự khả dụng thì sẽ tích hợp với hệ thống camera Nền tảng HW4 dự kiến sẽ được trang bị radar tự thiết kế có tên Phoenix Mục tiêu của Phoenix là kết hợp hệ thống radar và hệ thống camera để tận dụng nhiều dữ liệu hơn, từ đó tạo ra chiếc xe an toàn hơn Radar Phoenix sử dụng phổ tần 76-77Ghz Đây là hệ thống radar ô tô không xung, hỗ trợ ba chế độ phát hiện Sự khác biệt hóa trong mô hình AI của Tesla Tesla đặt mục tiêu xây dựng các mô hình AI nền tảng để vận hành robot và ô tô tự động Cả hai đều cần nhận thức môi trường xung quanh và điều hướng xung quanh, nên có thể áp dụng cùng một loại mô hình AI cho cả hai Suy luận của mô hình này đòi hỏi điện năng thấp/độ trễ ngắn, nên các ràng buộc phần cứng khiến kích thước tối đa của mô hình mà Tesla có thể vận hành bị giới hạn đáng kể Trong số tất cả các công ty, Tesla đang sở hữu bộ dữ liệu lớn nhất có thể dùng cho deep learning Mỗi chiếc xe trên đường thu thập dữ liệu bằng cảm biến và hình ảnh, và khi nhân với số lượng xe điện Tesla đang lưu thông thì sẽ tạo thành một bộ dữ liệu khổng lồ Tesla gọi cách thu thập dữ liệu này là "Fleet Scale Auto Labeling" Mỗi xe điện Tesla lấy các đoạn log clip dày đặc dữ liệu cảm biến dài 45~60 giây gồm video, dữ liệu IMU (thiết bị đo quán tính) nội bộ, GPS, quãng đường di chuyển... rồi gửi về các máy chủ huấn luyện của Tesla Tesla chỉ sử dụng một phần cực nhỏ trong lượng dữ liệu mà hãng thu thập Tesla nổi tiếng với việc huấn luyện mô hình quá mức để đạt độ chính xác cao nhất có thể trong phạm vi kích thước mô hình cho phép do các giới hạn của suy luận

(semianalysis.com)

9 điểm bởi xguru 2023-07-04 | 3 bình luận | Chia sẻ qua WhatsApp

Tesla đang muốn trở thành một trong những công ty AI hàng đầu thế giới
Tất nhiên, hãng vẫn chưa đưa ra được công nghệ tự lái tốt nhất, và trong thế giới AI tạo sinh, Tesla cũng chưa thực sự hiện diện nổi bật..
Hiện tại Tesla đang sở hữu một hạ tầng AI nội bộ tương đối nhỏ, ở quy mô 4.000 V100 và 16.000 A100
- Trong khi Microsoft hay Meta đang sở hữu hơn 100.000 GPU và còn đang muốn tăng gấp đôi con số này
Hạ tầng AI yếu của Tesla một phần là do sự chậm trễ của chip huấn luyện D1 nội bộ
Nhưng giờ đây tình hình đang thay đổi rất nhanh
Tesla đang tăng năng lực AI hơn 10 lần chỉ trong 1,5 năm
Một phần là cho các chức năng nội bộ, nhưng một phần là dành cho X.AI
Tesla đã tự thiết kế chip AI từ năm 2016 cho ô tô, và từ năm 2018 cho trung tâm dữ liệu
Cho đến nay hãng chưa thể sản xuất được, nhưng đến năm 2023 đang tăng cường sản xuất
Kiến trúc này phù hợp với các trường hợp sử dụng đặc thù của Tesla, nhưng không hữu ích cho LLM (tập trung vào mạng xử lý hình ảnh)

Tesla HW 4.0, chip FSD thế hệ 2

Chip thực hiện suy luận AI bên trong xe Tesla được gọi là chip FSD
Tesla tin rằng để đạt được tự lái hoàn toàn thì không cần hiệu năng quá lớn trên xe, nên sức mạnh của chip gắn trên xe bị giới hạn khá nhiều
Ngoài ra, vì Tesla bán xe với số lượng lớn nên hãng chịu ràng buộc chi phí nghiêm ngặt hơn rất nhiều so với Waymo/Cruise
Waymo/Cruise trong giai đoạn phát triển và thử nghiệm ban đầu đã dùng GPU kích thước đầy đủ đắt hơn hơn 10 lần, và cũng đang tạo ra SoC nhanh hơn, đắt hơn
Các chip thế hệ 2 đang được áp dụng cho các xe bán ra từ tháng 2/2023
Thế hệ 1 dùng tiến trình 14nm của Samsung, gồm 12 Arm Cortex-A72 (2.2Ghz) cấu thành từ 3 cụm quad-core
Thế hệ 2 gồm 20 Arm Cortex-A72 cấu thành từ 5 cụm quad-core
Phần quan trọng nhất của thế hệ 2 là ba lõi NPU
- 3 lõi này mỗi lõi dùng 32MiB SRAM để lưu trọng số mô hình và activation
- Ở mỗi chu kỳ, 256 byte dữ liệu activation và 128 byte dữ liệu trọng số được đọc từ SRAM vào MAC (Multiply Accumulate Unit)
- MAC được thiết kế theo dạng lưới, mỗi lõi NPU có lưới 96x96 với tổng cộng 9.216 MAC, có thể thực hiện 18.432 phép toán mỗi chu kỳ xung
- Với NPU chạy ở 2.2Ghz, năng lực tính toán đạt 121.641 TOPS (trillion operations per second)
Chip FSD thế hệ 2 được trang bị 256GB bộ nhớ NVMe và 16GB Micron DDR6 (14Gbps) trên bus nhớ 128bit với băng thông 224GB/s
- Băng thông tăng 3,3x so với thế hệ 1
HW 4.0 có 2 chip FSD
Mức tăng hiệu năng của bo mạch HW4 cũng làm mức tiêu thụ điện tăng lên (gấp đôi HW3)
Dù HW4 mạnh hơn, Tesla vẫn muốn hỗ trợ FSD trên HW3, để những người dùng HW3 hiện có đã mua FSD không cần phải retrofit (nâng cấp phần cứng)
Hệ thống infotainment dùng AMD GPU/APU. Nó nằm trên cùng bo mạch với chip FSD (trước đây nằm trên một daughterboard riêng)
Nền tảng HW4 hỗ trợ 12 camera. 1 cái dùng để dự phòng và 11 cái được sử dụng thực tế
- Trước đây cụm camera phía trước dùng 3 camera độ phân giải thấp 1,2 megapixel, còn nền tảng mới dùng 2 camera 5 megapixel
Hiện tại Tesla không dùng cảm biến nào ngoài LIDAR và camera
Trước đây hãng có dùng radar nhưng đã loại bỏ từ giữa vòng đời thế hệ
- Nhờ đó chi phí sản xuất xe giảm đáng kể, và hãng tin rằng xe tự lái thuần camera là khả thi nên đang tối ưu theo hướng này
- Dĩ nhiên, hãng cũng từng nói rằng nếu có radar thực sự khả dụng thì sẽ tích hợp với hệ thống camera
Nền tảng HW4 dự kiến sẽ được trang bị radar tự thiết kế có tên Phoenix
- Mục tiêu của Phoenix là kết hợp hệ thống radar và hệ thống camera để tận dụng nhiều dữ liệu hơn, từ đó tạo ra chiếc xe an toàn hơn
- Radar Phoenix sử dụng phổ tần 76-77Ghz
- Đây là hệ thống radar ô tô không xung, hỗ trợ ba chế độ phát hiện

Sự khác biệt hóa trong mô hình AI của Tesla

Tesla đặt mục tiêu xây dựng các mô hình AI nền tảng để vận hành robot và ô tô tự động
Cả hai đều cần nhận thức môi trường xung quanh và điều hướng xung quanh, nên có thể áp dụng cùng một loại mô hình AI cho cả hai
Suy luận của mô hình này đòi hỏi điện năng thấp/độ trễ ngắn, nên các ràng buộc phần cứng khiến kích thước tối đa của mô hình mà Tesla có thể vận hành bị giới hạn đáng kể
Trong số tất cả các công ty, Tesla đang sở hữu bộ dữ liệu lớn nhất có thể dùng cho deep learning
Mỗi chiếc xe trên đường thu thập dữ liệu bằng cảm biến và hình ảnh, và khi nhân với số lượng xe điện Tesla đang lưu thông thì sẽ tạo thành một bộ dữ liệu khổng lồ
Tesla gọi cách thu thập dữ liệu này là "Fleet Scale Auto Labeling"
Mỗi xe điện Tesla lấy các đoạn log clip dày đặc dữ liệu cảm biến dài 45~60 giây gồm video, dữ liệu IMU (thiết bị đo quán tính) nội bộ, GPS, quãng đường di chuyển... rồi gửi về các máy chủ huấn luyện của Tesla
Tesla chỉ sử dụng một phần cực nhỏ trong lượng dữ liệu mà hãng thu thập
- Tesla nổi tiếng với việc huấn luyện mô hình quá mức để đạt độ chính xác cao nhất có thể trong phạm vi kích thước mô hình cho phép do các giới hạn của suy luận

3 bình luận

wkwnqlw 2023-07-05

Tesla đã cung cấp phần mềm lái tự động ở dạng Beta từ khoảng 2 năm nay. Từ phiên bản tiếp theo, dịch vụ này dự kiến sẽ được cung cấp chính thức.
Phiên bản đầu tiên còn rất nhiều thiếu sót, nhưng ngày càng có nhiều người nói rằng phần mềm hiện đang được cung cấp đã vượt qua mức của một người bình thường. Hiện tại, phần mềm lái tự động (FSD) của Tesla có tỷ lệ tai nạn thấp hơn con người khoảng 3 lần.

bbongcol 2023-07-04

Có lỗi chính tả ở chỗ "có thể thực hiện 1832 phép toán mỗi chu kỳ xung nhịp". Trong bản gốc là 18.432 phép toán.

xguru 2023-07-04

Vì đây là bài viết trả phí nên không xem được phần sau, nhưng chỉ riêng phần đầu thôi cũng đã đủ thú vị để mình dịch lại thử.

Mở rộng năng lực AI của Tesla - H100, Dojo D1, D2, HW 4.0, X.AI và các nhà cung cấp dịch vụ đám mây

Tesla HW 4.0, chip FSD thế hệ 2

Sự khác biệt hóa trong mô hình AI của Tesla

Bài viết liên quan

3 bình luận