10 điểm bởi GN⁺ 2024-03-11 | 2 bình luận | Chia sẻ qua WhatsApp
  • Tenstorrent là công ty do Jim Keller, nhà thiết kế chip nổi tiếng từng thiết kế kiến trúc Zen của AMD và chip tự lái của Tesla, dẫn dắt
  • Đã ra mắt Grayskull, một lựa chọn thay thế GPU dựa trên RISC-V, dễ lập trình và mở rộng, đồng thời vượt trội trong xử lý độ thưa và tính toán có điều kiện khi chạy
  • Giới thiệu hai phiên bản bộ kit phát triển là Grayskull e75 và Grayskull e150. Đây là phần cứng chuyên cho suy luận nhằm phục vụ phát triển AI, đi kèm phần mềm TT-Buda và TT-Metalium
  • Tenstorrent đã ký kết quan hệ đối tác với LSTC, trung tâm công nghệ bán dẫn hàng đầu của Nhật Bản.
  • Dự kiến xây dựng bộ tăng tốc AI 2nm tiên tiến bằng cách sử dụng RISC-V và chiplet IP của Tenstorrent

Sức mạnh của Grayskull!

  • Mẫu Grayskull e75 trang bị một bộ xử lý Grayskull trên bo mạch PCIe Gen 4 low-profile, nửa chiều dài, hoạt động ở mức 75W.
  • Mẫu Grayskull e150 trang bị bộ xử lý Grayskull trên bo mạch PCIe Gen 4 chiều cao tiêu chuẩn, dài 3/4, hoạt động tối đa 200W, mang lại sự cân bằng giữa điện năng và thông lượng.

Bộ xử lý Tenstorrent và DevKits

  • Bộ xử lý Tenstorrent được cấu thành từ một lưới lõi gọi là lõi Tensix, đồng thời có phần cứng giao tiếp mạng cho phép chúng liên lạc trực tiếp với nhau qua mạng mà không cần đi qua DRAM.
  • Grayskull DevKits hỗ trợ nhiều mô hình khác nhau như BERT cho xử lý ngôn ngữ tự nhiên, ResNet cho nhận dạng hình ảnh, Whisper cho nhận dạng giọng nói và dịch thuật, YOLOv5 cho phát hiện đối tượng thời gian thực, và U-Net cho phân đoạn hình ảnh.
  • Grayskull e75 và e150 DevKits có giá lần lượt là $599 và $799.

Ý kiến của GN⁺

  • Grayskull của Tenstorrent, với vai trò là lựa chọn thay thế GPU truyền thống dựa trên RISC-V, có thể tăng thêm sự đa dạng cho ngành bằng cách mang đến lựa chọn mới cho các nhà phát triển AI.
  • Việc Grayskull được tối ưu cho xử lý độ thưa và tính toán có điều kiện khi chạy mang lại tiềm năng cải thiện hiệu quả và hiệu năng của các mô hình AI.
  • Khi áp dụng công nghệ này, cần cân nhắc khả năng tương thích với môi trường phát triển hiện có, hỗ trợ từ hệ sinh thái, cũng như hiệu năng dài hạn và hiệu quả chi phí.
  • Những sản phẩm khác trong ngành cung cấp chức năng tương tự gồm GPU của NVIDIA và TPU của Google, nhưng Grayskull khác biệt ở chỗ dựa trên kiến trúc RISC-V.
  • Thành công của Grayskull có thể thúc đẩy sự tăng trưởng và đổi mới của hệ sinh thái phần cứng mã nguồn mở, qua đó góp phần vào việc dân chủ hóa công nghệ và nâng cao khả năng tiếp cận.

2 bình luận

 
ryudaewan 2024-03-12

Có vẻ Jim Keller là fan của He-Man nhỉ. https://youtu.be/V8h8snfYidg?feature=shared

 
GN⁺ 2024-03-11
Ý kiến trên Hacker News
  • Tóm tắt về bộ kit phát triển Grayskull:

    • Grayskull e75: mức tiêu thụ điện 75W, 96 lõi Tensix, xung nhịp 1GHz, SRAM 96MB, bộ nhớ LPDDR4 8GB (102.4 GB/s), giá $599
    • Grayskull e150: mức tiêu thụ điện 200W, 120 lõi Tensix, xung nhịp 1.2GHz, SRAM 120MB, bộ nhớ LPDDR4 8GB (118.4 GB/s), giá $799
    • Mọi người quan tâm hiệu năng suy luận của các sản phẩm này sẽ ra sao khi so với card đồ họa, và liệu chúng có phù hợp cho home lab hay không.
    • Có một bài phỏng vấn mở hộp phiên bản preview của sản phẩm, nhưng không cung cấp số liệu hiệu năng.
  • Ý kiến về kiến trúc:

    • Sản phẩm thu hút sự chú ý nhờ sự tham gia của Jim Keller, nhưng với những người không có kiến thức về thiết kế CPU/ASIC thì kiến trúc này trông hơi “kỳ lạ”.
    • Các lưới lõi, bộ nhớ và giao diện bị trộn lẫn với nhau, và có yêu cầu giải thích về topology được kết nối qua mạng.
  • Giải thích về cách kiến trúc hoạt động:

    • Một hệ thống cơ bản gồm các lõi Tensix và bộ nhớ dùng chung.
    • Mỗi lõi Tensix bao gồm một đơn vị toán tensor mật độ cao (FPU) thực hiện các phép toán tensor, một động cơ SIMD (SFPU), 5 lõi CPU Risc-V và kho lưu trữ bộ nhớ cục bộ dung lượng lớn.
    • Các lõi được nối với nhau thành hai vòng dạng donut chạy theo hai hướng ngược nhau.
    • Các lõi RISC-V được dùng để điều khiển FPU, SFPU và để chuẩn bị/di chuyển dữ liệu.
    • SFPU là một động cơ SIMT mang tính tổng quát hơn, có thể chạy từ các lõi RISC-V.
    • Có thể dùng thử trình mô phỏng SFPU trên GitHub, và mô hình lập trình có thể xem trong các ví dụ kernel mức thấp.
    • SFPU của Grayskull có 4 LReg đa dụng, mỗi thanh ghi lưu được 64 giá trị 19-bit, còn Wormhole có 8 LReg đa dụng, mỗi thanh ghi lưu được 32 giá trị 32-bit.
    • SFPU của Wormhole có IPC tăng khoảng 3 lần so với Grayskull và có thêm một số lệnh SFPU mới.
    • Có thể tìm thêm thông tin bằng cách xem tài liệu và các kho GitHub.
  • Thắc mắc về lựa chọn mô hình:

    • Đặt câu hỏi vì sao lại bắt đầu với các mô hình như BERT, ResNet, Whisper, YOLOv5, U-Net.
    • Có suy đoán rằng mục tiêu là hiệu quả điện năng, nhưng không hoàn toàn khớp.
  • Câu hỏi về yêu cầu hệ thống:

    • Đặt câu hỏi vì sao hệ thống host lại cần 64GB RAM.
    • Cho rằng máy chủ suy luận lẽ ra chỉ cần cấu hình tối thiểu ngoài phần cứng suy luận.
  • So sánh với silicon tùy biến của các công ty khác:

    • Thắc mắc cách so sánh loại bộ xử lý này với silicon tùy biến của AWS, Google và Tesla.
  • Điểm tương đồng của kiến trúc:

    • Cảm thấy nó giống với cách dự án GPU Larrabee của Intel từng cố gắng hoạt động, chỉ khác là dùng RISC-V.
  • Sự thất vọng với các giải pháp chỉ dành cho suy luận:

    • Bày tỏ sự mệt mỏi khi các startup đầy hứa hẹn như Groq, Tenstorrent lại đưa ra các giải pháp chỉ dành cho suy luận.
    • Biết được qua kênh chính thức của Groq rằng họ không có kế hoạch đầu tư để hỗ trợ huấn luyện.
    • Dù có thể hiểu được vì nhu cầu suy luận có thể lớn hơn nhu cầu huấn luyện hàng triệu lần, họ vẫn cảm thấy thất vọng.
  • Số lượng lõi RISC-V của Grayskull™ e150:

    • Grayskull™ e150 có 120 lõi Tensix, mỗi lõi chứa 5 lõi RISC-V, tổng cộng là 600 lõi CPU RISC-V.
  • Thiếu thông tin về hiệu năng và kiến trúc:

    • Không thể tìm thấy thông tin chi tiết về hiệu năng hay kiến trúc.
    • Băng thông bộ nhớ rất thấp và giá lại rất cao đối với một thiết bị tập trung vào ML.
    • Đặt câu hỏi không biết mình đang bỏ sót điều gì.