1 điểm bởi GN⁺ 2025-05-06 | 1 bình luận | Chia sẻ qua WhatsApp
  • MVDRAM là một hệ thống tăng tốc phép toán GeMV cho suy luận LLM low-bit bằng cách sử dụng DRAM không cần sửa đổi
  • Tận dụng DRAM như một động cơ GeMV để cung cấp thông lượng cao
  • Loại bỏ chi phí sắp xếp trước đầu vào và chi phí chuyển đổi bit đầu ra của các phương pháp PUD hiện có
  • Kết quả thực nghiệm cho thấy hiệu năng vượt trội hơn so với các triển khai dựa trên bộ xử lý trong LLM low-bit
  • Mở ra những khả năng mới cho phần cứng AI

MVDRAM: Tăng tốc LLM low-bit bằng DRAM không cần sửa đổi

  • Phép toán GeMV vẫn là nút thắt độ trễ quan trọng trong suy luận mô hình ngôn ngữ lớn (LLM)
  • Processing-Using-DRAM (PUD) có tiềm năng tái sử dụng DRAM như một động cơ GeMV
  • Tuy nhiên, khi áp dụng PUD vào pipeline suy luận LLM, nó phát sinh chi phí overhead đáng kể

Cách tiếp cận đổi mới của MVDRAM

  • MVDRAM phối hợp bộ xử lý và DRAM bằng cách tận dụng mẫu chia sẻ dữ liệutính tuyến tính toán học
  • Tăng tốc phép toán GeMV bằng cách loại bỏ các chi phí của phương pháp PUD hiện có

Kết quả thực nghiệm

  • Trong thí nghiệm sử dụng bốn mô-đun DRAM DDR4, MVDRAM cho thấy hiệu năng vượt trội hơn triển khai dựa trên bộ xử lý trong các LLM low-bit (4-bit trở xuống)
  • Đạt mức tăng tốc tối đa 7,29 lần và hiệu quả năng lượng cao hơn 30,5 lần

Cải thiện tổng thể cho suy luận LLM

  • Với các mô hình low-bit lượng tử hóa 2-bit và 4-bit, thông lượng được cải thiện lần lượt 2,18 lần và 1,31 lần
  • Hiệu quả năng lượng cũng tăng lần lượt 3,04 lần và 2,35 lần

Những khả năng mới cho phần cứng AI

  • MVDRAM chứng minh khả năng tận dụng DRAM tiêu chuẩn như bộ tăng tốc LLM
  • Có tiềm năng mở ra những chân trời mới cho phần cứng AI

1 bình luận

 
GN⁺ 2025-05-06
Ý kiến Hacker News
  • Có thông tin về một trong những đề xuất ban đầu cho tính toán trong DRAM

    • Có bản trình diễn đầu tiên sử dụng linh kiện thương mại
    • Đang được triển khai bằng công cụ có tên DRAM Bender
    • Có bài báo về những tiến triển gần đây trong xử lý trong DRAM
  • Có người lưu ý rằng danh sách tác giả của tài liệu tham khảo 1 và 3 rất dài

    • Đã kỳ vọng bài viết năm 2016 sẽ được đưa vào nhưng lại không có
    • Bài viết năm 2019 thì đã được đưa vào
    • Hành vi ngoài đặc tả của DRAM, đặc biệt là chức năng sao chép, có liên quan đến những lỗi khét tiếng
  • Có thể đạt được xử lý song song quy mô lớn bằng cách cố ý phát lệnh DRAM vi phạm các tham số thời gian do nhà sản xuất chỉ định

    • Đây là một thách thức đối với binary blob dùng cho huấn luyện DRAM
  • Ý tưởng này rất độc đáo và sáng tạo

    • Làm việc ở mức chi tiết có thể mang lại nhiều giá trị
  • Việc khai thác lỗi trong thế giới phần cứng có thể nguy hiểm

    • Trong thế giới phần mềm, việc khai thác lỗi của nền tảng để kích hoạt tính năng là điều không nên
    • Khi lỗi được sửa, hệ thống có thể hoạt động ngoài dự kiến
  • Đang thực hiện phép toán ma trận ngay trong DRAM

    • Đây là một ý tưởng rất thú vị và đáng kinh ngạc
  • Có đề cập đến phép nhân ma trận-vectơ tổng quát (GeMV)

    • Cũng có người thiếu hiểu biết toán học về chủ đề này
    • Quaternion từng trở nên phổ biến vì ít phức tạp tính toán hơn ma trận
    • Cũng có người thắc mắc liệu đã có trường hợp xây dựng LLM bằng quaternion hay chưa
  • Có ý kiến chỉ ra rằng việc không trích dẫn nguồn Intelligent RAM (IRAM) gốc từ năm 1997 là thiếu tính khoa học

  • Có người thắc mắc liệu phép nhân ma trận và các phép toán khác có thể chuyển từ CPU truyền thống sang DRAM hay không

    • Có câu hỏi liệu sự dịch chuyển xử lý này có mang lại lợi thế cho Samsung và các hãng tương tự hay không
    • Cũng có sự tò mò về việc điều này sẽ ảnh hưởng thế nào đến NVIDIA và các hãng khác
  • Đây có thể là một cách tuyệt vời để tạo ra thiết bị suy luận giá rẻ cho các LLM quy mô lớn