- MVDRAM là một hệ thống tăng tốc phép toán GeMV cho suy luận LLM low-bit bằng cách sử dụng DRAM không cần sửa đổi
- Tận dụng DRAM như một động cơ GeMV để cung cấp thông lượng cao
- Loại bỏ chi phí sắp xếp trước đầu vào và chi phí chuyển đổi bit đầu ra của các phương pháp PUD hiện có
- Kết quả thực nghiệm cho thấy hiệu năng vượt trội hơn so với các triển khai dựa trên bộ xử lý trong LLM low-bit
- Mở ra những khả năng mới cho phần cứng AI
MVDRAM: Tăng tốc LLM low-bit bằng DRAM không cần sửa đổi
- Phép toán GeMV vẫn là nút thắt độ trễ quan trọng trong suy luận mô hình ngôn ngữ lớn (LLM)
- Processing-Using-DRAM (PUD) có tiềm năng tái sử dụng DRAM như một động cơ GeMV
- Tuy nhiên, khi áp dụng PUD vào pipeline suy luận LLM, nó phát sinh chi phí overhead đáng kể
Cách tiếp cận đổi mới của MVDRAM
- MVDRAM phối hợp bộ xử lý và DRAM bằng cách tận dụng mẫu chia sẻ dữ liệu và tính tuyến tính toán học
- Tăng tốc phép toán GeMV bằng cách loại bỏ các chi phí của phương pháp PUD hiện có
Kết quả thực nghiệm
- Trong thí nghiệm sử dụng bốn mô-đun DRAM DDR4, MVDRAM cho thấy hiệu năng vượt trội hơn triển khai dựa trên bộ xử lý trong các LLM low-bit (4-bit trở xuống)
- Đạt mức tăng tốc tối đa 7,29 lần và hiệu quả năng lượng cao hơn 30,5 lần
Cải thiện tổng thể cho suy luận LLM
- Với các mô hình low-bit lượng tử hóa 2-bit và 4-bit, thông lượng được cải thiện lần lượt 2,18 lần và 1,31 lần
- Hiệu quả năng lượng cũng tăng lần lượt 3,04 lần và 2,35 lần
Những khả năng mới cho phần cứng AI
- MVDRAM chứng minh khả năng tận dụng DRAM tiêu chuẩn như bộ tăng tốc LLM
- Có tiềm năng mở ra những chân trời mới cho phần cứng AI
1 bình luận
Ý kiến Hacker News
Có thông tin về một trong những đề xuất ban đầu cho tính toán trong DRAM
Có người lưu ý rằng danh sách tác giả của tài liệu tham khảo 1 và 3 rất dài
Có thể đạt được xử lý song song quy mô lớn bằng cách cố ý phát lệnh DRAM vi phạm các tham số thời gian do nhà sản xuất chỉ định
Ý tưởng này rất độc đáo và sáng tạo
Việc khai thác lỗi trong thế giới phần cứng có thể nguy hiểm
Đang thực hiện phép toán ma trận ngay trong DRAM
Có đề cập đến phép nhân ma trận-vectơ tổng quát (GeMV)
Có ý kiến chỉ ra rằng việc không trích dẫn nguồn Intelligent RAM (IRAM) gốc từ năm 1997 là thiếu tính khoa học
Có người thắc mắc liệu phép nhân ma trận và các phép toán khác có thể chuyển từ CPU truyền thống sang DRAM hay không
Đây có thể là một cách tuyệt vời để tạo ra thiết bị suy luận giá rẻ cho các LLM quy mô lớn