Intel công bố thư viện tăng tốc NPU
(github.com/intel)Thư viện tăng tốc Intel® NPU: nâng cao hiệu năng AI với bộ xử lý thần kinh Intel
• Thư viện tăng tốc Intel NPU là một thư viện Python tận dụng sức mạnh của bộ xử lý mạng nơ-ron Intel (NPU) để nâng cao hiệu quả của các ứng dụng trí tuệ nhân tạo. Thư viện tối ưu hóa khối lượng công việc AI bằng cách điều phối hiệu quả việc tính toán và luồng dữ liệu để đạt hiệu năng và hiệu quả điện năng tối ưu, tối đa hóa mức độ sử dụng tài nguyên tính toán và giảm thiểu việc truyền dữ liệu.
• Thư viện được thiết kế cho bộ xử lý Intel Core Ultra, tích hợp NPU với các chức năng tăng tốc tính toán và truyền dữ liệu. Thư viện nổi bật với neural computing engine cho vận hành AI, streaming hybrid architecture vector engine cho các tác vụ tính toán thông thường, và DMA engine để truyền dữ liệu hiệu quả.
• Các tính năng chính trong quá trình phát triển bao gồm lượng tử hóa 8-bit và 4-bit, suy luận mixed precision gốc trên NPU, hỗ trợ Float16 và BFloat16, hỗ trợ tệp torch.com, triển khai hợp nhất ngang LLM MLP, suy luận hình dạng tĩnh, suy luận MHA trên NPU và tính toán dị thể NPU/GPU.
• Để sử dụng thư viện, hãy xác nhận hệ thống có NPU khả dụng và cài đặt gói qua pip. Thư viện tương thích với hệ thống Windows và Linux, nhưng hiện chưa hỗ trợ MacOS. Để có hiệu năng tốt nhất, hãy cập nhật driver NPU lên phiên bản mới nhất.
• Thư viện cung cấp các ví dụ triển khai và hỗ trợ tệp torch.com để tối ưu hóa mô hình PyTorch cho NPU. Ngoài ra, thư viện cũng cung cấp các chức năng tường minh khi sử dụng phiên bản PyTorch thấp hơn 2.0.0 hoặc khi biên dịch mô hình trong môi trường Windows.
1 bình luận
Có vẻ rất đáng chờ đợi xem chỉ với NPU, không cần card đồ họa rời, thì có thể xử lý được AI đến mức nào.