DeepSeek công bố mã nguồn mở FlashMLA (1 trong 5)
(github.com/deepseek-ai)- Kernel giải mã MLA hiệu quả dành cho GPU Hopper
- Được tối ưu hóa cho việc phục vụ chuỗi có độ dài biến thiên
- Những gì hiện đã được phát hành
- BF16
- Paged kvcache với kích thước khối 64
- Benchmark: sử dụng CUDA 12.6 trên H800 SXM5, đạt tối đa 3000GB/s trong cấu hình bị giới hạn bởi bộ nhớ và 580 TFLOPS trong cấu hình bị giới hạn bởi tính toán
- Lấy cảm hứng từ FlashAttention 2&3 và cutlass
- Là dự án đầu tiên trong 5 dự án mã nguồn mở được công bố dưới tên DeepSeek Open Infra
2 bình luận
Ý kiến trên Hacker News
FlashAttention-2: Attention nhanh hơn nhờ xử lý song song và phân chia tác vụ tốt hơn
FlashAttention-3: Attention nhanh và chính xác nhờ bất đồng bộ và độ chính xác thấp