DeepSeek công bố mã nguồn mở FlashMLA (1 trong 5)

xguru · 2025-02-24T15:14:21+09:00

Kernel giải mã MLA hiệu quả dành cho GPU Hopper Được tối ưu hóa cho việc phục vụ chuỗi có độ dài biến thiên Những gì hiện đã được phát hành BF16 Paged kvcache với kích thước khối 64 Benchmark: sử dụng CUDA 12.6 trên H800 SXM5, đạt tối đa 3000GB/s trong cấu hình bị giới hạn bởi bộ nhớ và 580 TFLOPS trong cấu hình bị giới hạn bởi tính toán Lấy cảm hứng từ FlashAttention 2&3 và cutlass Là dự án đầu tiên trong 5 dự án mã nguồn mở được công bố dưới tên DeepSeek Open Infra

(github.com/deepseek-ai)

5 điểm bởi xguru 2025-02-24 | 2 bình luận | Chia sẻ qua WhatsApp

Kernel giải mã MLA hiệu quả dành cho GPU Hopper
Được tối ưu hóa cho việc phục vụ chuỗi có độ dài biến thiên
Những gì hiện đã được phát hành
- BF16
- Paged kvcache với kích thước khối 64
Benchmark: sử dụng CUDA 12.6 trên H800 SXM5, đạt tối đa 3000GB/s trong cấu hình bị giới hạn bởi bộ nhớ và 580 TFLOPS trong cấu hình bị giới hạn bởi tính toán
Lấy cảm hứng từ FlashAttention 2&3 và cutlass
Là dự án đầu tiên trong 5 dự án mã nguồn mở được công bố dưới tên DeepSeek Open Infra

2 bình luận

GN⁺ 2025-02-25

Ý kiến trên Hacker News

vLLM đã bắt đầu hỗ trợ MLA cho các mô hình Deepseek từ 3 tuần trước. Điều này mang lại thông lượng sinh cao hơn 3 lần và dung lượng bộ nhớ token cao hơn 10 lần
- MHA vẫn nhanh hơn trong môi trường QPS thấp
- Theo các bằng chứng lý thuyết, với cùng mức overhead của KV cache, MLA luôn cung cấp khả năng biểu đạt lớn hơn GQA
- Có thể chuyển đổi các mô hình tiền huấn luyện dựa trên GQA được dùng rộng rãi (LLaMA, Qwen, Mixtral, v.v.) sang mô hình dựa trên MLA
- Khả năng cao MLA sẽ trở thành tiêu chuẩn
Nếu Deepseek R1 dùng MHA tiêu chuẩn, nó sẽ cần 1749KB cho mỗi token để lưu KV cache
- Khi cuộc hội thoại đạt khoảng 46.000 token, KV cache sẽ vượt quá toàn bộ dung lượng lưu trữ của một H100 đơn lẻ
- Khi dùng MLA, mỗi token tiêu thụ 125KB. Điều này cho phép mở rộng đến trước khi vượt khoảng 640.000 token (gấp 2 lần Ulysses)
Hỗ trợ BF16, paged KV cache (kích thước khối 64), và trên H800 đạt 3000 GB/s memory-bound cùng 580 TFLOPS compute-bound
- Nhiều kỹ sư ở các công ty FANG hẳn đã tiết kiệm được rất nhiều thời gian nhờ điều này
- Điểm đáng tiếc là chỉ hỗ trợ forward pass. Bí quyết thực sự nằm ở backward pass
- Tôi từng rất tò mò họ đã triển khai bộ lập lịch dualpipe như thế nào
MLA có lẽ là viết tắt của Multi-head latent attention
Tôi hơi bối rối vì tưởng đã có lệnh hạn chế Hopper GPU với các công ty Trung Quốc. Điều này có phải là họ thừa nhận vẫn có thể tiếp cận H100 bất chấp các lệnh trừng phạt của Mỹ không?
Tôi thực sự đã hy vọng AI có thể mang game Flash trở lại
Có thể làm gì với thứ này?
OpenAI đã quay trở lại

xguru 2025-02-24

FlashAttention-2: Attention nhanh hơn nhờ xử lý song song và phân chia tác vụ tốt hơn
FlashAttention-3: Attention nhanh và chính xác nhờ bất đồng bộ và độ chính xác thấp

DeepSeek công bố mã nguồn mở FlashMLA (1 trong 5)

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News