5 điểm bởi xguru 2025-02-24 | 2 bình luận | Chia sẻ qua WhatsApp
  • Kernel giải mã MLA hiệu quả dành cho GPU Hopper
  • Được tối ưu hóa cho việc phục vụ chuỗi có độ dài biến thiên
  • Những gì hiện đã được phát hành
    • BF16
    • Paged kvcache với kích thước khối 64
  • Benchmark: sử dụng CUDA 12.6 trên H800 SXM5, đạt tối đa 3000GB/s trong cấu hình bị giới hạn bởi bộ nhớ và 580 TFLOPS trong cấu hình bị giới hạn bởi tính toán
  • Lấy cảm hứng từ FlashAttention 2&3cutlass
  • Là dự án đầu tiên trong 5 dự án mã nguồn mở được công bố dưới tên DeepSeek Open Infra

2 bình luận

 
GN⁺ 2025-02-25

Ý kiến trên Hacker News

  • vLLM đã bắt đầu hỗ trợ MLA cho các mô hình Deepseek từ 3 tuần trước. Điều này mang lại thông lượng sinh cao hơn 3 lần và dung lượng bộ nhớ token cao hơn 10 lần
    • MHA vẫn nhanh hơn trong môi trường QPS thấp
    • Theo các bằng chứng lý thuyết, với cùng mức overhead của KV cache, MLA luôn cung cấp khả năng biểu đạt lớn hơn GQA
    • Có thể chuyển đổi các mô hình tiền huấn luyện dựa trên GQA được dùng rộng rãi (LLaMA, Qwen, Mixtral, v.v.) sang mô hình dựa trên MLA
    • Khả năng cao MLA sẽ trở thành tiêu chuẩn
  • Nếu Deepseek R1 dùng MHA tiêu chuẩn, nó sẽ cần 1749KB cho mỗi token để lưu KV cache
    • Khi cuộc hội thoại đạt khoảng 46.000 token, KV cache sẽ vượt quá toàn bộ dung lượng lưu trữ của một H100 đơn lẻ
    • Khi dùng MLA, mỗi token tiêu thụ 125KB. Điều này cho phép mở rộng đến trước khi vượt khoảng 640.000 token (gấp 2 lần Ulysses)
  • Hỗ trợ BF16, paged KV cache (kích thước khối 64), và trên H800 đạt 3000 GB/s memory-bound cùng 580 TFLOPS compute-bound
    • Nhiều kỹ sư ở các công ty FANG hẳn đã tiết kiệm được rất nhiều thời gian nhờ điều này
    • Điểm đáng tiếc là chỉ hỗ trợ forward pass. Bí quyết thực sự nằm ở backward pass
    • Tôi từng rất tò mò họ đã triển khai bộ lập lịch dualpipe như thế nào
  • MLA có lẽ là viết tắt của Multi-head latent attention
  • Tôi hơi bối rối vì tưởng đã có lệnh hạn chế Hopper GPU với các công ty Trung Quốc. Điều này có phải là họ thừa nhận vẫn có thể tiếp cận H100 bất chấp các lệnh trừng phạt của Mỹ không?
  • Tôi thực sự đã hy vọng AI có thể mang game Flash trở lại
  • Có thể làm gì với thứ này?
  • OpenAI đã quay trở lại