9 điểm bởi GN⁺ 2025-02-22 | 2 bình luận | Chia sẻ qua WhatsApp
  • Đội ngũ DeepSeek AI đang nỗ lực vượt qua các giới hạn trong hành trình khám phá AGI
  • Bắt đầu từ tuần tới, họ sẽ công bố mã nguồn mở 5 kho lưu trữ, nhằm chia sẻ minh bạch những bước tiến nhỏ với tư cách là nhà phát triển
  • Đây là các thành phần cốt lõi của dịch vụ trực tuyến, là mã đã được tài liệu hóa, triển khai và kiểm thử trong môi trường thực tế
  • Mỗi ngày sẽ có mã mới được công bố, nhằm thúc đẩy đổi mới do cộng đồng dẫn dắt

Day 1: FlashMLA

  • Kernel giải mã MLA hiệu quả cho GPU Hopper
  • Được tối ưu cho phục vụ chuỗi độ dài biến thiên
  • Các hạng mục hiện đã phát hành
    • BF16
    • Paged kvcache với block size 64
  • Benchmark: sử dụng CUDA 12.6 trên H800 SXM5, đạt tối đa 3000GB/s ở cấu hình memory-bound và 580 TFLOPS ở cấu hình compute-bound

Day 2: DeepEP

  • Thư viện giao tiếp hiệu năng cao cho Mixture-of-Experts(MoE) và Expert Parallelism(EP)
  • Cung cấp kernel All-to-All chạy trên GPU để xử lý nhanh các phép toán dispatch và combine của MoE
  • Hỗ trợ tính toán độ chính xác thấp như FP8
  • Áp dụng thuật toán group-limited gating được đề xuất trong bài báo DeepSeek-V3 để tối ưu forwarding băng thông miền bất đối xứng
    • Ví dụ: tối ưu truyền dữ liệu NVLink → RDMA
    • Cung cấp throughput cao, phù hợp cho huấn luyện và tác vụ suy luận prefilling
  • Bao gồm kernel độ trễ thấp chuyên cho RDMA dành cho giải mã suy luận nhạy cảm với độ trễ
  • Cung cấp kỹ thuật chồng lấp giao tiếp-tính toán (không chiếm tài nguyên SM)

Day 3: DeepGEMM

  • Thư viện thực hiện hiệu quả phép nhân ma trận FP8 (GEMM), hỗ trợ phương pháp fine-grained scaling được đề xuất trong DeepSeek-V3
  • Hỗ trợ cả GEMM thông thường và GEMM được nhóm cho Mix-of-Experts(MoE)
  • Được triển khai dựa trên CUDA, và khi cài đặt không cần biên dịch riêng mà dùng mô-đun Just-In-Time(JIT) nhẹ để biên dịch kernel ở runtime
  • Hiện chỉ hỗ trợ tensor core NVIDIA Hopper
  • Sử dụng tích lũy kép (promotion) dựa trên CUDA core để bù cho phép tích lũy thiếu chính xác của tensor core FP8
  • Tận dụng một số khái niệm từ CUTLASSCuTe, nhưng giảm phụ thuộc template phức tạp để có thiết kế đơn giản chỉ gồm khoảng 300 dòng mã kernel
  • Phù hợp để học về phép toán ma trận Hopper FP8 và các kỹ thuật tối ưu hóa
  • Dù thiết kế gọn nhẹ, vẫn cho hiệu năng tương đương hoặc tốt hơn các thư viện được tinh chỉnh ở cấp độ chuyên gia trên nhiều kích thước ma trận khác nhau

Day 4: Chiến lược xử lý song song được tối ưu hóa: DualPipe, EPLB, Profile-Data

  • Các chiến lược và mã từng được dùng trong DeepSeek V3/R1
    • DualPipe : thuật toán song song hóa pipeline hai chiều để chồng lấp tính toán-giao tiếp
    • EPLB: bộ cân bằng tải Expert-Parallel
    • Profile-Data: profiling dữ liệu của hạ tầng DeepSeek để phân tích chồng lấp tính toán-giao tiếp

Day 5: Hệ thống tệp 3FS và framework xử lý dữ liệu Smallpond

  • Fire-Flyer File System(3FS) là hệ thống tệp phân tán hiệu năng cao được thiết kế để xử lý workload huấn luyện và suy luận AI
  • Tận dụng SSD thế hệ mới và mạng RDMA để cung cấp tầng lưu trữ dùng chung, đồng thời đơn giản hóa việc phát triển ứng dụng phân tán
  • Các đặc điểm và lợi thế chính
    • Hiệu năng và khả năng sử dụng
      • Kiến trúc tách rời: kết hợp hàng nghìn SSD và băng thông mạng của hàng trăm node lưu trữ, cho phép truy cập tài nguyên lưu trữ bất kể tính cục bộ
      • Bảo đảm tính nhất quán mạnh: sử dụng Chain Replication with Apportioned Queries(CRAQ) để duy trì tính nhất quán, qua đó đơn giản hóa mã ứng dụng
      • Hỗ trợ giao diện tệp: cung cấp dịch vụ metadata không trạng thái dựa trên kho key-value giao dịch của FoundationDB. Do sử dụng giao diện tệp hiện có nên không cần học API lưu trữ mới
    • Hỗ trợ nhiều loại workload
      • Chuẩn bị dữ liệu: sắp xếp đầu ra của pipeline phân tích dữ liệu theo cấu trúc thư mục phân cấp và quản lý hiệu quả lượng lớn đầu ra trung gian
      • Tối ưu data loader: cho phép truy cập ngẫu nhiên tới các mẫu huấn luyện từ nhiều node tính toán mà không cần preload hay shuffle tập dữ liệu
      • Lưu checkpoint: hỗ trợ lưu checkpoint song song tốc độ cao cho huấn luyện quy mô lớn
      • Tối ưu suy luận dựa trên KVCache: hiệu quả chi phí hơn so với caching dựa trên DRAM, đồng thời cung cấp throughput cao và dung lượng lưu trữ lớn
  • SmallPond - Framework xử lý dữ liệu nhẹ được xây dựng trên DuckDB và 3FS
    • Có các đặc trưng là xử lý dữ liệu hiệu năng cao, khả năng mở rộng lớn và vận hành đơn giản
      • Xử lý dữ liệu hiệu năng cao: xử lý dữ liệu nhanh nhờ DuckDB
      • Hỗ trợ bộ dữ liệu quy mô lớn: có thể xử lý dữ liệu ở quy mô petabyte(PB)
      • Vận hành đơn giản: dễ sử dụng mà không cần dịch vụ chạy dài hạn

Day 6: Công bố cấu trúc hệ thống suy luận của V3/R1 và chi phí/doanh thu vận hành

  • Nguyên tắc thiết kế hệ thống: mục tiêu tối ưu của hệ thống suy luận DeepSeek-V3/R1 là throughput cao hơn và độ trễ thấp hơn
    • Để làm điều này, họ áp dụng Cross-node Expert Parallelism(EP) để tối ưu
  • Chi phí vận hành của DeepSeek
    • Trung bình 226 node GPU (mỗi node có 8 GPU H800)
    • Chi phí vận hành mỗi ngày: $87,072 (1,27 tỷ won) - $2/giờ cho mỗi H800
    • Doanh thu lý thuyết mỗi ngày (theo R1): $562027 (8,2 tỷ won) → tỷ suất lợi nhuận 545%
    • Tuy nhiên, doanh thu thực tế thấp hơn (vì V3 rẻ hơn R1, và chỉ một phần dịch vụ được kiếm tiền)

Bài báo hạ tầng AI năm 2024 (SC24)

Fire-Flyer AI-HPC: đồng thiết kế phần mềm-phần cứng tiết kiệm chi phí cho deep learning

  • Do sự phát triển nhanh chóng của deep learning(DL) và mô hình ngôn ngữ lớn(LLM), nhu cầu về năng lực tính toán và băng thông tăng theo cấp số nhân
  • Chi phí xây dựng hệ thống high-performance computing(HPC) tăng mạnh do giá cao của chip tính toán nhanh và interconnect tốc độ cao
  • Để giải quyết điều này, họ giới thiệu kiến trúc Fire-Flyer AI-HPC, đạt tối ưu chi phí và hiệu năng dựa trên thiết kế hợp tác phần cứng-phần mềm
    • Xây dựng hệ thống Fire-Flyer 2 sử dụng 10.000 GPU PCIe A100 để thực hiện huấn luyện DL
    • Cung cấp hiệu năng tương đương DGX-A100 nhưng giảm một nửa chi phí và giảm 40% mức tiêu thụ năng lượng
  • Các yếu tố tối ưu hiệu năng
    • HFReduce : tăng tốc giao tiếp Allreduce để cải thiện tốc độ đồng bộ dữ liệu giữa các GPU
    • Computation-Storage Integrated Network : áp dụng nhiều kỹ thuật quản lý tắc nghẽn để ngăn nút thắt cổ chai mạng
    • Software stack : thông qua HaiScale, 3FS, HAI-Platform để thực thi chồng lấp tính toán và giao tiếp, tối đa hóa khả năng mở rộng

2 bình luận

 
xguru 2025-02-23

DeepSeek đúng là đang tiếp tục có những bước đi rất thú vị. Tôi rất tò mò không biết họ sẽ công bố những gì.

 
GN⁺ 2025-02-22
Ý kiến Hacker News
  • Tò mò không biết có phải mình là người duy nhất vừa mong chờ các bản phát hành của DeepSeek vừa không phân tích quá mức hay không. Cảm giác chuỗi thảo luận này đầy rẫy những diễn giải cá nhân

    • DeepSeek vẫn là một doanh nghiệp. Đây là một đợt phát hành tuyệt vời, nhưng có vẻ kỳ vọng và động cơ đang bị thổi phồng quá mức
    • Cụm từ "năng lượng garage thuần túy" nghe rất hay
    • Điều tôi mong chờ nhất là stack suy luận của họ. Hầu hết mọi người đang chạy R1 trên một node H200 đơn lẻ, nhưng DeepSeek dùng ít RAM hơn nhiều trên mỗi GPU cho suy luận và triển khai MoE dựa trên cụm
    • Thú vị hơn cả 12 ngày Giáng sinh của OpenAI
  • Từ tuần sau họ sẽ open source 5 repo. Mỗi ngày công khai một repo

    • Có thể xem đây là "thông báo về một thông báo". Tốt hơn là chưa nên bàn luận cho đến khi các repo thực sự được công bố, vì chưa có chi tiết về những gì sẽ được open source
    • Đây là những khối xây dựng khiêm tốn của một dịch vụ trực tuyến. Chúng đã được tài liệu hóa, triển khai và kiểm thử trong môi trường thực tế
  • Rất kính trọng những đổi mới và nghiên cứu của DeepSeek. Với mọi thứ họ đã công bố

    • Câu "Mỗi dòng được chia sẻ đều trở thành động lực tập thể giúp tăng tốc hành trình. Mở khóa hằng ngày sắp bắt đầu. Không phải tháp ngà, mà là năng lượng garage thuần túy và đổi mới do cộng đồng dẫn dắt" nghe rất hay
  • Thực tế là họ đang tháo dỡ hoàn toàn OpenAI. Có lẽ bất kể ý định của họ là gì

    • LLM còn là "blockchain" hợp pháp hơn phần lớn những lần các tạp chí dành cho CIO đăng bài luận kiểu "chiến lược blockchain của bạn là gì?"
    • Bong bóng AI sẽ vỡ, và nhiều nhất là đến cuối năm 2026 sẽ vỡ
  • Thật thú vị khi quan sát xem lợi thế phòng thủ trong lĩnh vực AI nằm ở đâu. Một mô hình nền tảng tốt luôn có thể bị chưng cất khi có quyền truy cập API. System prompt có thể bị rò rỉ, còn các mẹo UI có thể bị sao chép. Cuối cùng, lợi thế phòng thủ có thể nằm ở phần cứng và tích hợp theo chiều dọc

  • DeepSeek và OpenAI có thể đổi tên cho nhau được không?

  • Việc open source các công cụ hạ tầng thực sự có thể thúc đẩy đổi mới trong lĩnh vực AI. Việc có quyền truy cập vào các repo được tài liệu hóa tốt giúp việc thử nghiệm và xây dựng dựa trên công trình hiện có trở nên dễ dàng hơn nhiều

    • Tò mò không biết các repo này có tập trung vào những mảng cụ thể như huấn luyện phân tán hay phục vụ mô hình hay không
  • Tò mò không biết định giá của các công ty mô hình nền tảng đã bị Facebook và DeepSeek kiên quyết open source hóa sẽ cạnh tranh như thế nào. Vì Trung Quốc và Facebook đang cung cấp phần lớn miễn phí, nên có vẻ việc xây dựng các mô hình này sẽ không tạo ra giá trị hàng trăm tỷ USD