- Fire-Flyer File System (3FS) là hệ thống tệp phân tán hiệu năng cao được thiết kế để xử lý các workload huấn luyện và suy luận AI
- Tận dụng SSD thế hệ mới nhất và mạng RDMA để cung cấp một tầng lưu trữ chia sẻ, đồng thời đơn giản hóa việc phát triển ứng dụng phân tán
Các tính năng và lợi thế chính
- Hiệu năng và khả năng sử dụng
- Kiến trúc tách rời: có thể truy cập tài nguyên lưu trữ bất kể tính cục bộ bằng cách kết hợp hàng nghìn SSD và băng thông mạng của hàng trăm node lưu trữ
- Đảm bảo tính nhất quán mạnh mẽ: duy trì tính nhất quán bằng Chain Replication with Apportioned Queries (CRAQ), qua đó đơn giản hóa mã ứng dụng
- Hỗ trợ giao diện tệp: cung cấp dịch vụ metadata không trạng thái dựa trên kho key-value giao dịch xây trên FoundationDB. Vì dùng giao diện tệp hiện có nên không cần học API lưu trữ mới
- Hỗ trợ nhiều workload khác nhau
- Chuẩn bị dữ liệu: tổ chức đầu ra của pipeline phân tích dữ liệu theo cấu trúc thư mục phân cấp và quản lý hiệu quả lượng lớn đầu ra trung gian
- Tối ưu data loader: cho phép truy cập ngẫu nhiên tới các mẫu huấn luyện từ nhiều node tính toán mà không cần preload hoặc xáo trộn trước dataset
- Lưu checkpoint: hỗ trợ lưu checkpoint song song tốc độ cao cho huấn luyện quy mô lớn
- Tối ưu suy luận dựa trên KVCache: tiết kiệm chi phí hơn so với caching dựa trên DRAM, đồng thời đạt thông lượng cao và lưu trữ dung lượng lớn
Kiểm thử hiệu năng
- Kiểm thử thông lượng tối đa
- 180 node lưu trữ (mỗi node trang bị 2×200Gbps InfiniBand NIC và 16 SSD NVMe 14TiB)
- Hơn 500 node client (mỗi node trang bị 1×200Gbps InfiniBand NIC)
- Trong bài kiểm thử tải đọc chạy song song với tác vụ huấn luyện AI, ghi nhận tổng thông lượng 6.6TiB/s
- Kiểm thử benchmark GraySort
- 25 node lưu trữ (mỗi node có 2 NUMA domain, 2×400Gbps NIC)
- 50 node tính toán (192 lõi vật lý, 2.2TiB RAM, 1×200Gbps NIC)
- Sắp xếp 110.5TiB dữ liệu (8.192 partition) trong 30 phút 14 giây, đạt thông lượng trung bình 3.66TiB/min
- Kiểm thử hiệu năng KVCache
- Trong quá trình suy luận mô hình ngôn ngữ lớn (LLM), giảm thiểu các phép tính không cần thiết thông qua cache vector key-value
- Ghi nhận thông lượng đọc đỉnh 40GiB/s
- Bao gồm phân tích hiệu năng tác vụ xóa (IOPS) trong khi chạy Garbage Collection (GC)
- Có các đặc điểm là xử lý dữ liệu hiệu năng cao, khả năng mở rộng lớn và vận hành đơn giản
- Xử lý dữ liệu hiệu năng cao: tận dụng DuckDB để xử lý dữ liệu nhanh
- Hỗ trợ dataset quy mô lớn: có thể xử lý dữ liệu ở quy mô petabyte (PB)
- Vận hành đơn giản: dễ dàng sử dụng mà không cần dịch vụ chạy dài hạn
Chưa có bình luận nào.