Alibaba Cloud công bố hệ thống pooling Aegaeon giảm 82% lượng GPU Nvidia sử dụng

(tomshardware.com)

5 điểm bởi GN⁺ 2025-10-21 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Hệ thống Aegaeon pooling do Alibaba Cloud phát triển đã tăng hiệu quả sử dụng GPU lên 9 lần, và giảm 82% số lượng GPU Nvidia cần cho cùng một dịch vụ LLM.
Hệ thống này không cố định GPU theo từng mô hình mà ảo hóa theo token để lập lịch động trên pool dùng chung, cho phép nhiều mô hình cùng sử dụng một GPU.
Trong bài test dịch vụ thực tế với các LLM quy mô 72B tham số, số lượng GPU đã giảm từ 1,192 → 213.
Trong môi trường có nguồn cung H20 GPU hạn chế, hệ thống vẫn duy trì được hiệu năng ổn định, và ghi nhận 1.5~9 lần cải thiện goodput so với ServerlessLLM·MuxServe.
Nghiên cứu được công bố qua bài trình bày tại SOSP 2025 tại Seoul, và dự kiến sẽ thu hút sự quan tâm lớn từ các công ty đám mây toàn cầu đối mặt với thiếu hụt tài nguyên GPU.

Hệ thống Aegaeon pooling và bối cảnh

Alibaba Cloud, với hệ thống Aegaeon pooling, công bố trong đợt thử nghiệm beta kéo dài vài tháng trên Marketplace Model Studio rằng đã giảm 82% lượng sử dụng GPU Nvidia.
Kết quả này được giới thiệu qua một bài báo đã qua bình duyệt công bố tại ACM Symposium on Operating Systems (SOSP) 2025 được tổ chức tại Seoul.
Công nghệ này nhằm giúp nhà cung cấp dịch vụ đám mây tận dụng tối đa nguồn lực hiện có trong bối cảnh nguồn cung GPU mới như Nvidia H20 tại Trung Quốc bị hạn chế.

Aegaeon là bộ lập lịch nhằm tối đa hóa việc tận dụng GPU ở giai đoạn suy luận, không phải hệ thống tăng hiệu suất huấn luyện mô hình.
- Cách tiếp cận truyền thống thường cố định 1 GPU cho 1 mô hình, nhưng Aegaeon được thiết kế để phân mảnh theo token và cho phép nhiều mô hình dùng đồng thời.
- Hệ thống nâng ‘goodput’ (thông lượng có ích) lên đến 9 lần, đồng thời đạt tỷ lệ xử lý ổn định ngay cả với lưu lượng yêu cầu LLM không đều.

Nhóm nghiên cứu hạ tầng của Peking University và Alibaba (bao gồm CTO Jingran Zhou) đã tham gia thử nghiệm beta nhiều tháng để chứng minh hiệu năng.
- Trong thời gian thử nghiệm, đã giảm 1,192 GPU xuống 213 GPU trong khi duy trì cùng mức tải suy luận LLM.
- Vẫn đạt hiệu quả cao trong môi trường phục vụ đồng thời nhiều LLM kể cả mô hình đến 72B tham số.
Bài thử nghiệm được thực hiện trên GPU H20 có thể mua hợp pháp tại Trung Quốc sau lệnh kiểm soát xuất khẩu của Mỹ.
- Theo South China Morning Post, H20 hiện đang được dùng như bộ tăng tốc thay thế chính tại Trung Quốc.

1. Đóng gói đa mô hình (Multi-model packing): xếp đồng thời nhiều mô hình lên cùng một GPU để tối thiểu hóa tài nguyên nhàn rỗi giữa các yêu cầu.
2. Tự động mở rộng theo token (Token-level autoscaling): thay vì căn cứ vào toàn bộ yêu cầu, nó điều chỉnh công suất tính toán theo số token đầu ra đang được tạo theo thời gian thực.
- Nhờ đó loại bỏ việc dự trữ GPU không cần thiết và tối đa hóa hiệu quả chi phí theo thông lượng.
Kết quả benchmark cho thấy đạt mức cải thiện hiệu năng 1.5~9 lần so với ServerlessLLM·MuxServe.

Bài báo không nêu chi tiết về cấu trúc mạng (dựa trên eRDMA) đã sử dụng,
- Alibaba được biết là có mạng eRDMA (Elastic RDMA) và stack GPU tích hợp mật độ cao.
- Do đó, khả năng cao là kết quả này phụ thuộc vào môi trường tích hợp hạ tầng nội bộ được tối ưu hóa mạnh.

Được đánh giá là một lối thoát chiến lược để đạt hiệu suất tối đa từ tài nguyên chip hiện có trong thị trường Trung Quốc có cung ứng GPU bị hạn chế.
Cách tiếp cận này có thể trở thành mô hình tham chiếu cho việc cải thiện hiệu quả suy luận cho các nhà cung cấp hạ tầng siêu quy mô như AWS, Google Cloud, Microsoft Azure trong tương lai.
Bên cạnh giới hạn của phần cứng GPU, kỹ thuật lập lịch và ảo hóa phần mềm đang nổi lên như một trục mới của năng lực cạnh tranh trong hạ tầng AI.