5 điểm bởi GN⁺ 2025-10-21 | 5 bình luận | Chia sẻ qua WhatsApp
  • Hệ thống Aegaeon pooling do Alibaba Cloud phát triển đã tăng hiệu quả sử dụng GPU lên 9 lần, và giảm 82% số lượng GPU Nvidia cần cho cùng một dịch vụ LLM.
  • Hệ thống này không cố định GPU theo từng mô hình mà ảo hóa theo token để lập lịch động trên pool dùng chung, cho phép nhiều mô hình cùng sử dụng một GPU.
  • Trong bài test dịch vụ thực tế với các LLM quy mô 72B tham số, số lượng GPU đã giảm từ 1,192 → 213.
  • Trong môi trường có nguồn cung H20 GPU hạn chế, hệ thống vẫn duy trì được hiệu năng ổn định, và ghi nhận 1.5~9 lần cải thiện goodput so với ServerlessLLM·MuxServe.
  • Nghiên cứu được công bố qua bài trình bày tại SOSP 2025 tại Seoul, và dự kiến sẽ thu hút sự quan tâm lớn từ các công ty đám mây toàn cầu đối mặt với thiếu hụt tài nguyên GPU.

Hệ thống Aegaeon pooling và bối cảnh

  • Alibaba Cloud, với hệ thống Aegaeon pooling, công bố trong đợt thử nghiệm beta kéo dài vài tháng trên Marketplace Model Studio rằng đã giảm 82% lượng sử dụng GPU Nvidia.
  • Kết quả này được giới thiệu qua một bài báo đã qua bình duyệt công bố tại ACM Symposium on Operating Systems (SOSP) 2025 được tổ chức tại Seoul.
  • Công nghệ này nhằm giúp nhà cung cấp dịch vụ đám mây tận dụng tối đa nguồn lực hiện có trong bối cảnh nguồn cung GPU mới như Nvidia H20 tại Trung Quốc bị hạn chế.

Aegaeon: bộ lập lịch chuyên cho suy luận tối đa hóa hiệu quả sử dụng GPU

  • Aegaeon là bộ lập lịch nhằm tối đa hóa việc tận dụng GPU ở giai đoạn suy luận, không phải hệ thống tăng hiệu suất huấn luyện mô hình.
    • Cách tiếp cận truyền thống thường cố định 1 GPU cho 1 mô hình, nhưng Aegaeon được thiết kế để phân mảnh theo token và cho phép nhiều mô hình dùng đồng thời.
    • Hệ thống nâng ‘goodput’ (thông lượng có ích) lên đến 9 lần, đồng thời đạt tỷ lệ xử lý ổn định ngay cả với lưu lượng yêu cầu LLM không đều.
Quảng cáo

Kết quả thử nghiệm và mức tiết kiệm

  • Nhóm nghiên cứu hạ tầng của Peking University và Alibaba (bao gồm CTO Jingran Zhou) đã tham gia thử nghiệm beta nhiều tháng để chứng minh hiệu năng.
    • Trong thời gian thử nghiệm, đã giảm 1,192 GPU xuống 213 GPU trong khi duy trì cùng mức tải suy luận LLM.
    • Vẫn đạt hiệu quả cao trong môi trường phục vụ đồng thời nhiều LLM kể cả mô hình đến 72B tham số.
  • Bài thử nghiệm được thực hiện trên GPU H20 có thể mua hợp pháp tại Trung Quốc sau lệnh kiểm soát xuất khẩu của Mỹ.
    • Theo South China Morning Post, H20 hiện đang được dùng như bộ tăng tốc thay thế chính tại Trung Quốc.

Thành phần kỹ thuật: hai chiến lược cốt lõi

  • 1. Đóng gói đa mô hình (Multi-model packing): xếp đồng thời nhiều mô hình lên cùng một GPU để tối thiểu hóa tài nguyên nhàn rỗi giữa các yêu cầu.
  • 2. Tự động mở rộng theo token (Token-level autoscaling): thay vì căn cứ vào toàn bộ yêu cầu, nó điều chỉnh công suất tính toán theo số token đầu ra đang được tạo theo thời gian thực.
    • Nhờ đó loại bỏ việc dự trữ GPU không cần thiết và tối đa hóa hiệu quả chi phí theo thông lượng.
    Quảng cáo
  • Kết quả benchmark cho thấy đạt mức cải thiện hiệu năng 1.5~9 lần so với ServerlessLLM·MuxServe.

Tích hợp mạng và stack

  • Bài báo không nêu chi tiết về cấu trúc mạng (dựa trên eRDMA) đã sử dụng,
    • Alibaba được biết là có mạng eRDMA (Elastic RDMA) và stack GPU tích hợp mật độ cao.
    • Do đó, khả năng cao là kết quả này phụ thuộc vào môi trường tích hợp hạ tầng nội bộ được tối ưu hóa mạnh.

Nhận định

  • Được đánh giá là một lối thoát chiến lược để đạt hiệu suất tối đa từ tài nguyên chip hiện có trong thị trường Trung Quốc có cung ứng GPU bị hạn chế.
  • Cách tiếp cận này có thể trở thành mô hình tham chiếu cho việc cải thiện hiệu quả suy luận cho các nhà cung cấp hạ tầng siêu quy mô như AWS, Google Cloud, Microsoft Azure trong tương lai.
  • Bên cạnh giới hạn của phần cứng GPU, kỹ thuật lập lịch và ảo hóa phần mềm đang nổi lên như một trục mới của năng lực cạnh tranh trong hạ tầng AI.

5 bình luận

 
jjpark78 2025-10-21

Nghe như có tiếng cổ phiếu Nvidia đang bị tụt giá nhỉ...

 
jeongsoop 2025-10-21

Thông thường trong trường hợp này, nếu giảm được 80% thì không phải chỉ mua 1/5 GPU mà sẽ tiến theo hướng xử lý nhiều dữ liệu hơn, gấp 5 lần.

 
shakespeares 2025-10-21

Chuyện đó có thực sự như vậy không? Hay là đang có một vài bí mật bên trong?

 
GN⁺ 2025-10-21
Ý kiến Hacker News
  • Alibaba Cloud công bố rằng họ đã cắt lượng sử dụng GPU Nvidia cho dịch vụ các mô hình không phổ biến đến 82%; theo nghiên cứu, trên Alibaba Cloud Marketplace có tới 17,7% GPU được phân bổ cho chỉ 1,35% tổng yêu cầu, và trước đây cần 1.192 GPU, giờ xử lý cùng khối lượng yêu cầu đó chỉ còn 213 GPU
    • Mình chưa thật sự hiểu rõ nó hoạt động chính xác thế nào; có lẽ mô hình chỉ được đặt sẵn trên GPU để chờ khi không dùng hay không. Mình nghĩ việc này thường sẽ được cấp phát động. Tất nhiên, giảm số lần nạp lại mô hình là lợi thế, nhưng nếu mô hình + GPU rảnh quá vài phút thì có thể giải phóng tài nguyên; nói thật, mình không làm trong AI nên quen kiểu cấp phát node bằng SLURM mỗi lần dùng.
    • Theo Figure 1(a) của bài báo, 17,7% là tỷ lệ so với tổng 30.000 GPU (tức là 5.310 GPU phục vụ 1,35% yêu cầu), và mức giảm này được đo trong môi trường beta chuyên biệt nhỏ chỉ có 47 mô hình. Nếu quy đổi thô theo số lượng mô hình cho toàn bộ 733 mô hình “cold”, thì cần 3.321 GPU, tương ứng giảm 37,5%; trên cụm 30.000 GPU toàn bộ thì là mức 6,6%.
    • Trước đây, các kỹ sư phần mềm và kỹ sư máy tính thường đối diện trực diện với vấn đề rồi thiết kế thuật toán và giải pháp một cách sáng tạo; do các quy định bán dẫn của Mỹ, các kỹ sư Trung Quốc cũng đang đi theo hướng tự đổi mới và tự giải quyết vấn đề giống như thời Silicon Valley trước đây
  • Điểm cốt lõi là chỉ một số ít mô hình như Alibaba Qwen và DeepSeek có lượng request suy luận cao, còn lại phần lớn các mô hình khác được dùng không thường xuyên, nên 17,7% tài nguyên GPU toàn bộ đang dùng cho chỉ 1,35% yêu cầu, dẫn đến rất lãng phí
    • Có thể những mô hình khác này đều nhỏ hơn rất nhiều
  • Liên kết tốt hơn là bài của Tom's Hardware, bài báo có thể xem tại đây
    • Mình đã đổi URL này (ban đầu là bài SCMP) sang liên kết trên, và sẽ cập nhật link bài báo ở đầu nội dung
  • Nỗ lực của Mỹ nhằm làm chậm tiến bộ công nghệ của Trung Quốc có thể đã thành công trong việc ngăn họ đi theo cùng một đường, nhưng châm biếm là có thể khiến Trung Quốc đổi mới theo con đường khác. Nếu các công ty Trung Quốc mở nguồn của các đổi mới đó, về tổng thể chúng ta có thể đạt hiệu quả và tiến bộ cao hơn, và lâu dài có thể phải biết ơn việc Mỹ thực hiện kiểu “gác cổng theo văn minh” như vậy
    • Lịch sử cho thấy dù bị chặn công nghệ, Trung Quốc vẫn bắt kịp sau vài năm hoặc tạo ra thứ tốt hơn; góc nhìn phương Tây thường mang tính kiêu ngạo, và thực tế đóng góp của các nhà khoa học hoặc sản xuất Trung Quốc vào phát triển nhiều sản phẩm của doanh nghiệp phương Tây là đáng kể; không có họ thì chẳng có gì cả. Chỉ cần nhìn danh sách nhà nghiên cứu AI cũng thấy khá nhiều người gốc Trung Quốc
    • Tâm lý chống di cư tại Mỹ thậm chí sẽ thành rào cản lớn nhất cho đổi mới của chính Mỹ; thực sự nhiều nhân tài tạo ra đổi mới đang rời đi, và nếu Mỹ mất lợi thế thu hút nhân tài toàn cầu, họ có thể thiệt hơn cả về quy mô dân số. Thế giới đang tìm lãnh đạo mới và Trung Quốc chưa lên vị trí đó ngay, nhưng vài năm tới khả năng đó không phải không có, dù điểm yếu của họ vẫn là thiếu tham vọng bên ngoài và xu hướng chỉ tập trung vào phạm vi nội khu vực (Đài Loan, Biển Nam Trung Hoa)
    • Giờ Mỹ không thể ngăn sự phát triển của Trung Quốc nữa, và việc cấm nhập khẩu chip trong nước Trung Quốc khiến bước đi của Mỹ trở nên vô nghĩa; bài liên quan (Nvidia chặn chip AI Trung Quốc 2025): bài CNBC
    • Tất cả những tình huống này khiến mình nhớ tới Nhật Bản sau Thế chiến II, đã làm ra động cơ tiết kiệm nhiên liệu hoặc ô tô nhẹ rất tốt dù nguồn lực hạn chế. Vì Mỹ và một số nước châu Âu không có ràng buộc tương tự nên khoảng cách rất lớn, cuối cùng xe của Mỹ mất đi lợi thế cạnh tranh
    • Người ta hay nói “hiệu ứng boomerang”, nhưng mình nghĩ đã quá muộn rồi; năm 2024 các phòng lab phương Tây áp đảo, nhưng đến 2025 tại Trung Quốc liên tục xuất hiện nhiều mô hình hàng đầu như deepseek, qwen, kimi, glm, ernie..., giờ ngày càng nhiều phòng lab Trung Quốc tung ra mô hình mới hơn cả các phòng lab phương Tây
  • Mình tò mò về blog kỹ thuật/nghiên cứu của doanh nghiệp gốc Trung Quốc; trước đây thường đọc nhiều blog của doanh nghiệp phương Tây, nhưng nay có cảm giác muốn lấy case study benchmark từ phía ngoài FAANG
    • Trên blog chính thức của doanh nghiệp Trung Quốc thỉnh thoảng cũng có bài nói về các case tối ưu hóa kiểu này, nhưng thường bị trộn lẫn với bài marketing; lại thêm nữa, nhiều diễn đàn địa phương chắc hẳn có nội dung tương tự nhưng người dùng tiếng Anh khó tiếp cận, ví dụ: Case tối ưu hóa cụm Kubernetes 10.000 node của Alibaba Cloud
  • Có vẻ như họ đang làm thử nghiệm chỉ với mô hình rất nhỏ; băn khoăn liệu có mở rộng được cho mô hình lớn thực sự không
    • Vì đều là LLM nên chúng cũng không hề quá nhỏ; hiện tại môi trường vận hành đang chạy 28 mô hình 1.8–7B (TP=1), 19 mô hình 32–72B (TP=4) trên cụm 213 H20 GPU ở nhiều khu vực
  • Hệ thống GPU ảo này dường như là một scheduler (trình quản lý tác vụ) riêng; tò mò không biết khi di chuyển dữ liệu sẽ có độ trễ như thế nào
  • Mình tò mò liệu cách này có thể áp dụng cho các workload khác không
  • Tóm lại, có vẻ chỉ là dừng lại những hành vi không cần thiết (dùng tài nguyên kém hiệu quả)
  • Nếu có nguồn lực dồi dào, có thể di chuyển mô hình đã huấn luyện trước sang phần cứng mới để giảm “thuế NVDA” (chi phí từ độc quyền của Nvidia), nhưng nghiên cứu và đào tạo mô hình bản thân rất khó xảy ra ngoài hệ sinh thái NVDA đã trưởng thành