Lập lịch GPU Job bằng cách tận dụng Inference GPU Pool nhàn rỗi
(lgresearch.ai)Lập lịch GPU job bằng cách tận dụng Inference GPU Pool nhàn rỗi: trường hợp tối ưu hiệu quả hạ tầng của LG AI Research
Bài viết lần này do Platform&Infra Team của LG AI Research công bố, đề cập đến cách tái sử dụng tài nguyên GPU nhàn rỗi phát sinh trong quá trình vận hành dịch vụ mô hình ngôn ngữ lớn (LLM) cho các tác vụ nghiên cứu và thử nghiệm. Các doanh nghiệp vận hành dịch vụ AI thường phải chuẩn bị sẵn GPU theo mức đỉnh lưu lượng, vì vậy vào những khung giờ lưu lượng giảm, các GPU đắt đỏ thường chỉ chiếm bộ nhớ rồi để không. Nhóm nghiên cứu đã xây dựng một pipeline tự động phân bổ GPU trong các khoảng thời gian trống này cho các job huấn luyện và đánh giá, qua đó đảm bảo được tài nguyên tính toán mà không cần mua thêm thiết bị.
Vấn đề cốt lõi
- Giới hạn của auto scaling cho dịch vụ LLM: Khác với dịch vụ web thông thường, LLM có mức tiêu thụ GPU cho mỗi request biến động mạnh tùy theo độ dài token đầu vào/đầu ra và cấu trúc mô hình. Vì vậy, các chỉ số truyền thống như mức sử dụng CPU hay tỷ lệ chiếm dụng bộ nhớ rất khó phản ánh tải thực tế.
- Quy mô tài nguyên nhàn rỗi: Trong môi trường mà một replica (bản sao instance dịch vụ) sử dụng 4 GPU, vào khung giờ đêm ít tải (20h đến 8h sáng hôm sau), trung bình mỗi ngày có 52 GPU nhàn rỗi trong khoảng 12 giờ.
Cách giải quyết
- Tận dụng chỉ số nội bộ của vLLM: Thay vì dùng chỉ số hệ thống thông thường, nhóm lấy các chỉ số như thông lượng xử lý thời gian thực và trạng thái chờ trong queue do engine suy luận LLM vLLM cung cấp làm tiêu chí auto scaling, từ đó hiện thực hóa việc điều chỉnh tài nguyên chính xác hơn theo đặc tính của LLM.
- Thực thi job theo kiểu best-effort: Các job nghiên cứu được chạy trên GPU nhàn rỗi vào ban đêm, nhưng nếu lưu lượng tăng trở lại thì có thể dừng các job này bất cứ lúc nào và trả GPU về cho dịch vụ, nhờ đó không ảnh hưởng đến độ ổn định của dịch vụ.
- Pipeline dựa trên Argo Workflows: Công việc được định nghĩa theo đơn vị Docker image, đồng thời các bước như tiền xử lý dữ liệu, pretraining, fine-tuning có giám sát, reinforcement learning và đánh giá được tách thành các step để chạy tuần tự hoặc song song.
Ưu điểm của nguyên tắc thiết kế
- Tính phổ dụng: Dù là huấn luyện hay suy luận, bất kể framework nào, chỉ cần đóng gói trong Docker image là có thể chạy nguyên trạng.
- Khả năng mở rộng và tính linh hoạt: Ngay cả khi bổ sung loại công việc mới, hệ thống vẫn có thể tiếp nhận mà không cần sửa mã pipeline.
- Tính tái lập: Mọi cấu hình đều được truyền từ tham số bên ngoài thay vì hard-code, còn đầu vào/đầu ra được quản lý trên cloud storage, nên trong cùng điều kiện sẽ bảo đảm cùng kết quả. Kiến trúc stateless, tức pipeline không lưu trạng thái, cũng góp phần tăng độ ổn định vận hành.
Kết quả vận hành
- Tổng mức sử dụng: Trong khoảng gần 3 tháng từ tháng 11/2025 đến tháng 1/2026, đã có 85 job được chạy, với tổng lượng sử dụng đạt 95.000 GPU-giờ.
- Xu hướng tăng trưởng: Mức sử dụng GPU trong tháng 1 tăng khoảng 70% so với tháng 11, tương đương hiệu quả như bổ sung mới khoảng 55 GPU nếu quy đổi theo vận hành 24 giờ.
- Tiết kiệm chi phí: Nếu quy đổi cùng khối lượng tính toán đó theo mức cam kết 3 năm trên public cloud, hiệu quả tiết kiệm ước tính khoảng 75 triệu won chỉ trong tháng 1 và khoảng 185 triệu won cộng dồn trong 3 tháng.
Kế hoạch sắp tới
- Nâng cấp chỉ số scaling: Dự kiến sẽ phân tích chi tiết hơn mô hình sử dụng của từng dịch vụ để tinh chỉnh logic phân bổ tài nguyên.
- Mở rộng lập lịch thường trực: Nhóm muốn mở rộng sang cơ chế chạy thường trực, không chỉ ban đêm mà bất cứ khi nào tài nguyên trống đều có thể khởi chạy job, bằng cách tận dụng Kubernetes và mô hình EXAONE nội bộ.
- Cải thiện UX: Có kế hoạch chuẩn bị giao diện trực quan để nhà nghiên cứu có thể thực hiện liền mạch từ gửi yêu cầu job đến giám sát.
Trường hợp này cho thấy một hướng tiếp cận đáng chú ý khi giải quyết bài toán thiếu GPU vốn là vấn đề chung của ngành không phải bằng mở rộng phần cứng mà bằng cải thiện cấu trúc vận hành. Đặc biệt, cách vượt qua khó khăn trong đo tải đặc thù của dịch vụ LLM bằng chỉ số nội bộ của vLLM, đồng thời đặt các job nghiên cứu ở chế độ best-effort để cùng lúc đạt được hai mục tiêu vốn xung đột là ổn định dịch vụ và tối đa hóa mức sử dụng tài nguyên, là điểm nổi bật. Kết quả định lượng với mức tiết kiệm chi phí khoảng 180 triệu won mà không cần đầu tư bổ sung cũng cho thấy đây là một mô hình vận hành đủ sức tham khảo cho các tổ chức khác đang quản lý hạ tầng GPU.
Chưa có bình luận nào.