Cách chạy GPT-OSS-120B trên GPU NVIDIA với tốc độ hơn 500 token mỗi giây

(baseten.co)

7 điểm bởi GN⁺ 2025-08-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

GPT-OSS-120B, LLM mã nguồn mở của OpenAI, được tối ưu để đạt hiệu năng xử lý hơn 500 token mỗi giây trên môi trường GPU của NVIDIA
Thực hiện kiểm thử song song trên nhiều khung suy luận như TensorRT-LLM, vLLM, SGLang và hỗ trợ cả kiến trúc Hopper và Blackwell
Sửa lỗi tương thích, tích hợp định dạng phản hồi mới như Harmony và áp dụng các tối ưu hóa như định tuyến nhận biết KV cache và giải mã dự đoán dựa trên Eagle
So sánh tensor parallelism và expert parallelism, chọn tensor parallelism để giảm độ trễ và dùng backend TensorRT-LLM MoE trên Blackwell
Dự kiến sẽ tiếp tục tối ưu thêm trong tương lai, bao gồm cả Speculative Decoding (giải mã dự đoán) với mô hình dự thảo nhỏ

Tổng quan

Khi GPT-OSS-120B, mô hình ngôn ngữ lớn mã nguồn mở mới nhất của OpenAI, được công bố, Baseten đặt mục tiêu đạt hiệu năng tốt nhất
- Baseten là đối tác khởi chạy chính thức của OpenAI
Dựa trên dữ liệu người dùng thực tế từ OpenRouter, Baseten đã chứng minh hiệu năng vượt trội hơn đối thủ trong môi trường dựa trên GPU NVIDIA
Với stack suy luận linh hoạt và chuyên môn của đội ngũ kỹ sư mô hình, các bản vá tối ưu được triển khai nhanh theo từng giờ
Chỉ trong vài giờ viết bài, nhóm đã tăng thêm 100 token mỗi giây và giữ 100% thời gian hoạt động

Thực hiện kiểm thử và benchmarking trên nhiều khung suy luận như TensorRT-LLM, vLLM, SGLang
Đồng thời đảm bảo tương thích với kiến trúc GPU Hopper và Blackwell
Tích hợp các thành phần chính như Baseten Flexible Inference Stack và NVIDIA Dynamo
Áp dụng các kỹ thuật tối ưu đã được kiểm chứng như KV cache-aware routing và Speculative decoding (dựa trên Eagle)

Dưới đây là các bước quan trọng để cùng lúc đạt hiệu năng SOTA và hỗ trợ toàn bộ cửa sổ ngữ cảnh

Điểm khởi đầu là chạy nhanh baseline inference bằng bất kỳ cách nào
Trên GPU, nhiều kỹ sư đồng thời thử nghiệm vLLM, SGLang, TensorRT-LLM cùng lúc
Thành công triển khai nhanh TensorRT-LLM, khung có hiệu năng tốt nhất
Đảm bảo hỗ trợ TensorRT-LLM trên Hopper (GPU H100 nhiều nhất) và Blackwell (B200 nhanh hơn)
Nhờ sự linh hoạt của Baseten Inference Runtime, việc thích ứng với kiến trúc mới và thay thế công cụ trong stack diễn ra nhanh chóng

Khi xuất hiện kiến trúc mô hình mới, việc tích hợp framework thường đi kèm với các lỗi tương thích
GPT OSS có thêm các công nghệ mới như định dạng phản hồi Harmony, nên khi tích hợp với framework hiện có đã phát sinh lỗi
Để đồng thời giữ tốc độ và độ chính xác, nhóm đã lặp lại quy trình sửa đổi và kiểm tra, và đóng góp các sửa đổi hiệu quả trở lại mã nguồn mở
Nhờ cộng tác của cộng đồng mã nguồn mở toàn cầu, nhiều đường đi tối ưu hóa và bản vá lỗi được thực hiện rất nhanh

OpenAI công bố GPT OSS 120B hoạt động trên một H100, nhưng trên thực tế song song hóa trên 4 đến 8 GPU mang lại hiệu năng tốt hơn
Tensor Parallelism mạnh về độ trễ (latency), còn Expert Parallelism mạnh về thông lượng (throughput) của hệ thống
- Baseten chọn Tensor Parallelism vì mục tiêu tối ưu hóa độ trễ
Trên Blackwell, áp dụng TensorRT-LLM MoE Backend để cải thiện hiệu năng nhân CUDA so với backend Triton trước đây
Đã công bố cấu hình tối ưu cho môi trường Hopper và Blackwell, và trong Model API đã chọn cấu hình dựa trên Blackwell

Mặc dù lần tối ưu đầu tiên đã đạt mức SOTA về thông lượng và độ trễ, vẫn còn nhiều dư địa cải thiện
Cập nhật lớn tiếp theo dự kiến là triển khai Speculative Decoding
- Cách tiếp cận này để một mô hình “draft” nhỏ và nhanh hơn tạo ra token dự đoán, rồi mô hình chính sẽ xác thực
- Baseten khuyến nghị Eagle 3, nhưng vận hành linh hoạt hơn 10 thuật toán trong stack suy luận theo tình huống
Speculative decoding cho phép suy luận nhiều token cùng lúc để nâng tốc độ một cách hiệu quả