7 điểm bởi GN⁺ 2025-08-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • GPT-OSS-120B, LLM mã nguồn mở của OpenAI, được tối ưu để đạt hiệu năng xử lý hơn 500 token mỗi giây trên môi trường GPU của NVIDIA
  • Thực hiện kiểm thử song song trên nhiều khung suy luận như TensorRT-LLM, vLLM, SGLang và hỗ trợ cả kiến trúc Hopper và Blackwell
  • Sửa lỗi tương thích, tích hợp định dạng phản hồi mới như Harmony và áp dụng các tối ưu hóa như định tuyến nhận biết KV cache và giải mã dự đoán dựa trên Eagle
  • So sánh tensor parallelismexpert parallelism, chọn tensor parallelism để giảm độ trễ và dùng backend TensorRT-LLM MoE trên Blackwell
  • Dự kiến sẽ tiếp tục tối ưu thêm trong tương lai, bao gồm cả Speculative Decoding (giải mã dự đoán) với mô hình dự thảo nhỏ

Tổng quan

  • Khi GPT-OSS-120B, mô hình ngôn ngữ lớn mã nguồn mở mới nhất của OpenAI, được công bố, Baseten đặt mục tiêu đạt hiệu năng tốt nhất
    • Baseten là đối tác khởi chạy chính thức của OpenAI
  • Dựa trên dữ liệu người dùng thực tế từ OpenRouter, Baseten đã chứng minh hiệu năng vượt trội hơn đối thủ trong môi trường dựa trên GPU NVIDIA
  • Với stack suy luận linh hoạt và chuyên môn của đội ngũ kỹ sư mô hình, các bản vá tối ưu được triển khai nhanh theo từng giờ
  • Chỉ trong vài giờ viết bài, nhóm đã tăng thêm 100 token mỗi giây và giữ 100% thời gian hoạt động

Nỗ lực tối ưu hiệu năng

  • Thực hiện kiểm thử và benchmarking trên nhiều khung suy luận như TensorRT-LLM, vLLM, SGLang
  • Đồng thời đảm bảo tương thích với kiến trúc GPU HopperBlackwell
  • Tích hợp các thành phần chính như Baseten Flexible Inference Stack và NVIDIA Dynamo
  • Áp dụng các kỹ thuật tối ưu đã được kiểm chứng như KV cache-aware routingSpeculative decoding (dựa trên Eagle)

Dưới đây là các bước quan trọng để cùng lúc đạt hiệu năng SOTA và hỗ trợ toàn bộ cửa sổ ngữ cảnh

Bước 1: Thực thi suy luận ban đầu

  • Điểm khởi đầu là chạy nhanh baseline inference bằng bất kỳ cách nào
  • Trên GPU, nhiều kỹ sư đồng thời thử nghiệm vLLM, SGLang, TensorRT-LLM cùng lúc
  • Thành công triển khai nhanh TensorRT-LLM, khung có hiệu năng tốt nhất
  • Đảm bảo hỗ trợ TensorRT-LLM trên Hopper (GPU H100 nhiều nhất) và Blackwell (B200 nhanh hơn)
  • Nhờ sự linh hoạt của Baseten Inference Runtime, việc thích ứng với kiến trúc mới và thay thế công cụ trong stack diễn ra nhanh chóng

Bước 2: Sửa lỗi tương thích

  • Khi xuất hiện kiến trúc mô hình mới, việc tích hợp framework thường đi kèm với các lỗi tương thích
  • GPT OSS có thêm các công nghệ mới như định dạng phản hồi Harmony, nên khi tích hợp với framework hiện có đã phát sinh lỗi
  • Để đồng thời giữ tốc độ và độ chính xác, nhóm đã lặp lại quy trình sửa đổi và kiểm tra, và đóng góp các sửa đổi hiệu quả trở lại mã nguồn mở
  • Nhờ cộng tác của cộng đồng mã nguồn mở toàn cầu, nhiều đường đi tối ưu hóa và bản vá lỗi được thực hiện rất nhanh

Bước 3: Tối ưu cấu hình mô hình

  • OpenAI công bố GPT OSS 120B hoạt động trên một H100, nhưng trên thực tế song song hóa trên 4 đến 8 GPU mang lại hiệu năng tốt hơn
  • Tensor Parallelism mạnh về độ trễ (latency), còn Expert Parallelism mạnh về thông lượng (throughput) của hệ thống
    • Baseten chọn Tensor Parallelism vì mục tiêu tối ưu hóa độ trễ
  • Trên Blackwell, áp dụng TensorRT-LLM MoE Backend để cải thiện hiệu năng nhân CUDA so với backend Triton trước đây
  • Đã công bố cấu hình tối ưu cho môi trường Hopper và Blackwell, và trong Model API đã chọn cấu hình dựa trên Blackwell

Tối ưu hiệu năng thêm

  • Mặc dù lần tối ưu đầu tiên đã đạt mức SOTA về thông lượng và độ trễ, vẫn còn nhiều dư địa cải thiện
  • Cập nhật lớn tiếp theo dự kiến là triển khai Speculative Decoding
    • Cách tiếp cận này để một mô hình “draft” nhỏ và nhanh hơn tạo ra token dự đoán, rồi mô hình chính sẽ xác thực
    • Baseten khuyến nghị Eagle 3, nhưng vận hành linh hoạt hơn 10 thuật toán trong stack suy luận theo tình huống
  • Speculative decoding cho phép suy luận nhiều token cùng lúc để nâng tốc độ một cách hiệu quả

Chưa có bình luận nào.

Chưa có bình luận nào.