RouteLLM - Framework để phục vụ và đánh giá bộ định tuyến LLM

(github.com/lm-sys)

3 điểm bởi GN⁺ 2024-07-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

RouteLLM là một framework để phục vụ và đánh giá bộ định tuyến LLM, được phát triển với sự hợp tác giữa LMSys và Anyscale
Tính năng cốt lõi:
- Thay thế OpenAI client để định tuyến các truy vấn đơn giản sang mô hình chi phí thấp hơn
- Cung cấp các bộ định tuyến đã được huấn luyện, mở rộng bộ định tuyến mới và so sánh hiệu năng bộ định tuyến trên benchmark

Ngoài GPT-4 và Mixtral 8x7B, có thể sử dụng nhiều tổ hợp mô hình khác nhau bằng cách chỉnh các đối số strong-model và weak-model
Hỗ trợ chat completions trên nhiều mô hình mã nguồn mở và mô hình đóng thông qua LiteLLM
Cũng có thể sử dụng endpoint tương thích OpenAI
Có hướng dẫn cách thiết lập API key cho nhiều nhà cung cấp mô hình khác nhau

Động lực phát triển

Khi triển khai các LLM có chi phí và khả năng khác nhau, nếu dùng mô hình mạnh nhất để có phản hồi chất lượng cao thì chi phí sẽ rất lớn, còn nếu dùng mô hình rẻ hơn thì chất lượng có thể giảm
Định tuyến LLM cung cấp một giải pháp giúp gửi các truy vấn đơn giản sang mô hình rẻ hơn để giảm chi phí mà vẫn duy trì chất lượng
Mỗi yêu cầu đều gắn với một cost threshold dùng để quyết định tradeoff giữa chi phí và chất lượng

RouteLLM cung cấp một máy chủ nhẹ tương thích OpenAI để định tuyến yêu cầu theo nhiều chiến lược định tuyến khác nhau
Dùng --routers để chỉ định danh sách bộ định tuyến khả dụng, và --config để chỉ định đường dẫn tệp cấu hình bộ định tuyến
Trong đa số trường hợp, khuyến nghị dùng bộ định tuyến mf vừa mạnh vừa gọn nhẹ
Client gửi yêu cầu bằng cách chỉ định tên bộ định tuyến và threshold trong trường model

Threshold dùng trong định tuyến kiểm soát tradeoff giữa chi phí và chất lượng
Vì phạm vi threshold có ý nghĩa sẽ khác nhau tùy loại bộ định tuyến và loại truy vấn nhận được, nên nên hiệu chỉnh bằng các truy vấn mẫu và tỷ lệ truy vấn được gửi tới mô hình mạnh
Mặc định hỗ trợ hiệu chỉnh threshold dựa trên bộ dữ liệu Chatbot Arena
Nên hiệu chỉnh trên bộ dữ liệu tương tự với loại truy vấn thực tế bạn nhận được

RouteLLM cũng bao gồm một framework đánh giá để đo hiệu năng của nhiều chiến lược định tuyến khác nhau trên benchmark
Dùng --routers để chỉ định danh sách bộ định tuyến cần đánh giá, và --benchmark để chỉ định benchmark cụ thể cần đánh giá
Kết quả đánh giá được in ra console, đồng thời cũng tạo biểu đồ hiệu năng bộ định tuyến
Mặc định, cặp mô hình dùng để đánh giá là GPT-4 và Mixtral, và có thể thay đổi bằng các cờ --strong-model và --weak-model

RouteLLM cung cấp 4 bộ định tuyến được huấn luyện cho cặp mô hình gpt-4-1106-preview và mixtral-8x7b-instruct-v0.1
Danh sách bộ định tuyến: mf, sw_ranking, bert, causal_llm, random
Các bộ định tuyến này cũng tổng quát hóa tốt sang các cặp mô hình mạnh/yếu khác, nên không cần huấn luyện lại ngay cả khi thay đổi cặp mô hình

RouteLLM có vẻ là một framework hữu ích để sử dụng hiệu quả nhiều LLM khác nhau. Điểm hấp dẫn là có thể giảm chi phí mà vẫn duy trì chất lượng bằng cách định tuyến các truy vấn đơn giản sang mô hình rẻ hơn
Việc các bộ định tuyến được cung cấp có khả năng tổng quát hóa tốt trên nhiều cặp mô hình khác nhau cũng là một điểm tốt. Người dùng không cần tự huấn luyện bộ định tuyến
Tính năng hiệu chỉnh threshold cũng có vẻ hữu ích. Có thể dùng dữ liệu truy vấn thực tế của người dùng để tìm threshold tối ưu
Khung đánh giá cũng là một ưu điểm vì cho phép so sánh dễ dàng hiệu năng của nhiều bộ định tuyến và benchmark khác nhau
Tuy vậy, để sử dụng framework này vẫn cần chuẩn bị trước như thiết lập API key cho mô hình mạnh và mô hình yếu. Với người mới bắt đầu, đây có thể là một rào cản nhất định
Một dự án khác cung cấp tính năng tương tự là mã nguồn mở Multi-model. Dự án này cung cấp khả năng hợp nhất và định tuyến nhiều mô hình ngôn ngữ qua một API duy nhất