3 điểm bởi GN⁺ 2024-07-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • RouteLLM là một framework để phục vụ và đánh giá bộ định tuyến LLM, được phát triển với sự hợp tác giữa LMSys và Anyscale
  • Tính năng cốt lõi:
    • Thay thế OpenAI client để định tuyến các truy vấn đơn giản sang mô hình chi phí thấp hơn
    • Cung cấp các bộ định tuyến đã được huấn luyện, mở rộng bộ định tuyến mới và so sánh hiệu năng bộ định tuyến trên benchmark

Hỗ trợ mô hình

  • Ngoài GPT-4 và Mixtral 8x7B, có thể sử dụng nhiều tổ hợp mô hình khác nhau bằng cách chỉnh các đối số strong-modelweak-model
  • Hỗ trợ chat completions trên nhiều mô hình mã nguồn mở và mô hình đóng thông qua LiteLLM
  • Cũng có thể sử dụng endpoint tương thích OpenAI
  • Có hướng dẫn cách thiết lập API key cho nhiều nhà cung cấp mô hình khác nhau

Động lực phát triển

  • Khi triển khai các LLM có chi phí và khả năng khác nhau, nếu dùng mô hình mạnh nhất để có phản hồi chất lượng cao thì chi phí sẽ rất lớn, còn nếu dùng mô hình rẻ hơn thì chất lượng có thể giảm
  • Định tuyến LLM cung cấp một giải pháp giúp gửi các truy vấn đơn giản sang mô hình rẻ hơn để giảm chi phí mà vẫn duy trì chất lượng
  • Mỗi yêu cầu đều gắn với một cost threshold dùng để quyết định tradeoff giữa chi phí và chất lượng

Máy chủ

  • RouteLLM cung cấp một máy chủ nhẹ tương thích OpenAI để định tuyến yêu cầu theo nhiều chiến lược định tuyến khác nhau
  • Dùng --routers để chỉ định danh sách bộ định tuyến khả dụng, và --config để chỉ định đường dẫn tệp cấu hình bộ định tuyến
  • Trong đa số trường hợp, khuyến nghị dùng bộ định tuyến mf vừa mạnh vừa gọn nhẹ
  • Client gửi yêu cầu bằng cách chỉ định tên bộ định tuyến và threshold trong trường model

Hiệu chỉnh threshold

  • Threshold dùng trong định tuyến kiểm soát tradeoff giữa chi phí và chất lượng
  • Vì phạm vi threshold có ý nghĩa sẽ khác nhau tùy loại bộ định tuyến và loại truy vấn nhận được, nên nên hiệu chỉnh bằng các truy vấn mẫu và tỷ lệ truy vấn được gửi tới mô hình mạnh
  • Mặc định hỗ trợ hiệu chỉnh threshold dựa trên bộ dữ liệu Chatbot Arena
  • Nên hiệu chỉnh trên bộ dữ liệu tương tự với loại truy vấn thực tế bạn nhận được

Đánh giá

  • RouteLLM cũng bao gồm một framework đánh giá để đo hiệu năng của nhiều chiến lược định tuyến khác nhau trên benchmark
  • Dùng --routers để chỉ định danh sách bộ định tuyến cần đánh giá, và --benchmark để chỉ định benchmark cụ thể cần đánh giá
  • Kết quả đánh giá được in ra console, đồng thời cũng tạo biểu đồ hiệu năng bộ định tuyến
  • Mặc định, cặp mô hình dùng để đánh giá là GPT-4 và Mixtral, và có thể thay đổi bằng các cờ --strong-model--weak-model

Bộ định tuyến

  • RouteLLM cung cấp 4 bộ định tuyến được huấn luyện cho cặp mô hình gpt-4-1106-previewmixtral-8x7b-instruct-v0.1
  • Danh sách bộ định tuyến: mf, sw_ranking, bert, causal_llm, random
  • Các bộ định tuyến này cũng tổng quát hóa tốt sang các cặp mô hình mạnh/yếu khác, nên không cần huấn luyện lại ngay cả khi thay đổi cặp mô hình

Ý kiến của GN⁺

  • RouteLLM có vẻ là một framework hữu ích để sử dụng hiệu quả nhiều LLM khác nhau. Điểm hấp dẫn là có thể giảm chi phí mà vẫn duy trì chất lượng bằng cách định tuyến các truy vấn đơn giản sang mô hình rẻ hơn
  • Việc các bộ định tuyến được cung cấp có khả năng tổng quát hóa tốt trên nhiều cặp mô hình khác nhau cũng là một điểm tốt. Người dùng không cần tự huấn luyện bộ định tuyến
  • Tính năng hiệu chỉnh threshold cũng có vẻ hữu ích. Có thể dùng dữ liệu truy vấn thực tế của người dùng để tìm threshold tối ưu
  • Khung đánh giá cũng là một ưu điểm vì cho phép so sánh dễ dàng hiệu năng của nhiều bộ định tuyến và benchmark khác nhau
  • Tuy vậy, để sử dụng framework này vẫn cần chuẩn bị trước như thiết lập API key cho mô hình mạnh và mô hình yếu. Với người mới bắt đầu, đây có thể là một rào cản nhất định
  • Một dự án khác cung cấp tính năng tương tự là mã nguồn mở Multi-model. Dự án này cung cấp khả năng hợp nhất và định tuyến nhiều mô hình ngôn ngữ qua một API duy nhất

Chưa có bình luận nào.

Chưa có bình luận nào.