- Cổng AI nhẹ tương tự LiteLLM; là một binary Go duy nhất nên image container gọn nhẹ và cold start nhanh
- Tích hợp 11 nhà cung cấp như OpenAI, Anthropic, Gemini, Groq, xAI vào một API tương thích OpenAI duy nhất
- Chỉ cần truyền API key qua biến môi trường vào một container Docker là có thể dùng ngay nhờ tự động phát hiện nhà cung cấp
- Hỗ trợ toàn bộ endpoint OpenAI API như
/v1/chat/completions (streaming), /v1/responses, /v1/embeddings, /v1/models, /v1/files, /v1/batches
- Cũng cung cấp
/p/{provider}/... cho native API passthrough, chuyển tiếp nguyên trạng phản hồi từ upstream (có thể dùng ngay cả những tính năng gateway chưa hỗ trợ)
- Tích hợp sẵn bộ nhớ đệm phản hồi 2 tầng
- Layer 1: cache khớp chính xác dựa trên hash của phần thân request (tra cứu dưới mili giây)
- Layer 2: semantic cache dựa trên tìm kiếm KNN của vector embedding (tỷ lệ hit 60~70% với workload lặp lại cao)
- Hỗ trợ Qdrant, pgvector, Pinecone, Weaviate làm vector backend
- Tích hợp sẵn giao diện dashboard quản trị để xem mức sử dụng token, theo dõi chi phí, audit log, trạng thái nhà cung cấp, model override, v.v.
- Tích hợp các tính năng quan sát như Prometheus metrics, audit logging, guardrail pipeline (mỗi tính năng có thể bật bằng biến môi trường)
- Dùng
GOMODEL_MASTER_KEY để xác thực API; có thể chọn SQLite, PostgreSQL hoặc MongoDB làm storage backend
- Cũng hỗ trợ đăng ký nhiều instance của cùng một nhà cung cấp bằng các biến môi trường có hậu tố (ví dụ:
OPENAI_EAST_API_KEY)
- Có thể chọn SQLite (mặc định), PostgreSQL hoặc MongoDB làm storage backend, nên quy mô nhỏ có thể dùng ngay sau khi cài đặt, còn quy mô lớn chỉ cần thay DB là mở rộng được
- Roadmap 0.2.0: dự kiến có intelligent routing, bổ sung DeepSeek V3·Cohere, quản lý ngân sách theo user_path, cluster mode, v.v.
- Giấy phép MIT
1 bình luận
Có vẻ đây là một lựa chọn thay thế gọn nhẹ đáng để các công ty đang muốn triển khai LiteLLM cân nhắc thử.
Vì LiteLLM dựa trên Python từng một lần bị tấn công chuỗi cung ứng trước đây, nên cũng có cảm giác rằng Go tương đối an toàn hơn.