Dự án mã đánh giá mô hình RAG nhẹ và hiệu quả

(github.com/instructkr)

2 điểm bởi sigridjineth 2024-12-30 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Retriever Simple Benchmark đang được xây dựng với mục tiêu trở thành một dự án benchmark nhẹ và hiệu quả được thiết kế để đánh giá reranker cần thiết cho RAG.
Tôi tạo ra nó vì bản thân cần dùng, và đang phát triển nó dưới dạng mã nguồn mở.

Why?

Nhiều phản hồi cho rằng các công cụ benchmark hiện có (ví dụ: MTEB) khó sử dụng vì việc cài đặt phụ thuộc và vận hành khá phiền phức.
Mục tiêu là có thể chạy rất dễ dàng, với số lượng phụ thuộc tối thiểu, một cách nhẹ nhàng, và in ra kết quả ngay lập tức.

Giới thiệu repository

Hiện đang hỗ trợ cross-encoder cho tiếng Hàn, và dự kiến sẽ bổ sung thêm mô hình bi-encoder trong thời gian tới.
Để dự án Python có thể được bảo trì tốt, nó đã được viết lại mới bằng astral-uv.

Cách sử dụng 💻

1️⃣ Thiết lập môi trường

make init

2️⃣ Chạy thử (hiện chỉ hỗ trợ single GPU)

make run TYPE=cross-encoder MODEL_NAME=sigridjineth/ko-reranker-v1.1 MODEL_CLASS=huggingface DATATYPE_NAME=AutoRAG

Kế hoạch sắp tới 📈

Các mô hình sẽ hỗ trợ thêm
- Mô hình bi-encoder dựa trên HuggingFace và FlagEmbedding
Quảng cáo
Các bộ dữ liệu sẽ bổ sung thêm
- Hiện hỗ trợ AutoRAG, dự kiến bổ sung KURE

➡️ Xem dự án trên GitHub
➡️ Discord Instruct Korea