DeepEval - Kiểm thử đơn vị cho LLM
(github.com/mr-gpt)- Triết lý cốt lõi là "Pytest for LLM"
- Để chuyển sang production, cung cấp một cách đậm chất Python để chạy đánh giá offline cho pipeline LLM
- Có thể viết bài kiểm thử cho ứng dụng LLM (như RAG) giống như cách viết unit test Python
- Thông qua
assert_llm_output, đánh giá câu trả lời bằng các metric như entailment / exact / bertscore - Cũng có thể thiết lập metric tùy chỉnh và chỉnh sửa các metric hiện có
Chưa có bình luận nào.