Cách đánh giá một hệ thống LLM

(thoughtworks.com)

19 điểm bởi GN⁺ 2025-04-03 | 1 bình luận | Chia sẻ qua WhatsApp

Các ứng dụng dựa trên LLM (mô hình ngôn ngữ lớn) khó được đánh giá phù hợp bằng các phương pháp kiểm thử truyền thống do đặc tính đầu ra phi định tính
Vì vậy, để duy trì và cải thiện hiệu năng của hệ thống LLM, phương pháp đánh giá chuyên dụng (evals) là điều bắt buộc

Vì sao eval quan trọng

Thiết lập tiêu chuẩn hiệu năng: cung cấp định hướng cho hiệu năng mô hình và thiết lập benchmark có thể so sánh
Đảm bảo tính nhất quán và độ tin cậy: phát hiện và kiểm soát trước các đầu ra khó đoán
Cung cấp hướng cải thiện: xác định rõ các điểm suy giảm hiệu năng để có thể cải thiện có mục tiêu
Cho phép kiểm thử hồi quy: xác nhận hiệu năng vẫn được duy trì sau thay đổi để bảo đảm tính ổn định

Các yếu tố cốt lõi của đánh giá trước khi triển khai

Vì sao đánh giá trước triển khai quan trọng

Có thể đo lường hiệu năng sớm và so sánh được
Có thể phát hiện sớm các vấn đề hồi quy khi mã, prompt hoặc tham số thay đổi

Cách thực hiện đánh giá

1. Tạo bộ dữ liệu Ground Truth

Cần một bộ dữ liệu gồm các cặp câu hỏi - câu trả lời do chuyên gia xây dựng
Điều quan trọng là bao gồm nhiều kịch bản đa dạng phản ánh các loại câu hỏi thực tế của người dùng

LLM có thể tạo Ground Truth không?

LLM có thể đóng vai trò hỗ trợ, nhưng không khuyến nghị dùng để tự tạo hoàn toàn
- Thiếu hiểu biết về hành vi người dùng
- Các câu hỏi và câu trả lời phù hợp với ngữ cảnh cần có con người rà soát
- Để bảo đảm độ phù hợp với miền và chất lượng, sự thẩm định của con người là bắt buộc

2. Chọn chỉ số đánh giá

Answer relevancy: có cung cấp câu trả lời trực tiếp và có ý nghĩa cho câu hỏi hay không
Coherence: tính mạch lạc logic và độ rõ ràng của phản hồi
Contextual relevance: mức độ cân nhắc tốt ngữ cảnh hội thoại
Responsibility: đầu ra có trách nhiệm hay không, bao gồm tính đạo đức, mức độ gây hại, thiên lệch...

3. Chỉ số đánh giá RAG

Chỉ số tạo sinh:
- Faithfulness: có bám sát sự thật hay không
- Answer relevancy: mức độ phù hợp của phản hồi
Chỉ số truy xuất:
- Context precision: tỷ lệ tín hiệu so với nhiễu trong thông tin liên quan
- Context recall: có truy xuất tốt thông tin cần thiết để tạo đáp án đúng hay không

4. Chỉ số đặc thù theo tác vụ

Cần các chỉ số đánh giá tùy chỉnh phù hợp với từng tác vụ cụ thể
- Ví dụ: với tóm tắt là Fluency, Coherence, Consistency, Relevance
Quảng cáo

5. Tính điểm và tinh chỉnh hệ thống

So sánh đầu ra thực tế với Ground Truth cho từng chỉ số để tính điểm
Ví dụ:
- Recall thấp: giảm chunk size
- Precision thấp: cân nhắc áp dụng reranking
Ví dụ về thư viện đánh giá: DeepEval, Relari-ai

Kỹ thuật đánh giá LLM-as-Judge

Đánh giá không cần Ground Truth dựa trên LLM như GPT-4
Ví dụ: framework G-eval, các bài báo Vicuna, QLoRA
Nhược điểm:
- Một số chỉ số (ví dụ: Context Recall) không thể đo nếu không có Ground Truth
- Về độ chính xác và mức độ chi tiết, đánh giá dựa trên con người vượt trội hơn
Kết luận: kết hợp LLM-as-Judge + Ground Truth là lý tưởng

Cách tích hợp đánh giá vào giai đoạn triển khai

Tích hợp tự động hóa đánh giá vào pipeline triển khai
- Chạy kiểm thử tự động trước khi commit mã hoặc trước khi triển khai
- Ví dụ: dùng Giskard để kiểm thử tự động việc phát hiện nội dung gây hại và hallucination
Quảng cáo
Cũng cần bao gồm kiểm thử cho các bước tiền xử lý và thu thập dữ liệu

Đánh giá sau triển khai và data flywheel

Giám sát trong vận hành

Theo dõi đầu vào/đầu ra theo thời gian thực
Các phiên đánh giá định kỳ với chuyên gia miền
Bảo đảm có kênh tiếp nhận phản hồi từ người dùng

Chiến lược data flywheel

Xây dựng vòng lặp cải tiến liên tục bằng cách tận dụng dữ liệu và phản hồi phát sinh trong quá trình vận hành
- Ví dụ: phân tích mẫu câu hỏi của người dùng → cải thiện phương thức truy xuất
- Điều chỉnh prompt, tham số suy luận, phương thức truy xuất... dựa trên metric
Cũng cần thay đổi chỉ số theo hành vi người dùng và các kịch bản thất bại

Kết luận: chiến lược “Evals First” là cốt lõi của sản phẩm LLM đáng tin cậy

Cần đưa tư duy lấy đánh giá làm trung tâm vào ngay từ giai đoạn đầu phát triển ứng dụng LLM
Cốt lõi là xác định đúng các chỉ số và tiêu chuẩn ngay từ sớm, rồi dùng chúng làm điểm chuẩn cho phát triển và triển khai
Cần đặt đánh giá thành quy trình phát triển cốt lõi chứ không phải hoạt động hậu kiểm, để có thể xây dựng hệ thống AI đáng tin cậy lấy người dùng làm trung tâm

1 bình luận

winterjung 2025-04-03

Theo kinh nghiệm của tôi, và cũng như có thể thấy từ các trường hợp khác như https://blog.lawrencejones.dev/ai-mvp/, các model mới nhất không hẳn lúc nào cũng đảm bảo kết quả tốt hơn. Mỗi khi tinh chỉnh model hoặc prompt thì đều phải evaluation thông qua dataset, nhưng dù LLM có hỗ trợ việc đánh giá đến đâu đi nữa thì việc con người vẫn phải tự tay tạo từng ground truth dataset cho model LLM cũng hơi mỉa mai thật haha