19 điểm bởi GN⁺ 2025-04-03 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các ứng dụng dựa trên LLM (mô hình ngôn ngữ lớn) khó được đánh giá phù hợp bằng các phương pháp kiểm thử truyền thống do đặc tính đầu ra phi định tính
  • Vì vậy, để duy trì và cải thiện hiệu năng của hệ thống LLM, phương pháp đánh giá chuyên dụng (evals) là điều bắt buộc

Vì sao eval quan trọng

  • Thiết lập tiêu chuẩn hiệu năng: cung cấp định hướng cho hiệu năng mô hình và thiết lập benchmark có thể so sánh
  • Đảm bảo tính nhất quán và độ tin cậy: phát hiện và kiểm soát trước các đầu ra khó đoán
  • Cung cấp hướng cải thiện: xác định rõ các điểm suy giảm hiệu năng để có thể cải thiện có mục tiêu
  • Cho phép kiểm thử hồi quy: xác nhận hiệu năng vẫn được duy trì sau thay đổi để bảo đảm tính ổn định

Các yếu tố cốt lõi của đánh giá trước khi triển khai

Vì sao đánh giá trước triển khai quan trọng

  • Có thể đo lường hiệu năng sớm và so sánh được
  • Có thể phát hiện sớm các vấn đề hồi quy khi mã, prompt hoặc tham số thay đổi

Cách thực hiện đánh giá

1. Tạo bộ dữ liệu Ground Truth

  • Cần một bộ dữ liệu gồm các cặp câu hỏi - câu trả lời do chuyên gia xây dựng
  • Điều quan trọng là bao gồm nhiều kịch bản đa dạng phản ánh các loại câu hỏi thực tế của người dùng
LLM có thể tạo Ground Truth không?
  • LLM có thể đóng vai trò hỗ trợ, nhưng không khuyến nghị dùng để tự tạo hoàn toàn
    • Thiếu hiểu biết về hành vi người dùng
    • Các câu hỏi và câu trả lời phù hợp với ngữ cảnh cần có con người rà soát
    • Để bảo đảm độ phù hợp với miền và chất lượng, sự thẩm định của con người là bắt buộc

2. Chọn chỉ số đánh giá

  • Answer relevancy: có cung cấp câu trả lời trực tiếp và có ý nghĩa cho câu hỏi hay không
  • Coherence: tính mạch lạc logic và độ rõ ràng của phản hồi
  • Contextual relevance: mức độ cân nhắc tốt ngữ cảnh hội thoại
  • Responsibility: đầu ra có trách nhiệm hay không, bao gồm tính đạo đức, mức độ gây hại, thiên lệch...

3. Chỉ số đánh giá RAG

  • Chỉ số tạo sinh:
    • Faithfulness: có bám sát sự thật hay không
    • Answer relevancy: mức độ phù hợp của phản hồi
  • Chỉ số truy xuất:
    • Context precision: tỷ lệ tín hiệu so với nhiễu trong thông tin liên quan
    • Context recall: có truy xuất tốt thông tin cần thiết để tạo đáp án đúng hay không

4. Chỉ số đặc thù theo tác vụ

  • Cần các chỉ số đánh giá tùy chỉnh phù hợp với từng tác vụ cụ thể
    • Ví dụ: với tóm tắt là Fluency, Coherence, Consistency, Relevance

5. Tính điểm và tinh chỉnh hệ thống

  • So sánh đầu ra thực tế với Ground Truth cho từng chỉ số để tính điểm
  • Ví dụ:
    • Recall thấp: giảm chunk size
    • Precision thấp: cân nhắc áp dụng reranking
  • Ví dụ về thư viện đánh giá: DeepEval, Relari-ai

Kỹ thuật đánh giá LLM-as-Judge

  • Đánh giá không cần Ground Truth dựa trên LLM như GPT-4
  • Ví dụ: framework G-eval, các bài báo Vicuna, QLoRA
  • Nhược điểm:
    • Một số chỉ số (ví dụ: Context Recall) không thể đo nếu không có Ground Truth
    • Về độ chính xác và mức độ chi tiết, đánh giá dựa trên con người vượt trội hơn
  • Kết luận: kết hợp LLM-as-Judge + Ground Truth là lý tưởng

Cách tích hợp đánh giá vào giai đoạn triển khai

  • Tích hợp tự động hóa đánh giá vào pipeline triển khai
    • Chạy kiểm thử tự động trước khi commit mã hoặc trước khi triển khai
    • Ví dụ: dùng Giskard để kiểm thử tự động việc phát hiện nội dung gây hại và hallucination
  • Cũng cần bao gồm kiểm thử cho các bước tiền xử lý và thu thập dữ liệu

Đánh giá sau triển khai và data flywheel

Giám sát trong vận hành

  • Theo dõi đầu vào/đầu ra theo thời gian thực
  • Các phiên đánh giá định kỳ với chuyên gia miền
  • Bảo đảm có kênh tiếp nhận phản hồi từ người dùng

Chiến lược data flywheel

  • Xây dựng vòng lặp cải tiến liên tục bằng cách tận dụng dữ liệu và phản hồi phát sinh trong quá trình vận hành
    • Ví dụ: phân tích mẫu câu hỏi của người dùng → cải thiện phương thức truy xuất
    • Điều chỉnh prompt, tham số suy luận, phương thức truy xuất... dựa trên metric
  • Cũng cần thay đổi chỉ số theo hành vi người dùng và các kịch bản thất bại

Kết luận: chiến lược “Evals First” là cốt lõi của sản phẩm LLM đáng tin cậy

  • Cần đưa tư duy lấy đánh giá làm trung tâm vào ngay từ giai đoạn đầu phát triển ứng dụng LLM
  • Cốt lõi là xác định đúng các chỉ số và tiêu chuẩn ngay từ sớm, rồi dùng chúng làm điểm chuẩn cho phát triển và triển khai
  • Cần đặt đánh giá thành quy trình phát triển cốt lõi chứ không phải hoạt động hậu kiểm, để có thể xây dựng hệ thống AI đáng tin cậy lấy người dùng làm trung tâm

1 bình luận

 
winterjung 2025-04-03

Theo kinh nghiệm của tôi, và cũng như có thể thấy từ các trường hợp khác như https://blog.lawrencejones.dev/ai-mvp/, các model mới nhất không hẳn lúc nào cũng đảm bảo kết quả tốt hơn. Mỗi khi tinh chỉnh model hoặc prompt thì đều phải evaluation thông qua dataset, nhưng dù LLM có hỗ trợ việc đánh giá đến đâu đi nữa thì việc con người vẫn phải tự tay tạo từng ground truth dataset cho model LLM cũng hơi mỉa mai thật haha