Điểm mù của việc đánh giá LLM: Vì sao chúng ta chỉ nhìn vào ‘kiến thức’ mà không phải ‘hành vi’?
(dev.to)• Việc đánh giá LLM vẫn đang dừng ở mức "điểm SAT" — MMLU, HumanEval, SWE-bench đều theo mô hình một phiên làm việc·một đáp án đúng. Trong thực tế, coding agent làm việc qua nhiều phiên, học từ sai lầm và đọc các quy ước sẵn có. Đây không phải vấn đề về kiến thức (knowledge) mà là về hành vi (behavior).
• Khi tuyển người, chúng ta nhìn vào "họ suy nghĩ như thế nào" hơn là bảng điểm — vậy tại sao không làm điều đó với đánh giá LLM? Hiện tại, chúng ta vẫn đang mắc kẹt ở giai đoạn "kiểm tra GPA", nơi mọi mô hình đều đạt mức bách phân vị 90.
• Cùng sửa một lỗi nhưng cách tiếp cận có thể hoàn toàn khác — Model A dùng grep và vá lỗi trong 30 giây (kiểu tạo mẫu nhanh), Model B chia nhỏ thành các tác vụ con rồi tiếp cận có hệ thống (kiểu kiến trúc), Model C học tiền lệ từ git log rồi mới sửa (kiểu bảo trì). Cả ba đều sửa được lỗi. Điểm số như nhau. Nhưng mức độ phù hợp với vai trò thì hoàn toàn khác.
• Đề xuất 4 chiều quan sát hành vi — Decomposition (có phân rã vấn đề hay thực thi ngay), Approach (tìm mẫu hay suy luận từ nguyên lý), Recovery (khi bị chặn thì đổi chiến lược hay cứ tiếp tục ép tới), Consistency (có thể hiện cùng một cách tiếp cận với các vấn đề tương tự hay không).
Đánh giá kiến thức vs đánh giá hành vi
| Benchmark hiện có | Đo lường điều gì | Bỏ sót điều gì |
|---|---|---|
| MMLU | Mức độ ghi nhớ kiến thức | Năng lực phán đoán khi áp dụng, "nhận thức về điều mình không biết" |
| HumanEval | Tỷ lệ vượt qua ở lần thử đầu | Quá trình debug, lặp lại, thích nghi |
| SWE-bench | Bản vá có vượt qua kiểm thử hay không | Đường đi tiếp cận, hiểu biết về kiến trúc, học hỏi xuyên phiên |
Năm 2026, câu hỏi thực sự cần đặt ra
Giờ đây khi coding agent đã trở thành công cụ thực tế cho đội ngũ chứ không còn chỉ là bản demo, câu hỏi chúng ta cần đặt ra không phải là "được bao nhiêu điểm":
- "Mô hình nào phù hợp cho bảo trì legacy"
- "Phong cách debug nào phù hợp với pair programming cho junior"
- "Mô hình nào thể hiện hành vi dễ dự đoán nhất theo từng tuần"
Đây là những câu hỏi về độ phù hợp với vai trò. Là những câu hỏi tuyển dụng. Nhưng chúng ta vẫn đang trả lời bằng điểm SAT.
Bài viết không đưa ra framework như một thứ đã hoàn chỉnh. Tác giả chủ động để ngỏ 4 giả định với thái độ "nếu tôi sai, hãy sửa cho tôi" và khuyến khích thảo luận trong phần bình luận. Bài báo "In-Situ Behavioral Evaluation for LLM Fairness" của Tang et al. vào tháng 4/2026 cũng đưa ra định hướng tương tự.
Chưa có bình luận nào.