Điểm mù của việc đánh giá LLM: Vì sao chúng ta chỉ nhìn vào ‘kiến thức’ mà không phải ‘hành vi’?

(dev.to)

14 điểm bởi johnonlee 2026-05-27 | 5 bình luận | Chia sẻ qua WhatsApp

• Việc đánh giá LLM vẫn đang dừng ở mức "điểm SAT" — MMLU, HumanEval, SWE-bench đều theo mô hình một phiên làm việc·một đáp án đúng. Trong thực tế, coding agent làm việc qua nhiều phiên, học từ sai lầm và đọc các quy ước sẵn có. Đây không phải vấn đề về kiến thức (knowledge) mà là về hành vi (behavior).

• Khi tuyển người, chúng ta nhìn vào "họ suy nghĩ như thế nào" hơn là bảng điểm — vậy tại sao không làm điều đó với đánh giá LLM? Hiện tại, chúng ta vẫn đang mắc kẹt ở giai đoạn "kiểm tra GPA", nơi mọi mô hình đều đạt mức bách phân vị 90.

• Cùng sửa một lỗi nhưng cách tiếp cận có thể hoàn toàn khác — Model A dùng grep và vá lỗi trong 30 giây (kiểu tạo mẫu nhanh), Model B chia nhỏ thành các tác vụ con rồi tiếp cận có hệ thống (kiểu kiến trúc), Model C học tiền lệ từ git log rồi mới sửa (kiểu bảo trì). Cả ba đều sửa được lỗi. Điểm số như nhau. Nhưng mức độ phù hợp với vai trò thì hoàn toàn khác.

• Đề xuất 4 chiều quan sát hành vi — Decomposition (có phân rã vấn đề hay thực thi ngay), Approach (tìm mẫu hay suy luận từ nguyên lý), Recovery (khi bị chặn thì đổi chiến lược hay cứ tiếp tục ép tới), Consistency (có thể hiện cùng một cách tiếp cận với các vấn đề tương tự hay không).

Đánh giá kiến thức vs đánh giá hành vi

Benchmark hiện có	Đo lường điều gì	Bỏ sót điều gì
MMLU	Mức độ ghi nhớ kiến thức	Năng lực phán đoán khi áp dụng, "nhận thức về điều mình không biết"
HumanEval	Tỷ lệ vượt qua ở lần thử đầu	Quá trình debug, lặp lại, thích nghi
SWE-bench	Bản vá có vượt qua kiểm thử hay không	Đường đi tiếp cận, hiểu biết về kiến trúc, học hỏi xuyên phiên

Năm 2026, câu hỏi thực sự cần đặt ra

Giờ đây khi coding agent đã trở thành công cụ thực tế cho đội ngũ chứ không còn chỉ là bản demo, câu hỏi chúng ta cần đặt ra không phải là "được bao nhiêu điểm":

"Mô hình nào phù hợp cho bảo trì legacy"
"Phong cách debug nào phù hợp với pair programming cho junior"
"Mô hình nào thể hiện hành vi dễ dự đoán nhất theo từng tuần"

Đây là những câu hỏi về độ phù hợp với vai trò. Là những câu hỏi tuyển dụng. Nhưng chúng ta vẫn đang trả lời bằng điểm SAT.

Bài viết không đưa ra framework như một thứ đã hoàn chỉnh. Tác giả chủ động để ngỏ 4 giả định với thái độ "nếu tôi sai, hãy sửa cho tôi" và khuyến khích thảo luận trong phần bình luận. Bài báo "In-Situ Behavioral Evaluation for LLM Fairness" của Tang et al. vào tháng 4/2026 cũng đưa ra định hướng tương tự.

5 bình luận

husky81 2026-05-28

Nghĩ lại thì kỳ thi đại học dùng để đánh giá con người cũng đang chỉ nhìn vào kiến thức chứ không phải hành vi.

cronex 2026-05-27

Nếu nó duy trì một mẫu nhất quán thì còn đỡ, nhưng mỗi lần dùng lại khác nên tôi cũng không biết phải đánh giá thế nào.

johnonlee 2026-05-27

Đúng vậy. Dù không có đáp án tuyệt đối, nhưng có vẻ cũng cần thử nhìn theo hướng này một lần. Hiện tại chúng ta đang để một mô hình xử lý công việc từ đầu đến cuối, nhưng tôi nghĩ ngày mai có thể sẽ chuyển sang kiểu ở từng giai đoạn trung gian, mỗi mô hình chỉ đảm nhận những mảng mà nó làm tốt nhất. Ai cũng có thể học chăm chỉ để đạt tới mức kiến thức khá tương đồng, nhưng tùy theo mẫu hành vi mà kết quả đầu ra có thể khác nhau.

b8g6pn 2026-05-27

Có phải nên đánh giá bằng lượng token và mức độ hoàn thành không, vì vốn không có đáp án đúng tuyệt đối, tiêu chí của con người cũng khó chính xác, mà điều quan trọng là dùng ít tài nguyên? Nếu còn can thiệp cả vào phương pháp thì đúng là rất khó...

aliveornot 2026-05-27

Không hẳn là sai, nhưng có đáp án nào không. Ngay cả trong tuyển dụng thực tế cũng khó chấm điểm chuyện đó, nên người ta cũng phải tuyển về dùng thử rồi cắt giảm thôi... giống như đang dùng mô hình AI rồi lại thay thế vậy

Điểm mù của việc đánh giá LLM: Vì sao chúng ta chỉ nhìn vào ‘kiến thức’ mà không phải ‘hành vi’?

Đánh giá kiến thức vs đánh giá hành vi

Năm 2026, câu hỏi thực sự cần đặt ra

Bài viết liên quan

5 bình luận