- Một nghiên cứu quy mô lớn do Viện Internet Oxford (OII) chủ trì với sự tham gia của 42 nhà nghiên cứu trên toàn thế giới đã xác nhận rằng các benchmark dùng để đánh giá mô hình ngôn ngữ lớn (LLM) còn thiếu tính chặt chẽ về mặt khoa học
- Kết quả rà soát 445 benchmark AI cho thấy hơn một nửa có định nghĩa khái niệm không rõ ràng hoặc phương pháp phân tích yếu, tạo nên cấu trúc khiến việc rút ra kết luận đáng tin cậy trở nên khó khăn
- Trong số các nghiên cứu được xem xét, chỉ 16% sử dụng phương pháp thống kê, và nhiều trường hợp không định nghĩa rõ các khái niệm trừu tượng như “suy luận” hay “tính vô hại”
- Nhóm nghiên cứu đã đưa ra 8 khuyến nghị cải thiện, bao gồm làm rõ định nghĩa, đánh giá có tính đại diện, tăng cường phân tích thống kê, đồng thời công bố công cụ Construct Validity Checklist để hỗ trợ việc này
- Việc bảo đảm tính hợp lệ khoa học của các benchmark AI đang nổi lên như một nhiệm vụ cốt lõi đối với sự phát triển công nghệ AI và độ tin cậy của quy định quản lý
Tổng quan nghiên cứu
- Đây là nghiên cứu do Viện Internet Oxford (OII) dẫn dắt, với sự tham gia của các tổ chức lớn như EPFL, Stanford, TUM, UC Berkeley, Yale
- Tên bài báo là Measuring What Matters: Construct Validity in Large Language Model Benchmarks và dự kiến sẽ được trình bày tại hội nghị NeurIPS 2025
- Nghiên cứu đã rà soát có hệ thống 445 benchmark AI để phân tích tính hợp lệ khoa học của các tiêu chí đánh giá
Phát hiện chính
- Thiếu tính chặt chẽ về thống kê: chỉ 16% nghiên cứu được xem xét sử dụng phương pháp so sánh thống kê
- Có khả năng các tuyên bố về chênh lệch hiệu năng hoặc ưu thế giữa các mô hình chỉ là kết quả ngẫu nhiên
- Định nghĩa mơ hồ hoặc gây tranh cãi: khoảng một nửa số benchmark không định nghĩa rõ các khái niệm trừu tượng như “suy luận”, “tính vô hại”
- Việc thiếu định nghĩa khái niệm rõ ràng dẫn đến sự không khớp giữa mục tiêu đánh giá và thứ thực sự được đo lường
Các trường hợp vấn đề
- Nhầm lẫn giữa quy tắc hình thức: nếu một mô hình giải đúng một câu đố logic đơn giản nhưng bị yêu cầu nộp câu trả lời theo định dạng phức tạp, nó vẫn có thể bị tính là thất bại vì lỗi định dạng
- Hiệu năng mong manh: có những trường hợp mô hình làm tốt với bài toán toán học đơn giản nhưng lại thất bại khi chỉ thay đổi nhẹ con số hoặc cấu trúc câu
- Tuyên bố thiếu cơ sở: việc đạt điểm cao trong các bài thi y khoa có thể khiến người ta hiểu lầm rằng mô hình có trình độ chuyên môn ở mức bác sĩ
Khuyến nghị cải thiện
- Nhóm nghiên cứu cho rằng có thể giải quyết vấn đề này và đã đưa ra 8 khuyến nghị tham chiếu từ phương pháp luận kiểm chứng trong tâm trắc học và y học
- Định nghĩa và cô lập (Define and isolate): định nghĩa rõ khái niệm cần đo lường và kiểm soát các yếu tố không liên quan
- Xây dựng đánh giá có tính đại diện (Build representative evaluations): phản ánh môi trường thực tế và bao quát toàn bộ phạm vi kỹ năng mục tiêu
- Tăng cường phân tích (Strengthen analysis and justification): báo cáo mức độ bất định thống kê, thực hiện phân tích lỗi và đưa ra căn cứ về tính hợp lệ của benchmark
- Thông qua Construct Validity Checklist, nhà nghiên cứu, nhà phát triển và cơ quan quản lý có thể kiểm tra trước tính hợp lệ trong thiết kế benchmark
Ý nghĩa của nghiên cứu
- Benchmark là công cụ cốt lõi quyết định định hướng nghiên cứu AI, cạnh tranh giữa các mô hình, cũng như tiêu chuẩn chính sách và quản lý
- Các benchmark có nền tảng khoa học yếu có thể làm phát sinh nhận thức sai lệch về hiệu năng và mức độ an toàn của AI
- Nghiên cứu này được xem như một mô hình hợp tác quốc tế nhằm bảo đảm độ tin cậy cho đánh giá AI
Thông tin khác
- Bài báo dự kiến được trình bày tại NeurIPS 2025 từ ngày 2 đến 7 tháng 12 năm 2025
- Nghiên cứu nhận được hỗ trợ từ nhiều tổ chức như học bổng Clarendon, ESRC, EPSRC, Meta LLM Evaluation Research Grant
- Trong 25 năm qua, OII là tổ chức nghiên cứu tác động xã hội của các công nghệ mới như trí tuệ nhân tạo, nền tảng số, hệ thống tự trị
1 bình luận
Ý kiến Hacker News
Tôi phụ trách benchmark LLM và đánh giá bởi con người tại một viện nghiên cứu
Nói thật thì hiện giờ lĩnh vực này đúng kiểu miền vô pháp. Không có giải pháp tử tế nào, mà các nhà nghiên cứu cũng không muốn chỉ chăm chăm vào benchmarking
Rốt cuộc ở cấp độ sản phẩm, A/B test truyền thống vẫn là cách thực tế nhất. Vì có thể đo các chỉ số trực tiếp trên quy mô lớn
Tất nhiên cũng có kiểu như ‘benchmarketing’, nhưng phần lớn mọi người thực sự muốn tạo ra benchmark tốt. Chỉ là việc đó quá khó hoặc bất khả thi mà thôi
Dù có các chỉ số đo lường rõ ràng, cách xử lý thống kê vẫn rất kém. Phần lớn chỉ so chênh lệch trung bình, còn việc tính p-value cũng không đáng tin
Hơn nữa, gần như chẳng có tương quan với hiệu năng workload thực tế. Thí nghiệm production quá nhiều nhiễu nên rất dễ bỏ sót tổn thất
Bên AI còn tệ hơn. Đối tượng đo lường thì mơ hồ, lại có động cơ đo nhiễu phục vụ giá cổ phiếu. Trong tình huống như vậy, việc benchmark LLM tệ là điều đương nhiên
B có thể chỉ đơn giản tăng điểm bằng cách ‘đánh lừa con người’. Trường hợp 4o của OpenAI là ví dụ tiêu biểu
Nếu nhìn rộng lượng hơn, thì vấn đề là rất khó benchmark chính bản thân trí tuệ. Ngay cả mức độ phù hợp công việc của con người cũng khó đánh giá bằng câu hỏi chuẩn hóa, AI lại càng như vậy hơn
Tôi làm trong lĩnh vực TTS(Text-to-Speech), và ở đây còn hỗn loạn hơn cả LLM
Demo thì hoàn hảo, nhưng khi sinh hàng trăm phút âm thanh thì cứ liên tục xuất hiện trôi mức âm lượng, thay đổi tốc độ, lỗi phát âm
Vấn đề lớn nhất là không có benchmark tiêu chuẩn cho tổng hợp giọng nói dài hạn.
Tôi đã tổng hợp các tiêu chí đề xuất cho việc này trong Death of Demo
Tôi đã viết về dự án Humanity’s Last Exam
Đây là cách crowdsource các câu hỏi khó từ chuyên gia trên toàn thế giới để kiểm tra mô hình AI
Điều thú vị là có những câu hỏi dễ với con người nhưng vẫn khó với AI
Cuối cùng tôi cho rằng tương lai của huấn luyện AI phụ thuộc vào trải nghiệm trong thế giới thực (meatspace) và chú giải suy luận
Tôi nghĩ benchmark giống như điểm SAT. Không dự đoán hoàn hảo, nhưng vẫn dùng được như một tín hiệu tương đối
LLM đang tiến bộ theo hướng có ý nghĩa, và benchmark phần nào cũng phản ánh điều đó
Mắt xích yếu nhất trong cơn sốt LLM hiện nay là benchmark
Việc so sánh giữa các mô hình gần như là một mớ hỗn loạn ở mức giả khoa học.
Tôi có dùng bảng xếp hạng LMArena, nhưng kết quả giữa các mô hình khác nhau theo cách không thể giải thích nổi
Prompt bị gắn rất chặt với phiên bản mô hình, nên thứ chạy tốt trên GPT-4 lại hỏng trên GPT-5
Vì vậy dạo này tôi nghiêng sang việc cứ dùng Gemini
Kiểu tinh chỉnh dựa trên phản hồi này làm trầm trọng thêm vấn đề quá tự tin của LLM
Nhưng người dùng không muốn tự đánh giá mà muốn xếp hạng kiểu leaderboard
Cũng có cách dùng LLM làm giám khảo, nhưng như vậy vẫn có gì đó sai sai.
Rốt cuộc vẫn cần đánh giá dựa trên reviewer chuyên gia, nhưng chi phí rất cao
Ở cấp độ từng lập trình viên, giải pháp là tự tạo benchmark
Hãy tạo bài test dựa trên những bài toán code mà chính mình đã giải, rồi kiểm tra các chỉ số như tok/s hay TTFT
Cuối cùng thì cách đánh giá thực tế nhất vẫn là người dùng tự trực tiếp dùng thử
Có người lấy ví dụ các bài AIME không dùng máy tính, cho rằng benchmark chỉ xử lý số nhỏ thì không phản ánh năng lực thực tế
Nhưng tôi lại cho rằng việc mô hình học được mẹo làm bài như con người cũng là một dạng tiến bộ. Nó gần với suy luận kiểu con người hơn
Tôi muốn có đánh giá không bị game hóa. Hiện giờ nó chỉ ở mức tự động hoàn thành thông minh mà thôi
Có đề xuất là chúng ta nên tạo một Git repo tập hợp các bug khó chịu để test LLM
Ví dụ, đã thử bug Yjs/CRDT với Claude Code, GPT5-codex, GLM-4.6 nhưng cuối cùng chỉ giải quyết vòng vo được thôi
Chỉ đến khi gửi log frontend về backend để AI xem theo thời gian thực thì mới có tiến triển
Vì nếu công khai thì nó sẽ bị hút vào dữ liệu huấn luyện và mất giá trị.
Việc duy trì benchmark cá nhân như vậy giúp nhìn tốc độ tiến bộ thực tế của mô hình một cách tỉnh táo hơn nhiều
Suy cho cùng, benchmark chỉ là đặc tả trong một ngữ cảnh cụ thể. Nó chỉ cho thấy code hoạt động tốt trong một tình huống nhất định, chứ không đảm bảo cho mọi trường hợp
Áp dụng vào LLM thì sẽ thành: “benchmark chỉ cho thấy những tác vụ có thể làm được, chứ không thể chứng minh tác vụ nào là bất khả thi”
Nghiên cứu lần này đã xem xét 445 benchmark, và nói rằng phần lớn đều thiếu độ giá trị cấu trúc
Muốn đo trí thông minh thật sự thì phải đánh giá tính mới (novelty).
Việc giải các mẫu tương tự với những gì đã thấy chỉ là ghi nhớ đơn thuần
Nhưng gần như không thể tạo ra vấn đề hoàn toàn mới mà vẫn tránh được hàng trăm petabyte dữ liệu huấn luyện
Vì thế mới xuất hiện ảo giác về trí tuệ
Trên thực tế tồn tại vô số vùng xám giữa hai khái niệm này.
Ngay cả vấn đề hoàn toàn mới cũng vẫn cần một mức độ tương đồng nào đó thì mới có thể giải được