Nghiên cứu chỉ ra điểm yếu trong cách đánh giá hệ thống AI

(oii.ox.ac.uk)

4 điểm bởi GN⁺ 2025-11-09 | 1 bình luận | Chia sẻ qua WhatsApp

Một nghiên cứu quy mô lớn do Viện Internet Oxford (OII) chủ trì với sự tham gia của 42 nhà nghiên cứu trên toàn thế giới đã xác nhận rằng các benchmark dùng để đánh giá mô hình ngôn ngữ lớn (LLM) còn thiếu tính chặt chẽ về mặt khoa học
Kết quả rà soát 445 benchmark AI cho thấy hơn một nửa có định nghĩa khái niệm không rõ ràng hoặc phương pháp phân tích yếu, tạo nên cấu trúc khiến việc rút ra kết luận đáng tin cậy trở nên khó khăn
Trong số các nghiên cứu được xem xét, chỉ 16% sử dụng phương pháp thống kê, và nhiều trường hợp không định nghĩa rõ các khái niệm trừu tượng như “suy luận” hay “tính vô hại”
Nhóm nghiên cứu đã đưa ra 8 khuyến nghị cải thiện, bao gồm làm rõ định nghĩa, đánh giá có tính đại diện, tăng cường phân tích thống kê, đồng thời công bố công cụ Construct Validity Checklist để hỗ trợ việc này
Việc bảo đảm tính hợp lệ khoa học của các benchmark AI đang nổi lên như một nhiệm vụ cốt lõi đối với sự phát triển công nghệ AI và độ tin cậy của quy định quản lý

Tổng quan nghiên cứu

Đây là nghiên cứu do Viện Internet Oxford (OII) dẫn dắt, với sự tham gia của các tổ chức lớn như EPFL, Stanford, TUM, UC Berkeley, Yale
Tên bài báo là Measuring What Matters: Construct Validity in Large Language Model Benchmarks và dự kiến sẽ được trình bày tại hội nghị NeurIPS 2025
Nghiên cứu đã rà soát có hệ thống 445 benchmark AI để phân tích tính hợp lệ khoa học của các tiêu chí đánh giá

Phát hiện chính

Thiếu tính chặt chẽ về thống kê: chỉ 16% nghiên cứu được xem xét sử dụng phương pháp so sánh thống kê
- Có khả năng các tuyên bố về chênh lệch hiệu năng hoặc ưu thế giữa các mô hình chỉ là kết quả ngẫu nhiên
Định nghĩa mơ hồ hoặc gây tranh cãi: khoảng một nửa số benchmark không định nghĩa rõ các khái niệm trừu tượng như “suy luận”, “tính vô hại”
- Việc thiếu định nghĩa khái niệm rõ ràng dẫn đến sự không khớp giữa mục tiêu đánh giá và thứ thực sự được đo lường

Các trường hợp vấn đề

Nhầm lẫn giữa quy tắc hình thức: nếu một mô hình giải đúng một câu đố logic đơn giản nhưng bị yêu cầu nộp câu trả lời theo định dạng phức tạp, nó vẫn có thể bị tính là thất bại vì lỗi định dạng
Hiệu năng mong manh: có những trường hợp mô hình làm tốt với bài toán toán học đơn giản nhưng lại thất bại khi chỉ thay đổi nhẹ con số hoặc cấu trúc câu
Tuyên bố thiếu cơ sở: việc đạt điểm cao trong các bài thi y khoa có thể khiến người ta hiểu lầm rằng mô hình có trình độ chuyên môn ở mức bác sĩ

Khuyến nghị cải thiện

Nhóm nghiên cứu cho rằng có thể giải quyết vấn đề này và đã đưa ra 8 khuyến nghị tham chiếu từ phương pháp luận kiểm chứng trong tâm trắc học và y học
- Định nghĩa và cô lập (Define and isolate): định nghĩa rõ khái niệm cần đo lường và kiểm soát các yếu tố không liên quan
- Xây dựng đánh giá có tính đại diện (Build representative evaluations): phản ánh môi trường thực tế và bao quát toàn bộ phạm vi kỹ năng mục tiêu
- Tăng cường phân tích (Strengthen analysis and justification): báo cáo mức độ bất định thống kê, thực hiện phân tích lỗi và đưa ra căn cứ về tính hợp lệ của benchmark
Thông qua Construct Validity Checklist, nhà nghiên cứu, nhà phát triển và cơ quan quản lý có thể kiểm tra trước tính hợp lệ trong thiết kế benchmark

Ý nghĩa của nghiên cứu

Benchmark là công cụ cốt lõi quyết định định hướng nghiên cứu AI, cạnh tranh giữa các mô hình, cũng như tiêu chuẩn chính sách và quản lý
Các benchmark có nền tảng khoa học yếu có thể làm phát sinh nhận thức sai lệch về hiệu năng và mức độ an toàn của AI
Nghiên cứu này được xem như một mô hình hợp tác quốc tế nhằm bảo đảm độ tin cậy cho đánh giá AI

Thông tin khác

Bài báo dự kiến được trình bày tại NeurIPS 2025 từ ngày 2 đến 7 tháng 12 năm 2025
Nghiên cứu nhận được hỗ trợ từ nhiều tổ chức như học bổng Clarendon, ESRC, EPSRC, Meta LLM Evaluation Research Grant
Trong 25 năm qua, OII là tổ chức nghiên cứu tác động xã hội của các công nghệ mới như trí tuệ nhân tạo, nền tảng số, hệ thống tự trị

1 bình luận

GN⁺ 2025-11-09

Ý kiến Hacker News

Tôi phụ trách benchmark LLM và đánh giá bởi con người tại một viện nghiên cứu
Nói thật thì hiện giờ lĩnh vực này đúng kiểu miền vô pháp. Không có giải pháp tử tế nào, mà các nhà nghiên cứu cũng không muốn chỉ chăm chăm vào benchmarking
Rốt cuộc ở cấp độ sản phẩm, A/B test truyền thống vẫn là cách thực tế nhất. Vì có thể đo các chỉ số trực tiếp trên quy mô lớn
Tất nhiên cũng có kiểu như ‘benchmarketing’, nhưng phần lớn mọi người thực sự muốn tạo ra benchmark tốt. Chỉ là việc đó quá khó hoặc bất khả thi mà thôi
- Tôi làm hạ tầng nền tảng tại một hyperscaler, và benchmark trong lĩnh vực của chúng tôi cũng tệ hại
  Dù có các chỉ số đo lường rõ ràng, cách xử lý thống kê vẫn rất kém. Phần lớn chỉ so chênh lệch trung bình, còn việc tính p-value cũng không đáng tin
  Hơn nữa, gần như chẳng có tương quan với hiệu năng workload thực tế. Thí nghiệm production quá nhiều nhiễu nên rất dễ bỏ sót tổn thất
  Bên AI còn tệ hơn. Đối tượng đo lường thì mơ hồ, lại có động cơ đo nhiễu phục vụ giá cổ phiếu. Trong tình huống như vậy, việc benchmark LLM tệ là điều đương nhiên
- A/B test cũng nguy hiểm. Cuối cùng thì đó là một dạng tối ưu hóa gián tiếp theo phản hồi người dùng, mà người đánh giá là con người rất dễ bị thao túng
  B có thể chỉ đơn giản tăng điểm bằng cách ‘đánh lừa con người’. Trường hợp 4o của OpenAI là ví dụ tiêu biểu
- Tôi từng bị sốc khi thấy mô hình giải tốt bài toán toán cấp tiểu học, nhưng chỉ cần đổi nhẹ con số hoặc câu chữ là làm sai. Cuối cùng cũng chỉ là ghi nhớ mẫu
- Tôi nghĩ vấn đề lớn hơn là các công ty công nghệ và truyền thông không công khai minh bạch những vấn đề này. Họ quảng bá điểm benchmark như thể đó là chỉ số khách quan
- Tôi cũng làm đánh giá LLM, và nếu nhìn một cách hoài nghi thì phần lớn benchmark là bài toán giả. Vì gần như không có ca sử dụng thực tế
  Nếu nhìn rộng lượng hơn, thì vấn đề là rất khó benchmark chính bản thân trí tuệ. Ngay cả mức độ phù hợp công việc của con người cũng khó đánh giá bằng câu hỏi chuẩn hóa, AI lại càng như vậy hơn
Tôi làm trong lĩnh vực TTS(Text-to-Speech), và ở đây còn hỗn loạn hơn cả LLM
Demo thì hoàn hảo, nhưng khi sinh hàng trăm phút âm thanh thì cứ liên tục xuất hiện trôi mức âm lượng, thay đổi tốc độ, lỗi phát âm
Vấn đề lớn nhất là không có benchmark tiêu chuẩn cho tổng hợp giọng nói dài hạn.
Tôi đã tổng hợp các tiêu chí đề xuất cho việc này trong Death of Demo
Tôi đã viết về dự án Humanity’s Last Exam
Đây là cách crowdsource các câu hỏi khó từ chuyên gia trên toàn thế giới để kiểm tra mô hình AI
Điều thú vị là có những câu hỏi dễ với con người nhưng vẫn khó với AI
Cuối cùng tôi cho rằng tương lai của huấn luyện AI phụ thuộc vào trải nghiệm trong thế giới thực (meatspace) và chú giải suy luận
- Các công ty như Mercor hay Micro1 đã đạt doanh thu thường niên 9 chữ số với cách tiếp cận này
Tôi nghĩ benchmark giống như điểm SAT. Không dự đoán hoàn hảo, nhưng vẫn dùng được như một tín hiệu tương đối
LLM đang tiến bộ theo hướng có ý nghĩa, và benchmark phần nào cũng phản ánh điều đó
- Nhưng không có lý do gì để bài thi dành cho con người có thể dự đoán hiệu năng làm việc của LLM. Ví dụ, phép nhân đơn giản có liên quan đến trí thông minh con người, nhưng lại vô nghĩa với máy tính
- Điều này giống như một bài thi để đánh giá nhà phê bình nghệ thuật. Bản thân việc cố chấm điểm khách quan cho một kết quả chủ quan đã là mâu thuẫn
- Cách nói “đã tiến bộ rõ ràng” làm lệch trọng tâm tranh luận. Trên thực tế, việc có tiến bộ có ý nghĩa hay không vẫn còn đang gây tranh cãi
Mắt xích yếu nhất trong cơn sốt LLM hiện nay là benchmark
Việc so sánh giữa các mô hình gần như là một mớ hỗn loạn ở mức giả khoa học.
Tôi có dùng bảng xếp hạng LMArena, nhưng kết quả giữa các mô hình khác nhau theo cách không thể giải thích nổi
Prompt bị gắn rất chặt với phiên bản mô hình, nên thứ chạy tốt trên GPT-4 lại hỏng trên GPT-5
Vì vậy dạo này tôi nghiêng sang việc cứ dùng Gemini
- Đánh giá của LMArena quá dễ bị thao túng. Người chấm là con người cũng dễ bị đánh lừa bởi các câu trả lời kiểu nịnh nọt
  Kiểu tinh chỉnh dựa trên phản hồi này làm trầm trọng thêm vấn đề quá tự tin của LLM
- Tôi đã tạo trang AImodelReview để so sánh đầu ra của nhiều mô hình
  Nhưng người dùng không muốn tự đánh giá mà muốn xếp hạng kiểu leaderboard
  Cũng có cách dùng LLM làm giám khảo, nhưng như vậy vẫn có gì đó sai sai.
  Rốt cuộc vẫn cần đánh giá dựa trên reviewer chuyên gia, nhưng chi phí rất cao
- Điều này khiến tôi nhớ đến việc các bài kiểm tra tâm lý cho con người cũng khó tương tự
Ở cấp độ từng lập trình viên, giải pháp là tự tạo benchmark
Hãy tạo bài test dựa trên những bài toán code mà chính mình đã giải, rồi kiểm tra các chỉ số như tok/s hay TTFT
- Tôi chỉ dùng LLM trong môi trường agent wrapper, nên benchmark khá đơn giản. Cứ thử giao việc cho mô hình mới rồi đánh giá pass/fail bằng cảm giác
  Cuối cùng thì cách đánh giá thực tế nhất vẫn là người dùng tự trực tiếp dùng thử
- Nếu thêm đánh giá vào GitHub của OpenAI, mô hình kế tiếp sẽ làm tốt hơn ở chính bài đó
- Kiểu tự đánh giá này được gọi là evals, và với dự án AI nghiêm túc thì đây là thứ bắt buộc
- Các trang như AI Stupid Level cũng đang đi theo hướng này
- Tuy nhiên cũng không nên quên rằng việc “giải được vấn đề” đôi khi chỉ là nhận diện mẫu
Có người lấy ví dụ các bài AIME không dùng máy tính, cho rằng benchmark chỉ xử lý số nhỏ thì không phản ánh năng lực thực tế
Nhưng tôi lại cho rằng việc mô hình học được mẹo làm bài như con người cũng là một dạng tiến bộ. Nó gần với suy luận kiểu con người hơn
- Ngược lại, cũng có ý kiến rằng nếu là năng lực suy luận thật thì phải giải được cả bài toán số lớn
- Sinh viên đại học giải bài bằng mẹo thi cử chỉ là một phần của đánh giá con người, trong khi LLM lại gói nó thành toàn bộ năng lực
  Tôi muốn có đánh giá không bị game hóa. Hiện giờ nó chỉ ở mức tự động hoàn thành thông minh mà thôi
- Các bài toán tính toán rồi cũng sẽ không còn là vấn đề khi mô hình có khả năng dùng công cụ
- Video Forbidden Technique bàn về chủ đề liên quan cũng khá thú vị
- Nếu cho LLM dùng các công cụ bên ngoài như Excel hay Mathematica, nó có thể giải bài toán tính toán giống con người
Có đề xuất là chúng ta nên tạo một Git repo tập hợp các bug khó chịu để test LLM
Ví dụ, đã thử bug Yjs/CRDT với Claude Code, GPT5-codex, GLM-4.6 nhưng cuối cùng chỉ giải quyết vòng vo được thôi
Chỉ đến khi gửi log frontend về backend để AI xem theo thời gian thực thì mới có tiến triển
- Khi cho nó dùng trực tiếp thư viện Playwright thì khá hiệu quả trong xử lý vấn đề frontend
- Nhưng kiểu đề xuất này thực chất cũng có thể thành việc cung cấp miễn phí dữ liệu chất lượng cao để huấn luyện AI
- Cá nhân tôi cũng đã tự gom một bộ bug và để LLM viết test code, nhưng ngay cả mô hình mới nhất vẫn thất bại
- Thực ra hầu hết người dùng LLM có kinh nghiệm đều đã duy trì benchmark riêng không công khai
  Vì nếu công khai thì nó sẽ bị hút vào dữ liệu huấn luyện và mất giá trị.
  Việc duy trì benchmark cá nhân như vậy giúp nhìn tốc độ tiến bộ thực tế của mô hình một cách tỉnh táo hơn nhiều
Suy cho cùng, benchmark chỉ là đặc tả trong một ngữ cảnh cụ thể. Nó chỉ cho thấy code hoạt động tốt trong một tình huống nhất định, chứ không đảm bảo cho mọi trường hợp
- Như câu nói của Dijkstra, “kiểm thử có thể cho thấy bug tồn tại, nhưng không thể chứng minh bug không tồn tại”
  Áp dụng vào LLM thì sẽ thành: “benchmark chỉ cho thấy những tác vụ có thể làm được, chứ không thể chứng minh tác vụ nào là bất khả thi”
Nghiên cứu lần này đã xem xét 445 benchmark, và nói rằng phần lớn đều thiếu độ giá trị cấu trúc
Muốn đo trí thông minh thật sự thì phải đánh giá tính mới (novelty).
Việc giải các mẫu tương tự với những gì đã thấy chỉ là ghi nhớ đơn thuần
Nhưng gần như không thể tạo ra vấn đề hoàn toàn mới mà vẫn tránh được hàng trăm petabyte dữ liệu huấn luyện
Vì thế mới xuất hiện ảo giác về trí tuệ
- Việc chia giải quyết vấn đề thành đơn giản ‘trí nhớ’ đối lập với ‘sáng tạo’ là cách tiếp cận sai
  Trên thực tế tồn tại vô số vùng xám giữa hai khái niệm này.
  Ngay cả vấn đề hoàn toàn mới cũng vẫn cần một mức độ tương đồng nào đó thì mới có thể giải được

Nghiên cứu chỉ ra điểm yếu trong cách đánh giá hệ thống AI

Tổng quan nghiên cứu

Phát hiện chính

Các trường hợp vấn đề

Khuyến nghị cải thiện

Ý nghĩa của nghiên cứu

Thông tin khác

Bài viết liên quan

1 bình luận

Ý kiến Hacker News