Phát hiện gian lận AI với chi phí 42 cent mỗi sinh viên: thí nghiệm thi vấn đáp bằng AI của giáo sư NYU

(aisparkup.com)

11 điểm bởi davespark 2026-01-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Thí nghiệm thi vấn đáp bằng AI của giáo sư NYU

Bối cảnh

Giới hạn của cách đánh giá bài tập truyền thống trong thời đại AI: sinh viên có thể dùng AI để hoàn thành bài tập một cách hoàn hảo nhưng lại bộc lộ sự thiếu hiểu biết thực sự
Giáo sư Panos Ipeirotis (Trường Kinh doanh Stern, NYU): thử nghiệm cách tiếp cận ngược là dùng AI để đối phó với gian lận bằng AI

Tổng quan thí nghiệm

Môn học: quản lý sản phẩm AI/ML
Đối tượng: 36 sinh viên
Phương pháp: sử dụng tác nhân AI giọng nói của ElevenLabs cho bài thi vấn đáp
Nội dung: câu hỏi về dự án của sinh viên + câu hỏi về case study trong lớp
Thời gian: trong 9 ngày, trung bình 25 phút mỗi sinh viên
Tổng chi phí: 15 USD (42 cent mỗi sinh viên)
- Claude: 8 USD, Gemini: 2 USD, OpenAI: 30 cent, ElevenLabs: 5 USD

So sánh chi phí

Các vấn đề ban đầu

Giọng điệu của tác nhân: bị cảm nhận là nghiêm khắc và kiêu ngạo (sinh viên phàn nàn: "nó đã quát lên")
Vấn đề hành vi: đặt nhiều câu hỏi cùng lúc, khi lặp lại thì diễn đạt lại, chen ngang quá nhanh
Thiên lệch ngẫu nhiên: dù được chỉ thị "chọn ngẫu nhiên", hệ thống vẫn thiên về một case cụ thể (Zillow 88%)
- Lý do: dữ liệu huấn luyện của LLM phản ánh thiên lệch của con người

Cách chấm điểm

Phương pháp: áp dụng "Council of LLMs" của Andrej Karpathy
- Claude, Gemini, ChatGPT đánh giá độc lập → rà soát lẫn nhau → điều chỉnh
Kết quả: chênh lệch điểm ban đầu lớn (Gemini 17 điểm vs Claude 13.4 điểm), nhưng sau rà soát thì 60% hội tụ trong phạm vi 1 điểm
Chất lượng phản hồi: AI vượt con người (tóm tắt có cấu trúc + trích dẫn trực tiếp)

Các phát hiện

Khoảng cách theo chủ đề: chủ đề "thí nghiệm" yếu (trung bình 1.94/4 điểm) → giáo sư thừa nhận đây là vấn đề trong phương pháp giảng dạy (đã xem nhẹ A/B testing)
Độ dài bài thi và điểm số: không có tương quan (ngắn nhất 9 phút lại đạt điểm cao nhất, dài nhất 64 phút thì chỉ ở mức bình thường)

Đánh giá của sinh viên

Ưa thích hình thức AI: 13% (cao gấp đôi mức ưa thích con người)
Căng thẳng: cao hơn 83%
Tính công bằng: 70% đồng ý rằng hình thức này đánh giá đúng mức độ hiểu thực sự (hạng mục được chấm cao nhất)

Kết luận

Thi vấn đáp bằng AI: có thể mở rộng, chi phí thấp và công bằng
Ưu điểm: câu hỏi được tạo mới mỗi lần (không có vấn đề lộ đề), có thể luyện tập
Điều mỉa mai: dùng AI để giải quyết gian lận do AI tạo ra
Cho thấy khả năng thay đổi cách đánh giá trong giáo dục, đồng thời cũng bộc lộ những giới hạn

Bài viết liên quan