Phát hiện gian lận AI với chi phí 42 cent mỗi sinh viên: thí nghiệm thi vấn đáp bằng AI của giáo sư NYU
(aisparkup.com)Thí nghiệm thi vấn đáp bằng AI của giáo sư NYU
Bối cảnh
- Giới hạn của cách đánh giá bài tập truyền thống trong thời đại AI: sinh viên có thể dùng AI để hoàn thành bài tập một cách hoàn hảo nhưng lại bộc lộ sự thiếu hiểu biết thực sự
- Giáo sư Panos Ipeirotis (Trường Kinh doanh Stern, NYU): thử nghiệm cách tiếp cận ngược là dùng AI để đối phó với gian lận bằng AI
Tổng quan thí nghiệm
- Môn học: quản lý sản phẩm AI/ML
- Đối tượng: 36 sinh viên
- Phương pháp: sử dụng tác nhân AI giọng nói của ElevenLabs cho bài thi vấn đáp
- Nội dung: câu hỏi về dự án của sinh viên + câu hỏi về case study trong lớp
- Thời gian: trong 9 ngày, trung bình 25 phút mỗi sinh viên
- Tổng chi phí: 15 USD (42 cent mỗi sinh viên)
- Claude: 8 USD, Gemini: 2 USD, OpenAI: 30 cent, ElevenLabs: 5 USD
So sánh chi phí
- Thi bằng AI: 15 USD
- Chấm điểm bởi con người: 750 USD (36 người × 25 phút × 2 người × 25 USD/giờ)
- Ưu điểm: giúp thi vấn đáp trở nên khả thi trong các lớp học quy mô lớn
Các vấn đề ban đầu
- Giọng điệu của tác nhân: bị cảm nhận là nghiêm khắc và kiêu ngạo (sinh viên phàn nàn: "nó đã quát lên")
- Vấn đề hành vi: đặt nhiều câu hỏi cùng lúc, khi lặp lại thì diễn đạt lại, chen ngang quá nhanh
- Thiên lệch ngẫu nhiên: dù được chỉ thị "chọn ngẫu nhiên", hệ thống vẫn thiên về một case cụ thể (Zillow 88%)
- Lý do: dữ liệu huấn luyện của LLM phản ánh thiên lệch của con người
Cách chấm điểm
- Phương pháp: áp dụng "Council of LLMs" của Andrej Karpathy
- Claude, Gemini, ChatGPT đánh giá độc lập → rà soát lẫn nhau → điều chỉnh
- Kết quả: chênh lệch điểm ban đầu lớn (Gemini 17 điểm vs Claude 13.4 điểm), nhưng sau rà soát thì 60% hội tụ trong phạm vi 1 điểm
- Chất lượng phản hồi: AI vượt con người (tóm tắt có cấu trúc + trích dẫn trực tiếp)
Các phát hiện
- Khoảng cách theo chủ đề: chủ đề "thí nghiệm" yếu (trung bình 1.94/4 điểm) → giáo sư thừa nhận đây là vấn đề trong phương pháp giảng dạy (đã xem nhẹ A/B testing)
- Độ dài bài thi và điểm số: không có tương quan (ngắn nhất 9 phút lại đạt điểm cao nhất, dài nhất 64 phút thì chỉ ở mức bình thường)
Đánh giá của sinh viên
- Ưa thích hình thức AI: 13% (cao gấp đôi mức ưa thích con người)
- Căng thẳng: cao hơn 83%
- Tính công bằng: 70% đồng ý rằng hình thức này đánh giá đúng mức độ hiểu thực sự (hạng mục được chấm cao nhất)
Kết luận
- Thi vấn đáp bằng AI: có thể mở rộng, chi phí thấp và công bằng
- Ưu điểm: câu hỏi được tạo mới mỗi lần (không có vấn đề lộ đề), có thể luyện tập
- Điều mỉa mai: dùng AI để giải quyết gian lận do AI tạo ra
- Cho thấy khả năng thay đổi cách đánh giá trong giáo dục, đồng thời cũng bộc lộ những giới hạn
Chưa có bình luận nào.