11 điểm bởi davespark 2026-01-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Thí nghiệm thi vấn đáp bằng AI của giáo sư NYU

Bối cảnh

  • Giới hạn của cách đánh giá bài tập truyền thống trong thời đại AI: sinh viên có thể dùng AI để hoàn thành bài tập một cách hoàn hảo nhưng lại bộc lộ sự thiếu hiểu biết thực sự
  • Giáo sư Panos Ipeirotis (Trường Kinh doanh Stern, NYU): thử nghiệm cách tiếp cận ngược là dùng AI để đối phó với gian lận bằng AI

Tổng quan thí nghiệm

  • Môn học: quản lý sản phẩm AI/ML
  • Đối tượng: 36 sinh viên
  • Phương pháp: sử dụng tác nhân AI giọng nói của ElevenLabs cho bài thi vấn đáp
  • Nội dung: câu hỏi về dự án của sinh viên + câu hỏi về case study trong lớp
  • Thời gian: trong 9 ngày, trung bình 25 phút mỗi sinh viên
  • Tổng chi phí: 15 USD (42 cent mỗi sinh viên)
    • Claude: 8 USD, Gemini: 2 USD, OpenAI: 30 cent, ElevenLabs: 5 USD

So sánh chi phí

  • Thi bằng AI: 15 USD
  • Chấm điểm bởi con người: 750 USD (36 người × 25 phút × 2 người × 25 USD/giờ)
  • Ưu điểm: giúp thi vấn đáp trở nên khả thi trong các lớp học quy mô lớn

Các vấn đề ban đầu

  • Giọng điệu của tác nhân: bị cảm nhận là nghiêm khắc và kiêu ngạo (sinh viên phàn nàn: "nó đã quát lên")
  • Vấn đề hành vi: đặt nhiều câu hỏi cùng lúc, khi lặp lại thì diễn đạt lại, chen ngang quá nhanh
  • Thiên lệch ngẫu nhiên: dù được chỉ thị "chọn ngẫu nhiên", hệ thống vẫn thiên về một case cụ thể (Zillow 88%)
    • Lý do: dữ liệu huấn luyện của LLM phản ánh thiên lệch của con người

Cách chấm điểm

  • Phương pháp: áp dụng "Council of LLMs" của Andrej Karpathy
    • Claude, Gemini, ChatGPT đánh giá độc lập → rà soát lẫn nhau → điều chỉnh
  • Kết quả: chênh lệch điểm ban đầu lớn (Gemini 17 điểm vs Claude 13.4 điểm), nhưng sau rà soát thì 60% hội tụ trong phạm vi 1 điểm
  • Chất lượng phản hồi: AI vượt con người (tóm tắt có cấu trúc + trích dẫn trực tiếp)

Các phát hiện

  • Khoảng cách theo chủ đề: chủ đề "thí nghiệm" yếu (trung bình 1.94/4 điểm) → giáo sư thừa nhận đây là vấn đề trong phương pháp giảng dạy (đã xem nhẹ A/B testing)
  • Độ dài bài thi và điểm số: không có tương quan (ngắn nhất 9 phút lại đạt điểm cao nhất, dài nhất 64 phút thì chỉ ở mức bình thường)

Đánh giá của sinh viên

  • Ưa thích hình thức AI: 13% (cao gấp đôi mức ưa thích con người)
  • Căng thẳng: cao hơn 83%
  • Tính công bằng: 70% đồng ý rằng hình thức này đánh giá đúng mức độ hiểu thực sự (hạng mục được chấm cao nhất)

Kết luận

  • Thi vấn đáp bằng AI: có thể mở rộng, chi phí thấp và công bằng
  • Ưu điểm: câu hỏi được tạo mới mỗi lần (không có vấn đề lộ đề), có thể luyện tập
  • Điều mỉa mai: dùng AI để giải quyết gian lận do AI tạo ra
  • Cho thấy khả năng thay đổi cách đánh giá trong giáo dục, đồng thời cũng bộc lộ những giới hạn

Chưa có bình luận nào.

Chưa có bình luận nào.