- Khi mô hình ngôn ngữ lớn (LLM) lan rộng khiến các bài tập và kỳ thi truyền thống không còn đo được mức độ hiểu bài, giảng viên đã thử nghiệm áp dụng thi vấn đáp thời gian thực bằng AI giọng nói của ElevenLabs
- Bài thi gồm hai phần: giải thích dự án và câu hỏi tình huống, trong đó sinh viên phải trực tiếp giải thích cho AI về căn cứ ra quyết định và quá trình tư duy của mình
- Ba mô hình Claude·Gemini·ChatGPT chấm điểm theo hình thức hội đồng để nâng cao tính nhất quán và chất lượng phản hồi, đồng thời cũng làm lộ ra chủ đề yếu trong giảng dạy thực tế (thiết kế thí nghiệm)
- Đã đánh giá 36 sinh viên trong 9 ngày, trung bình 25 phút mỗi người, với chi phí 0,42 USD mỗi sinh viên nên rất rẻ
- Thi vấn đáp bằng AI có thể trở thành một mô hình thi cử mới có khả năng mở rộng cho đánh giá lấy hiểu biết làm trung tâm
Nhận diện vấn đề và bối cảnh đưa thi vấn đáp vào áp dụng
- Chất lượng bài tập của sinh viên cao bất thường làm dấy lên nghi ngờ do AI viết, và khi bị hỏi ngẫu nhiên thì nhiều trường hợp không thể tự giải thích
- Do khả năng tiếp cận LLM, độ tin cậy của các bài tập và kỳ thi truyền thống sụp đổ, khiến thi vấn đáp — nơi có thể đánh giá tư duy theo thời gian thực — nổi lên như một giải pháp thay thế
- Tuy nhiên, thi vấn đáp có hạn chế là không thể vận hành ở quy mô lớn, nên để giải quyết điều này, nhóm đã sử dụng tác nhân giọng nói AI
Cấu hình tác nhân giọng nói dựa trên ElevenLabs
- Sử dụng ElevenLabs Conversational AI để tích hợp các thành phần phức tạp như nhận dạng giọng nói, tổng hợp giọng nói và quản lý lượt hội thoại
- Truyền tên sinh viên và thông tin dự án bằng biến động, đồng thời tách riêng tác nhân xác thực, dự án và câu hỏi tình huống bằng cấu trúc workflow
- Tác nhân xác thực: xác minh ID sinh viên
- Tác nhân dự án: đặt câu hỏi dựa trên tài liệu đã nộp
- Tác nhân tình huống: chọn ngẫu nhiên một tình huống rồi đặt câu hỏi
- Việc tách thành nhiều tác nhân nhỏ giúp ngăn cuộc hội thoại đi chệch hướng và dễ gỡ lỗi hơn
Vận hành kỳ thi và kết quả số liệu
- Tổng cộng 36 người, diễn ra trong 9 ngày, trung bình 25 phút (ngắn nhất 9 phút, dài nhất 64 phút)
- Trung bình 65 lượt trao đổi tin nhắn, tổng chi phí 15 USD (0,42 USD mỗi sinh viên)
- 89% kết quả chấm điểm của LLM khớp trong phạm vi 1 điểm, và bài thi ngắn nhất (9 phút) lại đạt điểm cao nhất (19/20)
- So với chấm điểm bởi con người, chi phí giảm hơn 50 lần, đồng thời đạt được tự động hóa đánh giá, ghi chép và phản hồi theo thời gian thực
Vấp váp khi triển khai và biện pháp cải thiện
- Phản hồi của sinh viên cho rằng giọng điệu quá áp lực → dự kiến A/B test nhiều kiểu giọng khác nhau
- Vấn đề câu hỏi bị chồng chất (stack) → thêm quy tắc “mỗi lần chỉ một câu hỏi”
- Biến đổi ý nghĩa khi lặp lại câu hỏi → ghi rõ “lặp lại nguyên văn câu hỏi”
- Thiếu thời gian suy nghĩ → kéo dài thời gian chờ lên 10 giây
- Thất bại khi chọn ngẫu nhiên tình huống → giải quyết ở cấp độ mã bằng ánh xạ số ngẫu nhiên
Chấm điểm hội đồng bằng LLM (council grading)
- Claude·Gemini·ChatGPT chấm độc lập rồi rà soát và điều chỉnh chéo lẫn nhau
- Tỷ lệ lệch điểm ở vòng chấm đầu cao, nhưng sau vòng hội ý thứ hai, tỷ lệ khớp trong phạm vi 1 điểm tăng từ 62% lên 85%
- Gemini điều chỉnh giảm trung bình 2 điểm, trong khi Claude và OpenAI có mức nhất quán cao
- Ở hạng mục thiết kế thí nghiệm, mức lệch điểm lớn nhất, được phân tích là do câu trả lời của sinh viên mơ hồ
- Chấm điểm bằng AI nghiêm khắc hơn con người nhưng công bằng, còn phản hồi thì cụ thể và định hướng hành động nên có chất lượng tốt
Góc nhìn sư phạm và chẩn đoán
- Trong phân tích mức độ đạt được theo chủ đề, thiết kế thí nghiệm có điểm trung bình thấp nhất là 1,94/4
- 0 điểm 8%, 1 điểm 19%, 2 điểm 42%, 4 điểm 0%
- Nguyên nhân được xác định là phần giải thích về A/B test trong bài giảng còn thiếu, qua đó cho thấy cần cải thiện cách giảng dạy của giảng viên
- Không có tương quan giữa thời lượng bài thi và điểm số (r=-0.03), trong khi câu trả lời ngắn gọn và rõ ràng lại gắn với điểm cao hơn
Ngăn gian lận và bảo đảm minh bạch
- Yêu cầu sinh viên bật webcam và ghi âm để chặn sự trợ giúp từ bên ngoài
- Cấu trúc bài thi và dạng câu hỏi được vận hành theo hướng dẫn công khai, loại bỏ rủi ro lộ đề
- Sinh viên có thể luyện tập lặp lại với cùng cấu trúc, qua đó tăng cường hiệu quả học tập thực tế
Phản ứng của sinh viên
- Chỉ 13% thích thi vấn đáp bằng AI, 57% thích thi viết truyền thống, và 83% cho biết họ thấy căng thẳng hơn
- Tuy nhiên, 70% thừa nhận hình thức này đánh giá tốt mức độ hiểu thực sự, cho thấy độ tin cậy của đánh giá là cao
- Tính linh hoạt của việc thi theo thời gian và địa điểm tự chọn được đánh giá tích cực
- Các yêu cầu cải thiện gồm: giảm tốc độ, giọng nói điềm tĩnh hơn, cách hỏi từng câu một
Kế hoạch cải thiện trong tương lai
- Điều chỉnh tốc độ và đa dạng hóa giọng nói, đặt câu hỏi RAG dựa trên bài nộp của sinh viên, phân bổ tình huống bằng seed ngẫu nhiên tường minh
- Đưa vào cơ chế kích hoạt con người rà soát khi các LLM chấm lệch nhau
- Tăng cường khả năng tiếp cận: cung cấp chế độ luyện tập, thêm thời gian và phương án thay thế
Kết luận: Đánh giá lấy hiểu biết làm trung tâm có thể mở rộng nhờ AI
- Bài tập và thi viết trở nên mất hiệu lực trong thời đại LLM, nên cần chuyển sang đánh giá tư duy theo thời gian thực
- Thi vấn đáp bằng AI đo lường mức độ hiểu, khả năng phán đoán và tư duy ứng biến, đồng thời là một phương thức đánh giá mới có thể vận hành ở quy mô lớn
- Có thể tăng cường học tập thông qua luyện tập lặp lại mà không có rủi ro lộ đề
- “Fight fire with fire” — một đổi mới trong đánh giá, dùng AI để giải quyết chính vấn đề do AI tạo ra
1 bình luận
Ý kiến trên Hacker News
Tôi nghĩ dữ liệu và kết luận trong bài không khớp nhau
Sinh viên, ngay cả sau khi trò chuyện với AI, vẫn thích thi viết hơn
Các trường đại học đã vận hành thi viết trong hàng trăm năm để ngăn gian lận, rồi sau COVID lại đưa vào kiểu đánh giá trực tuyến như một "bánh xe vuông", nhưng thực ra có lẽ quay lại bánh xe tròn sẽ tốt hơn
Họ cũng không hề kiểm chứng độ chính xác của việc chấm điểm bằng LLM. Cuối cùng tạo cảm giác như đã định sẵn kết luận rồi mới lắp dữ liệu vào cho khớp
“Bài thi take-home đã kết thúc” là điều hiển nhiên, chứ không phải kết quả của thí nghiệm
Dạo này gian lận khi làm một mình đã trở nên quá dễ
Ngoài ra, mỗi lĩnh vực học thuật cần có cách đánh giá khác nhau, và những ngành mới như khoa học máy tính vẫn còn thiếu độ trưởng thành trong phương pháp đánh giá
Cuối cùng, sở thích của sinh viên không phải tiêu chí để đánh giá chất lượng kỳ thi
Trong thực tế, rất nhiều tình huống đòi hỏi phải giải thích cơ sở cho quyết định của mình trước người khác
Tôi hiểu việc thế hệ có ít trải nghiệm trực tiếp trong thời COVID sợ phải nói trước người khác, nhưng kiểu rèn luyện để vượt qua lo âu này ngược lại có thể hữu ích
Vì khả năng gian lận trong bài thi take-home đã tăng cao, nên thi vấn đáp tuy không hoàn hảo nhưng có thể là phương án thay thế tốt hơn
Trước đây mọi kỳ thi đều không có chỗ cho AI chen vào
Người ta làm bài bằng bút trên giấy, thi trong nhà thi đấu có giám thị quan sát
Gian lận đồng nghĩa với đuổi học, và chỉ 1% trong hàng nghìn người tốt nghiệp
Nghe chuyện bây giờ phải đổi kỳ thi để thích nghi với AI thấy như điên rồ. Chúng ta vốn đã có lời giải rồi
Cuối cùng đó chỉ là cấu trúc đổ trách nhiệm lên sinh viên, còn vấn đề thật sự là sự lười biếng của giáo sư và việc tái sử dụng đề thi
Giải pháp thật sự là mỗi lần ra đề mới và đa dạng hóa câu hỏi
Thà để họ thi trên máy tính do trường cung cấp có sẵn môi trường phát triển còn hơn
Nếu điều đó đúng, thì việc tìm ra một hình thức thi vấn đáp có thể mở rộng là có ý nghĩa
Không cần phải ám ảnh với khả năng mở rộng
Đại học có nhiều tiền, cứ để giáo sư trực tiếp thi vấn đáp là được
Ở bậc sau đại học tại Đức cũng có rất nhiều kỳ thi vấn đáp, và nó hoạt động tốt
Việc dựa vào AI trông giống biểu hiện của sự lười biếng
AI thì tốt cho các việc lặp lại, nhưng trong tình huống đối kháng thì khó mà tin cậy
Tôi cũng từng thi vấn đáp hồi đại học, mà chỉ cần thái độ của giáo sư thay đổi là áp lực đã khủng khiếp rồi
Tôi nghi ngờ AI có tạo ra được kiểu sức ép cảm xúc đó hay không
Cá nhân tôi còn thấy bực mình với những lỗi nhỏ của AI hơn
Nhưng tôi cứ vào tình huống đó là đầu óc trống rỗng, không nói được gì. Thật sự rất khổ sở
Trước đây trong tuyển dụng tôi từng giao bài tập take-home, nhưng có một số ứng viên lại không giải thích được đoạn mã mà chính họ nộp
Từ khi có LLM, cám dỗ để AI viết thay còn lớn hơn nhiều
Nhưng điều chúng tôi cần đánh giá là năng lực giải quyết vấn đề và khả năng giao tiếp của ứng viên
Phỏng vấn cho phép dùng LLM cuối cùng sẽ biến thành “bài kiểm tra mức độ thành thạo khi dùng AI”
Tôi không đồng ý với phương pháp trong bài, nhưng vấn đề mà bài nêu ra thì rất thực tế
Bước tiếp theo có lẽ là AI sẽ thay người trả lời bằng cách dùng một AI khác trả lời bằng giọng nói
Cuối cùng con người vẫn phải trở lại vị trí trung tâm
Sau này còn tinh vi hơn với kính thông minh, micro dẫn truyền qua xương v.v.
Rốt cuộc chỉ những sinh viên trung thực nhưng bị lo âu xã hội mới là người chịu thiệt
Có lẽ nên tổ chức các buổi thi vấn đáp thử tự nguyện trong học kỳ
Sinh viên sẽ quen với hình thức này và thích nghi dần với giọng nói
Việc nói rằng khoảng 36 sinh viên là không thể thi vấn đáp khiến tôi thấy bất ngờ
Chính kiểu học lặp lại này mới là cách học thực sự
Tôi thà nhận lại $25 còn hơn để LLM đi thi thay
Nếu chỉ chọn mẫu một số sinh viên để thi, điều đó có thể vừa tạo động lực vừa gây nản chí
Chỉ cần cho nhóm sinh viên top đầu nói chuyện 10 phút mỗi người trong một bài thi vấn đáp là đã hoàn toàn khả thi
Chỉ tưởng tượng cảnh bị một ứng dụng giọng nói AI tra hỏi thôi đã thấy kinh khủng
Nếu cách này tiếp tục tồn tại, có lẽ chúng ta cần hẳn một mô hình giáo dục không đánh giá
Có những điều tôi sẽ không bao giờ nói với con người, nhưng lại dễ dàng nói ra với máy
Tôi chính là tác giả bài blog đó
Chúng tôi chỉ đang thử một cách mới trong lớp học AI của mình
Không phải muốn xóa bỏ thi viết, mà là thêm thi vấn đáp như một công cụ nữa
Mục đích là để xác nhận trong dự án nhóm, sinh viên có thực sự hiểu phần việc của mình hay không
Những sinh viên có điểm vấn đáp thấp, đúng như dự đoán, cũng hiểu dự án kém hơn
Với quy mô 36 người thì vẫn có thể phỏng vấn trực tiếp, nhưng hơn 100 người thì khó
Quan trọng hơn, đã có nghiên cứu cho thấy AI đưa ra đánh giá nhất quán vì không bị mệt mỏi. Vì thế tôi đã tin vào nó
Nó chẳng khác gì dùng xe nâng trong phòng gym
Với các môn đơn giản kiểu MBA thì có thể được, nhưng ở các môn đòi hỏi phán đoán tinh tế thì AI không công bằng
Với loại bài thi chỉ để xác nhận đơn giản như thế này, tôi nghĩ thà làm trắc nghiệm ở kiosk còn hơn
Thời của chúng tôi, mọi kỳ thi đều là vấn đáp
Các kỳ thi lớn kéo dài đến hai ngày, nhưng giáo sư và trợ giảng tổ chức 6 đợt mỗi năm
Một trong các lý do là sự khác biệt văn hóa trong cách hiểu về tính công bằng
Trong môi trường có mức độ đa dạng cao, thi vấn đáp có thể gây ra tranh cãi về thiên vị
Nếu có thể chấm bài bằng AI với giá $5 rồi dành 20 giờ để lướt điện thoại, họ sẽ chọn cách đó