2 điểm bởi GN⁺ 2026-01-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Khi mô hình ngôn ngữ lớn (LLM) lan rộng khiến các bài tập và kỳ thi truyền thống không còn đo được mức độ hiểu bài, giảng viên đã thử nghiệm áp dụng thi vấn đáp thời gian thực bằng AI giọng nói của ElevenLabs
  • Bài thi gồm hai phần: giải thích dự án và câu hỏi tình huống, trong đó sinh viên phải trực tiếp giải thích cho AI về căn cứ ra quyết định và quá trình tư duy của mình
  • Ba mô hình Claude·Gemini·ChatGPT chấm điểm theo hình thức hội đồng để nâng cao tính nhất quán và chất lượng phản hồi, đồng thời cũng làm lộ ra chủ đề yếu trong giảng dạy thực tế (thiết kế thí nghiệm)
  • Đã đánh giá 36 sinh viên trong 9 ngày, trung bình 25 phút mỗi người, với chi phí 0,42 USD mỗi sinh viên nên rất rẻ
  • Thi vấn đáp bằng AI có thể trở thành một mô hình thi cử mới có khả năng mở rộng cho đánh giá lấy hiểu biết làm trung tâm

Nhận diện vấn đề và bối cảnh đưa thi vấn đáp vào áp dụng

  • Chất lượng bài tập của sinh viên cao bất thường làm dấy lên nghi ngờ do AI viết, và khi bị hỏi ngẫu nhiên thì nhiều trường hợp không thể tự giải thích
  • Do khả năng tiếp cận LLM, độ tin cậy của các bài tập và kỳ thi truyền thống sụp đổ, khiến thi vấn đáp — nơi có thể đánh giá tư duy theo thời gian thực — nổi lên như một giải pháp thay thế
  • Tuy nhiên, thi vấn đáp có hạn chế là không thể vận hành ở quy mô lớn, nên để giải quyết điều này, nhóm đã sử dụng tác nhân giọng nói AI

Cấu hình tác nhân giọng nói dựa trên ElevenLabs

  • Sử dụng ElevenLabs Conversational AI để tích hợp các thành phần phức tạp như nhận dạng giọng nói, tổng hợp giọng nói và quản lý lượt hội thoại
  • Truyền tên sinh viên và thông tin dự án bằng biến động, đồng thời tách riêng tác nhân xác thực, dự án và câu hỏi tình huống bằng cấu trúc workflow
    • Tác nhân xác thực: xác minh ID sinh viên
    • Tác nhân dự án: đặt câu hỏi dựa trên tài liệu đã nộp
    • Tác nhân tình huống: chọn ngẫu nhiên một tình huống rồi đặt câu hỏi
  • Việc tách thành nhiều tác nhân nhỏ giúp ngăn cuộc hội thoại đi chệch hướngdễ gỡ lỗi hơn

Vận hành kỳ thi và kết quả số liệu

  • Tổng cộng 36 người, diễn ra trong 9 ngày, trung bình 25 phút (ngắn nhất 9 phút, dài nhất 64 phút)
  • Trung bình 65 lượt trao đổi tin nhắn, tổng chi phí 15 USD (0,42 USD mỗi sinh viên)
  • 89% kết quả chấm điểm của LLM khớp trong phạm vi 1 điểm, và bài thi ngắn nhất (9 phút) lại đạt điểm cao nhất (19/20)
  • So với chấm điểm bởi con người, chi phí giảm hơn 50 lần, đồng thời đạt được tự động hóa đánh giá, ghi chép và phản hồi theo thời gian thực

Vấp váp khi triển khai và biện pháp cải thiện

  • Phản hồi của sinh viên cho rằng giọng điệu quá áp lực → dự kiến A/B test nhiều kiểu giọng khác nhau
  • Vấn đề câu hỏi bị chồng chất (stack) → thêm quy tắc “mỗi lần chỉ một câu hỏi”
  • Biến đổi ý nghĩa khi lặp lại câu hỏi → ghi rõ “lặp lại nguyên văn câu hỏi”
  • Thiếu thời gian suy nghĩ → kéo dài thời gian chờ lên 10 giây
  • Thất bại khi chọn ngẫu nhiên tình huống → giải quyết ở cấp độ mã bằng ánh xạ số ngẫu nhiên

Chấm điểm hội đồng bằng LLM (council grading)

  • Claude·Gemini·ChatGPT chấm độc lập rồi rà soát và điều chỉnh chéo lẫn nhau
  • Tỷ lệ lệch điểm ở vòng chấm đầu cao, nhưng sau vòng hội ý thứ hai, tỷ lệ khớp trong phạm vi 1 điểm tăng từ 62% lên 85%
  • Gemini điều chỉnh giảm trung bình 2 điểm, trong khi Claude và OpenAI có mức nhất quán cao
  • hạng mục thiết kế thí nghiệm, mức lệch điểm lớn nhất, được phân tích là do câu trả lời của sinh viên mơ hồ
  • Chấm điểm bằng AI nghiêm khắc hơn con người nhưng công bằng, còn phản hồi thì cụ thể và định hướng hành động nên có chất lượng tốt

Góc nhìn sư phạm và chẩn đoán

  • Trong phân tích mức độ đạt được theo chủ đề, thiết kế thí nghiệm có điểm trung bình thấp nhất là 1,94/4
    • 0 điểm 8%, 1 điểm 19%, 2 điểm 42%, 4 điểm 0%
  • Nguyên nhân được xác định là phần giải thích về A/B test trong bài giảng còn thiếu, qua đó cho thấy cần cải thiện cách giảng dạy của giảng viên
  • Không có tương quan giữa thời lượng bài thi và điểm số (r=-0.03), trong khi câu trả lời ngắn gọn và rõ ràng lại gắn với điểm cao hơn

Ngăn gian lận và bảo đảm minh bạch

  • Yêu cầu sinh viên bật webcam và ghi âm để chặn sự trợ giúp từ bên ngoài
  • Cấu trúc bài thi và dạng câu hỏi được vận hành theo hướng dẫn công khai, loại bỏ rủi ro lộ đề
  • Sinh viên có thể luyện tập lặp lại với cùng cấu trúc, qua đó tăng cường hiệu quả học tập thực tế

Phản ứng của sinh viên

  • Chỉ 13% thích thi vấn đáp bằng AI, 57% thích thi viết truyền thống, và 83% cho biết họ thấy căng thẳng hơn
  • Tuy nhiên, 70% thừa nhận hình thức này đánh giá tốt mức độ hiểu thực sự, cho thấy độ tin cậy của đánh giá là cao
  • Tính linh hoạt của việc thi theo thời gian và địa điểm tự chọn được đánh giá tích cực
  • Các yêu cầu cải thiện gồm: giảm tốc độ, giọng nói điềm tĩnh hơn, cách hỏi từng câu một

Kế hoạch cải thiện trong tương lai

  • Điều chỉnh tốc độ và đa dạng hóa giọng nói, đặt câu hỏi RAG dựa trên bài nộp của sinh viên, phân bổ tình huống bằng seed ngẫu nhiên tường minh
  • Đưa vào cơ chế kích hoạt con người rà soát khi các LLM chấm lệch nhau
  • Tăng cường khả năng tiếp cận: cung cấp chế độ luyện tập, thêm thời gian và phương án thay thế

Kết luận: Đánh giá lấy hiểu biết làm trung tâm có thể mở rộng nhờ AI

  • Bài tập và thi viết trở nên mất hiệu lực trong thời đại LLM, nên cần chuyển sang đánh giá tư duy theo thời gian thực
  • Thi vấn đáp bằng AI đo lường mức độ hiểu, khả năng phán đoán và tư duy ứng biến, đồng thời là một phương thức đánh giá mới có thể vận hành ở quy mô lớn
  • Có thể tăng cường học tập thông qua luyện tập lặp lại mà không có rủi ro lộ đề
  • “Fight fire with fire” — một đổi mới trong đánh giá, dùng AI để giải quyết chính vấn đề do AI tạo ra

1 bình luận

 
GN⁺ 2026-01-05
Ý kiến trên Hacker News
  • Tôi nghĩ dữ liệu và kết luận trong bài không khớp nhau
    Sinh viên, ngay cả sau khi trò chuyện với AI, vẫn thích thi viết hơn
    Các trường đại học đã vận hành thi viết trong hàng trăm năm để ngăn gian lận, rồi sau COVID lại đưa vào kiểu đánh giá trực tuyến như một "bánh xe vuông", nhưng thực ra có lẽ quay lại bánh xe tròn sẽ tốt hơn

    • Thật ngạc nhiên khi kết quả thí nghiệm rõ ràng không tốt mà tác giả lại gọi đó là “thành công vang dội”
      Họ cũng không hề kiểm chứng độ chính xác của việc chấm điểm bằng LLM. Cuối cùng tạo cảm giác như đã định sẵn kết luận rồi mới lắp dữ liệu vào cho khớp
    • Câu được trích dẫn không phải kết luận mà chỉ là một lời khẳng định
      “Bài thi take-home đã kết thúc” là điều hiển nhiên, chứ không phải kết quả của thí nghiệm
      Dạo này gian lận khi làm một mình đã trở nên quá dễ
      Ngoài ra, mỗi lĩnh vực học thuật cần có cách đánh giá khác nhau, và những ngành mới như khoa học máy tính vẫn còn thiếu độ trưởng thành trong phương pháp đánh giá
      Cuối cùng, sở thích của sinh viên không phải tiêu chí để đánh giá chất lượng kỳ thi
    • Việc sinh viên thích thi viết không có nghĩa đó là cách tốt nhất
      Trong thực tế, rất nhiều tình huống đòi hỏi phải giải thích cơ sở cho quyết định của mình trước người khác
      Tôi hiểu việc thế hệ có ít trải nghiệm trực tiếp trong thời COVID sợ phải nói trước người khác, nhưng kiểu rèn luyện để vượt qua lo âu này ngược lại có thể hữu ích
    • Trong lớp học trực tuyến thì thi viết rất khó triển khai
      khả năng gian lận trong bài thi take-home đã tăng cao, nên thi vấn đáp tuy không hoàn hảo nhưng có thể là phương án thay thế tốt hơn
    • Cuộc chạy đua giữa gian lận và giám sát giữa sinh viên với giáo viên đã kéo dài hàng trăm năm
  • Trước đây mọi kỳ thi đều không có chỗ cho AI chen vào
    Người ta làm bài bằng bút trên giấy, thi trong nhà thi đấu có giám thị quan sát
    Gian lận đồng nghĩa với đuổi học, và chỉ 1% trong hàng nghìn người tốt nghiệp
    Nghe chuyện bây giờ phải đổi kỳ thi để thích nghi với AI thấy như điên rồ. Chúng ta vốn đã có lời giải rồi

    • Một hệ thống mà 99% sinh viên trượt thì chẳng có gì để tự hào
      Cuối cùng đó chỉ là cấu trúc đổ trách nhiệm lên sinh viên, còn vấn đề thật sự là sự lười biếng của giáo sưviệc tái sử dụng đề thi
      Giải pháp thật sự là mỗi lần ra đề mới và đa dạng hóa câu hỏi
    • Tôi nghi ngờ việc bắt sinh viên viết mã C++ bằng tay có thực sự là cách đánh giá tốt nhất hay không
      Thà để họ thi trên máy tính do trường cung cấp có sẵn môi trường phát triển còn hơn
    • Cũng có ý kiến cho rằng thi vấn đáp tốt hơn để chẩn đoán mức độ hiểu bài
      Nếu điều đó đúng, thì việc tìm ra một hình thức thi vấn đáp có thể mở rộng là có ý nghĩa
    • Tỷ lệ trượt 99% thật khó tin. Trường đại học nào như vậy thì nên đóng cửa
  • Không cần phải ám ảnh với khả năng mở rộng
    Đại học có nhiều tiền, cứ để giáo sư trực tiếp thi vấn đáp là được
    Ở bậc sau đại học tại Đức cũng có rất nhiều kỳ thi vấn đáp, và nó hoạt động tốt

    • Ở châu Âu, thi vấn đáp là chuyện bình thường, như Matura hoặc bảo vệ luận án tiến sĩ
      Việc dựa vào AI trông giống biểu hiện của sự lười biếng
      AI thì tốt cho các việc lặp lại, nhưng trong tình huống đối kháng thì khó mà tin cậy
  • Tôi cũng từng thi vấn đáp hồi đại học, mà chỉ cần thái độ của giáo sư thay đổi là áp lực đã khủng khiếp rồi
    Tôi nghi ngờ AI có tạo ra được kiểu sức ép cảm xúc đó hay không
    Cá nhân tôi còn thấy bực mình với những lỗi nhỏ của AI hơn

    • Ở Ý, từ tiểu học đến đại học, mọi kỳ thi đều có phần vấn đáp
      Nhưng tôi cứ vào tình huống đó là đầu óc trống rỗng, không nói được gì. Thật sự rất khổ sở
  • Trước đây trong tuyển dụng tôi từng giao bài tập take-home, nhưng có một số ứng viên lại không giải thích được đoạn mã mà chính họ nộp
    Từ khi có LLM, cám dỗ để AI viết thay còn lớn hơn nhiều
    Nhưng điều chúng tôi cần đánh giá là năng lực giải quyết vấn đề và khả năng giao tiếp của ứng viên
    Phỏng vấn cho phép dùng LLM cuối cùng sẽ biến thành “bài kiểm tra mức độ thành thạo khi dùng AI”
    Tôi không đồng ý với phương pháp trong bài, nhưng vấn đề mà bài nêu ra thì rất thực tế

    • Cụm từ “synthetic pronouns” khá thú vị
  • Bước tiếp theo có lẽ là AI sẽ thay người trả lời bằng cách dùng một AI khác trả lời bằng giọng nói
    Cuối cùng con người vẫn phải trở lại vị trí trung tâm

    • Ngay cả teleprompter thôi cũng đã đủ để gian lận rồi
      Sau này còn tinh vi hơn với kính thông minh, micro dẫn truyền qua xương v.v.
      Rốt cuộc chỉ những sinh viên trung thực nhưng bị lo âu xã hội mới là người chịu thiệt
    • Nếu không gian thi bị lấp đầy bởi hàng chục buồng điện thoại, chắc còn tệ hơn cả các vách ngăn văn phòng
  • Có lẽ nên tổ chức các buổi thi vấn đáp thử tự nguyện trong học kỳ
    Sinh viên sẽ quen với hình thức này và thích nghi dần với giọng nói
    Việc nói rằng khoảng 36 sinh viên là không thể thi vấn đáp khiến tôi thấy bất ngờ

    • Như phần cuối bài có nhắc, vì AI tạo ra câu hỏi mới mỗi lần, nên có thể luyện tập mà không lo lộ đề
      Chính kiểu học lặp lại này mới là cách học thực sự
    • Nếu một trợ giảng được trả $25 mỗi giờ, thì thi vấn đáp hoàn toàn khả thi
      Tôi thà nhận lại $25 còn hơn để LLM đi thi thay
    • Ở Charles University tại Praha, hơn 200 sinh viên cũng từng thi vấn đáp
    • Còn tùy vào độ sâu và tần suất của thi vấn đáp
      Nếu chỉ chọn mẫu một số sinh viên để thi, điều đó có thể vừa tạo động lực vừa gây nản chí
    • Suy cho cùng đây là ý tưởng thay kỳ thi bằng chatbot để tiết kiệm tiền
      Chỉ cần cho nhóm sinh viên top đầu nói chuyện 10 phút mỗi người trong một bài thi vấn đáp là đã hoàn toàn khả thi
  • Chỉ tưởng tượng cảnh bị một ứng dụng giọng nói AI tra hỏi thôi đã thấy kinh khủng
    Nếu cách này tiếp tục tồn tại, có lẽ chúng ta cần hẳn một mô hình giáo dục không đánh giá

    • Cuối cùng có lẽ quay lại thi viết tay mới là lời giải thực tế nhất
    • Gần đây tôi cũng từng trải qua phỏng vấn AI, và tôi thấy mình không có cảm giác tội lỗi khi nói dối với AI
      Có những điều tôi sẽ không bao giờ nói với con người, nhưng lại dễ dàng nói ra với máy
    • Nếu kỳ thi biến mất hoàn toàn thì động lực học tập cũng sẽ không được duy trì
  • Tôi chính là tác giả bài blog đó
    Chúng tôi chỉ đang thử một cách mới trong lớp học AI của mình
    Không phải muốn xóa bỏ thi viết, mà là thêm thi vấn đáp như một công cụ nữa
    Mục đích là để xác nhận trong dự án nhóm, sinh viên có thực sự hiểu phần việc của mình hay không
    Những sinh viên có điểm vấn đáp thấp, đúng như dự đoán, cũng hiểu dự án kém hơn
    Với quy mô 36 người thì vẫn có thể phỏng vấn trực tiếp, nhưng hơn 100 người thì khó
    Quan trọng hơn, đã có nghiên cứu cho thấy AI đưa ra đánh giá nhất quán vì không bị mệt mỏi. Vì thế tôi đã tin vào nó

    • Có người nói rằng cho phép dùng LLM là điều hiển nhiên, nhưng tôi không đồng ý
      Nó chẳng khác gì dùng xe nâng trong phòng gym
      Với các môn đơn giản kiểu MBA thì có thể được, nhưng ở các môn đòi hỏi phán đoán tinh tế thì AI không công bằng
      Với loại bài thi chỉ để xác nhận đơn giản như thế này, tôi nghĩ thà làm trắc nghiệm ở kiosk còn hơn
  • Thời của chúng tôi, mọi kỳ thi đều là vấn đáp
    Các kỳ thi lớn kéo dài đến hai ngày, nhưng giáo sư và trợ giảng tổ chức 6 đợt mỗi năm

    • Tôi cũng từng mặc định thi vấn đáp trong chương trình cử nhân và thạc sĩ vật lý, nhưng đến bậc tiến sĩ thì nó biến mất
      Một trong các lý do là sự khác biệt văn hóa trong cách hiểu về tính công bằng
      Trong môi trường có mức độ đa dạng cao, thi vấn đáp có thể gây ra tranh cãi về thiên vị
    • Suy cho cùng giáo sư cũng là con người
      Nếu có thể chấm bài bằng AI với giá $5 rồi dành 20 giờ để lướt điện thoại, họ sẽ chọn cách đó