8 điểm bởi GN⁺ 2024-08-19 | 3 bình luận | Chia sẻ qua WhatsApp

"Bạn có thông minh hơn mô hình ngôn ngữ không?"

Nhiều bộ benchmark cố gắng đánh giá xem các mô hình ngôn ngữ thực hiện công việc của con người tốt đến mức nào.
Nhưng bạn có thể làm tốt đến đâu trong nhiệm vụ điển hình của mô hình ngôn ngữ là dự đoán từ tiếp theo?

Hãy thử giải 15 câu hỏi

3 bình luận

 
curioe 2024-08-19

4 điểm... kết quả thật bực mình

 
xguru 2024-08-19

Ôi trời. Vì mình làm kiểu như giải bài tiếng Anh nên điểm thấp quá T_T

 
GN⁺ 2024-08-19
Ý kiến trên Hacker News
  • Không giống điều người ta kỳ vọng từ tiêu đề “smart”, nhưng đây là một ý tưởng thú vị

    • Sẽ tốt hơn nếu chỉ hiển thị từng câu hỏi một và cung cấp phản hồi ngay sau mỗi câu trả lời
    • Như vậy sẽ tăng cảm giác nhập vai hơn và cũng hữu ích vì có thể kiểm tra đáp án ngay lập tức
  • Đã làm một trò chơi/câu đố đoán từ tiếp theo từ các bình luận trên Hacker News

    • Dùng llama2 để tạo ba phần hoàn thành thay thế cho mỗi bình luận nhằm tạo câu hỏi trắc nghiệm
    • Mô hình ngôn ngữ cục bộ chọn câu trả lời có độ hỗn loạn (perplexity) tổng của prompt và câu trả lời thấp nhất
    • Mô hình OpenAI được thiết lập logit_bias để chỉ chọn một trong các đáp án được phép
    • Không thể so sánh với Claude hay các LLM trực tuyến khác
    • Không thể nói bài quiz này vui, nhưng vẫn có thể duy trì tỷ lệ đúng trên 50% một cách khá ổn định
  • Chiến lược để thắng là chọn từ mà mô hình ngôn ngữ ít có khả năng chọn nhất

    • Chọn “outlier” là chiến lược tốt nhất
    • Đây có thể là một chiến lược đơn giản để phát hiện nội dung do AI tạo ra
  • Kết quả cho thấy việc dự đoán chính xác từ tiếp theo chỉ với lượng thông tin được cung cấp là bất khả thi

    • Sẽ tốt hơn ngẫu nhiên nếu sắp xếp các câu trả lời theo xác suất và chấm điểm dựa trên việc đáp án đúng được xếp hạng cao đến mức nào
    • Cũng tò mò không biết LLM có cố bắt chước giọng văn của tác giả gốc hay không
  • Trò này là một bài kiểm tra tốt để xem bạn có đọc quá nhiều bình luận HN hay không

  • Vì mỗi lần đều nhận một bài quiz ngẫu nhiên nên không thể so sánh kết quả

    • Nếu tìm được một corpus mà người bình thường có thể đánh bại LLM, rồi thêm thử thách hằng ngày kiểu Wordle và tính năng chia sẻ mạng xã hội, nó có thể lan truyền mạnh
  • Nhờ thời gian đã dành trên HN mà tôi có thể dự đoán tốt hơn AI một chút

  • Với những ai thử bài quiz 100 câu: theo tiêu chuẩn thống kê truyền thống, phải đúng hơn 1/3 thì mới được xem là tốt hơn đoán mò

    • Muốn giỏi hơn LLM thì phải đúng hơn một nửa
  • Nếu mẫu lấy từ HN, có khả năng văn bản đó đã là một phần của dataset

    • Nhưng nếu là các bình luận gần đây thì khả năng đó thấp hơn nhiều
    • ChatGPT có thể dùng công cụ tìm kiếm Bing, nhưng mẫu API gpt4o-mini thì khó có khả năng làm vậy
  • Một số câu được trích ra từ ngữ cảnh lớn hơn, nên LLM đang ở vị thế có lợi cho việc dự đoán