"Bạn có thông minh hơn mô hình ngôn ngữ không?"
Nhiều bộ benchmark cố gắng đánh giá xem các mô hình ngôn ngữ thực hiện công việc của con người tốt đến mức nào.
Nhưng bạn có thể làm tốt đến đâu trong nhiệm vụ điển hình của mô hình ngôn ngữ là dự đoán từ tiếp theo?
Hãy thử giải 15 câu hỏi
3 bình luận
4 điểm... kết quả thật bực mình
Ôi trời. Vì mình làm kiểu như giải bài tiếng Anh nên điểm thấp quá T_T
Ý kiến trên Hacker News
Không giống điều người ta kỳ vọng từ tiêu đề “smart”, nhưng đây là một ý tưởng thú vị
Đã làm một trò chơi/câu đố đoán từ tiếp theo từ các bình luận trên Hacker News
logit_biasđể chỉ chọn một trong các đáp án được phépChiến lược để thắng là chọn từ mà mô hình ngôn ngữ ít có khả năng chọn nhất
Kết quả cho thấy việc dự đoán chính xác từ tiếp theo chỉ với lượng thông tin được cung cấp là bất khả thi
Trò này là một bài kiểm tra tốt để xem bạn có đọc quá nhiều bình luận HN hay không
Vì mỗi lần đều nhận một bài quiz ngẫu nhiên nên không thể so sánh kết quả
Nhờ thời gian đã dành trên HN mà tôi có thể dự đoán tốt hơn AI một chút
Với những ai thử bài quiz 100 câu: theo tiêu chuẩn thống kê truyền thống, phải đúng hơn 1/3 thì mới được xem là tốt hơn đoán mò
Nếu mẫu lấy từ HN, có khả năng văn bản đó đã là một phần của dataset
gpt4o-minithì khó có khả năng làm vậyMột số câu được trích ra từ ngữ cảnh lớn hơn, nên LLM đang ở vị thế có lợi cho việc dự đoán