Bị LLM xóa bỏ
(r0bk.github.io)- Tổng hợp các benchmark đã trở nên vô dụng do sự phát triển của AI (không thể đo lường các mô hình mới nhất)
- Vẫn hữu ích như một benchmark nhưng không đóng góp ý nghĩa gì cho câu hỏi: "AI có thể làm được X không?"
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
- 2022: BIG-Bench
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018: SWAG
3 bình luận
SQuAD cũng sắp biến mất rồi sao?
Nó làm tôi nhớ đến Killed by Google.
Vẫn còn có sự ủng hộ và phản đối đối với một số benchmark cụ thể, nhưng thật thú vị. https://news.ycombinator.com/item?id=42606231