7 điểm bởi xguru 2025-01-08 | 3 bình luận | Chia sẻ qua WhatsApp
  • Tổng hợp các benchmark đã trở nên vô dụng do sự phát triển của AI (không thể đo lường các mô hình mới nhất)
    • Vẫn hữu ích như một benchmark nhưng không đóng góp ý nghĩa gì cho câu hỏi: "AI có thể làm được X không?"
  • 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
  • 2022: BIG-Bench
  • 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018: SWAG

3 bình luận

 
kandk 2025-01-08

SQuAD cũng sắp biến mất rồi sao?

 
nutella 2025-01-08

Nó làm tôi nhớ đến Killed by Google.

 
xguru 2025-01-08

Vẫn còn có sự ủng hộ và phản đối đối với một số benchmark cụ thể, nhưng thật thú vị. https://news.ycombinator.com/item?id=42606231