Bị LLM xóa bỏ

xguru · 2025-01-08T09:33:01+09:00

Tổng hợp các benchmark đã trở nên vô dụng do sự phát triển của AI (không thể đo lường các mô hình mới nhất) Vẫn hữu ích như một benchmark nhưng không đóng góp ý nghĩa gì cho câu hỏi: "AI có thể làm được X không?" 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 điểm bởi xguru 2025-01-08 | 3 bình luận | Chia sẻ qua WhatsApp

Tổng hợp các benchmark đã trở nên vô dụng do sự phát triển của AI (không thể đo lường các mô hình mới nhất)
- Vẫn hữu ích như một benchmark nhưng không đóng góp ý nghĩa gì cho câu hỏi: "AI có thể làm được X không?"
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 bình luận

kandk 2025-01-08

SQuAD cũng sắp biến mất rồi sao?

nutella 2025-01-08

Nó làm tôi nhớ đến Killed by Google.

xguru 2025-01-08

Vẫn còn có sự ủng hộ và phản đối đối với một số benchmark cụ thể, nhưng thật thú vị. https://news.ycombinator.com/item?id=42606231

Bị LLM xóa bỏ

Bài viết liên quan

3 bình luận