ko-arena-hard-auto: Benchmark để đo hiệu năng tiếng Hàn của LLM

(github.com/qwopqwop200)

7 điểm bởi qwopqwop200 2025-04-06 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mức độ ưu tiên của con người là một trong những chỉ số quan trọng để đánh giá hiệu năng của LLM.
Tuy nhiên, việc đo lường mức độ ưu tiên của con người rất khó và tốn kém.
Có các phương pháp như MT-Bench, Arena-Hard-Auto sử dụng LLM-as-a-Judge để giải quyết vấn đề này.
Tuy nhiên, các benchmark trước đó đều dành cho tiếng Anh.

Dĩ nhiên, tiếng Hàn cũng có những benchmark tốt như KoMT-Bench, LogicKor, Horangi.

Tuy nhiên, các benchmark hiện có đều dựa trên MT-Bench, và MT-Bench được biết là có mức tương quan với sở thích của con người và khả năng phân tách thấp hơn so với Arena-Hard-Auto.

Để giải quyết vấn đề này, ko-arena-hard-auto được xây dựng dựa trên Arena-Hard-Auto,
và sử dụng 500 câu hỏi khó, đòi hỏi cao của Arena-Hard-Auto đã được dịch sang tiếng Hàn.
Bản dịch được thực hiện bằng GPT-4o và o1, sau đó được rà soát thủ công.

Ngoài ra, nó còn khác biệt đáng kể so với Arena-Hard-Auto hiện có ở 3 điểm chính.

Sử dụng system prompt cho judge có tính đến code-mixing và code-switching.
Sử dụng gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324 làm mô hình judge và thực hiện ensemble. Điều này giúp giảm thiên lệch tự ưu ái và có thể đo hiệu năng với chi phí thấp hơn so với Arena-Hard-Auto hiện có.
Mô hình baseline sử dụng claude-3.7-sonnet. Do xét đến việc hiệu năng của LLM đang ngày càng được nâng mặt bằng, một LLM mạnh là claude-3.7-sonnet đã được chọn làm baseline.

Có thể xem kết quả benchmark tại: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

Mã nguồn: https://github.com/qwopqwop200/ko-arena-hard-auto
Bộ dữ liệu: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

ko-arena-hard-auto: Benchmark để đo hiệu năng tiếng Hàn của LLM

Bài viết liên quan

Chưa có bình luận nào.