LogicKor: Benchmark năng lực suy luận đa lĩnh vực cho mô hình ngôn ngữ tiếng Hàn
(github.com/StableFluffy)Đây là benchmark mô hình ngôn ngữ tiếng Hàn được xây dựng dựa trên cảm hứng từ MT-Bench, một benchmark trong khối tiếng Anh gồm 8 hạng mục với 10 câu hỏi cho mỗi hạng mục.
Người tạo cho biết đã xây dựng bộ này sau khi nhận thấy những hạn chế trong các benchmark hiện đang được dùng cho mô hình ngôn ngữ tiếng Hàn.
Dưới đây là phần được trích từ bài viết của tác giả về benchmark LogicKor.
Chúng tôi đã chia 6 chủ đề có thể dùng để đánh giá năng lực suy luận của mô hình tiếng Hàn như sau.
Suy luận (Reasoning) - tư duy logic, giải quyết vấn đề
Toán học (Math) - khái niệm toán học, tính toán
Viết (Writing) - sự liên kết giữa các câu, tính sáng tạo
Lập trình (Coding) - kiến thức lập trình, hiện thực chức năng
Hiểu (Understanding) - hiểu đoạn văn, trích xuất thông tin, làm theo chỉ thị
Ngữ pháp (Grammar) - chính tả tiếng Hàn, quy tắc phát âm chuẩn
Và chúng tôi đã tạo 7 câu hỏi multi-turn cho mỗi chủ đề.
3 bình luận
Trong repo không có giải thích gì đáng kể, nhưng liệu bạn có thể đính kèm cả liên kết của bài viết mà bạn đã trích dẫn không?
Vì đây là bài đăng trên một trang cộng đồng nên cách dùng từ có thể hơi nặng... nên tôi lo phần bình luận có thể sẽ thành chuyện lớn, vì vậy trước đó tôi đã không đính kèm liên kết bài viết.
Đây là địa chỉ của bài viết đó: https://arca.live/b/alpaca/102052014
Cảm ơn! Tôi cũng đã nghĩ rằng Upstage đang tung ra các kết quả benchmark khá đáng nghi, nên hóa ra không chỉ mình tôi nghĩ vậy.. Hiệu năng cảm nhận thực tế của ClovaX không hẳn tốt đến thế, nhưng trong số các mô hình tiếng Hàn thì lại đứng số 1 nhỉ.