LogicKor: Benchmark năng lực suy luận đa lĩnh vực cho mô hình ngôn ngữ tiếng Hàn

(github.com/StableFluffy)

14 điểm bởi libner 2024-03-29 | 3 bình luận | Chia sẻ qua WhatsApp

Đây là benchmark mô hình ngôn ngữ tiếng Hàn được xây dựng dựa trên cảm hứng từ MT-Bench, một benchmark trong khối tiếng Anh gồm 8 hạng mục với 10 câu hỏi cho mỗi hạng mục.
Người tạo cho biết đã xây dựng bộ này sau khi nhận thấy những hạn chế trong các benchmark hiện đang được dùng cho mô hình ngôn ngữ tiếng Hàn.

Dưới đây là phần được trích từ bài viết của tác giả về benchmark LogicKor.

Chúng tôi đã chia 6 chủ đề có thể dùng để đánh giá năng lực suy luận của mô hình tiếng Hàn như sau.  
Suy luận (Reasoning) - tư duy logic, giải quyết vấn đề  
Toán học (Math) - khái niệm toán học, tính toán  
Viết (Writing) - sự liên kết giữa các câu, tính sáng tạo  
Lập trình (Coding) - kiến thức lập trình, hiện thực chức năng  
Hiểu (Understanding) - hiểu đoạn văn, trích xuất thông tin, làm theo chỉ thị  
Ngữ pháp (Grammar) - chính tả tiếng Hàn, quy tắc phát âm chuẩn  
  
Và chúng tôi đã tạo 7 câu hỏi multi-turn cho mỗi chủ đề.

3 bình luận

skymer 2024-03-29

Trong repo không có giải thích gì đáng kể, nhưng liệu bạn có thể đính kèm cả liên kết của bài viết mà bạn đã trích dẫn không?

libner 2024-03-29

Vì đây là bài đăng trên một trang cộng đồng nên cách dùng từ có thể hơi nặng... nên tôi lo phần bình luận có thể sẽ thành chuyện lớn, vì vậy trước đó tôi đã không đính kèm liên kết bài viết.
Đây là địa chỉ của bài viết đó: https://arca.live/b/alpaca/102052014

skymer 2024-03-29

Cảm ơn! Tôi cũng đã nghĩ rằng Upstage đang tung ra các kết quả benchmark khá đáng nghi, nên hóa ra không chỉ mình tôi nghĩ vậy.. Hiệu năng cảm nhận thực tế của ClovaX không hẳn tốt đến thế, nhưng trong số các mô hình tiếng Hàn thì lại đứng số 1 nhỉ.

LogicKor: Benchmark năng lực suy luận đa lĩnh vực cho mô hình ngôn ngữ tiếng Hàn

Bài viết liên quan

3 bình luận