25 điểm bởi ironman0722 2024-10-18 | 10 bình luận | Chia sẻ qua WhatsApp
  • o1-preview đạt bậc 1 ở phần Ngữ văn CSAT 2024 (88 điểm, bậc 1, top 4%)
  • gpt-4o hiện đang dẫn đầu, llama-3.1-405B-instruct đứng thứ 2, Qwen-2.5-72B đứng thứ 3
    • Ngoại trừ gpt o1-preview, các mô hình khác hiện vẫn chỉ quanh quẩn ở bậc 3~4
    • Có thể thấy nhiều mô hình vẫn gặp khó khăn trong việc bắt kịp Human performance ở lĩnh vực ngôn ngữ tiếng Hàn.
  • Đánh giá hiệu năng của LLM thông qua bộ dữ liệu chất lượng cao là đề Ngữ văn CSAT mới mỗi năm
    • Gồm các đoạn đọc hiểu thuộc nhiều lĩnh vực khác nhau (nhân văn, xã hội, khoa học, công nghệ, nghệ thuật), văn học, nói và viết
  • Sử dụng cùng hệ thống điểm chuẩn hóa và xếp bậc như kỳ thi CSAT thực tế để so sánh Human performance và performance của LLM
  • Có thể gửi yêu cầu benchmark cho mô hình fine-tuning trên Hugging Face của bạn hoặc bất kỳ mô hình nào bạn muốn kiểm thử

Tôi đã mở bảng xếp hạng benchmark lllm cho môn Ngữ văn CSAT!

Bảng xếp hạng này đo lường năng lực ngôn ngữ tiếng Hàn của LLM dựa trên các câu hỏi Ngữ văn CSAT chất lượng cao. Bằng cách áp dụng phương thức tính điểm chuẩn hóa và xếp bậc của CSAT, bảng xếp hạng cung cấp khả năng so sánh hiệu năng của mô hình với Human performance, và được mở ra để chia sẻ thông tin này với mọi người.

Mọi phản hồi đều luôn được chào đón!

i.e)

  • Hiện tại tôi đang thiếu tài nguyên GPU cho việc đánh giá mô hình! Nếu có ai có thể hỗ trợ GPU Donation thì tôi sẽ thực sự rất biết ơn!

  • Do vấn đề chi phí API, hiện vẫn chưa thể thử nghiệm với o1-preview, và tôi dự định sẽ kiểm thử ngay khi phiên bản chính thức của o1 được phát hành.

10 bình luận

 
roxie 2024-10-24

Hóa ra họ gọi kỳ thi đại học là CSAT.

 
doolayer 2024-10-21

Trong đoạn văn môn Ngữ văn cũng có hình minh họa, nên tôi khá tò mò vì sao lại không làm theo hướng multimodal?

 
ironman0722 2024-10-21

Cảm ơn bạn đã quan tâm đến bảng xếp hạng!

Lý do đầu tiên là vấn đề chi phí. Vào thời điểm tạo dữ liệu CSAT, cũng là lúc GPT-4 Turbo được phát hành vào năm ngoái, nên chi phí phát sinh khi xây dựng dữ liệu CSAT cho 10 năm là rất lớn.

Lý do thứ hai là để giải các câu hỏi CSAT, cần phải đưa vào phần mô tả mọi manh mối, bao gồm cả thông tin từ hình ảnh. Tuy nhiên, khi sử dụng multimodal vẫn có những giới hạn, nên chúng tôi đã trực tiếp viết phần mô tả về hình ảnh.

 
ilotoki0804 2024-10-18

Thú vị đấy! Khi xem bảng xếp hạng, tôi nảy ra vài điều thắc mắc, rất mong được anh/chị giải đáp.

  1. Khi sử dụng LLM, thời gian để giải toàn bộ đề là bao lâu? Với môn Ngữ văn của CSAT thì có giới hạn 80 phút (bao gồm cả thời gian tô OMR), nên tôi khá tò mò LLM sẽ mất khoảng bao nhiêu thời gian để làm hết toàn bộ câu hỏi.
  2. Ngay cả khi làm một đề thi dễ hơn thì liệu vẫn ra cùng mức xếp hạng không? Nói cực đoan hơn, ở kỳ thi thử tháng 9 lần này, ngưỡng điểm hạng 1 là 100 điểm vì đề rất dễ; tôi muốn biết nếu cho làm đề thi thử đó thì liệu mô hình có thể đạt mức xếp hạng tương tự như khi giải các đề thi thử khác hay không.

Theo dự đoán của tôi thì thời gian sẽ ít hơn nhiều so với 80 phút, và ngay cả với đề dễ thì điểm tuyệt đối có lẽ vẫn sẽ tương tự, nhưng tôi tò mò thực tế sẽ ra sao.

 
ironman0722 2024-10-21

Cảm ơn mọi người đã quan tâm rất nhiều đến bảng xếp hạng benchmark LLM cho môn Ngữ văn của kỳ thi CSAT! Để trả lời câu hỏi thì

  1. Ngắn thì mất khoảng 10 phút, lâu thì khoảng 25 phút.
  2. Nếu chỉ nhìn vào kết quả thì có những mô hình mà độ khó của đề thi dường như có ảnh hưởng đến việc LLM giải bài, nhưng cũng có những mô hình không như vậy, nên có lẽ khó khái quát hóa.

Ví dụ, với gpt-4o, có thể xác nhận rằng ở các kỳ thi CSAT tương đối dễ trong giai đoạn 2015 ~ 2018, khi điểm chuẩn hóa tối đa ở mức 130, mô hình đạt điểm tốt hơn và xếp hạng cũng cao hơn so với các đề khó của những năm khác.
Tuy nhiên, với mô hình meta llama 3.1 70B, trái lại với việc nhận mức xếp hạng thấp và điểm chuẩn hóa thấp ở các kỳ thi CSAT giai đoạn 2015 ~ 2018, trong kỳ thi CSAT 2022, nơi điểm chuẩn hóa tối đa ghi nhận ở mức 149, cũng có trường hợp mô hình đạt hạng 3.

Nếu còn điều gì khiến bạn tò mò thêm hoặc có phần giải thích nào cần bổ sung, cứ nói với tôi bất cứ lúc nào nhé!

 
ilotoki0804 2024-10-21

Ồ... mỗi mô hình đúng là có khác biệt đôi chút về xu hướng nhỉ? Trông thật sự rất giống con người. Cảm ơn bạn đã giải thích chi tiết!

 
doolayer 2024-10-21

Về số 1,
rốt cuộc đây là 45 câu hỏi trắc nghiệm với 5 lựa chọn, nên có vẻ sẽ giải được 45 mẫu (đầu vào) để ra 1 token (1,2,3,4,5) trong vòng vài trăm giây.

 
savvykang 2024-10-18

Thật lạ mà cũng thú vị khi AI bị chấm xếp hạng theo bài thi Ngữ văn CSAT.

 
mammal 2024-10-18

Đây là benchmark ngữ văn trong kỳ thi CSAT, mà README lại viết bằng tiếng Anh thì thật trớ trêu.

 
ng0301 2024-10-18

Xét theo tiếng Hàn thì chắc không có bộ dữ liệu benchmark mã nguồn mở chất lượng cao nào cỡ này đâu nhỉ haha