5 điểm bởi ironman0722 2024-11-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong môn Ngữ văn của kỳ thi CSAT năm học 2025, O1-Preview đã ghi nhận thành tích đáng kinh ngạc là 97 điểm
    • Câu 8 (3 điểm) sai ở đoạn đọc hiểu phi văn học
      • Đã chọn đáp án số 3 là đáp án sai do lỗi logic
  • Nếu bạn muốn tìm hiểu thêm về quá trình benchmark, mình cũng đã viết một bài blog tổng hợp quy trình thử nghiệm và các nội dung bổ sung, hãy tham khảo nhé!
  • Kết quả của các mô hình GPT trong benchmark LLM môn Ngữ văn CSAT 2025
    🥇 1st. o1-Preview: 97 điểm (hạng 1)
    🥈 2nd. o1-mini: 78 điểm (hạng 4)
    🥉 3rd. gpt-4o: 75 điểm (hạng 4): gpt-4o
    4th. gpt-4o-mini: 59 điểm (hạng 5)
    5th. gpt-3.5-turbo: 16 điểm (hạng 8)
  • Mục đích của dự án leaderboard benchmark LLM cho kỳ thi CSAT
    1. Chia sẻ thông tin benchmark có thể so sánh Human performance và LLM performance
    2. Bộ dữ liệu benchmark được tuyển chọn bởi KICE, cơ quan đánh giá có thẩm quyền nhất của Hàn Quốc để đánh giá năng lực tiếng Hàn
    3. Ngăn rò rỉ dữ liệu bằng bộ dữ liệu benchmark môn Ngữ văn CSAT mới được cập nhật hằng năm
    4. Đưa LLM mã nguồn mở không phụ thuộc vào một quốc gia hay doanh nghiệp cụ thể đạt đến hạng 1 trong kỳ thi CSAT của Hàn Quốc

  • Dự án này là dự án được thực hiện bởi Markr.AI.
  • Benchmark này được thực hiện bằng cách sử dụng AutoRAG mã nguồn mở!
  • Đã cập nhật hướng dẫn để có thể benchmark môn Ngữ văn CSAT 2023 trên leaderboard!
  • Nếu có điều gì thắc mắc, hãy liên hệ bất cứ lúc nào!

1 bình luận

 
ironman0722 2024-11-22

Link blog bị lỗi rồi! Mình sẽ đăng lại trong phần bình luận! https://velog.io/@minsing-jin/…