- Sử dụng bộ 20 câu hỏi để kiểm tra hiệu năng của hơn 60 mô hình ngôn ngữ (Language Learning Models, LLMs), đồng thời tổng hợp các câu trả lời của từng LLM
- Các câu hỏi này được thiết kế để kiểm tra khả năng suy luận cơ bản, làm theo chỉ dẫn và tính sáng tạo của LLM
- Phản hồi từ LLM được lưu vào cơ sở dữ liệu SQLite
- Các câu hỏi rất đa dạng, từ bài toán số học đơn giản đến những tác vụ phức tạp hơn như giải thích lý thuyết trường lượng tử cho học sinh trung học phổ thông
- Kịch bản này cũng bao gồm các tác vụ mà LLM phải thực hiện như dịch câu, xác định lỗi trong mã và tạo hàm Python
- Tác giả đã chạy kịch bản bằng API của OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha & AI21
- Có kế hoạch cải thiện kịch bản bằng cách dùng stop sequence và định dạng prompt được tối ưu hóa cho từng mô hình
- Các ý tưởng trong tương lai gồm tính điểm ELO thông qua bỏ phiếu công khai, so sánh song song hai mô hình và các prompt do cộng đồng gửi
1 bình luận
Ý kiến Hacker News