8 điểm bởi GN⁺ 2023-09-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • Sử dụng bộ 20 câu hỏi để kiểm tra hiệu năng của hơn 60 mô hình ngôn ngữ (Language Learning Models, LLMs), đồng thời tổng hợp các câu trả lời của từng LLM
  • Các câu hỏi này được thiết kế để kiểm tra khả năng suy luận cơ bản, làm theo chỉ dẫn và tính sáng tạo của LLM
  • Phản hồi từ LLM được lưu vào cơ sở dữ liệu SQLite
  • Các câu hỏi rất đa dạng, từ bài toán số học đơn giản đến những tác vụ phức tạp hơn như giải thích lý thuyết trường lượng tử cho học sinh trung học phổ thông
  • Kịch bản này cũng bao gồm các tác vụ mà LLM phải thực hiện như dịch câu, xác định lỗi trong mã và tạo hàm Python
  • Tác giả đã chạy kịch bản bằng API của OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha & AI21
    • Có kế hoạch cải thiện kịch bản bằng cách dùng stop sequence và định dạng prompt được tối ưu hóa cho từng mô hình
    • Các ý tưởng trong tương lai gồm tính điểm ELO thông qua bỏ phiếu công khai, so sánh song song hai mô hình và các prompt do cộng đồng gửi

1 bình luận

 
GN⁺ 2023-09-10
Ý kiến Hacker News
  • Một người dùng đã tạo một bộ khung chung để chạy benchmark cho nhiều mô hình ngôn ngữ lớn (Language Learning Models, LLMs), đồng thời khuyến khích người khác kiểm thử mô hình bằng dữ liệu của riêng họ. Thư viện này hỗ trợ các mô hình từ OpenAI, Anthropic, Google, Llama, Codellama, Replicate và Ollama.
  • AI Playground của Vercel được nhấn mạnh như một công cụ hữu ích để đặt câu hỏi cho nhiều LLM cùng lúc, nhưng hiện chỉ hỗ trợ 24 mô hình chứ không phải 60.
  • Cách benchmark LLM trong bài viết được khen là thực tế hơn các phương pháp truyền thống như vượt qua kỳ thi. Tuy nhiên, cũng có lo ngại rằng các câu hỏi có thể đã là một phần của tập huấn luyện, làm sai lệch kết quả.
  • Sự khác biệt đã được ghi nhận trong câu trả lời của các LLM về các câu hỏi liên quan đến quan hệ gia đình, và một người dùng cho biết GPT4 đã trả lời chính xác câu hỏi mà bài viết khẳng định là mọi LLM đều trả lời sai.
  • Falcon Instruct (40B) được nhắc đến một cách hài hước là "mô hình buồn cười nhất" nhờ một câu đùa về kỳ nghỉ.
  • Một số benchmark bổ sung cho LLM đã được đề xuất, bao gồm "TheoremQA: bộ dữ liệu hỏi đáp [STEM] dựa trên định lý" và "Awesome-legal-nlp".
  • ChatGPT 3.5 bị chỉ trích vì các câu trả lời dài dòng, khi một người dùng chỉ ra rằng nó thường đưa ra những lời giải thích dài không cần thiết.
  • Bày tỏ sự kinh ngạc trước tiến bộ của AI, một người dùng nhắc đến khả năng của LLM trong việc tạo ra "một bài haiku phi giới tính và có đạo đức ủng hộ lẫn phản đối Kubernetes".
  • Hiệu năng của mô hình CodeLlama bị đặt dấu hỏi, khi một người dùng báo cáo kết quả tốt hơn nhiều so với những gì được liệt kê trong bài viết.
  • Dù quan tâm đến LLM, một số người dùng vẫn bày tỏ sự thất vọng với chất lượng câu trả lời của các mô hình, đặc biệt là với các câu hỏi về lý thuyết âm nhạc, đồng thời đặt nghi vấn liệu các mô hình này có thực sự cải thiện đáng kể theo thời gian hay không.