• OpenELM được giới thiệu là một mô hình ngôn ngữ mở tiên tiến, thúc đẩy tính tái lập và minh bạch trong lĩnh vực mô hình ngôn ngữ lớn. Bằng cách sử dụng chiến lược mở rộng theo từng lớp, OpenELM phân bổ tham số hiệu quả trong mỗi lớp của mô hình transformer để cải thiện độ chính xác. Ví dụ, với ngân sách khoảng 1 tỷ tham số, OpenELM vượt OLMo 2,36% trong khi chỉ cần một nửa số token tiền huấn luyện.
• Khác với thông lệ trước đây chỉ cung cấp trọng số mô hình và mã suy luận, OpenELM cung cấp một framework toàn diện để huấn luyện và đánh giá mô hình ngôn ngữ bằng các bộ dữ liệu công khai. Framework này bao gồm nhật ký huấn luyện, nhiều checkpoint và cấu hình tiền huấn luyện. Ngoài ra, mã chuyển đổi mô hình sang thư viện MLX cũng được cung cấp để suy luận và fine-tuning trên các thiết bị Apple.
• Việc phát hành OpenELM nhằm trao quyền cho cộng đồng nghiên cứu mở bằng cách cung cấp quyền truy cập vào framework huấn luyện và suy luận hoàn chỉnh, từ đó thúc đẩy các nỗ lực nghiên cứu mở trong tương lai. Mã nguồn, trọng số mô hình đã tiền huấn luyện và quy trình huấn luyện đều có thể dễ dàng sử dụng trên Hugging Face, cùng với khả năng truy cập mô hình.
1 bình luận
Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU
Xem qua các phản hồi xung quanh thì có ý kiến cho rằng MMLU quá thấp và các bộ dữ liệu dùng để huấn luyện cũng hơi cũ.
Cũng có người nói đây là mô hình cũ nên mới được cố ý mở mã nguồn...