RedPajama công bố mô hình 7B có hiệu năng vượt các mô hình LLM 7B công khai khác trên benchmark HELM
(together.xyz)Giới thiệu 3 mô hình RedPajama-INCITE-7B
- Công bố 3 mô hình 7B, trong đó có RedPajama-INCITE-7B-Instruct với hiệu năng vượt các mô hình 7B đã được công khai trước đó theo benchmark HELM
Mô hình RedPajama-INCITE-7B-Instruct
- Phiên bản tinh chỉnh Instruct của mô hình hiện có
- Được huấn luyện bằng P3 (BigScience) và Natural Instruction (AI2)
- Là mô hình mở có điểm số cao nhất trên benchmark HELM, phù hợp với nhiều tác vụ khác nhau
Mô hình RedPajama-INCITE-7B-Chat
- Chỉ được huấn luyện bằng dữ liệu mã nguồn mở như Dolly2 và OASST ➡️ có thể dùng cho mục đích thương mại
- (+ Không chỉ mô hình Chat, toàn bộ dòng RedPajama-INCITE đều có thể dùng cho mục đích thương mại)
- Được công bố kèm script huấn luyện để fine-tuning :arrow_forward: có thể dùng ngay trong OpenChatKit
- Hỗ trợ RedPajama.cpp (fork của LLaMA.cpp) - có thể chạy trên CPU
- Hợp tác với các dự án như MLC LLM ➡️ sẽ giúp mô hình có thể chạy trên nhiều loại phần cứng khác nhau trong tương lai
Mô hình RedPajama-INCITE-7B-Base
- Sử dụng cùng kiến trúc với mô hình Pythia của EleutherAI, được huấn luyện bằng bộ dữ liệu RedPajama-Data-1T
- Có thể tải từ 🤗HuggingFace tại togethercomputer/RedPajama-INCITE-7B-Base
- Theo benchmark HELM, hiệu năng thấp hơn LLaMA-7B 4 điểm và thấp hơn Falcon-7B/MPT-7B khoảng 1.3 điểm
- Chỉ cho hiệu năng thấp hơn ở các tác vụ tính chênh lệch xác suất giữa đáp án đúng/sai bằng logprob
- Ở các tác vụ tạo trực tiếp câu trả lời và đo chất lượng, mô hình cho hiệu năng tương đương
- Kết quả LM Harness cũng dùng logprob nên cho thấy mức hiệu năng thấp tương tự
Kế hoạch tiếp theo (RedPajama2)
- Đang phát triển RedPajama2, bộ dữ liệu mới gồm 2~3T token, với kế hoạch như sau:
- Dự định cân bằng việc trộn dữ liệu bằng các kỹ thuật như DoReMi
- Sử dụng dữ liệu như Pile v1 của Eleuther.ai và Pile v2 của CarperAI để bổ sung tính đa dạng và quy mô
- Xử lý thêm nhiều dữ liệu CommonCrawl hơn
- Khám phá nhiều chiến lược loại bỏ trùng lặp dữ liệu ngoài cách tiếp cận trong bài báo LLaMA
- Bổ sung hơn 150B token mã để cải thiện chất lượng cho các tác vụ lập trình và suy luận (reasoning)
3 bình luận
Ôi.. tiêu đề có lỗi gõ nhầm rồi T_T
@xguru-nim, không biết anh/chị có thể đổi HEML trong tiêu đề thành HELM giúp được không T_T
Đã sửa lại!
Đọc thêm