RedPajama công bố mô hình 7B có hiệu năng vượt các mô hình LLM 7B công khai khác trên benchmark HELM

ninebow · 2023-06-07T01:01:15+09:00

Giới thiệu 3 mô hình RedPajama-INCITE-7B Công bố 3 mô hình 7B, trong đó có RedPajama-INCITE-7B-Instruct với hiệu năng vượt các mô hình 7B đã được công khai trước đó theo benchmark HELM Mô hình RedPajama-INCITE-7B-Instruct Phiên bản tinh chỉnh Instruct của mô hình hiện có Được huấn luyện bằng P3 (BigScience) và Natural Instruction (AI2) Là mô hình mở có điểm số cao nhất trên benchmark HELM, phù hợp với nhiều tác vụ khác nhau Mô hình RedPajama-INCITE-7B-Chat Chỉ được huấn luyện bằng dữ liệu mã nguồn mở như Dolly2 và OASST ➡️ có thể dùng cho mục đích thương mại (+ Không chỉ mô hình Chat, toàn bộ dòng RedPajama-INCITE đều có thể dùng cho mục đích thương mại) Được công bố kèm script huấn luyện để fine-tuning :arrow_forward: có thể dùng ngay trong OpenChatKit Hỗ trợ RedPajama.cpp (fork của LLaMA.cpp) - có thể chạy trên CPU Hợp tác với các dự án như MLC LLM ➡️ sẽ giúp mô hình có thể chạy trên nhiều loại phần cứng khác nhau trong tương lai Mô hình RedPajama-INCITE-7B-Base Sử dụng cùng kiến trúc với mô hình Pythia của EleutherAI, được huấn luyện bằng bộ dữ liệu RedPajama-Data-1T Có thể tải từ 🤗HuggingFace tại togethercomputer/RedPajama-INCITE-7B-Base Theo benchmark HELM, hiệu năng thấp hơn LLaMA-7B 4 điểm và thấp hơn Falcon-7B/MPT-7B khoảng 1.3 điểm Chỉ cho hiệu năng thấp hơn ở các tác vụ tính chênh lệch xác suất giữa đáp án đúng/sai bằng logprob Ở các tác vụ tạo trực tiếp câu trả lời và đo chất lượng, mô hình cho hiệu năng tương đương Kết quả LM Harness cũng dùng logprob nên cho thấy mức hiệu năng thấp tương tự Kế hoạch tiếp theo (RedPajama2) Đang phát triển RedPajama2, bộ dữ liệu mới gồm 2~3T token, với kế hoạch như sau: Dự định cân bằng việc trộn dữ liệu bằng các kỹ thuật như DoReMi Sử dụng dữ liệu như Pile v1 của Eleuther.ai và Pile v2 của CarperAI để bổ sung tính đa dạng và quy mô Xử lý thêm nhiều dữ liệu CommonCrawl hơn Khám phá nhiều chiến lược loại bỏ trùng lặp dữ liệu ngoài cách tiếp cận trong bài báo LLaMA Bổ sung hơn 150B token mã để cải thiện chất lượng cho các tác vụ lập trình và suy luận (reasoning)

(together.xyz)

15 điểm bởi ninebow 2023-06-07 | 3 bình luận | Chia sẻ qua WhatsApp

Giới thiệu 3 mô hình RedPajama-INCITE-7B

Công bố 3 mô hình 7B, trong đó có RedPajama-INCITE-7B-Instruct với hiệu năng vượt các mô hình 7B đã được công khai trước đó theo benchmark HELM

Mô hình RedPajama-INCITE-7B-Instruct

Phiên bản tinh chỉnh Instruct của mô hình hiện có
Được huấn luyện bằng P3 (BigScience) và Natural Instruction (AI2)
Là mô hình mở có điểm số cao nhất trên benchmark HELM, phù hợp với nhiều tác vụ khác nhau

Mô hình RedPajama-INCITE-7B-Chat

Chỉ được huấn luyện bằng dữ liệu mã nguồn mở như Dolly2 và OASST ➡️ có thể dùng cho mục đích thương mại
- (+ Không chỉ mô hình Chat, toàn bộ dòng RedPajama-INCITE đều có thể dùng cho mục đích thương mại)
Được công bố kèm script huấn luyện để fine-tuning :arrow_forward: có thể dùng ngay trong OpenChatKit
Hỗ trợ RedPajama.cpp (fork của LLaMA.cpp) - có thể chạy trên CPU
Hợp tác với các dự án như MLC LLM ➡️ sẽ giúp mô hình có thể chạy trên nhiều loại phần cứng khác nhau trong tương lai

Mô hình RedPajama-INCITE-7B-Base

Sử dụng cùng kiến trúc với mô hình Pythia của EleutherAI, được huấn luyện bằng bộ dữ liệu RedPajama-Data-1T
Có thể tải từ 🤗HuggingFace tại togethercomputer/RedPajama-INCITE-7B-Base
Theo benchmark HELM, hiệu năng thấp hơn LLaMA-7B 4 điểm và thấp hơn Falcon-7B/MPT-7B khoảng 1.3 điểm
- Chỉ cho hiệu năng thấp hơn ở các tác vụ tính chênh lệch xác suất giữa đáp án đúng/sai bằng logprob
- Ở các tác vụ tạo trực tiếp câu trả lời và đo chất lượng, mô hình cho hiệu năng tương đương
- Kết quả LM Harness cũng dùng logprob nên cho thấy mức hiệu năng thấp tương tự

Kế hoạch tiếp theo (RedPajama2)

Đang phát triển RedPajama2, bộ dữ liệu mới gồm 2~3T token, với kế hoạch như sau:
- Dự định cân bằng việc trộn dữ liệu bằng các kỹ thuật như DoReMi
- Sử dụng dữ liệu như Pile v1 của Eleuther.ai và Pile v2 của CarperAI để bổ sung tính đa dạng và quy mô
- Xử lý thêm nhiều dữ liệu CommonCrawl hơn
- Khám phá nhiều chiến lược loại bỏ trùng lặp dữ liệu ngoài cách tiếp cận trong bài báo LLaMA
- Bổ sung hơn 150B token mã để cải thiện chất lượng cho các tác vụ lập trình và suy luận (reasoning)

3 bình luận

ninebow 2023-06-07

Ôi.. tiêu đề có lỗi gõ nhầm rồi T_T
@xguru-nim, không biết anh/chị có thể đổi HEML trong tiêu đề thành HELM giúp được không T_T

moderator 2023-06-08

Đã sửa lại!