Công bố mô hình RedPajama 3B, 7B

xguru · 2023-05-08T10:01:01+09:00

Dự án nhằm tạo ra một mô hình ngôn ngữ hoàn toàn mở Công bố các mô hình RedPajama-INCITE với 3B (hoàn tất), 7B (bản xem trước) tham số dựa trên bộ dữ liệu RedPajama-Data-1T được công bố 3 tuần trước Mô hình Base Mô hình đã tinh chỉnh theo chỉ dẫn Mô hình Chat Mô hình 3B là mạnh nhất trong cùng phân khúc. Do kích thước nhỏ nên chạy nhanh và có thể vận hành cả trên phần cứng như RTX 2070 ra mắt từ 5 năm trước Mô hình 7B phiên bản tinh chỉnh theo chỉ dẫn đạt điểm cao hơn LLaMA 7B 3 điểm trên benchmark HELM Mô hình 7B (đã hoàn tất 80% huấn luyện) đã vượt qua mô hình Pythia 7B Khi việc huấn luyện 7B hoàn tất trong vài tuần tới, nó sẽ vượt qua LLaMA 7B Mô hình 3B đã ổn định với 800 tỷ token, còn mô hình 7B đang hoàn tất huấn luyện với 1 nghìn tỷ token và tiếp tục được cải thiện

(together.xyz)

7 điểm bởi xguru 2023-05-08 | 2 bình luận | Chia sẻ qua WhatsApp

Dự án nhằm tạo ra một mô hình ngôn ngữ hoàn toàn mở
Công bố các mô hình RedPajama-INCITE với 3B (hoàn tất), 7B (bản xem trước) tham số dựa trên bộ dữ liệu RedPajama-Data-1T được công bố 3 tuần trước
- Mô hình Base
- Mô hình đã tinh chỉnh theo chỉ dẫn
- Mô hình Chat
Mô hình 3B là mạnh nhất trong cùng phân khúc. Do kích thước nhỏ nên chạy nhanh và có thể vận hành cả trên phần cứng như RTX 2070 ra mắt từ 5 năm trước
Mô hình 7B phiên bản tinh chỉnh theo chỉ dẫn đạt điểm cao hơn LLaMA 7B 3 điểm trên benchmark HELM
Mô hình 7B (đã hoàn tất 80% huấn luyện) đã vượt qua mô hình Pythia 7B
Khi việc huấn luyện 7B hoàn tất trong vài tuần tới, nó sẽ vượt qua LLaMA 7B
Mô hình 3B đã ổn định với 800 tỷ token, còn mô hình 7B đang hoàn tất huấn luyện với 1 nghìn tỷ token và tiếp tục được cải thiện

2 bình luận

coremaker 2023-05-08

Đây là một sự kiện quan trọng đối với nghiên cứu và sự phát triển của AI,
nhưng những mô hình như thế này nhiều khả năng sẽ không đưa ra được giải pháp cho các vấn đề phát sinh khi sử dụng vào mục đích thương mại.
Về mặt thương mại, có vẻ như ngoài việc sử dụng mô hình, nhất thiết còn phải đi kèm các công việc như tinh chỉnh hoặc trang bị thêm các bộ lọc bổ sung.

xguru 2023-05-08

RedPajama - Dự án mã nguồn mở tái tạo bộ dữ liệu LLaMA

Công bố mô hình RedPajama 3B, 7B

Bài viết liên quan

2 bình luận