7 điểm bởi xguru 2023-05-08 | 2 bình luận | Chia sẻ qua WhatsApp
  • Dự án nhằm tạo ra một mô hình ngôn ngữ hoàn toàn mở
  • Công bố các mô hình RedPajama-INCITE với 3B (hoàn tất), 7B (bản xem trước) tham số dựa trên bộ dữ liệu RedPajama-Data-1T được công bố 3 tuần trước
    • Mô hình Base
    • Mô hình đã tinh chỉnh theo chỉ dẫn
    • Mô hình Chat
  • Mô hình 3B là mạnh nhất trong cùng phân khúc. Do kích thước nhỏ nên chạy nhanh và có thể vận hành cả trên phần cứng như RTX 2070 ra mắt từ 5 năm trước
  • Mô hình 7B phiên bản tinh chỉnh theo chỉ dẫn đạt điểm cao hơn LLaMA 7B 3 điểm trên benchmark HELM
  • Mô hình 7B (đã hoàn tất 80% huấn luyện) đã vượt qua mô hình Pythia 7B
  • Khi việc huấn luyện 7B hoàn tất trong vài tuần tới, nó sẽ vượt qua LLaMA 7B
  • Mô hình 3B đã ổn định với 800 tỷ token, còn mô hình 7B đang hoàn tất huấn luyện với 1 nghìn tỷ token và tiếp tục được cải thiện

2 bình luận

 
coremaker 2023-05-08

Đây là một sự kiện quan trọng đối với nghiên cứu và sự phát triển của AI,
nhưng những mô hình như thế này nhiều khả năng sẽ không đưa ra được giải pháp cho các vấn đề phát sinh khi sử dụng vào mục đích thương mại.
Về mặt thương mại, có vẻ như ngoài việc sử dụng mô hình, nhất thiết còn phải đi kèm các công việc như tinh chỉnh hoặc trang bị thêm các bộ lọc bổ sung.