8 điểm bởi xguru 2023-05-16 | 2 bình luận | Chia sẻ qua WhatsApp
  • Mã nguồn mở xây dựng toàn bộ pipeline từ tạo bộ dữ liệu, token hóa, tinh chỉnh prompt, LoRA đến RLHF
  • Mô hình Open-LLama-V2-pretrain đã được tiền huấn luyện cũng được công bố trên Hugging Face
  • Theo phương pháp đánh giá của FastChat, hiệu năng đạt khoảng 89% so với GPT-3.5 (đối với các câu hỏi bằng tiếng Trung)
  • Tốc độ huấn luyện là 3620 token/s, nhanh hơn một chút so với 3370 của LLama gốc (mô hình 7B)
  • Nếu huấn luyện với 500B token thì cần 38300 giờ GPU
    • Trên Google Cloud, dùng 8 GPU A100-80G Spot trong một giờ có giá 12.6 USD
    • Tổng chi phí là 60300 USD

2 bình luận

 
zer0ne 2023-05-16

Tôi khá tò mò nếu huấn luyện bằng GPU phổ thông dành cho người tiêu dùng như 4090 thì sẽ mất bao lâu.

 
xguru 2023-05-16

Nghe tên quen quen..? Nên tìm thử thì hóa ra là
OpenLLaMA - bản sao mở của LLaMA
Chỉ khác dự án này một dấu gạch nối trong tên, nhưng nội dung thì lại là một dự án hoàn toàn khác.