- Mã nguồn mở xây dựng toàn bộ pipeline từ tạo bộ dữ liệu, token hóa, tinh chỉnh prompt, LoRA đến RLHF
- Mô hình Open-LLama-V2-pretrain đã được tiền huấn luyện cũng được công bố trên Hugging Face
- Theo phương pháp đánh giá của FastChat, hiệu năng đạt khoảng 89% so với GPT-3.5 (đối với các câu hỏi bằng tiếng Trung)
- Tốc độ huấn luyện là 3620 token/s, nhanh hơn một chút so với 3370 của LLama gốc (mô hình 7B)
- Nếu huấn luyện với 500B token thì cần 38300 giờ GPU
- Trên Google Cloud, dùng 8 GPU A100-80G Spot trong một giờ có giá 12.6 USD
- Tổng chi phí là 60300 USD
2 bình luận
Tôi khá tò mò nếu huấn luyện bằng GPU phổ thông dành cho người tiêu dùng như 4090 thì sẽ mất bao lâu.
Nghe tên quen quen..? Nên tìm thử thì hóa ra là
OpenLLaMA - bản sao mở của LLaMA
Chỉ khác dự án này một dấu gạch nối trong tên, nhưng nội dung thì lại là một dự án hoàn toàn khác.