Open-LLaMa - Pipeline huấn luyện hoàn chỉnh để xây dựng LLM

xguru · 2023-05-16T10:02:01+09:00

Mã nguồn mở xây dựng toàn bộ pipeline từ tạo bộ dữ liệu, token hóa, tinh chỉnh prompt, LoRA đến RLHF Mô hình Open-LLama-V2-pretrain đã được tiền huấn luyện cũng được công bố trên Hugging Face Theo phương pháp đánh giá của FastChat, hiệu năng đạt khoảng 89% so với GPT-3.5 (đối với các câu hỏi bằng tiếng Trung) Tốc độ huấn luyện là 3620 token/s, nhanh hơn một chút so với 3370 của LLama gốc (mô hình 7B) Nếu huấn luyện với 500B token thì cần 38300 giờ GPU Trên Google Cloud, dùng 8 GPU A100-80G Spot trong một giờ có giá 12.6 USD Tổng chi phí là 60300 USD

(github.com/s-JoL)

8 điểm bởi xguru 2023-05-16 | 2 bình luận | Chia sẻ qua WhatsApp

Mã nguồn mở xây dựng toàn bộ pipeline từ tạo bộ dữ liệu, token hóa, tinh chỉnh prompt, LoRA đến RLHF
Mô hình Open-LLama-V2-pretrain đã được tiền huấn luyện cũng được công bố trên Hugging Face
Theo phương pháp đánh giá của FastChat, hiệu năng đạt khoảng 89% so với GPT-3.5 (đối với các câu hỏi bằng tiếng Trung)
Tốc độ huấn luyện là 3620 token/s, nhanh hơn một chút so với 3370 của LLama gốc (mô hình 7B)
Nếu huấn luyện với 500B token thì cần 38300 giờ GPU
- Trên Google Cloud, dùng 8 GPU A100-80G Spot trong một giờ có giá 12.6 USD
- Tổng chi phí là 60300 USD

2 bình luận

zer0ne 2023-05-16

Tôi khá tò mò nếu huấn luyện bằng GPU phổ thông dành cho người tiêu dùng như 4090 thì sẽ mất bao lâu.

xguru 2023-05-16

Nghe tên quen quen..? Nên tìm thử thì hóa ra là
OpenLLaMA - bản sao mở của LLaMA
Chỉ khác dự án này một dấu gạch nối trong tên, nhưng nội dung thì lại là một dự án hoàn toàn khác.

Open-LLaMa - Pipeline huấn luyện hoàn chỉnh để xây dựng LLM

Bài viết liên quan

2 bình luận