- Dựa trên mô hình LLaMA
- Thu thập dữ liệu supervised
- Fine-tuning supervised
- Huấn luyện mô hình reward
- Fine-tuning bằng Reinforcement Learning
- Nội dung bao gồm
- Demo tương tác chạy trực tuyến
- Mã huấn luyện RLHF mã nguồn mở hoàn chỉnh, bao gồm các mô hình 7B/13B
- Bộ dữ liệu song ngữ 104k bằng tiếng Trung/tiếng Anh
- Lượng tử hóa 4-bit cho mô hình 7B. Chỉ cần 4GB bộ nhớ GPU
- Bao gồm trọng số mô hình. Có thể tái tạo dễ dàng trên một máy chủ đơn
- Sẽ tiếp tục bổ sung các mô hình lớn, bộ dữ liệu, tối ưu hóa, v.v.
Chưa có bình luận nào.