ColossalChat - giải pháp mã nguồn mở cho pipeline RLHF nhằm sao chép ChatGPT

xguru · 2023-03-31T11:32:02+09:00

Dựa trên mô hình LLaMA Thu thập dữ liệu supervised Fine-tuning supervised Huấn luyện mô hình reward Fine-tuning bằng Reinforcement Learning Nội dung bao gồm Demo tương tác chạy trực tuyến Mã huấn luyện RLHF mã nguồn mở hoàn chỉnh, bao gồm các mô hình 7B/13B Bộ dữ liệu song ngữ 104k bằng tiếng Trung/tiếng Anh Lượng tử hóa 4-bit cho mô hình 7B. Chỉ cần 4GB bộ nhớ GPU Bao gồm trọng số mô hình. Có thể tái tạo dễ dàng trên một máy chủ đơn Sẽ tiếp tục bổ sung các mô hình lớn, bộ dữ liệu, tối ưu hóa, v.v.

(medium.com/@yangyou_berkeley)

10 điểm bởi xguru 2023-03-31 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Dựa trên mô hình LLaMA
- Thu thập dữ liệu supervised
- Fine-tuning supervised
- Huấn luyện mô hình reward
- Fine-tuning bằng Reinforcement Learning
Nội dung bao gồm
- Demo tương tác chạy trực tuyến
- Mã huấn luyện RLHF mã nguồn mở hoàn chỉnh, bao gồm các mô hình 7B/13B
- Bộ dữ liệu song ngữ 104k bằng tiếng Trung/tiếng Anh
- Lượng tử hóa 4-bit cho mô hình 7B. Chỉ cần 4GB bộ nhớ GPU
- Bao gồm trọng số mô hình. Có thể tái tạo dễ dàng trên một máy chủ đơn
- Sẽ tiếp tục bổ sung các mô hình lớn, bộ dữ liệu, tối ưu hóa, v.v.

ColossalChat - giải pháp mã nguồn mở cho pipeline RLHF nhằm sao chép ChatGPT

Bài viết liên quan

Chưa có bình luận nào.