ChatGPT đã được huấn luyện như thế nào - RLHF

xguru · 2023-02-08T10:42:16+09:00

Chỉ số phù hợp nhất để đánh giá mức độ của kết quả do mô hình tạo ra là điểm ưu tiên của con người RLHF (Reinforcement Learning from Human Feedback) là phương pháp sử dụng phản hồi do con người đánh giá về kết quả của mô hình làm chỉ số về chất lượng của văn bản được tạo ra, và xa hơn nữa là thiết kế loss phản ánh phản hồi đó để tối ưu hóa mô hình RLHF: Từng bước một #1 Huấn luyện Language Model (pre-training) #2 Thu thập dữ liệu để huấn luyện Reward Model và huấn luyện mô hình #3 Fine-tuning Language Model thông qua Reinforcement Learning RLHF, những điều cần cân nhắc Các giới hạn ở thời điểm hiện tại

(littlefoxdiary.tistory.com)

15 điểm bởi xguru 2023-02-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Chỉ số phù hợp nhất để đánh giá mức độ <tốt> của kết quả do mô hình tạo ra là điểm ưu tiên của con người
RLHF (Reinforcement Learning from Human Feedback) là phương pháp sử dụng phản hồi do con người đánh giá về kết quả của mô hình làm chỉ số về chất lượng của văn bản được tạo ra, và xa hơn nữa là thiết kế loss phản ánh phản hồi đó để tối ưu hóa mô hình
RLHF: Từng bước một
- #1 Huấn luyện Language Model (pre-training)
- #2 Thu thập dữ liệu để huấn luyện Reward Model và huấn luyện mô hình
- #3 Fine-tuning Language Model thông qua Reinforcement Learning
RLHF, những điều cần cân nhắc
- Các giới hạn ở thời điểm hiện tại

ChatGPT đã được huấn luyện như thế nào - RLHF

Bài viết liên quan

Chưa có bình luận nào.