15 điểm bởi xguru 2023-02-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Chỉ số phù hợp nhất để đánh giá mức độ <tốt> của kết quả do mô hình tạo ra là điểm ưu tiên của con người
  • RLHF (Reinforcement Learning from Human Feedback) là phương pháp sử dụng phản hồi do con người đánh giá về kết quả của mô hình làm chỉ số về chất lượng của văn bản được tạo ra, và xa hơn nữa là thiết kế loss phản ánh phản hồi đó để tối ưu hóa mô hình
  • RLHF: Từng bước một
    • #1 Huấn luyện Language Model (pre-training)
    • #2 Thu thập dữ liệu để huấn luyện Reward Model và huấn luyện mô hình
    • #3 Fine-tuning Language Model thông qua Reinforcement Learning
  • RLHF, những điều cần cân nhắc
    • Các giới hạn ở thời điểm hiện tại

Chưa có bình luận nào.

Chưa có bình luận nào.