Sách về RLHF được xuất bản
(rlhfbook.com)- Một sách và khóa học trực tuyến miễn phí được tạo ra để học RLHF và post-training của mô hình ngôn ngữ tại một nơi, được cấu trúc để độc giả có nền tảng định lượng có thể theo dõi toàn bộ quy trình huấn luyện
- Luồng chính là công thức RLHF, giải thích bằng cách kết nối instruction tuning, huấn luyện reward model, rejection sampling, reinforcement learning, on-policy distillation và các thuật toán direct alignment
- Không chỉ các cột mốc kỹ thuật, sách còn đề cập đến nguồn gốc của RLHF dẫn tới kinh tế học, triết học, điều khiển tối ưu, giúp nhìn rộng hơn bối cảnh hình thành khái niệm này
- Tài liệu đi kèm gồm codebase thuật toán, thư viện để so sánh các bản hoàn thiện mô hình theo từng giai đoạn post-training, và trang bài giảng dùng cho giáo dục
- Sau khi phản ánh các chỉnh sửa cuối cùng và cải tiến của bản Manning vào tháng 4/2026, nội dung sẽ chuyển sang bản in; từ nay về sau dự kiến sẽ có ít thay đổi nội dung hơn
Sách học RLHF và post-training
- RLHF đã trở thành một công cụ quan trọng để xây dựng các hệ thống machine learning quy mô lớn hiện đại, và phạm vi thảo luận cũng đã mở rộng từ các phương pháp RLHF cốt lõi sang một nhóm kỹ thuật post-training rộng hơn
- Bắt đầu bằng phần nhập môn ngắn tập trung vào mô hình ngôn ngữ, sách được cấu trúc để độc giả có nền tảng định lượng lần lượt hiểu các phương pháp cốt lõi của post-training mô hình
- Theo quy trình RLHF chuẩn, sách nối tiếp các chủ đề sau
- RLHF làm gì và vì sao nó được tạo ra
- Các cột mốc kỹ thuật chính trong lịch sử ngắn của lĩnh vực này
- Nền tảng reinforcement learning cần thiết để hiểu cuốn sách
- Các bước tối ưu hóa nối tiếp từ instruction tuning đến huấn luyện reward model
- Các thuật toán rejection sampling, reinforcement learning, on-policy distillation, direct alignment
- Nửa sau của sách bàn về các câu hỏi mở trong những chủ đề và lĩnh vực ít được nghiên cứu hơn hoặc mới nổi, như dữ liệu tổng hợp, sử dụng công cụ, học nhân vật và đánh giá
Tài liệu đi kèm và lịch sử thay đổi
- Có các tài liệu đi kèm để học các khái niệm nền tảng của mô hình ngôn ngữ post-training
-
Các thay đổi năm 2026
- Tháng 4/2026: chỉnh sửa cuối cùng cho bản in, phản ánh các cải tiến của bản Manning, làm rõ công thức và thuật ngữ, sửa lỗi chính tả và ngữ pháp ở tất cả các chương, mở rộng chương sản phẩm
- Tháng 3/2026: công bố course page có video bài giảng, tô sáng cú pháp trong PDF, mở rộng chương sản phẩm
- Tháng 2/2026: thêm chương direct alignment, sơ đồ mới, cheat sheet RL, phụ lục, ô tìm kiếm, hỗ trợ Kindle và các chỉnh sửa biên tập với nội dung v2
- Tháng 1/2026: tái cấu trúc các chương chính theo cấu trúc sách Manning, thư viện ví dụ mã, áp dụng chuyển hướng từ URL cũ sang vị trí mới
- Trong năm 2025 và 2024, các nội dung như DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography đã được bổ sung theo từng giai đoạn
- Định dạng trích dẫn cho bản 2026 được cung cấp là
@book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}
Chưa có bình luận nào.