- Đây là môn học trình độ sau đại học của Đại học Stanford, đề cập đến các khái niệm cốt lõi và ứng dụng của học tăng cường (Reinforcement Learning), tập trung vào nguyên lý giúp các hệ tự trị tự học cách ra quyết định
- Học cách định nghĩa và giải quyết các bài toán trong nhiều lĩnh vực như robotics, game, mô hình hóa người tiêu dùng, y tế bằng RL
- Thông qua bài giảng, bài tập viết và bài tập lập trình, người học sẽ tiếp cận theo hướng thực hành từ các thuật toán RL cơ bản đến học tăng cường sâu (Deep RL)
- Người học cần có kiến thức trước về Python, đại số tuyến tính, xác suất thống kê, nền tảng machine learning; bài tập được nộp qua Gradescope
- Chương trình được xây dựng có hệ thống, bao gồm bài toán khám phá và khai thác, tìm kiếm chính sách, offline RL, trường hợp AlphaGo,... nên rất quan trọng để nâng cao năng lực cốt lõi cho nghiên cứu AI và phát triển ứng dụng
Tổng quan khóa học và cách vận hành
- Nhấn mạnh sự cần thiết của các hệ thống tự học ra quyết định một cách tự chủ để đạt được mục tiêu của trí tuệ nhân tạo
- Học tăng cường là một paradigma mạnh để hiện thực hóa các hệ thống như vậy và có thể được ứng dụng trong nhiều tình huống thực tế
- Lớp học được tổ chức trực tiếp vào thứ Ba và thứ Năm, video ghi hình được cung cấp qua Canvas
- Hỏi đáp được thực hiện qua Ed Forum, còn bài tập và bài kiểm tra được quản lý trên Gradescope
- Giảng viên phụ trách là Emma Brunskill, cùng sự hỗ trợ của nhiều trợ giảng
Yêu cầu học phần tiên quyết
- Bắt buộc có kỹ năng lập trình Python, mọi bài tập đều được viết bằng Python
- Cần kiến thức giải tích, đại số tuyến tính, xác suất thống kê ở trình độ đại học
- Yêu cầu hiểu nền tảng machine learning (ví dụ: CS221, CS229)
- Bao gồm các khái niệm như định nghĩa hàm chi phí, tối ưu hóa bằng gradient descent, tối ưu lồi
Mục tiêu học tập
- Định nghĩa các đặc trưng cốt lõi phân biệt học tăng cường với machine learning không tương tác
- Chính thức hóa một bài toán ứng dụng dưới dạng RL và thiết kế không gian trạng thái, không gian hành động, mô hình phần thưởng
- Triển khai các thuật toán chính như tìm kiếm chính sách, Q-learning, lập kế hoạch MDP
- Hiểu các tiêu chí đánh giá như regret, độ phức tạp mẫu, độ phức tạp tính toán, tính hội tụ
- So sánh các cách tiếp cận khác nhau cho bài toán khám phá so với khai thác (exploration vs exploitation)
Tóm tắt lịch học
- Tuần 1: Giới thiệu học tăng cường, lập kế hoạch Tabular MDP
- Tuần 2: Đánh giá chính sách, Q-learning và xấp xỉ hàm
- Tuần 3~4: Tìm kiếm chính sách (1~3), offline RL và imitation learning
- Tuần 5: Thi giữa kỳ, chủ đề DPO
- Tuần 6~7: Offline RL nâng cao, khám phá (1~3)
- Tuần 8: Khám phá (4), bài giảng khách mời, nộp mốc tiến độ dự án
- Tuần 9: Monte Carlo Tree Search / AlphaGo, quiz
- Tuần 10~11: Bài giảng khách mời, phiên poster dự án cuối kỳ và nộp báo cáo
Giáo trình và tài liệu tham khảo
- Không có giáo trình chính thức; tài liệu tham khảo quan trọng nhất là Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
- Tài liệu bổ sung gồm Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, bài giảng RL của David Silver
Tỷ trọng đánh giá
- Bài tập 1: 10%, Bài tập 2: 18%, Bài tập 3: 18%
- Thi giữa kỳ: 25%, quiz: 5%, dự án: 24%
- Đề xuất 1%, mốc tiến độ 2%, poster 5%, bài báo 16%
- Điểm thưởng tham gia lớp học: tối đa 0.5%
Chính sách nộp muộn
- Cung cấp tổng cộng 5 ngày nộp muộn (late days)
- Mỗi bài tập được dùng tối đa 2 ngày; vượt quá sẽ bị trừ điểm
- Nếu nộp trong vòng 24 giờ sau hạn chót, chỉ được tối đa 50% số điểm; sau đó sẽ bị tính 0 điểm
- Không cho phép nộp muộn với phần trình bày poster và bài báo cuối kỳ
Kỳ thi
- Có 1 kỳ thi giữa kỳ và 1 quiz, đều tổ chức trực tiếp trong trường
- Nếu có lý do chính thức, có thể thi từ xa hoặc thi thay thế
- Tài liệu được phép: 1 tờ ghi chú viết tay (giữa kỳ), 1 tờ hai mặt (quiz)
- Cấm: máy tính cầm tay, laptop, điện thoại, máy tính bảng,...
Bài tập và nộp bài
- Mọi bài tập đều được đăng trên trang Assignments
- Một số bài tập có thể sử dụng tài nguyên điện toán đám mây
- Hướng dẫn nộp bài được cung cấp trên trang riêng
Đạo đức học thuật và việc sử dụng công cụ AI
- Với bài tập viết, có thể thảo luận ý tưởng nhưng phần lời giải phải tự viết độc lập
- Với bài tập lập trình, chỉ được chia sẻ kết quả đầu vào/đầu ra, cấm chia sẻ mã nguồn
- Việc đạo văn được kiểm tra bằng phần mềm kiểm tra độ tương đồng
- Việc sử dụng AI tạo sinh (GPT-4, Gemini, Copilot, v.v.) được cho phép ở mức tương đương hợp tác với con người
- Cấm tạo mã trực tiếp hoặc sao chép đáp án
- Khi sử dụng phải khai báo rõ, và trách nhiệm cuối cùng thuộc về chính người học
- LLM không được ghi là đồng tác giả của dự án
Hỗ trợ học tập và khiếu nại điểm số
- Hỗ trợ học tập liên quan đến khuyết tật có thể được yêu cầu qua Office of Accessible Education (OAE)
- Yêu cầu chấm lại có thể được gửi trên Gradescope trong vòng 3 ngày sau khi công bố điểm
- Khi xem xét lại, toàn bộ bài làm có thể được chấm lại
Điểm số và hình thức học
- Dù học theo hình thức Credit/No Credit, vẫn áp dụng cùng một tiêu chí đánh giá
- Đạt từ C- trở lên (khoảng 70%) sẽ được tính là CR
Khác
- Sinh viên SCPD có thể liên hệ qua email riêng để hỏi các vấn đề hành chính
- Thiết kế website do Andrej Karpathy thực hiện
1 bình luận
Ý kiến trên Hacker News
Tôi đã hy vọng video bài giảng đã được công khai, nhưng hóa ra chúng lại ở chế độ riêng tư
Trong thời kỳ đại dịch, nhiều tổ chức đã mở tài liệu cho cả thế giới, nhưng dạo này xu hướng là đóng lại không chỉ các bài giảng mới mà cả video cũ
Ngay cả MIT OCW cũng mất tài liệu khi lên đến các môn cao học nâng cao
Dĩ nhiên tôi hiểu rằng các trường đại học phải ưu tiên cựu sinh viên, nhưng việc công khai những tài liệu cơ bản như video bài giảng thực chất gần như không tốn chi phí
Những tài liệu như vậy dường như mang lại giá trị lớn cho thế giới
Một số giáo sư không muốn chia sẻ slide bài giảng hay bản ghi hình vì vấn đề bản quyền
Nhưng thái độ như vậy dường như tạo ra tính độc quyền bằng rào cản pháp lý chứ không phải danh tiếng thực sự
Cuối cùng, những người hưởng lợi chỉ là sinh viên đã trả học phí đắt đỏ, các giảng viên không muốn thay đổi, và đội ngũ quản trị đại học
Có câu nói rằng “RL là phương pháp học tệ nhất, nhưng vẫn tốt hơn mọi phương pháp khác”
Nhiều nhà khoa học nghĩ rằng 10 năm nữa RL sẽ không còn là dòng chủ đạo trong việc huấn luyện các mô hình tối tân
Tôi cũng đồng ý, và khuyên mọi người khi học khóa này hãy suy nghĩ về các paradigma khác
Cũng như tạo ảnh đã bứt phá nhờ diffusion model, còn GPT nhờ RLHF, RL cũng sẽ không phải chặng cuối
Nhiệm vụ của chúng ta là tìm ra phương pháp tốt hơn thế
Nếu được cho đủ thời gian chạy, nó bảo đảm nghiệm tối ưu về mặt toán học
Vì vậy xe tự lái dùng RL chứ không dùng GPT
Khi tối ưu hàng triệu đến hàng tỷ lượt truy cập, việc thêm contextual multi-armed bandit có hiệu quả rất cao trong việc thúc đẩy mua hàng
Nhưng trong công việc thực tế, tôi nhận ra rằng khả năng khái quát hóa ngoài phân phối không thể đạt được chỉ bằng học dựa trên phần thưởng đơn giản
Tôi đã thắc mắc liệu video có được công khai hay không, và các bài giảng học kỳ xuân có ở danh sách phát YouTube
Với góc nhìn của người chỉ học ML truyền thống, tôi thấy khó hiểu RL nên được áp dụng vào bài toán tổng quát như thế nào
Ví dụ, với phân loại nhị phân dùng BCE loss hay bài toán dự đoán giá nhà, tôi không biết phải ép RL vào đó thế nào
Tôi chưa hình dung được cách nối với hàm mất mát
Những bài toán hồi quy rõ ràng như dự đoán giá nhà thì các phương pháp hiện có đã đủ hiệu quả và RL là không cần thiết
Ngược lại, các bài toán ra quyết định tuần tự như cờ vây có tín hiệu phần thưởng thưa thớt và việc cải thiện chiến lược không rõ ràng, nên RL phù hợp hơn
RL hữu ích trong những tình huống phức tạp không có nhãn, nhưng ngay cả các bài toán như cờ vua thì mấu chốt cuối cùng vẫn là chuyển nó thành bài toán học có giám sát
Nó phù hợp với các bài toán ra quyết định tuần tự có định nghĩa không gian trạng thái và hành động, nhưng không hợp với phân loại nhị phân hay hồi quy
RL mạnh ở những bài toán phải đưa ra quyết định hiện tại khi chưa biết kết quả tương lai
Có nhiều ý kiến cho rằng RL bất ổn và khó hội tụ
Cả nhóm nghiên cứu Stanford cũng thừa nhận điều đó
Tôi tò mò liệu có cách giải quyết nào không
Nó tăng độ ổn định bằng cách học toàn bộ phân phối phần thưởng thay vì chỉ một giá trị cực đại duy nhất
Nếu đã nghe podcast của Ilya thì tiêu đề khóa học lần này sẽ thấy khá thú vị
Tôi đang tìm sách gợi ý về RL
Tôi đã học deep learning khá đầy đủ rồi
Hiện tôi đang xem Reinforcement Learning của Sutton, Reinforcement Learning, an overview của Kevin Patrick Murphy, và sách mới của Sebastian Raschka
Có thể tải PDF miễn phí tại algorithmsbook.com