CS234: Học kỳ mùa đông 2025 về học tăng cường

(web.stanford.edu)

3 điểm bởi GN⁺ 2025-11-28 | 1 bình luận | Chia sẻ qua WhatsApp

Đây là môn học trình độ sau đại học của Đại học Stanford, đề cập đến các khái niệm cốt lõi và ứng dụng của học tăng cường (Reinforcement Learning), tập trung vào nguyên lý giúp các hệ tự trị tự học cách ra quyết định
Học cách định nghĩa và giải quyết các bài toán trong nhiều lĩnh vực như robotics, game, mô hình hóa người tiêu dùng, y tế bằng RL
Thông qua bài giảng, bài tập viết và bài tập lập trình, người học sẽ tiếp cận theo hướng thực hành từ các thuật toán RL cơ bản đến học tăng cường sâu (Deep RL)
Người học cần có kiến thức trước về Python, đại số tuyến tính, xác suất thống kê, nền tảng machine learning; bài tập được nộp qua Gradescope
Chương trình được xây dựng có hệ thống, bao gồm bài toán khám phá và khai thác, tìm kiếm chính sách, offline RL, trường hợp AlphaGo,... nên rất quan trọng để nâng cao năng lực cốt lõi cho nghiên cứu AI và phát triển ứng dụng

Tổng quan khóa học và cách vận hành

Nhấn mạnh sự cần thiết của các hệ thống tự học ra quyết định một cách tự chủ để đạt được mục tiêu của trí tuệ nhân tạo
- Học tăng cường là một paradigma mạnh để hiện thực hóa các hệ thống như vậy và có thể được ứng dụng trong nhiều tình huống thực tế
Lớp học được tổ chức trực tiếp vào thứ Ba và thứ Năm, video ghi hình được cung cấp qua Canvas
Hỏi đáp được thực hiện qua Ed Forum, còn bài tập và bài kiểm tra được quản lý trên Gradescope
Giảng viên phụ trách là Emma Brunskill, cùng sự hỗ trợ của nhiều trợ giảng

Yêu cầu học phần tiên quyết

Bắt buộc có kỹ năng lập trình Python, mọi bài tập đều được viết bằng Python
Cần kiến thức giải tích, đại số tuyến tính, xác suất thống kê ở trình độ đại học
Yêu cầu hiểu nền tảng machine learning (ví dụ: CS221, CS229)
- Bao gồm các khái niệm như định nghĩa hàm chi phí, tối ưu hóa bằng gradient descent, tối ưu lồi

Mục tiêu học tập

Định nghĩa các đặc trưng cốt lõi phân biệt học tăng cường với machine learning không tương tác
Chính thức hóa một bài toán ứng dụng dưới dạng RL và thiết kế không gian trạng thái, không gian hành động, mô hình phần thưởng
Triển khai các thuật toán chính như tìm kiếm chính sách, Q-learning, lập kế hoạch MDP
Hiểu các tiêu chí đánh giá như regret, độ phức tạp mẫu, độ phức tạp tính toán, tính hội tụ
So sánh các cách tiếp cận khác nhau cho bài toán khám phá so với khai thác (exploration vs exploitation)

Tóm tắt lịch học

Tuần 1: Giới thiệu học tăng cường, lập kế hoạch Tabular MDP
Tuần 2: Đánh giá chính sách, Q-learning và xấp xỉ hàm
Tuần 3~4: Tìm kiếm chính sách (1~3), offline RL và imitation learning
Tuần 5: Thi giữa kỳ, chủ đề DPO
Tuần 6~7: Offline RL nâng cao, khám phá (1~3)
Tuần 8: Khám phá (4), bài giảng khách mời, nộp mốc tiến độ dự án
Tuần 9: Monte Carlo Tree Search / AlphaGo, quiz
Tuần 10~11: Bài giảng khách mời, phiên poster dự án cuối kỳ và nộp báo cáo

Giáo trình và tài liệu tham khảo

Không có giáo trình chính thức; tài liệu tham khảo quan trọng nhất là Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
Tài liệu bổ sung gồm Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, bài giảng RL của David Silver

Tỷ trọng đánh giá

Bài tập 1: 10%, Bài tập 2: 18%, Bài tập 3: 18%
Thi giữa kỳ: 25%, quiz: 5%, dự án: 24%
- Đề xuất 1%, mốc tiến độ 2%, poster 5%, bài báo 16%
Điểm thưởng tham gia lớp học: tối đa 0.5%

Chính sách nộp muộn

Cung cấp tổng cộng 5 ngày nộp muộn (late days)
Mỗi bài tập được dùng tối đa 2 ngày; vượt quá sẽ bị trừ điểm
- Nếu nộp trong vòng 24 giờ sau hạn chót, chỉ được tối đa 50% số điểm; sau đó sẽ bị tính 0 điểm
Không cho phép nộp muộn với phần trình bày poster và bài báo cuối kỳ

Kỳ thi

Có 1 kỳ thi giữa kỳ và 1 quiz, đều tổ chức trực tiếp trong trường
Nếu có lý do chính thức, có thể thi từ xa hoặc thi thay thế
Tài liệu được phép: 1 tờ ghi chú viết tay (giữa kỳ), 1 tờ hai mặt (quiz)
Cấm: máy tính cầm tay, laptop, điện thoại, máy tính bảng,...

Bài tập và nộp bài

Mọi bài tập đều được đăng trên trang Assignments
Một số bài tập có thể sử dụng tài nguyên điện toán đám mây
Hướng dẫn nộp bài được cung cấp trên trang riêng

Đạo đức học thuật và việc sử dụng công cụ AI

Với bài tập viết, có thể thảo luận ý tưởng nhưng phần lời giải phải tự viết độc lập
Với bài tập lập trình, chỉ được chia sẻ kết quả đầu vào/đầu ra, cấm chia sẻ mã nguồn
Việc đạo văn được kiểm tra bằng phần mềm kiểm tra độ tương đồng
Việc sử dụng AI tạo sinh (GPT-4, Gemini, Copilot, v.v.) được cho phép ở mức tương đương hợp tác với con người
- Cấm tạo mã trực tiếp hoặc sao chép đáp án
- Khi sử dụng phải khai báo rõ, và trách nhiệm cuối cùng thuộc về chính người học
LLM không được ghi là đồng tác giả của dự án

Hỗ trợ học tập và khiếu nại điểm số

Hỗ trợ học tập liên quan đến khuyết tật có thể được yêu cầu qua Office of Accessible Education (OAE)
Yêu cầu chấm lại có thể được gửi trên Gradescope trong vòng 3 ngày sau khi công bố điểm
Khi xem xét lại, toàn bộ bài làm có thể được chấm lại

Điểm số và hình thức học

Dù học theo hình thức Credit/No Credit, vẫn áp dụng cùng một tiêu chí đánh giá
Đạt từ C- trở lên (khoảng 70%) sẽ được tính là CR

Khác

Sinh viên SCPD có thể liên hệ qua email riêng để hỏi các vấn đề hành chính
Thiết kế website do Andrej Karpathy thực hiện

1 bình luận

GN⁺ 2025-11-28

Ý kiến trên Hacker News

Tôi đã hy vọng video bài giảng đã được công khai, nhưng hóa ra chúng lại ở chế độ riêng tư
Trong thời kỳ đại dịch, nhiều tổ chức đã mở tài liệu cho cả thế giới, nhưng dạo này xu hướng là đóng lại không chỉ các bài giảng mới mà cả video cũ
Ngay cả MIT OCW cũng mất tài liệu khi lên đến các môn cao học nâng cao
Dĩ nhiên tôi hiểu rằng các trường đại học phải ưu tiên cựu sinh viên, nhưng việc công khai những tài liệu cơ bản như video bài giảng thực chất gần như không tốn chi phí
Những tài liệu như vậy dường như mang lại giá trị lớn cho thế giới
- Video bài giảng năm 2024 đã được đăng thành danh sách phát YouTube
- Cũng có ý kiến cho rằng nếu công khai tài liệu mới thì các tổ chức khác sẽ dễ đạo nhái hơn
  Một số giáo sư không muốn chia sẻ slide bài giảng hay bản ghi hình vì vấn đề bản quyền
  Nhưng thái độ như vậy dường như tạo ra tính độc quyền bằng rào cản pháp lý chứ không phải danh tiếng thực sự
  Cuối cùng, những người hưởng lợi chỉ là sinh viên đã trả học phí đắt đỏ, các giảng viên không muốn thay đổi, và đội ngũ quản trị đại học
Có câu nói rằng “RL là phương pháp học tệ nhất, nhưng vẫn tốt hơn mọi phương pháp khác”
Nhiều nhà khoa học nghĩ rằng 10 năm nữa RL sẽ không còn là dòng chủ đạo trong việc huấn luyện các mô hình tối tân
Tôi cũng đồng ý, và khuyên mọi người khi học khóa này hãy suy nghĩ về các paradigma khác
Cũng như tạo ảnh đã bứt phá nhờ diffusion model, còn GPT nhờ RLHF, RL cũng sẽ không phải chặng cuối
Nhiệm vụ của chúng ta là tìm ra phương pháp tốt hơn thế
- Người ta thường giả định rằng mọi người chỉ quan tâm đến tạo ảnh hay văn bản, nhưng RL lại xuất sắc trong bài toán điều khiển
  Nếu được cho đủ thời gian chạy, nó bảo đảm nghiệm tối ưu về mặt toán học
  Vì vậy xe tự lái dùng RL chứ không dùng GPT
- RL trên thực tế gần với cách tạo dataset hơn là một phương pháp học
- Trong ngành quảng cáo, RL vẫn được dùng rất tích cực
  Khi tối ưu hàng triệu đến hàng tỷ lượt truy cập, việc thêm contextual multi-armed bandit có hiệu quả rất cao trong việc thúc đẩy mua hàng
- Tôi tò mò không biết paradigma nào sẽ phù hợp với các bài toán tối ưu tổ hợp (combinatorial optimization) hay môi trường dựa trên mô phỏng
- Tôi từng nghĩ RLHF giống như chiến lược để nâng điểm thi khi còn là sinh viên
  Nhưng trong công việc thực tế, tôi nhận ra rằng khả năng khái quát hóa ngoài phân phối không thể đạt được chỉ bằng học dựa trên phần thưởng đơn giản
Tôi đã thắc mắc liệu video có được công khai hay không, và các bài giảng học kỳ xuân có ở danh sách phát YouTube
Với góc nhìn của người chỉ học ML truyền thống, tôi thấy khó hiểu RL nên được áp dụng vào bài toán tổng quát như thế nào
Ví dụ, với phân loại nhị phân dùng BCE loss hay bài toán dự đoán giá nhà, tôi không biết phải ép RL vào đó thế nào
Tôi chưa hình dung được cách nối với hàm mất mát
- Có ba điều cần cân nhắc khi quyết định có dùng RL hay không: ① lượng thông tin mất mát của từng ví dụ, ② có thể điều chỉnh mô hình bằng tín hiệu mất mát hay không, ③ độ phức tạp của không gian đặc trưng
  Những bài toán hồi quy rõ ràng như dự đoán giá nhà thì các phương pháp hiện có đã đủ hiệu quả và RL là không cần thiết
  Ngược lại, các bài toán ra quyết định tuần tự như cờ vây có tín hiệu phần thưởng thưa thớt và việc cải thiện chiến lược không rõ ràng, nên RL phù hợp hơn
- Nếu là tôi thì tôi sẽ không dùng RL
  RL hữu ích trong những tình huống phức tạp không có nhãn, nhưng ngay cả các bài toán như cờ vua thì mấu chốt cuối cùng vẫn là chuyển nó thành bài toán học có giám sát
- RL là kỹ thuật tìm chính sách tối ưu trong quá trình ra quyết định Markov (MDP)
  Nó phù hợp với các bài toán ra quyết định tuần tự có định nghĩa không gian trạng thái và hành động, nhưng không hợp với phân loại nhị phân hay hồi quy
  RL mạnh ở những bài toán phải đưa ra quyết định hiện tại khi chưa biết kết quả tương lai
Có nhiều ý kiến cho rằng RL bất ổn và khó hội tụ
Cả nhóm nghiên cứu Stanford cũng thừa nhận điều đó
Tôi tò mò liệu có cách giải quyết nào không
- FlowRL là một phương án thay thế
  Nó tăng độ ổn định bằng cách học toàn bộ phân phối phần thưởng thay vì chỉ một giá trị cực đại duy nhất
Nếu đã nghe podcast của Ilya thì tiêu đề khóa học lần này sẽ thấy khá thú vị
- Có người đùa rằng: “Rốt cuộc mùa đông AI sắp đến rồi sao?”
- Cũng có người hỏi đang nói đến podcast nào
Tôi đang tìm sách gợi ý về RL
Tôi đã học deep learning khá đầy đủ rồi
Hiện tôi đang xem Reinforcement Learning của Sutton, Reinforcement Learning, an overview của Kevin Patrick Murphy, và sách mới của Sebastian Raschka
- Algorithms for Decision Making của Kochenderfer và cộng sự cũng đề cập đến cách tiếp cận liên quan đến RL
  Có thể tải PDF miễn phí tại algorithmsbook.com

CS234: Học kỳ mùa đông 2025 về học tăng cường

Tổng quan khóa học và cách vận hành

Yêu cầu học phần tiên quyết

Mục tiêu học tập

Tóm tắt lịch học

Giáo trình và tài liệu tham khảo

Tỷ trọng đánh giá

Chính sách nộp muộn

Kỳ thi

Bài tập và nộp bài

Đạo đức học thuật và việc sử dụng công cụ AI

Hỗ trợ học tập và khiếu nại điểm số

Điểm số và hình thức học

Khác

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News