MIT 6.S184: Nhập môn Flow Matching và mô hình khuếch tán

(diffusion.csail.mit.edu)

3 điểm bởi GN⁺ 2025-03-04 | 1 bình luận | Chia sẻ qua WhatsApp

Phiên bản MIT 6.S184 năm 2026 là khóa nhập môn kết hợp lý thuyết và thực hành về mô hình khuếch tán và mô hình flow, dùng cho nhiều loại dữ liệu như hình ảnh, video
Bài giảng đi từ phương trình vi phân ngẫu nhiên, phương trình Fokker-Planck, flow matching, score matching, classifier-free guidance, không gian tiềm ẩn, cho đến mô hình khuếch tán rời rạc
Mỗi bài giảng đều có phần thực hành kèm theo, giúp người học tự triển khai flow matching và mô hình khuếch tán từng bước từ đầu
Ở nửa sau của khóa học, người học sẽ trực tiếp xây dựng mô hình khuếch tán tiềm ẩn (latent diffusion model), đồng thời được trang bị để áp dụng các công cụ phân tích xác suất sang những lĩnh vực khác
Khuyến nghị có kinh nghiệm về xác suất và deep learning; kiến thức tiên quyết gồm đại số tuyến tính, giải tích nhiều biến, xác suất cơ bản, Python và kinh nghiệm với PyTorch

Cấu trúc khóa học và mục tiêu học tập

Flow Matching and Diffusion Models — 2026 Version là khóa học được thiết kế để giúp sinh viên và nhà nghiên cứu hiểu sâu hơn về mô hình khuếch tán và mô hình flow
Các mô hình được đề cập là những phương pháp AI tạo sinh cho hình ảnh, video và nhiều loại dữ liệu khác
Khóa học được tổ chức theo mạch từ nền tảng toán học đến triển khai
- Phương trình vi phân ngẫu nhiên
- Phương trình Fokker-Planck
- Giải thích từng bước về các thành phần của từng mô hình
- Triển khai có hướng dẫn thông qua bài thực hành theo từng bài giảng
Cuối khóa, người học sẽ xây dựng mô hình khuếch tán tiềm ẩn từ đầu
Nền tảng khuyến nghị là kinh nghiệm về xác suất và deep learning; kiến thức tiên quyết gồm đại số tuyến tính, giải tích nhiều biến, xác suất cơ bản, Python và kinh nghiệm với PyTorch

Ghi chú bài giảng và tài liệu học tập

Ghi chú bài giảng là tài liệu trung tâm của khóa học, giải thích đầy đủ, tự chứa toàn bộ nội dung lớp học
Thông tin trích dẫn ghi chú bài giảng
- Introduction to Flow Matching and Diffusion Models
- Peter Holderrieth, Ezra Erives
- 2026
- arXiv eprint: 2506.02070
Danh sách bài giảng
- Bài 1: Flow and Diffusion Models
  - Đề cập nhập môn mô hình tạo sinh, phương trình vi phân thường và ngẫu nhiên, lấy mẫu cho mô hình flow và khuếch tán
  - slides 1, Video 13
- Bài 2: Flow Matching
  - Đề cập các đường xác suất có điều kiện và biên, trường vector có điều kiện và biên, mục tiêu học của flow matching
  - slides 2, Video 14
- Bài 3-A: Score Functions and Score Matching
  - Đề cập hàm score, denoising score matching và lấy mẫu SDE
  - slides 3, Video 15
- Bài 3-B: Classifier-free Guidance
  - Đề cập guided generation, classifier guidance và classifier-free guidance
  - slides 3, Video 16
- Bài 4: Latent Spaces and Neural Network Architectures
  - Đề cập VAE và không gian tiềm ẩn, Diffusion Transformer và U-Nets, cùng các ví dụ mô hình quy mô lớn
  - slides 4, Video 17
- Bài 5: Discrete Diffusion Models
  - Đề cập chuỗi Markov thời gian liên tục (CTMCs), lấy mẫu mô hình CTMC và huấn luyện mô hình CTMC
  - slides 5, Video 18

Cách thực hành

Khóa học có tổng cộng 3 bài thực hành (labs), cung cấp trải nghiệm triển khai thông qua các bài tập đi kèm với lớp học
Các bài thực hành được thiết kế để xây dựng flow matching và mô hình khuếch tán từng bước từ đầu
Quy trình thực hiện
- Xem hướng dẫn tại liên kết bài thực hành
- Tải notebook .ipynb từ GitHub
- Chạy trong môi trường Jupyter Notebook; Google Colab cũng là một lựa chọn có thể dùng
- Sau khi hoàn tất mọi câu hỏi, xuất notebook thành PDF và nộp lên Gradescope của Canvas
- Không nên xóa output của các cell vì việc đó sẽ gây khó khăn cho chấm điểm
Khi gặp vướng mắc, có thể tham khảo lời giải

1 bình luận

GN⁺ 2025-03-04

Ý kiến trên Hacker News

Khóa học MIT “6.S184: Introduction to Flow Matching and Diffusion Models” hiện đã được công khai trên YouTube
Khóa học bao quát cả các thuật toán AI tạo sinh mới nhất cho hình ảnh, video, protein, v.v. cùng các công cụ toán học để hiểu chúng
Flow matching và diffusion model khá khó về mặt toán học nên nhiều bài giảng chỉ dừng ở mức trực giác, nhưng khóa này dù nhắm tới người mới nhập môn AI vẫn hướng đến một phần giới thiệu chặt chẽ về toán học và tự hoàn chỉnh
Nguồn: https://x.com/peholderrieth
- Tôi đã định xem bài giảng MIT Optics [1] nhưng chất lượng âm thanh/video quá tệ. Ước gì có ai đó sửa được, và có lẽ diffusion model cũng có thể làm được
  [1] https://ocw.mit.edu/courses/2-71-optics-spring-2009/resource...
- Liên kết playlist YouTube: https://www.youtube.com/watch?v=GCoP2w-Cqtg&list=PL57nT7tSGA...
- Mong sẽ có thông lệ phân biệt rõ giữa tài liệu học/bài giảng thuộc dạng “trực giác cấp cao” và tài liệu chuyên sâu, thiên về ứng dụng, không né tránh toàn bộ kiến thức tiên quyết
  Cả hai đều có giá trị, nhưng giữa biển tài liệu nhập môn chỉ cung cấp trực giác thì rất khó tìm được loại thứ hai
Conditional normalizing flow là một trong những lời giải đẹp nhất mà tôi từng thấy cho các bài toán thiết kế ngược, miễn là có dữ liệu để huấn luyện
Ý tưởng dùng một hàm song ánh để đẩy và kéo khối lượng xác suất của phân phối nền, cẩn thận biến đổi nó đến vị trí mong muốn, thật sự rất tao nhã; bản thân cách xây dựng hàm song ánh đó cũng cực kỳ thông minh
Khi một phần giá trị mục tiêu là liên tục và một phần là phân loại thì áp dụng hơi khó, nhưng dù vậy đây vẫn là một phương pháp rất hay và tôi thấy cái tên cũng được đặt rất chuẩn
Bài giảng có vẻ tuyệt, tôi muốn nghe sớm. Khóa này dường như tập trung nghiêm ngặt vào không gian liên tục, nhưng phía diffusion rời rạc cũng có rất nhiều điều thú vị
Không biết có kế hoạch cho bài giảng tiếp theo không. Đáng chú ý là giảng viên Peter cũng vừa công bố một bài về diffusion rời rạc
https://x.com/peholderrieth/status/1891846309952282661
https://github.com/kuleshov-group/awesome-discrete-diffusion...
Tôi tự hỏi có tuyển tập các bài giảng công khai về những kỹ thuật AI mới nhất không
- Chỉ cần tạo một repo “awesome AI courses” trên GitHub và nhận PR là được. Hoặc cũng có thể cập nhật các danh sách dưới đây
  https://github.com/luspr/awesome-ml-courses
  https://github.com/owainlewis/awesome-artificial-intelligenc...
Tôi thật sự biết ơn MIT OCW và các tài liệu bài giảng công khai tương tự. Tôi đã dùng chúng làm tài liệu bổ trợ cho các môn chuyên ngành, và việc học cùng một chủ đề theo hai cách đặc biệt hữu ích với những nội dung khó hiểu
Thật vui khi thấy khóa học này ở đây. Có vẻ LLM đã lấy đi rất nhiều sự chú ý khỏi kỹ thuật cực kỳ hữu ích này
Nếu có ai quen thuộc với chủ đề này, mong có thể giải thích vài lời về các mục đích sử dụng chính và cảm nhận tổng quan
- Đây là nguyên lý nền tảng của Stable Diffusion, Dalle và các mô hình tạo ảnh hiện đại khác, cũng như các mô hình tạo video/âm thanh. Gần đây chúng cũng bắt đầu được dùng nhanh chóng trong lĩnh vực điều khiển robot [1]
  Các mô hình này được huấn luyện để từng bước đẩy các mẫu nhiễu thuần túy về phía phân phối dữ liệu huấn luyện. Vì được huấn luyện bằng các phiên bản của tập huấn luyện có trộn nhiễu, trong quá trình khử nhiễu chúng có thể thăm dò và tận dụng tốt hơn các vùng xung quanh phân phối dữ liệu thực
  Một trong những vấn đề lớn của GAN là hiện tượng mode collapse [2]
  [1] https://www.physicalintelligence.company/blog/pi0
  [2] https://en.wikipedia.org/wiki/Mode_collapse
10 năm qua là thời kỳ hoàng kim của giáo dục deep learning. Tôi thích việc mọi người cạnh tranh xem ai công khai miễn phí nội dung học tập chất lượng cao hơn
Việc MIT công khai miễn phí những nội dung đúng thời điểm và có tính liên quan cao như thế này là rất tuyệt
Tôi tự hỏi còn những khóa OCW nào khác về AI hiện đại
- Một số khóa đang được đăng trên soul.mit.edu. Khóa về diffusion model có thể xem tại đây (https://mitsoul.org/courses/mit/course-6/6-S185/), và khóa AI lấy dữ liệu làm trung tâm ở đây (https://mitsoul.org/courses/mit/course-6/6-DCAI/)

MIT 6.S184: Nhập môn Flow Matching và mô hình khuếch tán

Cấu trúc khóa học và mục tiêu học tập

Ghi chú bài giảng và tài liệu học tập

Danh sách bài giảng

Cách thực hành

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News