- Mô hình khuếch tán là một kiến trúc mô hình sinh định nghĩa quá trình dữ liệu dần biến thành nhiễu, rồi phục hồi ngược lại để tạo dữ liệu từ nhiễu
- Cốt lõi của mô hình là học trường vận tốc (velocity field) biến đổi theo thời gian để xây dựng đường sinh liên tục chuyển một phân phối đơn giản thành phân phối dữ liệu
- Ba góc nhìn chính gồm cách tiếp cận biến phân (variational), dựa trên score (score-based) và dựa trên flow (flow-based), lần lượt giải thích mô hình qua khử nhiễu, học gradient xác suất và biến đổi liên tục
- Trên nền tảng này, các nghiên cứu mở rộng như sinh có điều khiển, lấy mẫu hiệu quả, ánh xạ trực tiếp giữa các thời điểm (flow-map) cũng được bàn luận
- Nhấn mạnh tầm quan trọng như một tài liệu lý thuyết nền tảng giúp hiểu một cách thống nhất các nguyên lý toán học và nhiều cách hình thức hóa khác nhau của mô hình khuếch tán
Khái niệm cơ bản của mô hình khuếch tán
- Mô hình khuếch tán gồm quá trình thuận (forward process) làm dữ liệu dần bị nhiễu hóa, và quá trình ngược (reverse process) phục hồi điều đó để tạo dữ liệu từ nhiễu
- Quá trình thuận định nghĩa một tập các phân phối trung gian liên tục nối phân phối dữ liệu với phân phối nhiễu đơn giản
- Quá trình ngược phục hồi lại chính các phân phối trung gian đó và chuyển nhiễu thành dữ liệu
- Mục tiêu của mô hình là học quá trình ngược này để tái hiện đường chuyển đổi từ nhiễu sang dữ liệu
Ba góc nhìn toán học
- Góc nhìn biến phân (Variational View)
- Lấy cảm hứng từ variational autoencoder (VAE), mô hình học mục tiêu phục hồi nhỏ theo từng bước (denoising objective) nhằm loại bỏ nhiễu dần dần
- Sự phục hồi ở từng bước được tích lũy để cuối cùng chuyển nhiễu thành dữ liệu
- Góc nhìn dựa trên score (Score-Based View)
- Bắt nguồn từ energy-based model (EBM), mô hình học gradient của phân phối dữ liệu
- Tính toán hướng di chuyển mẫu tới vùng có xác suất cao hơn
- Góc nhìn dựa trên flow (Flow-Based View)
- Tương tự normalizing flow, quá trình sinh được diễn giải như một đường liên tục di chuyển từ nhiễu sang dữ liệu theo trường vận tốc (velocity field)
Cấu trúc chung và nền tảng toán học
- Cả ba góc nhìn đều có điểm chung là học trường vận tốc phụ thuộc thời gian (time-dependent velocity field)
- Trường vận tốc này đóng vai trò vận chuyển một phân phối tiên nghiệm (prior) đơn giản sang phân phối dữ liệu
- Quá trình lấy mẫu được biểu diễn như việc giải phương trình vi phân (differential equation) để chuyển nhiễu thành dữ liệu
- Trên khung toán học này, các chủ đề như kỹ thuật giải tích số cho lấy mẫu hiệu quả, sinh có điều khiển (guidance) và ánh xạ trực tiếp giữa các thời điểm bất kỳ (flow-map) cũng được thảo luận
Đối tượng độc giả và mục tiêu
- Độc giả là các nhà nghiên cứu, học viên cao học và người làm thực tế có kiến thức nền về deep learning và mô hình sinh
- Mục tiêu là giúp họ hiểu rõ nền tảng lý thuyết của mô hình khuếch tán và mối quan hệ giữa các cách hình thức hóa khác nhau
- Qua đó tạo nền tảng để tự tin áp dụng các mô hình hiện có và khám phá những hướng nghiên cứu mới
Lời mở đầu và tổng quan cấu trúc
- Mô hình khuếch tán đã trở thành một paradigma sinh trung tâm trong nhiều lĩnh vực như machine learning, computer vision và xử lý ngôn ngữ tự nhiên
- Tài liệu này hệ thống hóa khối lượng nghiên cứu đồ sộ theo các khía cạnh nguyên lý lý thuyết, mục tiêu huấn luyện, thiết kế sampler và ý tưởng toán học
- Cấu trúc chính
- Part A & B: sắp xếp lại nền tảng của mô hình khuếch tán cũng như nguồn gốc và quan hệ giữa ba góc nhìn
- Các chương sau thảo luận về lấy mẫu hiệu quả, sinh có điều khiển và mở rộng sang các mô hình sinh độc lập
- Mỗi chương có thể đọc riêng; độc giả đã quen với các khái niệm cơ bản có thể bỏ qua phần nhập môn liên quan tới VAE, EBM, Normalizing Flow
Lời cảm ơn
- Giáo sư Kwon Dohyun của University of Seoul và KIAS đã rà soát một phần chương 7, đồng thời đóng góp vào độ chính xác toán học và cải thiện cách diễn đạt
- Những phản hồi và trao đổi của ông đã giúp nâng cao chất lượng bản thảo cuối cùng
1 bình luận
Ý kiến trên Hacker News
Nếu thích học qua video, tôi khuyên xem khóa CS236 Deep Generative Models của Stefano Ermon
Có thể xem toàn bộ bài giảng trong danh sách phát YouTube, và tài liệu học được tổng hợp trên trang chính thức
Tôi tự hỏi liệu đây có phải là bài đăng trùng lặp với bài tôi đã đăng vài ngày trước không
Liên kết bài trước
Theo HN FAQ, những bài đã không được chú ý trong hơn 1 năm có thể được đăng lại với số lượng hạn chế
Ngoài ra, các câu hỏi liên quan đến vận hành nên gửi tới hn@ycombinator.com thay vì viết trong bình luận
Tôi thử tìm "Fokker-Planck" trong tài liệu thì thấy xuất hiện tới 97 lần
Như vậy là đủ để tôi muốn đọc thử rồi
Tôi đang thắc mắc không biết có tài liệu nào về transformer bao quát phạm vi và độ sâu như thế này không
Thành thật mà nói, có quá nhiều toán nên tôi hơi sợ
Khi đọc bài này, tôi lại có cảm giác AI ngày nay thực ra gần với brute force hơn là thật sự thông minh
Có lẽ bộ não con người cũng chỉ là một cỗ máy brute-force hoạt động suốt cả cuộc đời
Nhưng trí tuệ nhân tạo rốt cuộc vẫn cho cảm giác như một sản phẩm không có linh hồn, giống như hương liệu nhân tạo
Sức mạnh của thống kê dựa trên cấu trúc sâu và sự chọn lọc
Con người không brute-force suốt đời, nhưng tiến hóa đã tạo nên cấu trúc đó trong hàng tỷ năm
rồi nén thêm vào đó các thuật toán meta-learning trong suốt hàng triệu năm
470 trang ư?! Quá nhiều, tôi hơi choáng luôn 😆