Nguyên lý của mô hình khuếch tán

(arxiv.org)

4 điểm bởi GN⁺ 2025-11-11 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình khuếch tán là một kiến trúc mô hình sinh định nghĩa quá trình dữ liệu dần biến thành nhiễu, rồi phục hồi ngược lại để tạo dữ liệu từ nhiễu
Cốt lõi của mô hình là học trường vận tốc (velocity field) biến đổi theo thời gian để xây dựng đường sinh liên tục chuyển một phân phối đơn giản thành phân phối dữ liệu
Ba góc nhìn chính gồm cách tiếp cận biến phân (variational), dựa trên score (score-based) và dựa trên flow (flow-based), lần lượt giải thích mô hình qua khử nhiễu, học gradient xác suất và biến đổi liên tục
Trên nền tảng này, các nghiên cứu mở rộng như sinh có điều khiển, lấy mẫu hiệu quả, ánh xạ trực tiếp giữa các thời điểm (flow-map) cũng được bàn luận
Nhấn mạnh tầm quan trọng như một tài liệu lý thuyết nền tảng giúp hiểu một cách thống nhất các nguyên lý toán học và nhiều cách hình thức hóa khác nhau của mô hình khuếch tán

Khái niệm cơ bản của mô hình khuếch tán

Mô hình khuếch tán gồm quá trình thuận (forward process) làm dữ liệu dần bị nhiễu hóa, và quá trình ngược (reverse process) phục hồi điều đó để tạo dữ liệu từ nhiễu
- Quá trình thuận định nghĩa một tập các phân phối trung gian liên tục nối phân phối dữ liệu với phân phối nhiễu đơn giản
- Quá trình ngược phục hồi lại chính các phân phối trung gian đó và chuyển nhiễu thành dữ liệu
Mục tiêu của mô hình là học quá trình ngược này để tái hiện đường chuyển đổi từ nhiễu sang dữ liệu

Ba góc nhìn toán học

Góc nhìn biến phân (Variational View)
- Lấy cảm hứng từ variational autoencoder (VAE), mô hình học mục tiêu phục hồi nhỏ theo từng bước (denoising objective) nhằm loại bỏ nhiễu dần dần
- Sự phục hồi ở từng bước được tích lũy để cuối cùng chuyển nhiễu thành dữ liệu
Góc nhìn dựa trên score (Score-Based View)
- Bắt nguồn từ energy-based model (EBM), mô hình học gradient của phân phối dữ liệu
- Tính toán hướng di chuyển mẫu tới vùng có xác suất cao hơn
Góc nhìn dựa trên flow (Flow-Based View)
- Tương tự normalizing flow, quá trình sinh được diễn giải như một đường liên tục di chuyển từ nhiễu sang dữ liệu theo trường vận tốc (velocity field)

Cấu trúc chung và nền tảng toán học

Cả ba góc nhìn đều có điểm chung là học trường vận tốc phụ thuộc thời gian (time-dependent velocity field)
- Trường vận tốc này đóng vai trò vận chuyển một phân phối tiên nghiệm (prior) đơn giản sang phân phối dữ liệu
- Quá trình lấy mẫu được biểu diễn như việc giải phương trình vi phân (differential equation) để chuyển nhiễu thành dữ liệu
Trên khung toán học này, các chủ đề như kỹ thuật giải tích số cho lấy mẫu hiệu quả, sinh có điều khiển (guidance) và ánh xạ trực tiếp giữa các thời điểm bất kỳ (flow-map) cũng được thảo luận

Đối tượng độc giả và mục tiêu

Độc giả là các nhà nghiên cứu, học viên cao học và người làm thực tế có kiến thức nền về deep learning và mô hình sinh
Mục tiêu là giúp họ hiểu rõ nền tảng lý thuyết của mô hình khuếch tán và mối quan hệ giữa các cách hình thức hóa khác nhau
Qua đó tạo nền tảng để tự tin áp dụng các mô hình hiện có và khám phá những hướng nghiên cứu mới

Lời mở đầu và tổng quan cấu trúc

Mô hình khuếch tán đã trở thành một paradigma sinh trung tâm trong nhiều lĩnh vực như machine learning, computer vision và xử lý ngôn ngữ tự nhiên
Tài liệu này hệ thống hóa khối lượng nghiên cứu đồ sộ theo các khía cạnh nguyên lý lý thuyết, mục tiêu huấn luyện, thiết kế sampler và ý tưởng toán học
Cấu trúc chính
- Part A & B: sắp xếp lại nền tảng của mô hình khuếch tán cũng như nguồn gốc và quan hệ giữa ba góc nhìn
- Các chương sau thảo luận về lấy mẫu hiệu quả, sinh có điều khiển và mở rộng sang các mô hình sinh độc lập
Mỗi chương có thể đọc riêng; độc giả đã quen với các khái niệm cơ bản có thể bỏ qua phần nhập môn liên quan tới VAE, EBM, Normalizing Flow

Lời cảm ơn

Giáo sư Kwon Dohyun của University of Seoul và KIAS đã rà soát một phần chương 7, đồng thời đóng góp vào độ chính xác toán học và cải thiện cách diễn đạt
Những phản hồi và trao đổi của ông đã giúp nâng cao chất lượng bản thảo cuối cùng

1 bình luận

GN⁺ 2025-11-11

Ý kiến trên Hacker News

Nếu thích học qua video, tôi khuyên xem khóa CS236 Deep Generative Models của Stefano Ermon
Có thể xem toàn bộ bài giảng trong danh sách phát YouTube, và tài liệu học được tổng hợp trên trang chính thức
- Thật tiếc khi Stanford không còn mở môn CS236 này nữa. Đã 2 năm rồi môn này không được tổ chức
Tôi tự hỏi liệu đây có phải là bài đăng trùng lặp với bài tôi đã đăng vài ngày trước không
Liên kết bài trước
- Đúng vậy, là bài trùng, nhưng trong một số trường hợp thì vẫn được phép
  Theo HN FAQ, những bài đã không được chú ý trong hơn 1 năm có thể được đăng lại với số lượng hạn chế
  Ngoài ra, các câu hỏi liên quan đến vận hành nên gửi tới hn@ycombinator.com thay vì viết trong bình luận
Tôi thử tìm "Fokker-Planck" trong tài liệu thì thấy xuất hiện tới 97 lần
Như vậy là đủ để tôi muốn đọc thử rồi
- Nhưng tôi chỉ tìm ra 26 lần thôi. Tiêu chí tính là gì vậy? Buồn cười thật :D
Tôi đang thắc mắc không biết có tài liệu nào về transformer bao quát phạm vi và độ sâu như thế này không
Thành thật mà nói, có quá nhiều toán nên tôi hơi sợ
- Đùa rằng có khi không phải “scared” mà là “scated”
Khi đọc bài này, tôi lại có cảm giác AI ngày nay thực ra gần với brute force hơn là thật sự thông minh
Có lẽ bộ não con người cũng chỉ là một cỗ máy brute-force hoạt động suốt cả cuộc đời
Nhưng trí tuệ nhân tạo rốt cuộc vẫn cho cảm giác như một sản phẩm không có linh hồn, giống như hương liệu nhân tạo
- Có vẻ như bạn là dân vật lý. Tôi nghĩ ngay cả quá trình thực hiện ngược RG flow cũng có một vẻ đẹp riêng
  Sức mạnh của thống kê dựa trên cấu trúc sâu và sự chọn lọc
- Từ “luôn luôn” là khẳng định quá mức. Biết đâu một ngày nào đó mọi thứ sẽ tốt hơn
- Tôi nghĩ trí tuệ là đa tạp (manifold) mà các thuật toán brute-force kiểu này học được
  Con người không brute-force suốt đời, nhưng tiến hóa đã tạo nên cấu trúc đó trong hàng tỷ năm
  rồi nén thêm vào đó các thuật toán meta-learning trong suốt hàng triệu năm
470 trang ư?! Quá nhiều, tôi hơi choáng luôn 😆

Nguyên lý của mô hình khuếch tán

Khái niệm cơ bản của mô hình khuếch tán

Ba góc nhìn toán học

Cấu trúc chung và nền tảng toán học

Đối tượng độc giả và mục tiêu

Lời mở đầu và tổng quan cấu trúc

Lời cảm ơn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News