4 điểm bởi GN⁺ 2025-11-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình khuếch tán là một kiến trúc mô hình sinh định nghĩa quá trình dữ liệu dần biến thành nhiễu, rồi phục hồi ngược lại để tạo dữ liệu từ nhiễu
  • Cốt lõi của mô hình là học trường vận tốc (velocity field) biến đổi theo thời gian để xây dựng đường sinh liên tục chuyển một phân phối đơn giản thành phân phối dữ liệu
  • Ba góc nhìn chính gồm cách tiếp cận biến phân (variational), dựa trên score (score-based)dựa trên flow (flow-based), lần lượt giải thích mô hình qua khử nhiễu, học gradient xác suất và biến đổi liên tục
  • Trên nền tảng này, các nghiên cứu mở rộng như sinh có điều khiển, lấy mẫu hiệu quả, ánh xạ trực tiếp giữa các thời điểm (flow-map) cũng được bàn luận
  • Nhấn mạnh tầm quan trọng như một tài liệu lý thuyết nền tảng giúp hiểu một cách thống nhất các nguyên lý toán học và nhiều cách hình thức hóa khác nhau của mô hình khuếch tán

Khái niệm cơ bản của mô hình khuếch tán

  • Mô hình khuếch tán gồm quá trình thuận (forward process) làm dữ liệu dần bị nhiễu hóa, và quá trình ngược (reverse process) phục hồi điều đó để tạo dữ liệu từ nhiễu
    • Quá trình thuận định nghĩa một tập các phân phối trung gian liên tục nối phân phối dữ liệu với phân phối nhiễu đơn giản
    • Quá trình ngược phục hồi lại chính các phân phối trung gian đó và chuyển nhiễu thành dữ liệu
  • Mục tiêu của mô hình là học quá trình ngược này để tái hiện đường chuyển đổi từ nhiễu sang dữ liệu

Ba góc nhìn toán học

  • Góc nhìn biến phân (Variational View)
    • Lấy cảm hứng từ variational autoencoder (VAE), mô hình học mục tiêu phục hồi nhỏ theo từng bước (denoising objective) nhằm loại bỏ nhiễu dần dần
    • Sự phục hồi ở từng bước được tích lũy để cuối cùng chuyển nhiễu thành dữ liệu
  • Góc nhìn dựa trên score (Score-Based View)
    • Bắt nguồn từ energy-based model (EBM), mô hình học gradient của phân phối dữ liệu
    • Tính toán hướng di chuyển mẫu tới vùng có xác suất cao hơn
  • Góc nhìn dựa trên flow (Flow-Based View)
    • Tương tự normalizing flow, quá trình sinh được diễn giải như một đường liên tục di chuyển từ nhiễu sang dữ liệu theo trường vận tốc (velocity field)

Cấu trúc chung và nền tảng toán học

  • Cả ba góc nhìn đều có điểm chung là học trường vận tốc phụ thuộc thời gian (time-dependent velocity field)
    • Trường vận tốc này đóng vai trò vận chuyển một phân phối tiên nghiệm (prior) đơn giản sang phân phối dữ liệu
    • Quá trình lấy mẫu được biểu diễn như việc giải phương trình vi phân (differential equation) để chuyển nhiễu thành dữ liệu
  • Trên khung toán học này, các chủ đề như kỹ thuật giải tích số cho lấy mẫu hiệu quả, sinh có điều khiển (guidance)ánh xạ trực tiếp giữa các thời điểm bất kỳ (flow-map) cũng được thảo luận

Đối tượng độc giả và mục tiêu

  • Độc giả là các nhà nghiên cứu, học viên cao học và người làm thực tế có kiến thức nền về deep learning và mô hình sinh
  • Mục tiêu là giúp họ hiểu rõ nền tảng lý thuyết của mô hình khuếch tán và mối quan hệ giữa các cách hình thức hóa khác nhau
  • Qua đó tạo nền tảng để tự tin áp dụng các mô hình hiện có và khám phá những hướng nghiên cứu mới

Lời mở đầu và tổng quan cấu trúc

  • Mô hình khuếch tán đã trở thành một paradigma sinh trung tâm trong nhiều lĩnh vực như machine learning, computer vision và xử lý ngôn ngữ tự nhiên
  • Tài liệu này hệ thống hóa khối lượng nghiên cứu đồ sộ theo các khía cạnh nguyên lý lý thuyết, mục tiêu huấn luyện, thiết kế sampler và ý tưởng toán học
  • Cấu trúc chính
    • Part A & B: sắp xếp lại nền tảng của mô hình khuếch tán cũng như nguồn gốc và quan hệ giữa ba góc nhìn
    • Các chương sau thảo luận về lấy mẫu hiệu quả, sinh có điều khiển và mở rộng sang các mô hình sinh độc lập
  • Mỗi chương có thể đọc riêng; độc giả đã quen với các khái niệm cơ bản có thể bỏ qua phần nhập môn liên quan tới VAE, EBM, Normalizing Flow

Lời cảm ơn

  • Giáo sư Kwon Dohyun của University of Seoul và KIAS đã rà soát một phần chương 7, đồng thời đóng góp vào độ chính xác toán học và cải thiện cách diễn đạt
  • Những phản hồi và trao đổi của ông đã giúp nâng cao chất lượng bản thảo cuối cùng

1 bình luận

 
GN⁺ 2025-11-11
Ý kiến trên Hacker News
  • Nếu thích học qua video, tôi khuyên xem khóa CS236 Deep Generative Models của Stefano Ermon
    Có thể xem toàn bộ bài giảng trong danh sách phát YouTube, và tài liệu học được tổng hợp trên trang chính thức

    • Thật tiếc khi Stanford không còn mở môn CS236 này nữa. Đã 2 năm rồi môn này không được tổ chức
  • Tôi tự hỏi liệu đây có phải là bài đăng trùng lặp với bài tôi đã đăng vài ngày trước không
    Liên kết bài trước

    • Đúng vậy, là bài trùng, nhưng trong một số trường hợp thì vẫn được phép
      Theo HN FAQ, những bài đã không được chú ý trong hơn 1 năm có thể được đăng lại với số lượng hạn chế
      Ngoài ra, các câu hỏi liên quan đến vận hành nên gửi tới hn@ycombinator.com thay vì viết trong bình luận
  • Tôi thử tìm "Fokker-Planck" trong tài liệu thì thấy xuất hiện tới 97 lần
    Như vậy là đủ để tôi muốn đọc thử rồi

    • Nhưng tôi chỉ tìm ra 26 lần thôi. Tiêu chí tính là gì vậy? Buồn cười thật :D
  • Tôi đang thắc mắc không biết có tài liệu nào về transformer bao quát phạm vi và độ sâu như thế này không

  • Thành thật mà nói, có quá nhiều toán nên tôi hơi sợ

    • Đùa rằng có khi không phải “scared” mà là “scated”
  • Khi đọc bài này, tôi lại có cảm giác AI ngày nay thực ra gần với brute force hơn là thật sự thông minh
    Có lẽ bộ não con người cũng chỉ là một cỗ máy brute-force hoạt động suốt cả cuộc đời
    Nhưng trí tuệ nhân tạo rốt cuộc vẫn cho cảm giác như một sản phẩm không có linh hồn, giống như hương liệu nhân tạo

    • Có vẻ như bạn là dân vật lý. Tôi nghĩ ngay cả quá trình thực hiện ngược RG flow cũng có một vẻ đẹp riêng
      Sức mạnh của thống kê dựa trên cấu trúc sâu và sự chọn lọc
    • Từ “luôn luôn” là khẳng định quá mức. Biết đâu một ngày nào đó mọi thứ sẽ tốt hơn
    • Tôi nghĩ trí tuệ là đa tạp (manifold) mà các thuật toán brute-force kiểu này học được
      Con người không brute-force suốt đời, nhưng tiến hóa đã tạo nên cấu trúc đó trong hàng tỷ năm
      rồi nén thêm vào đó các thuật toán meta-learning trong suốt hàng triệu năm
  • 470 trang ư?! Quá nhiều, tôi hơi choáng luôn 😆