2 điểm bởi GN⁺ 2025-10-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Discrete Distribution Networks (DDN) là một mô hình sinh đột phá với nguyên lý và đặc tính mới
  • DDN có kết quả thực nghiệm độc đáo và khả năng biểu diễn rời rạc 1D thông qua thuật toán tối ưu hóa chia-tỉa
  • Dựa trên cấu trúc phân cấp, mô hình còn có thể xấp xỉ phân phối liên tục và cho thấy các đặc tính thú vị như sinh có điều kiện Zero-Shot
  • DDN cho thấy tiềm năng ứng dụng vào nhiều tác vụ thực tế như sinh ảnh, chuyển đổi phong cách, v.v.
  • DDN có điểm khác biệt so với các mô hình sinh hiện có ở khả năng mở rộng, hiệu quả và tính thích nghi tự nhiên

Tổng quan về DDN: Discrete Distribution Networks

Vì sao điều này quan trọng?

DDN (Discrete Distribution Networks) là một cách tiếp cận hoàn toàn mới so với các mô hình sinh hiện có, sở hữu những đặc tính như nguyên lý đơn giản, cấu trúc phân cấp độc đáo và sinh có điều kiện Zero-Shot. Vì hoạt động theo cách khác với GAN hay Diffusion, nó mở ra nhiều khả năng cho cả nghiên cứu lẫn ứng dụng thực tế.


Tóm tắt nội dung chính

  • DDN là một mô hình sinh mới xấp xỉ phân phối dữ liệu bằng cấu trúc phân phối rời rạc phân cấp
  • Đề xuất kỹ thuật tối ưu hóa chia-tỉa (Split-and-Prune) và thực hiện các thí nghiệm về những đặc tính khác biệt như Zero-Shot Conditional Generationbiểu diễn tiềm ẩn rời rạc 1D, vốn khó đạt được với các mô hình sinh hiện có
  • Ở mỗi lớp, DDN đồng thời sinh ra nhiều mẫu, sau đó chọn mẫu gần mục tiêu nhất để dùng làm điều kiện cho lớp tiếp theo
  • Khi số lớp tăng lên, không gian biểu diễn của đầu ra mở rộng theo cấp số mũ, từ đó tạo ra các mẫu tương tự mục tiêu hơn
  • Qua nhiều thí nghiệm khác nhau (CIFAR-10, FFHQ, chuyển đổi phong cách, siêu phân giải, v.v.), DDN cho thấy ưu thế về độ đơn giản, khả năng tổng quát hóa và tiềm năng áp dụng thực tế so với các phương pháp hiện có

Thí nghiệm ước lượng mật độ của DDN

  • Trình diễn quá trình xấp xỉ mật độ xác suất 2D
    • Bên trái: toàn bộ các mẫu mà DDN hiện có thể sinh ra
    • Bên phải: bản đồ mật độ xác suất mục tiêu
    • Lần lượt áp dụng tối ưu hóa liên tục với nhiều phân phối mục tiêu khác nhau (blur_circles, QR_code, spiral, v.v.)
    • Optimizer: dùng đồng thời Gradient Descent và Split-and-Prune
    • Khi áp dụng chia-tỉa, KL divergence còn thấp hơn cả mẫu thực

Những đóng góp cốt lõi của bài báo

  • Đề xuất một mô hình sinh mới — DDN đơn giản và hiệu quả hơn
  • Áp dụng thuật toán tối ưu hóa Split-and-Prune cùng các kỹ thuật thực tiễn
  • Kiểm chứng các đặc tính như sinh có điều kiện Zero-Shot không cần gradientbiểu diễn rời rạc 1D độc đáo
  • Trong phần review của ICLR, mô hình được đánh giá là “rất khác với các mô hình sinh hiện có và mở rộng định hướng nghiên cứu”
  • Nguyên lý của DDN: ở mỗi lớp sinh ra nhiều mẫu rời rạc, chỉ chọn kết quả gần mục tiêu nhất để tinh chỉnh theo cấu trúc phân cấp

Cấu trúc và cách hoạt động

Cấu trúc phân phối rời rạc phân cấp

  • Mỗi lớp nhận mẫu đã được chọn từ lớp trước làm đầu vào và sinh ra nhiều mẫu
  • Trong số đó, chỉ kết quả gần nhất với mẫu huấn luyện hiện tại (đáp án đúng) mới được chuyển sang lớp tiếp theo
  • Quá trình lặp lại giúp kết quả ngày càng tinh chỉnh và tiến gần phân phối mục tiêu
  • Khi số lớp tăng, không gian biểu diễn của đầu ra sinh tăng theo cấp số mũ
  • Bản thân mạng có thể biểu diễn trực tiếp phân phối bằng cách sinh đồng thời nhiều mẫu

Tái tạo ảnh và biểu diễn tiềm ẩn

  • Ở đầu ra của mỗi lớp, các ảnh khác nhau được tạo ra; chỉ những kết quả giống mục tiêu cuối cùng mới được chuyển sang lớp tiếp theo
  • Vai trò của bộ lấy mẫu: chọn ảnh giống mục tiêu nhất
  • Trong tác vụ sinh, lấy mẫu ngẫu nhiên giúp tối đa hóa tính đa dạng
  • Biến tiềm ẩn của DDN có thể được diễn giải như một cấu trúc cây, trong đó mỗi mẫu được ánh xạ tới một đầu mút của cây (nút lá)

Ví dụ kết quả thực nghiệm

  • Xấp xỉ nhiều phân phối 2D khác nhau (spiral, QR_code, v.v.)
  • Với Split-and-Prune, giảm thiểu KL divergence và làm dịu các vấn đề như dead nodes hay density shift
  • Trên CIFAR-10, FFHQ, v.v., xác nhận cách sinh độc đáo và hiệu quả của mô hình so với các mô hình dựa trên GAN và Diffusion

Hỗ trợ sinh có điều kiện Zero-Shot

  • DDN có thể thực hiện sinh có điều kiện Zero-Shot mà không cần gradient
  • Ví dụ: sinh ảnh từ văn bản bằng cách dùng CLIP black-box
  • Cũng xử lý hiệu quả nhiều điều kiện khác ngoài pixel như chuyển đổi phong cách, siêu phân giải, v.v.

Huấn luyện và hai mô hình paradigma

  • Khi huấn luyện, tại mỗi Discrete Distribution Layer (DDL) sẽ chọn mẫu rồi tối ưu hóa bằng Adam + Split-and-Prune
  • Single Shot Generator: mỗi lớp có bộ trọng số độc lập
  • Recurrence Iteration: tất cả các lớp chia sẻ trọng số

Nhiều trường hợp ứng dụng khác nhau

Sinh ngẫu nhiên ảnh khuôn mặt

  • Kết quả sinh ảnh khuôn mặt dựa trên DDN đã huấn luyện cho thấy sự đa dạng và chất lượng của đầu ra

Tô màu ảnh có điều kiện / chuyển đổi cạnh-màu có điều kiện

  • Dựa trên một ảnh cụ thể để suy ra phong cách gần nhất có thể, đồng thời thỏa mãn điều kiện
  • Độ phân giải ảnh sinh ra là 256x256

Trực quan hóa sinh phân cấp (MNIST, v.v.)

  • Trực quan hóa kết quả trung gian và cuối cùng ở từng bước sinh
  • Ảnh lớn là bản nháp, ảnh nhỏ là kết quả cuối đã được tinh chỉnh

Hướng nghiên cứu tương lai và khả năng ứng dụng

  • Có thể cải thiện hiệu năng của DDN thông qua tinh chỉnh siêu tham số, thí nghiệm khám phá và phân tích lý thuyết
  • Mở rộng tới các bài toán có độ phức tạp cỡ ImageNet và xây dựng mô hình có thể triển khai thực tế
  • Ứng dụng vào nhiều tác vụ như siêu phân giải, tô màu ảnh, ước lượng độ sâu, ước lượng tư thế, robotics, v.v.
    • So với các mô hình dựa trên Diffusion, có thể xuất nhiều mẫu chỉ với một lần forward-pass
    • Dễ áp đặt ràng buộc hơn và hiệu quả hơn trong các ứng dụng như ước lượng độ bất định
    • Nhờ khả năng vi phân end-to-end, có thể kết hợp hiệu quả với học phân biệt/phần thưởng hiện có
  • Cũng có thể dùng cho các tác vụ không sinh như phân cụm không giám sát, nén dữ liệu, v.v.
  • Các nghiên cứu tiếp theo có thể áp dụng ý tưởng thiết kế của DDN cho các mô hình sinh hiện có (ví dụ: kết hợp Diffusion với không gian tiềm ẩn rời rạc 1D)
  • Đề xuất những hướng đi mới như mô hình hóa trực tiếp chuỗi nhị phân trong language modeling mà không cần tokenizer

Câu hỏi thường gặp

Q1: Yêu cầu bộ nhớ GPU có tăng không?

  • Có tăng nhẹ so với Generator của GAN truyền thống nhưng không khác biệt lớn
  • Khi huấn luyện, chỉ lưu gradient của các mẫu được chọn, còn lại bị loại bỏ ngay nên vẫn tiết kiệm bộ nhớ
  • Ở giai đoạn sinh, chỉ tạo ngẫu nhiên một mẫu chứ không sinh toàn bộ các mẫu, nên tài nguyên bổ sung dùng rất ít

Q2: Vấn đề mode collapse thì sao?

  • Không có. Vì luôn chỉ áp dụng loss cho kết quả giống mục tiêu nhất nên vẫn đảm bảo tính đa dạng
  • Trong thực nghiệm, hiệu năng tái tạo trên tập kiểm tra (khả năng phục hồi) cũng rất tốt
  • Tuy nhiên, với dữ liệu chiều cao vượt quá mức mà độ phức tạp của DDN có thể gánh được, có thể xuất hiện các mẫu bị mờ

1 bình luận

 
GN⁺ 2025-10-11
Ý kiến trên Hacker News
  • Các tác giả bày tỏ sự vui mừng vì thấy review của ICLR hữu ích; trường hợp này được xem là một ví dụ cho thấy chính sách công khai toàn bộ review bài báo của ICLR đang vận hành thành công như thế nào
    Các reviewer, trong trạng thái ẩn danh, đóng vai trò như một "bản đánh giá" cho tác giả về cách họ diễn giải bài báo, và còn có ưu điểm là cả những người ngoài giới học thuật truyền thống cũng có thể thấy các cuộc thảo luận ẩn sau quyết định nhận/từ chối bài
    Link review cho bài báo này ở đây
    Có thể xem toàn bộ danh sách các bài bị từ chối ở đây

    • Mỗi lần từng bị ICLR từ chối, tôi ít nhất cũng có thể chỉ ra reviewer nào đã không hiểu được ý tưởng cốt lõi của bài báo đó
  • Trong Fig.18 của bài báo có nhắc rằng Taiji-DDN giống với thái cực trong triết học Trung Hoa cổ đại
    Phần này khiến tôi thấy hơi gượng ép
    Vì cấu trúc phân nhánh là một khái niệm rất thường gặp, nên cách diễn giải gắn nó đặc biệt với điển tích cổ có phần hơi khó hiểu

    • Cá nhân tôi thấy đây chỉ là cách họ muốn giải thích một cái tên độc đáo theo hướng thú vị hơn thôi
      Tôi không nghĩ đó là gì mê tín hay kỳ quặc cả
  • Thấy một bài báo một tác giả được nhận vào ICLR đã là ấn tượng, nhất là khi nó còn đề xuất một phương pháp đặc biệt sáng tạo như vậy

  • Cấu trúc này rất thú vị
    Nó có ưu điểm là dễ debug, nhưng vì dùng sampler chứ không phải router kiểu Mixture-of-Experts(MoE), nên có nhược điểm là ở mỗi layer, K-1 phép tính bị bỏ đi một cách hiệu quả
    Theo cảm nhận của tôi, phép so sánh gần nhất là sự kết hợp giữa MoE và mô hình latent diffusion kiểu 'x0-target', còn điểm đổi mới chính là sampler được dẫn hướng thay vì router, cùng với optimizer split-and-prune
    Tôi nghĩ chính điều này giúp việc huấn luyện trở nên dễ hơn

    • Vì xác suất lấy mẫu là 1/K bất kể đầu vào, nên khi suy luận không cần nhất thiết phải thực hiện cả K phép tính trung gian ở mỗi layer rồi mới chọn; có thể quyết định trước cái nào sẽ dùng và chỉ chạy phép tính đó
      Điều này có trong mục 'Common Questions About DDN', câu Q1 ở cuối bài báo

    • Có vẻ bạn đã hiểu nhầm bài báo
      Không có 'experts'; đầu ra chỉ đơn giản đóng vai trò xấp xỉ việc lấy mẫu ngẫu nhiên từ một phân phối
      Không có latent diffusion, và mô hình dùng convolution tương tự GAN
      Nhấn mạnh rằng khi suy luận có thể chọn trước chỉ số mẫu nên không có phép tính thừa

  • Đây thực sự là một concept rất hay
    Nhìn các ví dụ bên dưới phần tóm tắt bài báo, tôi ngạc nhiên vì có những chỗ mô hình cho ra kết quả khá chính xác
    Ví dụ như đường chân tóc ở hàng 2 cột 3, màu áo ở hàng 2 cột 7/8/9/11, son môi trên toàn bộ hàng 4/6, hay vị trí/hình dạng khuôn mặt và tóc ở hàng 6 cột 4
    Đặc biệt phần màu đỏ ở góc dưới bên trái của hàng 6 cột 4 rất kỳ lạ theo hướng thú vị: mô hình dường như nhận ra có một vật màu đỏ nào đó và đặt một khối đỏ đúng vị trí
    Có thể đó là thiên lệch của dataset (ví dụ như son môi) hoặc chỉ là tôi quan sát có chọn lọc, nhưng với dây áo đỏ thì tôi tự hỏi liệu có khả năng rò rỉ dữ liệu hay overfitting, hay chỉ đơn giản là ngẫu nhiên

  • Tôi cũng từng làm một kiến trúc tương tự (nhưng phương pháp khác), tạo phân cấp của cross-attention và các query đã học, rồi áp dụng L1 lên ma trận attention để tăng tính thưa
    Các biểu diễn phân cấp rời rạc (discrete hierarchical representations) thực sự rất thú vị
    Mẫu kích hoạt ở mỗi layer hoạt động như một 'parse tree' theo từng đầu vào, từ đó nén ảnh hiệu quả thành các chuỗi số nguyên ngắn

  • Có chỗ này tôi không rõ nên hỏi: nếu mạng chỉ gồm toàn convolution 1x1, chẳng phải sẽ hoàn toàn không có trao đổi thông tin giữa các pixel sao
    Nếu vậy thì có nghĩa là mỗi pixel hoàn toàn độc lập, và liệu kết quả có trở nên thiếu nhất quán không?

    • Không áp dụng cho trường hợp này, nhưng trên thực tế đúng là có những kiến trúc tạo pixel một cách độc lập với nhau
      Chúng có thể tạo ra bất kỳ pixel hay thành phần ảnh nào mà không cần sinh ra phần còn lại; chúng mang tính nội tại
      Ví dụ có NeRF, 'single-pixel GAN', và MAE; link bài báo lần lượt là bài này, bài này, bài này
      Điều này khả thi vì có thể xem mô hình như có chức năng 'ghi nhớ' mọi dữ liệu khả dĩ, và việc sinh độc lập chỉ là lấy ra một phần cụ thể nào đó của 'ký ức' ấy
      Không gian tiềm ẩn là một đối tượng kiểu Plato không thay đổi, nên việc tạo riêng từng điểm về mặt vật lý không có gì lạ
      Cũng như có thể tạo ra các điểm tùy ý bằng một hàm như y=mx+b, việc sinh ảnh cũng chỉ là đầu vào của một hàm phức tạp hơn
      Khái niệm này không chỉ giới hạn ở ảnh; ngôn ngữ tự nhiên cũng có thể được sinh khá độc lập ở một mức độ nào đó, và có thể mở rộng thêm qua đoạn mã này cùng đề xuất của tôi ở đây

    • Trong DDN, convolution 1x1 chỉ được dùng ở layer đầu ra của Discrete Distribution Layer(DDL)
      Các khối mạng thần kinh nằm giữa các DDL mới là nơi tạo ra các phép toán chính và phần lớn tham số, và ở đó họ dùng convolution 3x3 tiêu chuẩn

  • Thú vị đấy
    Vài ngày trước tôi có nghiên cứu về diffusion dùng ma trận symbolic transform để song song hóa hệ thống phản ứng đồ thị sâu, nên có vẻ nhiều người đang đi theo hướng chung này
    Tôi có cảm giác trong 1-2 năm tới, các mô hình dựa trên diffusion sẽ dẫn dắt mảng sinh mã

  • Rất tuyệt; trước đây tôi đã dành khá nhiều thời gian cho representation learning, nên lưới chữ số MNIST này gợi lại nhiều ký ức
    Tôi nghĩ đây thực sự là một cách tiếp cận thú vị và mới mẻ, và tôi tò mò không biết nó sẽ hoạt động ra sao nếu mở rộng sang các miền không phải hình ảnh
    Tôi muốn biết có thể theo dõi các nghiên cứu tiếp theo ở đâu

    • Cảm ơn bạn đã quan tâm
      Các kết quả nghiên cứu sắp tới sẽ được đăng cả trên GitHub lẫn Twitter(X)
  • Trông như một nghiên cứu rất tốt nên tôi đã thêm vào danh sách cần đọc
    Cảm ơn vì đã chia sẻ lên Hacker News