Chúng tôi đã phát minh ra một mô hình sinh mới được chấp nhận tại ICLR

(discrete-distribution-networks.github.io)

2 điểm bởi GN⁺ 2025-10-11 | 1 bình luận | Chia sẻ qua WhatsApp

Discrete Distribution Networks (DDN) là một mô hình sinh đột phá với nguyên lý và đặc tính mới
DDN có kết quả thực nghiệm độc đáo và khả năng biểu diễn rời rạc 1D thông qua thuật toán tối ưu hóa chia-tỉa
Dựa trên cấu trúc phân cấp, mô hình còn có thể xấp xỉ phân phối liên tục và cho thấy các đặc tính thú vị như sinh có điều kiện Zero-Shot
DDN cho thấy tiềm năng ứng dụng vào nhiều tác vụ thực tế như sinh ảnh, chuyển đổi phong cách, v.v.
DDN có điểm khác biệt so với các mô hình sinh hiện có ở khả năng mở rộng, hiệu quả và tính thích nghi tự nhiên

Tổng quan về DDN: Discrete Distribution Networks

Vì sao điều này quan trọng?

DDN (Discrete Distribution Networks) là một cách tiếp cận hoàn toàn mới so với các mô hình sinh hiện có, sở hữu những đặc tính như nguyên lý đơn giản, cấu trúc phân cấp độc đáo và sinh có điều kiện Zero-Shot. Vì hoạt động theo cách khác với GAN hay Diffusion, nó mở ra nhiều khả năng cho cả nghiên cứu lẫn ứng dụng thực tế.

Tóm tắt nội dung chính

DDN là một mô hình sinh mới xấp xỉ phân phối dữ liệu bằng cấu trúc phân phối rời rạc phân cấp
Đề xuất kỹ thuật tối ưu hóa chia-tỉa (Split-and-Prune) và thực hiện các thí nghiệm về những đặc tính khác biệt như Zero-Shot Conditional Generation và biểu diễn tiềm ẩn rời rạc 1D, vốn khó đạt được với các mô hình sinh hiện có
Ở mỗi lớp, DDN đồng thời sinh ra nhiều mẫu, sau đó chọn mẫu gần mục tiêu nhất để dùng làm điều kiện cho lớp tiếp theo
Khi số lớp tăng lên, không gian biểu diễn của đầu ra mở rộng theo cấp số mũ, từ đó tạo ra các mẫu tương tự mục tiêu hơn
Qua nhiều thí nghiệm khác nhau (CIFAR-10, FFHQ, chuyển đổi phong cách, siêu phân giải, v.v.), DDN cho thấy ưu thế về độ đơn giản, khả năng tổng quát hóa và tiềm năng áp dụng thực tế so với các phương pháp hiện có

Thí nghiệm ước lượng mật độ của DDN

Trình diễn quá trình xấp xỉ mật độ xác suất 2D
- Bên trái: toàn bộ các mẫu mà DDN hiện có thể sinh ra
- Bên phải: bản đồ mật độ xác suất mục tiêu
- Lần lượt áp dụng tối ưu hóa liên tục với nhiều phân phối mục tiêu khác nhau (blur_circles, QR_code, spiral, v.v.)
- Optimizer: dùng đồng thời Gradient Descent và Split-and-Prune
- Khi áp dụng chia-tỉa, KL divergence còn thấp hơn cả mẫu thực

Những đóng góp cốt lõi của bài báo

Đề xuất một mô hình sinh mới — DDN đơn giản và hiệu quả hơn
Áp dụng thuật toán tối ưu hóa Split-and-Prune cùng các kỹ thuật thực tiễn
Kiểm chứng các đặc tính như sinh có điều kiện Zero-Shot không cần gradient và biểu diễn rời rạc 1D độc đáo
Trong phần review của ICLR, mô hình được đánh giá là “rất khác với các mô hình sinh hiện có và mở rộng định hướng nghiên cứu”
Nguyên lý của DDN: ở mỗi lớp sinh ra nhiều mẫu rời rạc, chỉ chọn kết quả gần mục tiêu nhất để tinh chỉnh theo cấu trúc phân cấp

Cấu trúc và cách hoạt động

Cấu trúc phân phối rời rạc phân cấp

Mỗi lớp nhận mẫu đã được chọn từ lớp trước làm đầu vào và sinh ra nhiều mẫu
Trong số đó, chỉ kết quả gần nhất với mẫu huấn luyện hiện tại (đáp án đúng) mới được chuyển sang lớp tiếp theo
Quá trình lặp lại giúp kết quả ngày càng tinh chỉnh và tiến gần phân phối mục tiêu
Khi số lớp tăng, không gian biểu diễn của đầu ra sinh tăng theo cấp số mũ
Bản thân mạng có thể biểu diễn trực tiếp phân phối bằng cách sinh đồng thời nhiều mẫu

Tái tạo ảnh và biểu diễn tiềm ẩn

Ở đầu ra của mỗi lớp, các ảnh khác nhau được tạo ra; chỉ những kết quả giống mục tiêu cuối cùng mới được chuyển sang lớp tiếp theo
Vai trò của bộ lấy mẫu: chọn ảnh giống mục tiêu nhất
Trong tác vụ sinh, lấy mẫu ngẫu nhiên giúp tối đa hóa tính đa dạng
Biến tiềm ẩn của DDN có thể được diễn giải như một cấu trúc cây, trong đó mỗi mẫu được ánh xạ tới một đầu mút của cây (nút lá)

Ví dụ kết quả thực nghiệm

Xấp xỉ nhiều phân phối 2D khác nhau (spiral, QR_code, v.v.)
Với Split-and-Prune, giảm thiểu KL divergence và làm dịu các vấn đề như dead nodes hay density shift
Trên CIFAR-10, FFHQ, v.v., xác nhận cách sinh độc đáo và hiệu quả của mô hình so với các mô hình dựa trên GAN và Diffusion

Hỗ trợ sinh có điều kiện Zero-Shot

DDN có thể thực hiện sinh có điều kiện Zero-Shot mà không cần gradient
Ví dụ: sinh ảnh từ văn bản bằng cách dùng CLIP black-box
Cũng xử lý hiệu quả nhiều điều kiện khác ngoài pixel như chuyển đổi phong cách, siêu phân giải, v.v.

Huấn luyện và hai mô hình paradigma

Khi huấn luyện, tại mỗi Discrete Distribution Layer (DDL) sẽ chọn mẫu rồi tối ưu hóa bằng Adam + Split-and-Prune
Single Shot Generator: mỗi lớp có bộ trọng số độc lập
Recurrence Iteration: tất cả các lớp chia sẻ trọng số

Nhiều trường hợp ứng dụng khác nhau

Sinh ngẫu nhiên ảnh khuôn mặt

Kết quả sinh ảnh khuôn mặt dựa trên DDN đã huấn luyện cho thấy sự đa dạng và chất lượng của đầu ra

Tô màu ảnh có điều kiện / chuyển đổi cạnh-màu có điều kiện

Dựa trên một ảnh cụ thể để suy ra phong cách gần nhất có thể, đồng thời thỏa mãn điều kiện
Độ phân giải ảnh sinh ra là 256x256

Trực quan hóa sinh phân cấp (MNIST, v.v.)

Trực quan hóa kết quả trung gian và cuối cùng ở từng bước sinh
Ảnh lớn là bản nháp, ảnh nhỏ là kết quả cuối đã được tinh chỉnh

Hướng nghiên cứu tương lai và khả năng ứng dụng

Có thể cải thiện hiệu năng của DDN thông qua tinh chỉnh siêu tham số, thí nghiệm khám phá và phân tích lý thuyết
Mở rộng tới các bài toán có độ phức tạp cỡ ImageNet và xây dựng mô hình có thể triển khai thực tế
Ứng dụng vào nhiều tác vụ như siêu phân giải, tô màu ảnh, ước lượng độ sâu, ước lượng tư thế, robotics, v.v.
- So với các mô hình dựa trên Diffusion, có thể xuất nhiều mẫu chỉ với một lần forward-pass
- Dễ áp đặt ràng buộc hơn và hiệu quả hơn trong các ứng dụng như ước lượng độ bất định
- Nhờ khả năng vi phân end-to-end, có thể kết hợp hiệu quả với học phân biệt/phần thưởng hiện có
Cũng có thể dùng cho các tác vụ không sinh như phân cụm không giám sát, nén dữ liệu, v.v.
Các nghiên cứu tiếp theo có thể áp dụng ý tưởng thiết kế của DDN cho các mô hình sinh hiện có (ví dụ: kết hợp Diffusion với không gian tiềm ẩn rời rạc 1D)
Đề xuất những hướng đi mới như mô hình hóa trực tiếp chuỗi nhị phân trong language modeling mà không cần tokenizer

Câu hỏi thường gặp

Q1: Yêu cầu bộ nhớ GPU có tăng không?

Có tăng nhẹ so với Generator của GAN truyền thống nhưng không khác biệt lớn
Khi huấn luyện, chỉ lưu gradient của các mẫu được chọn, còn lại bị loại bỏ ngay nên vẫn tiết kiệm bộ nhớ
Ở giai đoạn sinh, chỉ tạo ngẫu nhiên một mẫu chứ không sinh toàn bộ các mẫu, nên tài nguyên bổ sung dùng rất ít

Q2: Vấn đề mode collapse thì sao?

Không có. Vì luôn chỉ áp dụng loss cho kết quả giống mục tiêu nhất nên vẫn đảm bảo tính đa dạng
Trong thực nghiệm, hiệu năng tái tạo trên tập kiểm tra (khả năng phục hồi) cũng rất tốt
Tuy nhiên, với dữ liệu chiều cao vượt quá mức mà độ phức tạp của DDN có thể gánh được, có thể xuất hiện các mẫu bị mờ

1 bình luận

GN⁺ 2025-10-11

Ý kiến trên Hacker News

Các tác giả bày tỏ sự vui mừng vì thấy review của ICLR hữu ích; trường hợp này được xem là một ví dụ cho thấy chính sách công khai toàn bộ review bài báo của ICLR đang vận hành thành công như thế nào
Các reviewer, trong trạng thái ẩn danh, đóng vai trò như một "bản đánh giá" cho tác giả về cách họ diễn giải bài báo, và còn có ưu điểm là cả những người ngoài giới học thuật truyền thống cũng có thể thấy các cuộc thảo luận ẩn sau quyết định nhận/từ chối bài
Link review cho bài báo này ở đây
Có thể xem toàn bộ danh sách các bài bị từ chối ở đây
- Mỗi lần từng bị ICLR từ chối, tôi ít nhất cũng có thể chỉ ra reviewer nào đã không hiểu được ý tưởng cốt lõi của bài báo đó
Trong Fig.18 của bài báo có nhắc rằng Taiji-DDN giống với thái cực trong triết học Trung Hoa cổ đại
Phần này khiến tôi thấy hơi gượng ép
Vì cấu trúc phân nhánh là một khái niệm rất thường gặp, nên cách diễn giải gắn nó đặc biệt với điển tích cổ có phần hơi khó hiểu
- Cá nhân tôi thấy đây chỉ là cách họ muốn giải thích một cái tên độc đáo theo hướng thú vị hơn thôi
  Tôi không nghĩ đó là gì mê tín hay kỳ quặc cả
Thấy một bài báo một tác giả được nhận vào ICLR đã là ấn tượng, nhất là khi nó còn đề xuất một phương pháp đặc biệt sáng tạo như vậy
Cấu trúc này rất thú vị
Nó có ưu điểm là dễ debug, nhưng vì dùng sampler chứ không phải router kiểu Mixture-of-Experts(MoE), nên có nhược điểm là ở mỗi layer, K-1 phép tính bị bỏ đi một cách hiệu quả
Theo cảm nhận của tôi, phép so sánh gần nhất là sự kết hợp giữa MoE và mô hình latent diffusion kiểu 'x0-target', còn điểm đổi mới chính là sampler được dẫn hướng thay vì router, cùng với optimizer split-and-prune
Tôi nghĩ chính điều này giúp việc huấn luyện trở nên dễ hơn
- Vì xác suất lấy mẫu là 1/K bất kể đầu vào, nên khi suy luận không cần nhất thiết phải thực hiện cả K phép tính trung gian ở mỗi layer rồi mới chọn; có thể quyết định trước cái nào sẽ dùng và chỉ chạy phép tính đó
  Điều này có trong mục 'Common Questions About DDN', câu Q1 ở cuối bài báo
- Có vẻ bạn đã hiểu nhầm bài báo
  Không có 'experts'; đầu ra chỉ đơn giản đóng vai trò xấp xỉ việc lấy mẫu ngẫu nhiên từ một phân phối
  Không có latent diffusion, và mô hình dùng convolution tương tự GAN
  Nhấn mạnh rằng khi suy luận có thể chọn trước chỉ số mẫu nên không có phép tính thừa
Đây thực sự là một concept rất hay
Nhìn các ví dụ bên dưới phần tóm tắt bài báo, tôi ngạc nhiên vì có những chỗ mô hình cho ra kết quả khá chính xác
Ví dụ như đường chân tóc ở hàng 2 cột 3, màu áo ở hàng 2 cột 7/8/9/11, son môi trên toàn bộ hàng 4/6, hay vị trí/hình dạng khuôn mặt và tóc ở hàng 6 cột 4
Đặc biệt phần màu đỏ ở góc dưới bên trái của hàng 6 cột 4 rất kỳ lạ theo hướng thú vị: mô hình dường như nhận ra có một vật màu đỏ nào đó và đặt một khối đỏ đúng vị trí
Có thể đó là thiên lệch của dataset (ví dụ như son môi) hoặc chỉ là tôi quan sát có chọn lọc, nhưng với dây áo đỏ thì tôi tự hỏi liệu có khả năng rò rỉ dữ liệu hay overfitting, hay chỉ đơn giản là ngẫu nhiên
Tôi cũng từng làm một kiến trúc tương tự (nhưng phương pháp khác), tạo phân cấp của cross-attention và các query đã học, rồi áp dụng L1 lên ma trận attention để tăng tính thưa
Các biểu diễn phân cấp rời rạc (discrete hierarchical representations) thực sự rất thú vị
Mẫu kích hoạt ở mỗi layer hoạt động như một 'parse tree' theo từng đầu vào, từ đó nén ảnh hiệu quả thành các chuỗi số nguyên ngắn
Có chỗ này tôi không rõ nên hỏi: nếu mạng chỉ gồm toàn convolution 1x1, chẳng phải sẽ hoàn toàn không có trao đổi thông tin giữa các pixel sao
Nếu vậy thì có nghĩa là mỗi pixel hoàn toàn độc lập, và liệu kết quả có trở nên thiếu nhất quán không?
- Không áp dụng cho trường hợp này, nhưng trên thực tế đúng là có những kiến trúc tạo pixel một cách độc lập với nhau
  Chúng có thể tạo ra bất kỳ pixel hay thành phần ảnh nào mà không cần sinh ra phần còn lại; chúng mang tính nội tại
  Ví dụ có NeRF, 'single-pixel GAN', và MAE; link bài báo lần lượt là bài này, bài này, bài này
  Điều này khả thi vì có thể xem mô hình như có chức năng 'ghi nhớ' mọi dữ liệu khả dĩ, và việc sinh độc lập chỉ là lấy ra một phần cụ thể nào đó của 'ký ức' ấy
  Không gian tiềm ẩn là một đối tượng kiểu Plato không thay đổi, nên việc tạo riêng từng điểm về mặt vật lý không có gì lạ
  Cũng như có thể tạo ra các điểm tùy ý bằng một hàm như y=mx+b, việc sinh ảnh cũng chỉ là đầu vào của một hàm phức tạp hơn
  Khái niệm này không chỉ giới hạn ở ảnh; ngôn ngữ tự nhiên cũng có thể được sinh khá độc lập ở một mức độ nào đó, và có thể mở rộng thêm qua đoạn mã này cùng đề xuất của tôi ở đây
- Trong DDN, convolution 1x1 chỉ được dùng ở layer đầu ra của Discrete Distribution Layer(DDL)
  Các khối mạng thần kinh nằm giữa các DDL mới là nơi tạo ra các phép toán chính và phần lớn tham số, và ở đó họ dùng convolution 3x3 tiêu chuẩn
Thú vị đấy
Vài ngày trước tôi có nghiên cứu về diffusion dùng ma trận symbolic transform để song song hóa hệ thống phản ứng đồ thị sâu, nên có vẻ nhiều người đang đi theo hướng chung này
Tôi có cảm giác trong 1-2 năm tới, các mô hình dựa trên diffusion sẽ dẫn dắt mảng sinh mã
Rất tuyệt; trước đây tôi đã dành khá nhiều thời gian cho representation learning, nên lưới chữ số MNIST này gợi lại nhiều ký ức
Tôi nghĩ đây thực sự là một cách tiếp cận thú vị và mới mẻ, và tôi tò mò không biết nó sẽ hoạt động ra sao nếu mở rộng sang các miền không phải hình ảnh
Tôi muốn biết có thể theo dõi các nghiên cứu tiếp theo ở đâu
- Cảm ơn bạn đã quan tâm
  Các kết quả nghiên cứu sắp tới sẽ được đăng cả trên GitHub lẫn Twitter(X)
Trông như một nghiên cứu rất tốt nên tôi đã thêm vào danh sách cần đọc
Cảm ơn vì đã chia sẻ lên Hacker News