Công bố bài nghiên cứu về Stable Diffusion 3

xguru · 2024-03-06T10:46:01+09:00

Công bố một bài nghiên cứu đi sâu vào công nghệ vận hành Stable Diffusion 3 Dựa trên đánh giá mức độ ưa thích của con người, SD3 vượt qua các hệ thống tạo văn bản-thành-hình ảnh hiện đại như DALL·E 3, Midjourney v6 và Ideogram v1 về mặt kiểu chữ và mức độ tuân thủ prompt Kiến trúc Multimodal Diffusion Transformer (MMDiT) mới sử dụng các bộ trọng số riêng biệt cho biểu diễn hình ảnh và ngôn ngữ, giúp cải thiện khả năng hiểu văn bản và đánh vần so với các phiên bản SD3 trước đó Hiệu năng Đánh giá hiệu năng dựa trên phản hồi của con người bằng cách so sánh hình ảnh đầu ra của Stable Diffusion 3 với nhiều mô hình mở như SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α, cũng như các hệ thống mã nguồn đóng như DALL·E 3, Midjourney v6 và Ideogram v1 Kết quả thử nghiệm cho thấy Stable Diffusion 3 ngang bằng hoặc vượt qua các hệ thống tạo văn bản-thành-hình ảnh tiên tiến hiện nay trong tất cả các hạng mục nêu trên Trong thử nghiệm suy luận ban đầu chưa tối ưu, mô hình SD3 lớn nhất có 8B tham số, vừa với 24GB VRAM của RTX 4090 và mất 34 giây để tạo ảnh độ phân giải 1024x1024 khi dùng 50 bước lấy mẫu Ở đợt phát hành ban đầu sẽ có nhiều biến thể Stable Diffusion 3, từ mô hình 800m đến 8B tham số, qua đó tiếp tục hạ thấp rào cản phần cứng Chi tiết kiến trúc Để tạo văn bản-thành-hình ảnh, mô hình cần xem xét cả hai modality là văn bản và hình ảnh Kiến trúc mới này được gọi là MMDiT, ám chỉ khả năng xử lý nhiều modality khác nhau Tương tự các phiên bản Stable Diffusion trước, mô hình sử dụng các mô hình tiền huấn luyện để rút ra các biểu diễn văn bản và hình ảnh phù hợp Vì embedding văn bản và hình ảnh khác nhau đáng kể về mặt khái niệm, mô hình sử dụng các bộ trọng số riêng cho hai modality Với cách tiếp cận này, thông tin có thể chảy giữa token hình ảnh và token văn bản, giúp cải thiện khả năng hiểu tổng thể và chất lượng kiểu chữ của đầu ra Kiến trúc này cũng có thể dễ dàng mở rộng sang nhiều modality như video Cải thiện Rectified Flows bằng Reweighting Stable Diffusion 3 sử dụng công thức Rectified Flow (RF), nối dữ liệu và nhiễu bằng quỹ đạo tuyến tính trong quá trình huấn luyện Điều này tạo ra đường suy luận thẳng hơn, cho phép lấy mẫu với ít bước hơn Ngoài ra, mô hình đưa vào một lịch lấy mẫu quỹ đạo mới trong quá trình huấn luyện, đặt trọng số lớn hơn cho phần giữa của quỹ đạo Khi kiểm thử cách tiếp cận này so với các quỹ đạo khuếch tán khác, công thức RF trước đây cải thiện hiệu năng ở chế độ lấy mẫu ít bước nhưng hiệu năng tương đối giảm khi số bước nhiều hơn Ngược lại, biến thể RF được tái trọng số cải thiện hiệu năng một cách nhất quán Mở rộng mô hình Rectified Flow Transformer Thực hiện nghiên cứu scaling cho tổng hợp văn bản-thành-hình ảnh bằng cách sử dụng công thức Rectified Flow được tái trọng số và backbone MMDiT Quan sát thấy validation loss giảm mượt theo cả kích thước mô hình lẫn số bước huấn luyện Để kiểm tra liệu điều này có chuyển thành cải thiện có ý nghĩa trong đầu ra mô hình hay không, nhóm đánh giá chỉ số căn chỉnh hình ảnh tự động (GenEval) và điểm mức độ ưa thích của con người (ELO) Kết quả cho thấy mối tương quan mạnh giữa các chỉ số này và validation loss Xu hướng scaling chưa cho thấy dấu hiệu bão hòa, mang lại triển vọng lạc quan rằng hiệu năng của các mô hình tương lai có thể tiếp tục được cải thiện Bộ mã hóa văn bản linh hoạt Đối với suy luận, việc loại bỏ bộ mã hóa văn bản T5 4.7B tham số vốn tiêu tốn nhiều bộ nhớ có thể làm giảm đáng kể yêu cầu bộ nhớ của SD3, trong khi mức suy giảm hiệu năng là rất nhỏ Việc loại bỏ bộ mã hóa văn bản này không ảnh hưởng đến thẩm mỹ hình ảnh (tỷ lệ thắng sau khi loại bỏ: 50%), nhưng làm giảm nhẹ mức độ tuân thủ văn bản (tỷ lệ thắng 46%) Tuy vậy, việc bao gồm T5 vẫn được khuyến nghị để khai thác đầy đủ sức mạnh tổng thể của SD3 trong việc tạo văn bản

(stability.ai)

13 điểm bởi xguru 2024-03-06 | 1 bình luận | Chia sẻ qua WhatsApp

Công bố một bài nghiên cứu đi sâu vào công nghệ vận hành Stable Diffusion 3
Dựa trên đánh giá mức độ ưa thích của con người, SD3 vượt qua các hệ thống tạo văn bản-thành-hình ảnh hiện đại như DALL·E 3, Midjourney v6 và Ideogram v1 về mặt kiểu chữ và mức độ tuân thủ prompt
Kiến trúc Multimodal Diffusion Transformer (MMDiT) mới sử dụng các bộ trọng số riêng biệt cho biểu diễn hình ảnh và ngôn ngữ, giúp cải thiện khả năng hiểu văn bản và đánh vần so với các phiên bản SD3 trước đó

Hiệu năng

Đánh giá hiệu năng dựa trên phản hồi của con người bằng cách so sánh hình ảnh đầu ra của Stable Diffusion 3 với nhiều mô hình mở như SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α, cũng như các hệ thống mã nguồn đóng như DALL·E 3, Midjourney v6 và Ideogram v1
Kết quả thử nghiệm cho thấy Stable Diffusion 3 ngang bằng hoặc vượt qua các hệ thống tạo văn bản-thành-hình ảnh tiên tiến hiện nay trong tất cả các hạng mục nêu trên
Trong thử nghiệm suy luận ban đầu chưa tối ưu, mô hình SD3 lớn nhất có 8B tham số, vừa với 24GB VRAM của RTX 4090 và mất 34 giây để tạo ảnh độ phân giải 1024x1024 khi dùng 50 bước lấy mẫu
Ở đợt phát hành ban đầu sẽ có nhiều biến thể Stable Diffusion 3, từ mô hình 800m đến 8B tham số, qua đó tiếp tục hạ thấp rào cản phần cứng

Chi tiết kiến trúc

Để tạo văn bản-thành-hình ảnh, mô hình cần xem xét cả hai modality là văn bản và hình ảnh
Kiến trúc mới này được gọi là MMDiT, ám chỉ khả năng xử lý nhiều modality khác nhau
Tương tự các phiên bản Stable Diffusion trước, mô hình sử dụng các mô hình tiền huấn luyện để rút ra các biểu diễn văn bản và hình ảnh phù hợp
Vì embedding văn bản và hình ảnh khác nhau đáng kể về mặt khái niệm, mô hình sử dụng các bộ trọng số riêng cho hai modality
Với cách tiếp cận này, thông tin có thể chảy giữa token hình ảnh và token văn bản, giúp cải thiện khả năng hiểu tổng thể và chất lượng kiểu chữ của đầu ra
Kiến trúc này cũng có thể dễ dàng mở rộng sang nhiều modality như video

Cải thiện Rectified Flows bằng Reweighting

Stable Diffusion 3 sử dụng công thức Rectified Flow (RF), nối dữ liệu và nhiễu bằng quỹ đạo tuyến tính trong quá trình huấn luyện
Điều này tạo ra đường suy luận thẳng hơn, cho phép lấy mẫu với ít bước hơn
Ngoài ra, mô hình đưa vào một lịch lấy mẫu quỹ đạo mới trong quá trình huấn luyện, đặt trọng số lớn hơn cho phần giữa của quỹ đạo
Khi kiểm thử cách tiếp cận này so với các quỹ đạo khuếch tán khác, công thức RF trước đây cải thiện hiệu năng ở chế độ lấy mẫu ít bước nhưng hiệu năng tương đối giảm khi số bước nhiều hơn
Ngược lại, biến thể RF được tái trọng số cải thiện hiệu năng một cách nhất quán

Mở rộng mô hình Rectified Flow Transformer

Thực hiện nghiên cứu scaling cho tổng hợp văn bản-thành-hình ảnh bằng cách sử dụng công thức Rectified Flow được tái trọng số và backbone MMDiT
Quan sát thấy validation loss giảm mượt theo cả kích thước mô hình lẫn số bước huấn luyện
Để kiểm tra liệu điều này có chuyển thành cải thiện có ý nghĩa trong đầu ra mô hình hay không, nhóm đánh giá chỉ số căn chỉnh hình ảnh tự động (GenEval) và điểm mức độ ưa thích của con người (ELO)
Kết quả cho thấy mối tương quan mạnh giữa các chỉ số này và validation loss
Xu hướng scaling chưa cho thấy dấu hiệu bão hòa, mang lại triển vọng lạc quan rằng hiệu năng của các mô hình tương lai có thể tiếp tục được cải thiện

Bộ mã hóa văn bản linh hoạt

Đối với suy luận, việc loại bỏ bộ mã hóa văn bản T5 4.7B tham số vốn tiêu tốn nhiều bộ nhớ có thể làm giảm đáng kể yêu cầu bộ nhớ của SD3, trong khi mức suy giảm hiệu năng là rất nhỏ
Việc loại bỏ bộ mã hóa văn bản này không ảnh hưởng đến thẩm mỹ hình ảnh (tỷ lệ thắng sau khi loại bỏ: 50%), nhưng làm giảm nhẹ mức độ tuân thủ văn bản (tỷ lệ thắng 46%)
Tuy vậy, việc bao gồm T5 vẫn được khuyến nghị để khai thác đầy đủ sức mạnh tổng thể của SD3 trong việc tạo văn bản

1 bình luận

xguru 2024-03-06

Ý kiến trên Hacker News

Sự cam kết của Stability AI với mã nguồn mở rất đáng chú ý, và hy vọng họ có thể tiếp tục hoạt động lâu nhất có thể.
- Tò mò không biết Stable Diffusion 3 có còn dùng CLIP của OpenAI cho việc token hóa và text embedding hay không.
- Đơn giản là giả định rằng họ sẽ cải thiện phần đó của kiến trúc mô hình để bám sát prompt văn bản và hình ảnh tốt hơn.
Khả năng render chữ của Stable Diffusion 3 rất ấn tượng, nhưng phần chữ lúc nào cũng có cảm giác bị xử lý quá tay rất đặc trưng.
- Màu chữ luôn bị đẩy lên theo một giá trị duy nhất, nên trông như ai đó nghiệp dư chỉ đơn giản chèn chữ vào một hình ảnh chất lượng cao.
Có câu hỏi về việc SD3 đã có thể tải xuống được hay chưa.
- Đã từng chạy các phiên bản SD đầu tiên trên máy cục bộ và thấy rất tốt.
- Tò mò không biết nó có chuyển sang SAAS như nhiều LLM, dù trước đó tự host từng là một hướng rất hứa hẹn, hay không.
Rất thú vị khi các trình tạo ảnh cuối cùng cũng bắt đầu triển khai chính tả đúng cách.
- Khả năng đánh vần của DALL-E 3 từng được nhấn mạnh, nhưng khi dùng thử Bing thì thấy độ nhất quán không cao.
- Muốn đọc một lời giải thích ít kỹ thuật hơn về những thách thức khi triển khai chính tả đúng và lý do vì sao.
- Tò mò không biết SD3 có thể dọn dẹp hoặc sửa lỗi chữ trong các ảnh cũ hay không.
Thông báo về SD3 rất đáng chú ý.
- Bài báo có nhiều chi tiết hơn hẳn so với bài blog.
- Nội dung chính của bài báo là cho thấy kiến trúc này có thể bao gồm một text encoder giàu khả năng biểu đạt hơn, và điều đó giúp ích cho các cảnh phức tạp.
- Về mặt huấn luyện, có vẻ họ vẫn chưa chạm trần của stack này, nên kỳ vọng SD3.1 sẽ còn cải thiện thêm, và SD4 có thể bổ sung nhiều mã hóa front-end hơn để xử lý video.
Việc cải thiện render chữ của SD3 là tốt, nhưng tạo bàn tay và ngón tay vẫn còn khó.
- Các ảnh ví dụ không có bàn tay người nào ngoại trừ một pháp sư bị pixel hóa, còn tay của con khỉ thì hơi kỳ lạ.
Kiến trúc này đủ linh hoạt để có thể mở rộng sang video một cách dễ dàng.
- Kỳ vọng nó sẽ trở thành một "khối" nền tảng khác giống như transformer block của LLaMA.
- Nó đủ tổng quát để có thể tích hợp điều kiện mã hóa văn bản/timestep vào khối theo nhiều cách khác nhau.
- Ngoài việc thử nghiệm với positional encoding (2D RoPE?) thì gần như chẳng còn nhiều việc phải làm.
- Mở rộng transformer và tập trung vào lượng tử hóa/tối ưu hóa để có thể chạy tốt stack này ở khắp mọi nơi.
Nhiều công ty từng cam kết với "mở" hoặc trước đây từng mở nay đang dần trở nên khép kín hơn.
- Đánh giá cao việc Stability AI công bố những bài báo nghiên cứu như thế này.
Trái ngược với Stability AI, OpenAI là phòng thí nghiệm nghiên cứu AI khép kín nhất.
- Ngay cả Deep Mind cũng công bố nhiều bài báo hơn.
- Tò mò không biết có ai trong OpenAI công khai nói rằng "Chúng tôi ở đây vì tiền!" hay không.
- Bức thư SamA viết gần đây về vụ kiện của Elon thật thà đến mức chẳng khác gì việc Putin nói rằng ông ta xâm lược Ukraine để "phi phát xít hóa" nước này.