- Công bố một bài nghiên cứu đi sâu vào công nghệ vận hành Stable Diffusion 3
- Dựa trên đánh giá mức độ ưa thích của con người, SD3 vượt qua các hệ thống tạo văn bản-thành-hình ảnh hiện đại như DALL·E 3, Midjourney v6 và Ideogram v1 về mặt kiểu chữ và mức độ tuân thủ prompt
- Kiến trúc Multimodal Diffusion Transformer (MMDiT) mới sử dụng các bộ trọng số riêng biệt cho biểu diễn hình ảnh và ngôn ngữ, giúp cải thiện khả năng hiểu văn bản và đánh vần so với các phiên bản SD3 trước đó
Hiệu năng
- Đánh giá hiệu năng dựa trên phản hồi của con người bằng cách so sánh hình ảnh đầu ra của Stable Diffusion 3 với nhiều mô hình mở như SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α, cũng như các hệ thống mã nguồn đóng như DALL·E 3, Midjourney v6 và Ideogram v1
- Kết quả thử nghiệm cho thấy Stable Diffusion 3 ngang bằng hoặc vượt qua các hệ thống tạo văn bản-thành-hình ảnh tiên tiến hiện nay trong tất cả các hạng mục nêu trên
- Trong thử nghiệm suy luận ban đầu chưa tối ưu, mô hình SD3 lớn nhất có 8B tham số, vừa với 24GB VRAM của RTX 4090 và mất 34 giây để tạo ảnh độ phân giải 1024x1024 khi dùng 50 bước lấy mẫu
- Ở đợt phát hành ban đầu sẽ có nhiều biến thể Stable Diffusion 3, từ mô hình 800m đến 8B tham số, qua đó tiếp tục hạ thấp rào cản phần cứng
Chi tiết kiến trúc
- Để tạo văn bản-thành-hình ảnh, mô hình cần xem xét cả hai modality là văn bản và hình ảnh
- Kiến trúc mới này được gọi là MMDiT, ám chỉ khả năng xử lý nhiều modality khác nhau
- Tương tự các phiên bản Stable Diffusion trước, mô hình sử dụng các mô hình tiền huấn luyện để rút ra các biểu diễn văn bản và hình ảnh phù hợp
- Vì embedding văn bản và hình ảnh khác nhau đáng kể về mặt khái niệm, mô hình sử dụng các bộ trọng số riêng cho hai modality
- Với cách tiếp cận này, thông tin có thể chảy giữa token hình ảnh và token văn bản, giúp cải thiện khả năng hiểu tổng thể và chất lượng kiểu chữ của đầu ra
- Kiến trúc này cũng có thể dễ dàng mở rộng sang nhiều modality như video
Cải thiện Rectified Flows bằng Reweighting
- Stable Diffusion 3 sử dụng công thức Rectified Flow (RF), nối dữ liệu và nhiễu bằng quỹ đạo tuyến tính trong quá trình huấn luyện
- Điều này tạo ra đường suy luận thẳng hơn, cho phép lấy mẫu với ít bước hơn
- Ngoài ra, mô hình đưa vào một lịch lấy mẫu quỹ đạo mới trong quá trình huấn luyện, đặt trọng số lớn hơn cho phần giữa của quỹ đạo
- Khi kiểm thử cách tiếp cận này so với các quỹ đạo khuếch tán khác, công thức RF trước đây cải thiện hiệu năng ở chế độ lấy mẫu ít bước nhưng hiệu năng tương đối giảm khi số bước nhiều hơn
- Ngược lại, biến thể RF được tái trọng số cải thiện hiệu năng một cách nhất quán
Mở rộng mô hình Rectified Flow Transformer
- Thực hiện nghiên cứu scaling cho tổng hợp văn bản-thành-hình ảnh bằng cách sử dụng công thức Rectified Flow được tái trọng số và backbone MMDiT
- Quan sát thấy validation loss giảm mượt theo cả kích thước mô hình lẫn số bước huấn luyện
- Để kiểm tra liệu điều này có chuyển thành cải thiện có ý nghĩa trong đầu ra mô hình hay không, nhóm đánh giá chỉ số căn chỉnh hình ảnh tự động (GenEval) và điểm mức độ ưa thích của con người (ELO)
- Kết quả cho thấy mối tương quan mạnh giữa các chỉ số này và validation loss
- Xu hướng scaling chưa cho thấy dấu hiệu bão hòa, mang lại triển vọng lạc quan rằng hiệu năng của các mô hình tương lai có thể tiếp tục được cải thiện
Bộ mã hóa văn bản linh hoạt
- Đối với suy luận, việc loại bỏ bộ mã hóa văn bản T5 4.7B tham số vốn tiêu tốn nhiều bộ nhớ có thể làm giảm đáng kể yêu cầu bộ nhớ của SD3, trong khi mức suy giảm hiệu năng là rất nhỏ
- Việc loại bỏ bộ mã hóa văn bản này không ảnh hưởng đến thẩm mỹ hình ảnh (tỷ lệ thắng sau khi loại bỏ: 50%), nhưng làm giảm nhẹ mức độ tuân thủ văn bản (tỷ lệ thắng 46%)
- Tuy vậy, việc bao gồm T5 vẫn được khuyến nghị để khai thác đầy đủ sức mạnh tổng thể của SD3 trong việc tạo văn bản
1 bình luận
Ý kiến trên Hacker News
Sự cam kết của Stability AI với mã nguồn mở rất đáng chú ý, và hy vọng họ có thể tiếp tục hoạt động lâu nhất có thể.
Khả năng render chữ của Stable Diffusion 3 rất ấn tượng, nhưng phần chữ lúc nào cũng có cảm giác bị xử lý quá tay rất đặc trưng.
Có câu hỏi về việc SD3 đã có thể tải xuống được hay chưa.
Rất thú vị khi các trình tạo ảnh cuối cùng cũng bắt đầu triển khai chính tả đúng cách.
Thông báo về SD3 rất đáng chú ý.
Việc cải thiện render chữ của SD3 là tốt, nhưng tạo bàn tay và ngón tay vẫn còn khó.
Kiến trúc này đủ linh hoạt để có thể mở rộng sang video một cách dễ dàng.
Nhiều công ty từng cam kết với "mở" hoặc trước đây từng mở nay đang dần trở nên khép kín hơn.
Trái ngược với Stability AI, OpenAI là phòng thí nghiệm nghiên cứu AI khép kín nhất.