- Bài viết bàn về nỗ lực của tác giả nhằm cải thiện hiệu năng của Stable Diffusion XL 1.0 (SDXL), mô hình mã nguồn mở của Stability AI. Mô hình này tạo ảnh ở độ phân giải 1024x1024.
- SDXL gồm hai mô hình: mô hình cơ sở và mô hình refiner tùy chọn, giúp cải thiện đáng kể chi tiết mà không ảnh hưởng đến tốc độ.
- Tác giả đã sử dụng thư viện Python
diffusers của Hugging Face để làm việc với SDXL, đồng thời đưa ra ví dụ về cách tải và sử dụng cả mô hình cơ sở lẫn mô hình refiner.
- Tác giả đã dùng máy ảo đám mây với GPU L4 tầm trung để tạo ảnh, và cho biết mỗi ảnh 1024x1024 được tạo trong khoảng 22 giây.
- Tác giả đã thử nghiệm hai tính năng mới của
diffusers: trọng số prompt và huấn luyện/suy luận Dreambooth LoRA.
- Trọng số prompt cải thiện kết quả đầu ra bằng cách cho phép tăng thêm trọng số toán học của các thuật ngữ trong embedding văn bản theo vị trí ở kết quả cuối cùng.
- Hỗ trợ Dreambooth LoRA cho phép tinh chỉnh Stable Diffusion bằng một lượng nhỏ ảnh nguồn và từ khóa kích hoạt, nhờ đó có thể dùng “khái niệm” của ảnh đó trong các ngữ cảnh khác khi có từ khóa tương ứng.
- Tác giả đã kiểm tra tiềm năng của SDXL bằng cách huấn luyện LoRA cho khái niệm Ugly Sonic, một khái niệm không có trong bộ dữ liệu gốc của Stable Diffusion. Kết quả tốt hơn và nhất quán hơn nhiều.
- Tác giả cũng đã huấn luyện LoRA trên các ảnh rác bị méo nặng với prompt là “wrong”. Mục tiêu là để LoRA có thể dùng “wrong” như một “negative prompt” và tránh các kiểu ảnh đó, từ đó tạo ra ảnh ít méo hơn.
- Tác giả nhận thấy LoRA có thể làm SDXL thông minh hơn và bám sát tinh thần của prompt hơn, qua đó cải thiện chất lượng và độ rõ ràng của ảnh được tạo.
- Tác giả kết luận rằng việc huấn luyện SDXL trên các ảnh xấu là một dạng học tăng cường từ phản hồi của con người (RLHF), tương tự kỹ thuật đã giúp ChatGPT trở nên mạnh mẽ.
- Tác giả dự định sẽ tiếp tục khám phá tiềm năng của “negative LoRAs”, bao gồm cả việc hợp nhất chúng với các LoRA khác để cải thiện hiệu năng.
1 bình luận
Ý kiến Hacker News