Thử nghiệm giúp Stable Diffusion XL thông minh hơn bằng các ảnh AI tạo ra nhưng kém chất lượng

(minimaxir.com)

2 điểm bởi GN⁺ 2023-08-23 | 1 bình luận | Chia sẻ qua WhatsApp

Stable Diffusion XL 1.0 là mô hình mã nguồn mở có thể tạo ảnh 1024x1024 theo mặc định, và nhờ hỗ trợ từ diffusers cùng mô hình refiner, rào cản để thử nghiệm cá nhân đã thấp hơn
Dreambooth LoRA chỉ huấn luyện một adapter nhỏ thay vì huấn luyện lại toàn bộ mô hình, nên đây là cách giúp bổ sung nhanh các khái niệm cụ thể và dễ chia sẻ
Thử nghiệm cốt lõi là huấn luyện bằng cách gắn các ảnh méo và chất lượng thấp do SDXL tạo ra với wrong, rồi đưa nó vào negative prompt để so sánh xem kết quả sinh ảnh có được cải thiện hay không
LoRA wrong cho thấy trong nhiều prompt khác nhau, nó cải thiện ánh sáng, kết cấu, bố cục, biểu đạt tay và cánh tay, cũng như độ trung thành với prompt tốt hơn SDXL gốc hoặc negative prompt wrong đơn thuần
Vì chọn các ảnh xấu để dạy mô hình học hướng cần tránh, đây là cách tiếp cận gần với negative LoRA và RLHF, dù vẫn còn chỗ để cải thiện ở khâu tạo dữ liệu và thời gian huấn luyện

SDXL 1.0 và môi trường thử nghiệm

Stability AI đã công bố Stable Diffusion XL 1.0 vào tháng trước và phát hành dưới dạng mã nguồn mở
SDXL là một trong những mô hình mã nguồn mở có thể tạo ảnh ở độ phân giải 1024x1024 theo mặc định mà không cần thủ thuật vòng vo riêng, nên có thể tạo ra nhiều chi tiết hơn
Mô hình gồm hai phần
- base model: phụ trách tạo ảnh cơ bản
- refiner model: cải thiện mạnh phần chi tiết, và vì gần như không có overhead về tốc độ nên được khuyến nghị dùng kèm nếu có thể
diffusers của Hugging Face hỗ trợ SDXL và tối ưu hiệu năng, nên chỉ cần sửa nhẹ ví dụ mã là có thể thử nghiệm
Thử nghiệm được thực hiện trên Spot instance của Google Cloud Platform với NVIDIA L4 GPU
- Tổng chi phí là $0.24 mỗi giờ
- Tạo 1 ảnh 1024x1024 mất khoảng 22 giây
- Với GPU tầm trung, mỗi lần chỉ tạo được 1 ảnh
- Ở độ phân giải thấp hơn thì nhanh hơn, nhưng kết quả tệ hơn nhiều nên không được khuyến nghị

Trọng số prompt trong diffusers và Dreambooth LoRA

diffusers hỗ trợ hai tính năng mà các thử nghiệm Stable Diffusion trước đây chưa dùng
- Trọng số prompt
- Huấn luyện và suy luận với Dreambooth LoRA
Trọng số prompt dùng compel để điều chỉnh tầm quan trọng của từ hoặc cụm từ theo cách mang tính toán học hơn
- Có thể gắn nhiều dấu + hoặc - vào từ để tăng hoặc giảm mức quan trọng trong embedding kết quả
- Có thể đặt cụm từ trong ngoặc để nhấn mạnh một cách thể hiện nhất định, như San Francisco landscape by Salvador Dali, (oil on canvas)+++
Trong thử nghiệm, cách này giúp giảm phần lớn khó khăn trong việc tinh chỉnh prompt vốn tăng lên từ sau Stable Diffusion 2.0
- guidance_scale mặc định là 7.5
- Max Woolf thích dùng 13, và tất cả ví dụ LoRA trong bài cũng dùng guidance_scale là 13
Dreambooth là kỹ thuật dạy Stable Diffusion một khái niệm cụ thể bằng một số ít ảnh gốc và từ khóa kích hoạt
LoRA chỉ huấn luyện một adapter nhỏ cho mô hình thị giác thay vì toàn bộ mô hình Stable Diffusion
- Có thể huấn luyện trong khoảng 10 phút trên một GPU giá rẻ
- Chất lượng mô hình cuối cùng + LoRA tương đương với fine-tuning toàn phần
- Được lưu dưới dạng tệp nhị phân nhỏ nên dễ chia sẻ
- Nhiều thứ thường được gọi là fine-tuning Stable Diffusion thực ra là tạo LoRA
- Mỗi lần chỉ có thể kích hoạt một LoRA, dù có thể gộp nhiều LoRA với nhau nhưng đó là việc khá tinh vi

Kiểm chứng tiềm năng của SDXL bằng Ugly Sonic LoRA

Trước khi LoRA được dùng rộng rãi, người ta dùng textual inversion để huấn luyện một khái niệm vào text encoder, nhưng cách này mất nhiều thời gian huấn luyện và đôi khi khó kiểm soát kết quả
Trước đây, nhân vật meme Ugly Sonic vốn không có trong bộ dữ liệu gốc của Stable Diffusion đã được huấn luyện bằng textual inversion, nhưng kết quả lẫn lộn
Để kiểm chứng tiềm năng của SDXL, tác giả huấn luyện lại Ugly Sonic bằng LoRA
- Sử dụng script train_dreambooth_lora_sdxl.py của Hugging Face
- Có điều chỉnh một số tham số, nhưng về cơ bản chạy được ngay
Ugly Sonic LoRA sau khi huấn luyện tạo được ảnh tốt hơn nhiều và ổn định hơn trước trên nhiều prompt khác nhau

Thiết kế thí nghiệm LoRA `wrong`

Tác giả thực hiện lại thử nghiệm textual inversion liên quan đến negative prompt trước đây bằng SDXL LoRA, huấn luyện bằng cách gắn các ảnh méo và chất lượng thấp với prompt wrong
Mục tiêu là kiểm tra xem khi dùng wrong làm negative prompt, mô hình có thể tránh xa những kiểu ảnh đó và tạo ra ảnh ít méo hơn hay không
Các ảnh wrong tổng hợp được tạo bằng chính SDXL
- Tác giả viết wrong image generator Jupyter Notebook
- Dùng nhiều trọng số prompt khác nhau để làm nổi bật rõ hơn các kiểu ảnh xấu như blurry, bad hands
- Để tạo ảnh chất lượng thấp nhưng độ phân giải cao, vẫn phải dùng lại SDXL
Các ảnh wrong được tạo ra trông như bìa album punk rock thập niên 2000, hoặc thoạt nhìn có vẻ bình thường nhưng nhìn kỹ lại mang đặc tính uncanny valley khó chịu
sdxl-wrong-lora được nạp vào SDXL base model
- refiner không cần LoRA
- Tác giả cũng công khai Jupyter Notebook để so sánh

Cách so sánh và các kết quả tiêu biểu

Có ba đối tượng được so sánh
- Pipeline base + refiner không có LoRA
- Pipeline không có LoRA nhưng thêm wrong vào negative prompt
- Pipeline áp dụng LoRA wrong và thêm wrong vào negative prompt
Tất cả các ảnh đều được tạo với cùng seed để giữ bố cục gần giống nhau, giúp dễ so sánh ảnh hưởng của negative prompt wrong và LoRA
A wolf in Yosemite National Park, chilly nature documentary film photography
- Khi thêm wrong vào mô hình cơ bản, ảnh rừng có thêm một phần lá và chiều sâu
- LoRA tiếp tục cải thiện ánh sáng, bóng đổ, chi tiết lá và chuyển bố cục sang hướng con sói nhìn vào camera
An extreme close-up of a wolf in Yosemite National Park, chilly nature documentary film photography
- Kết quả của LoRA tốt hơn về kết cấu, độ sống động và độ sắc nét
- Chỉ riêng việc thêm prompt wrong cũng làm thay đổi góc nhìn
a large delicious hamburger (in the shape of five-dimensional alien geometry)++++, professional food photography
- Dù đã thử nhiều cách prompt engineering, mô hình vẫn không xử lý tốt hamburger hình học ngoài hành tinh 5 chiều
- SDXL gốc dường như hiểu alien theo nghĩa đen hơn dự kiến
- LoRA tạo ra chiếc hamburger “ngoài hành tinh” khó ăn hơn với phần trình bày lấp lánh hơn
lossless PDF scan of the front page of the January 2038 issue of the Wall Street Journal featuring a cover story about (evil robot world domination)++
- Độ dễ đọc của văn bản đã tốt hơn Stable Diffusion 2.0, nhưng cả ba trường hợp khá giống nhau
- LoRA cải thiện bố cục trang báo hiện đại hơn, nhiều kiểu sắp xếp bài viết hơn và độ đậm tương đối của font headline
- Mô hình cơ bản, ngay cả khi thêm negative prompt wrong, vẫn cho bố cục đơn điệu và trông như giấy nâu cũ
USA President Taylor Swift (signing papers)++++, photo taken by the Associated Press
- Ở SDXL gốc, cánh tay phải rất phi thực tế, và chỉ thêm wrong còn làm tệ hơn
- Với LoRA, vấn đề cánh tay được sửa và màu áo khoác cũng gần với trắng rõ ràng hơn thay vì trắng ngả vàng
- Dù vậy, tạo người bằng SDXL 1.0 vẫn còn khó và chưa đủ tin cậy, kèm lưu ý là đừng nhìn kỹ bàn tay

Những thay đổi trong các ví dụ bổ sung

realistic human Shrek blogging at a computer workstation, hyperrealistic award-winning photo for vanity fair
- Tay và ánh sáng tốt hơn, chi tiết quần áo và hậu cảnh cũng thú vị hơn
pepperoni pizza in the shape of a heart, hyperrealistic award-winning professional food photography
- Chi tiết pepperoni và các bọt khí do nhiệt hiện rõ hơn, phần pepperoni quá dày ở mép giảm bớt, và đế bánh trông giòn hơn
presidential painting of realistic human Spongebob Squarepants wearing a suit, (oil on canvas)+++++
- Spongebob có lại chiếc mũi, và bộ vest có nhiều cúc hơn
San Francisco panorama attacked by (one massive kitten)++++, hyperrealistic award-winning photo by the Associated Press
- LoRA thực sự cho thấy nỗ lực làm theo prompt
hyperrealistic death metal album cover featuring edgy moody realistic (human Super Mario)++, edgy and moody
- Tỷ lệ của Mario gần với nhân vật game hơn, và ánh sáng trên nhân vật sắc và u ám hơn

Tài liệu công khai và cách tái hiện

LoRA wrong đã được công khai trên Hugging Face
Không thể đảm bảo hiệu quả trên các giao diện khác ngoài diffusers
Notebook dùng để tạo ảnh được công khai trong GitHub repository
Colab Notebook cho SDXL 1.0 + refiner + LoRA wrong thông thường có thể chạy trên GPU T4 miễn phí
Phiên bản độ phân giải cao của các ảnh sinh ra dùng trong bài có thể xem trong post source code

Vì sao LoRA `wrong` hoạt động

Ban đầu dự đoán rằng LoRA wrong chỉ đơn giản nâng chất lượng ảnh và độ sắc nét, nhưng kết quả thực tế gần với việc khiến SDXL bám sát ý định của prompt hơn
Về mặt kỹ thuật, negative prompt thiết lập vùng trong không gian tiềm ẩn nơi quá trình khuếch tán bắt đầu
- Trường hợp dùng negative prompt wrong mà không có LoRA
- Trường hợp áp dụng LoRA rồi dùng negative prompt wrong
- Vùng khởi đầu trong hai trường hợp này là như nhau
Trực quan mà nói, có thể hiểu LoRA đã tái định hình các vùng không mong muốn trong không gian tiềm ẩn nhiều chiều để chúng giống vùng khởi đầu hơn, từ đó làm giảm khả năng quá trình sinh ảnh thông thường đi vào những vùng đó và cải thiện kết quả
Cách cải thiện SDXL bằng cách huấn luyện trên các ảnh xấu về mặt kỹ thuật có thể xem là một dạng RLHF
- OpenAI cải thiện mô hình bằng các tương tác người dùng tích cực và ngầm giảm hành vi tiêu cực
- Còn thử nghiệm này dùng các ảnh do người dùng chọn là xấu để ngầm tăng hành vi tích cực
Dreambooth LoRA không cần lượng dữ liệu đầu vào lớn như mô hình ngôn ngữ lớn

Dư địa phát triển còn lại và các thử nghiệm tiếp theo

negative LoRA vẫn còn nhiều điểm có thể cải thiện
- Có thể tinh chỉnh thêm các tham số tạo synthetic dataset
- Có thể huấn luyện LoRA lâu hơn
Việc kiểm tra xem có thể tăng hiệu năng bằng cách gộp với các LoRA khác hay không cũng là mục tiêu tiếp theo
- Đặc biệt, tác giả nêu ví dụ kết hợp LoRA wrong với Ugly Sonic LoRA
SDXL cũng hỗ trợ mô hình diffusers cho ControlNet
- ControlNet cho phép kiểm soát mạnh hình dáng tổng thể và bố cục của ảnh sinh ra
- ControlNet cũng có thể dùng cùng LoRA
Lý do theo đuổi nghiên cứu cải thiện chất lượng sinh ảnh AI là để thúc đẩy báo chí AI minh bạch
- Bao gồm việc công khai prompt có thể tái hiện và Jupyter Notebook
- Tác giả cho rằng trong bối cảnh venture capital hiện nay, các cải tiến mới của ngành về sinh ảnh AI có thể sẽ không được công khai
- Tác giả cũng khẳng định không ủng hộ hay dung túng việc dùng AI để thay thế nghệ sĩ chuyên nghiệp

1 bình luận

GN⁺ 2023-08-23

Ý kiến trên Hacker News

Khái niệm RLHF được cá nhân hóa thật sự thú vị
Khi tương tác với một hệ thống AI tạo sinh cụ thể ngày càng nhiều, có vẻ dữ liệu tương tác sẽ tích lũy đủ để điều chỉnh đầu ra một cách có ý nghĩa theo sở thích cá nhân. Hy vọng UI sẽ được cải thiện để quá trình này trở nên minh bạch nhất có thể
Từ góc độ sản phẩm hóa, việc gắn phản hồi “thích/không thích” cho mọi hình ảnh được tạo ra và thêm nhãn văn bản tùy chọn để ghi đè wrong có vẻ khá dễ. Khi đã tích lũy đủ phản hồi của con người, hoặc bằng cách chạy batch mỗi đêm, có thể huấn luyện lại một LoRA mới theo sở thích cá nhân
Cũng có thể thu thập phản hồi của con người từ kiểu tìm kiếm cây ngầm, trong đó tạo N ảnh ứng viên từ prompt rồi chọn một ảnh để tinh chỉnh. Rõ ràng hơn nữa, có thể có UI để nhanh chóng xếp hạng/chấm điểm một batch, hoặc đặt một thùng rác để loại bỏ những ảnh không ưng ở mỗi bước cải tiến lặp, rồi sau đó gom phản hồi tiêu cực đó vào các bản cập nhật LoRA ở cấp dự án/toàn cục
Tôi cũng tò mò xem chu kỳ lặp ngắn nhất có thể đến mức nào nếu tạo một vòng phản hồi cực ngắn, phản ứng bằng phím bấm ngay sau khi ảnh được tạo. Nếu bị buộc vào thiết bị trong vài giờ và thu thập khoảng 10.000 lựa chọn ưu tiên, mỗi giây 1 cái, liệu có thể khiến mô hình tạo ra những hình ảnh mình thích tốt hơn nhiều không? Dù vậy, việc đó khá dữ dội và cũng tạo cảm giác như Clockwork Orange
Trong bài tôi không thấy số lượng ảnh wrong, nhưng lướt qua mã thì có vẻ không nhiều: 13 từ khóa, mỗi từ khóa khoảng 6 ảnh. Nếu chỉ với khoảng 100 phản hồi mà đã điều chỉnh được mô hình đến mức này thì đó là một lượng nhỏ đáng kinh ngạc
- AI Horde về cơ bản đang triển khai hướng này với sự hợp tác của Stability.ai
  AI Horde là một cụm phân tán mã nguồn mở chạy trên GPU do tình nguyện viên cung cấp, và Stability.ai cung cấp một phần tài nguyên GPU để chạy A/B test
  Khi yêu cầu tạo ảnh bằng mô hình SDXL từ UI của AI Horde là Lucid Creations hoặc từ ArtBot do chính bạn tạo, bạn sẽ nhận được 2 ảnh. Một ảnh được tạo bằng SDXL v1.0, ảnh còn lại bằng mô hình đã cập nhật, nhưng bạn không biết ảnh nào là ảnh nào
  Người dùng chỉ cần chọn ảnh mình thích hơn trong hai ảnh, và kết quả sẽ được gửi lại cho Stability.ai để phân tích và phản ánh vào các mô hình ảnh trong tương lai
  Ngoài ra, AI Horde và LAION cũng hợp tác theo cách tương tự để cung cấp đánh giá thẩm mỹ tùy chỉnh của người dùng cho cùng mục đích
  https://aihorde.net/
  https://dbzer0.com/blog/stable-diffusion-xl-beta-on-the-ai-h...
  https://dbzer0.itch.io/lucid-creations
  https://tinybots.net/artbot
  https://laion.ai/blog/laion-stable-horde/
- Đúng vậy. 6 giá trị CFG × 13 từ khóa = 78 ảnh
  Tuy nhiên một số ảnh không hữu ích lắm. Ví dụ “random text” đôi khi dường như tạo ra kết quả giống một ứng dụng SMS kiểu cũ
  LoRA hoạt động tốt chỉ với 4~5 ảnh, nhưng đó là với Stable Diffusion cũ hơn và nhỏ hơn. Vì vậy với SDXL, tôi dùng nhiều ảnh hơn và cũng huấn luyện LoRA lâu hơn một chút. Để so sánh, Ugly Sonic LoRA dùng khoảng 14 ảnh và có lẽ đã bị overfit
- Có thể bạn sẽ quan tâm đến framework mã nguồn mở mà chúng tôi đang phát triển: https://github.com/agentic-ai/enact
  Nó vẫn ở giai đoạn đầu, nhưng insight cốt lõi là nhiều luồng AI tạo sinh, dù là văn bản hay hình ảnh, một mô hình đơn lẻ hay chuỗi mô hình, đều cần được điều chỉnh theo một dạng tín hiệu phản hồi nào đó, nên việc xây dựng hạ tầng nền tảng để hỗ trợ điều này là hợp lý. Một trong các demo ban đầu chính là luồng kiểu này, và thay vì điều chỉnh trọng số mô hình thật, chúng tôi dùng cải thiện prompt như một phương tiện thay thế rẻ hơn
  Đại khái, chúng tôi muốn xây dựng hạ tầng lõi ở cấp Python để có thể dễ dàng viết luồng gần như bằng Python native, đồng thời theo dõi việc thực thi các luồng tạo sinh, bao gồm cả việc thực thi các “thành phần con người” như người đánh giá. Nó cũng hỗ trợ time travel/rewind/rerun, UI gradio tự động và FastAPI, nhưng hai phần sau vẫn còn rất thử nghiệm
  Trong trung hạn, chúng tôi muốn có thể bọc bất kỳ luồng tạo sinh nào bằng một luồng “đánh giá của con người”, tự động triển khai qua API hoặc UI gradio, rồi làm cho việc điều chỉnh bằng nhiều kỹ thuật như RLHF, tinh chỉnh, A/B test các thành phần con tạo sinh trở nên dễ dàng
  Hiện tại chúng tôi tập trung vào việc dựng “khung xương” cho đúng, nhưng tài liệu bắt đầu nhanh https://github.com/agentic-ai/enact/blob/main/examples/quick... và README https://github.com/agentic-ai/enact/tree/main#why-enact sẽ cho thấy khá rõ hướng đi. Chúng tôi đang tìm người thử nghiệm hoặc đóng góp
- RLHF là học tăng cường từ phản hồi của con người
  Chẳng phải những hệ thống như vậy vốn đã được huấn luyện để chấm điểm cái tốt cao hơn và cái xấu thấp hơn theo phản hồi của con người sao?
- RLHF ngầm hoạt động tốt hơn cách làm tường minh
  Nó giống Mom test: khi bạn hỏi ai đó hãy đánh giá, chính câu hỏi đó đã ảnh hưởng đến đánh giá
  Có thể dùng luồng upscale, nhưng không nhất thiết phải bị giới hạn như Midjourney dựa trên Discord. Có thể hiển thị tất cả ảnh ở kích thước đầy đủ và cũng phát hiện các hành vi như người dùng có sao chép/lưu/nhấp chuột phải hay không
Việc tạo nghệ thuật bằng Stable Diffusion đã trở thành một sở thích thật sự thú vị
Khác biệt giữa SD 1.5/2.0 và SDXL là rất lớn, và việc chất lượng cải thiện nhanh như vậy thật ấn tượng
- Có thể giải thích vì sao khác biệt giữa SD 1.5/2.0 và SDXL lại lớn đến vậy không?
  Tôi vẫn chưa thử SDXL, nhưng đã dùng 1.5 rất nhiều
  Trước giờ tôi hiểu nó chỉ là độ phân giải cao hơn và “chất lượng” cao hơn, nhưng vì đã dùng realistic vision 3 lâu nên tôi chưa từng gặp vấn đề về chất lượng. Nếu dùng upscaling thì cũng không cần độ phân giải cao hơn
Khoảng 5 năm trước, trong một số nhà khoa học dữ liệu có phong trào ghi lại mọi lần nhấn phím trên PC, giờ thấy dữ liệu đó thực sự khá hữu ích thì cũng hơi ghen tị
Tôi có một bộ sưu tập 30 nghìn hình anime yêu thích, và 5 năm trước còn xếp hạng cạnh tranh bằng điểm thẩm mỹ, có lẽ sẽ khá hữu dụng cho những việc như thế này
Rất tuyệt. Tôi sẽ sớm tự chạy thử ý tưởng này. Dù sao tôi cũng hơi giống nhà khoa học mà :)
Vài ngày trước tôi đã thử một thứ thú vị. Tôi dùng SDXL Base Model với Diffusers để tạo ảnh bằng cách trộn nhiều prompt phong cách, rồi huấn luyện LoRA bằng các ảnh đó, sau đó tạo lại bằng LoRA này cùng các prompt đã dùng để tạo tập huấn luyện
Kết quả là hiệu ứng được tăng cường hơn, glitch hơn, kỳ quái hơn và có cảm giác độ phân giải cao hơn
Kết quả ở https://imgur.com/gallery/vUobKPK
Tất nhiên tôi sẽ huấn luyện một LoRA khác bằng chính các sản phẩm tạo ra này và lặp lại quy trình
Nghĩ lại thì đây là một cách khá hay để vượt qua giới hạn 77 token của Diffusers và phát triển nhiều phong cách hơn nữa
Có thể thử LoRA tại https://replicate.com/galleri5/nammeh. Cần có tài khoản GitHub
Tôi cũng sẽ sớm đăng lên CivitAI
Sẽ rất hay nếu bạn đăng LoRA lên civitai.com và Reddit Stable Diffusion
Kết quả trông khá tốt và tôi rất mong được thử. Tôi không biết cơn sốt ảnh tạo sinh đã hạ nhiệt; vì tôi vẫn dùng đều đặn nên lúc nào cũng thấy như nó còn là chủ đề nóng
- Bản phát hành ban đầu tôi đã đăng lên /r/StableDiffusion, nhưng bình luận toàn là “sao không tương thích với A1111?”, và tôi không tìm được script ổn để chuyển đổi: https://www.reddit.com/r/StableDiffusion/comments/15r5k3i/i_...
  Civitai đã lấy LoRA và đăng lên: https://civitai.com/models/128708/sdxl-wrong-lora
- Mọi người có xu hướng giả định rằng ai cũng giống mình dựa trên thói quen của bản thân, và tôi cũng khá thường như vậy. Từ góc nhìn của tôi, cơn sốt ảnh tạo sinh vẫn còn nóng
  Nếu tôi không quá phấn khích với SDXL, đó là vì tôi không cảm thấy chất lượng ảnh đã nhảy vọt đáng kể. Kích thước tăng gấp đôi thì tốt, nhưng tôi không phải lúc nào cũng muốn tạo ảnh 1024x1024 nên đó cũng là vấn đề
  Tôi vẫn dùng các mô hình SD 1.5 do bên thứ ba huấn luyện, đầu ra thật sự tốt và cũng có khoảng 5 cách upscaling, trong đó ít nhất một cách sẽ thêm chi tiết mới khi phóng to
Liên quan đôi chút, tôi vẫn chưa rõ lý do, nhưng các LoRA tôi tạo cho Stable Diffusion XL chỉ hoạt động tốt khi thêm một negative prompt khá chung chung
Tôi tinh chỉnh bằng 6 ảnh khuôn mặt của mình, nhưng nếu chỉ dùng prompt dương thì nhân vật được tạo ra không giống tôi lắm. Thế nhưng khi thêm một từ phủ định chung chung như “low quality”, mô tả khuôn mặt của tôi đột nhiên gần như chính xác
Tôi đã huấn luyện nhiều mô hình, và hiện tượng này vẫn tiếp diễn với nhiều learning rate và số epoch huấn luyện khác nhau
Cuối cùng tôi có cảm giác hiện tượng này bằng cách nào đó sẽ liên quan đến nguyên nhân tạo ra những gì minimaxir quan sát trong bài viết này
Tôi không đồng ý với nhận định rằng cơn sốt AI tạo ảnh đã hạ nhiệt nên bản phát hành SDXL nhìn chung trôi qua khá lặng lẽ
Theo những người tôi đã nói chuyện, có hai lý do. Thứ nhất là yêu cầu VRAM và tính toán cao hơn. Thứ hai là kết quả bị cho là có chất lượng thấp hơn các mô hình SD1.5 chuyên biệt
Nếu chỉ cần một trong hai điều đó khác đi, tôi chắc chắn nó đã phổ biến hơn nhiều
Nhưng rốt cuộc thì đa số vẫn đang chờ xem liệu các mô hình SDXL chuyên biệt có thực sự vượt qua được các mô hình 1.5 chuyên biệt hay không
- Lý do là chất lượng đầu ra thấp
  Với phần lớn những người chỉ tiếp xúc sơ qua, tôi nghĩ nó gần như là một món đồ chơi để nghịch một lúc. Còn các fan SD nhiệt thành thì… có lẽ đang tạo những thứ hardcore
  XL yếu ở mảng khiêu dâm. Stability đã sợ chính thứ họ tạo ra và cố nghiêng về phía “an toàn”. Vì không thể để phim khiêu dâm Kate Middleton hay Emma Watson trông quá thuyết phục được
  Mọi người sẽ tiếp tục dùng 1.5 cho đến khi có thứ tốt hơn xuất hiện, đặc biệt là tốt hơn trong mảng khiêu dâm
Khái niệm này không mới. Trên civit.ai có rất nhiều negative embeddings được đưa vào negative prompt để sửa tay và giải phẫu tệ
- Đó là thí nghiệm textual inversion trước đây được nhắc tới trong bài: https://minimaxir.com/2022/11/stable-diffusion-negative-prom...
  Bài lần này nói về negative LoRA, vốn không hoạt động theo cùng cách ở cấp độ kỹ thuật
Có lẽ do ảnh hưởng của việc lớn lên trong trường mâu thuẫn của thập niên 90, kiểu “phản văn hóa vs cũng là phản văn hóa nhưng xuất hiện trên MTV”, nên mỗi khi thấy prompt kết thúc bằng các tham chiếu tag như “award winning photo for vanity fair”, tôi lại nảy sinh một mong muốn sâu sắc là không muốn tham gia làn sóng ảnh tạo sinh này
Dù hậu tố tag tiêu chuẩn mà người viết prompt dùng trong những bài như thế này là gì, tôi cũng có cảm giác tương tự
- “award winning photo for vanity fair” phần lớn là một mẹo để gợi ra bố cục ảnh đẹp, chẳng hạn như quy tắc một phần ba
Câu “mỗi lần chỉ có thể kích hoạt một LoRA” hoàn toàn không đúng, ít nhất là trong auto1111
- Theo tôi nhớ thì bên trong nó thực hiện bằng cách merge và điều chỉnh trọng số

Thử nghiệm giúp Stable Diffusion XL thông minh hơn bằng các ảnh AI tạo ra nhưng kém chất lượng

SDXL 1.0 và môi trường thử nghiệm

Trọng số prompt trong diffusers và Dreambooth LoRA

Kiểm chứng tiềm năng của SDXL bằng Ugly Sonic LoRA

Thiết kế thí nghiệm LoRA wrong

Cách so sánh và các kết quả tiêu biểu

Những thay đổi trong các ví dụ bổ sung

Tài liệu công khai và cách tái hiện

Vì sao LoRA wrong hoạt động

Dư địa phát triển còn lại và các thử nghiệm tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News

Thiết kế thí nghiệm LoRA `wrong`

Vì sao LoRA `wrong` hoạt động