2 điểm bởi GN⁺ 2023-08-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết bàn về nỗ lực của tác giả nhằm cải thiện hiệu năng của Stable Diffusion XL 1.0 (SDXL), mô hình mã nguồn mở của Stability AI. Mô hình này tạo ảnh ở độ phân giải 1024x1024.
  • SDXL gồm hai mô hình: mô hình cơ sở và mô hình refiner tùy chọn, giúp cải thiện đáng kể chi tiết mà không ảnh hưởng đến tốc độ.
  • Tác giả đã sử dụng thư viện Python diffusers của Hugging Face để làm việc với SDXL, đồng thời đưa ra ví dụ về cách tải và sử dụng cả mô hình cơ sở lẫn mô hình refiner.
  • Tác giả đã dùng máy ảo đám mây với GPU L4 tầm trung để tạo ảnh, và cho biết mỗi ảnh 1024x1024 được tạo trong khoảng 22 giây.
  • Tác giả đã thử nghiệm hai tính năng mới của diffusers: trọng số prompt và huấn luyện/suy luận Dreambooth LoRA.
  • Trọng số prompt cải thiện kết quả đầu ra bằng cách cho phép tăng thêm trọng số toán học của các thuật ngữ trong embedding văn bản theo vị trí ở kết quả cuối cùng.
  • Hỗ trợ Dreambooth LoRA cho phép tinh chỉnh Stable Diffusion bằng một lượng nhỏ ảnh nguồn và từ khóa kích hoạt, nhờ đó có thể dùng “khái niệm” của ảnh đó trong các ngữ cảnh khác khi có từ khóa tương ứng.
  • Tác giả đã kiểm tra tiềm năng của SDXL bằng cách huấn luyện LoRA cho khái niệm Ugly Sonic, một khái niệm không có trong bộ dữ liệu gốc của Stable Diffusion. Kết quả tốt hơn và nhất quán hơn nhiều.
  • Tác giả cũng đã huấn luyện LoRA trên các ảnh rác bị méo nặng với prompt là “wrong”. Mục tiêu là để LoRA có thể dùng “wrong” như một “negative prompt” và tránh các kiểu ảnh đó, từ đó tạo ra ảnh ít méo hơn.
  • Tác giả nhận thấy LoRA có thể làm SDXL thông minh hơn và bám sát tinh thần của prompt hơn, qua đó cải thiện chất lượng và độ rõ ràng của ảnh được tạo.
  • Tác giả kết luận rằng việc huấn luyện SDXL trên các ảnh xấu là một dạng học tăng cường từ phản hồi của con người (RLHF), tương tự kỹ thuật đã giúp ChatGPT trở nên mạnh mẽ.
  • Tác giả dự định sẽ tiếp tục khám phá tiềm năng của “negative LoRAs”, bao gồm cả việc hợp nhất chúng với các LoRA khác để cải thiện hiệu năng.

1 bình luận

 
GN⁺ 2023-08-23
Ý kiến Hacker News
  • Khái niệm RLHF cá nhân hóa (Reinforcement Learning from Human Feedback) đang thu hút sự quan tâm, và nó có tiềm năng điều hướng đầu ra AI theo sở thích của từng cá nhân.
  • Có đề xuất triển khai tùy chọn phản hồi "thích/không thích" cho mọi hình ảnh do hệ thống AI tạo ra, cùng với nhãn văn bản chọn lọc để bỏ qua những hình ảnh "sai".
  • Đã có câu hỏi được đặt ra về vòng lặp lặp lại nhanh nhất có thể cho phản hồi, và ý tưởng thu thập khoảng 10k lượt ưu tiên mỗi giây đã được nêu ra nhằm tăng xác suất mô hình xuất ra những hình ảnh phù hợp với sở thích cá nhân.
  • Việc sử dụng Stable Diffusion (SD) cho sáng tạo nghệ thuật được công nhận, và sự khác biệt giữa SD 1.5/2.0 và SDXL được nhấn mạnh là quan trọng.
  • Các nhà khoa học dữ liệu đã ghi lại mọi lần gõ phím họ thực hiện trên PC của mình, và điều này hiện được xem là dữ liệu hữu ích cho các hệ thống AI.
  • Một ý tưởng được chia sẻ là dùng SDXL Base Model để tạo ảnh bằng cách trộn prompt theo nhiều phong cách khác nhau, sau đó dùng các ảnh này để huấn luyện LoRA (Learning from Observations and Rewards), rồi lại tạo tiếp bằng chính prompt đã dùng để tạo ra bộ LoRA + tập huấn luyện đó.
  • Kết quả của quá trình trên được mô tả là hiệu ứng được khuếch đại — nhiều lỗi hơn, kỳ lạ hơn, ở độ phân giải cao.
  • Người ta cho rằng việc phát hành AI tạo ảnh này không được chú ý nhiều do yêu cầu vram và năng lực tính toán cao hơn, cùng với chất lượng đầu ra thấp hơn so với các mô hình SD1.5 chuyên biệt.
  • Có báo cáo cho rằng các LORA được xây dựng cho Stable Diffusion XL chỉ hoạt động tốt với các negative prompt thông thường.
  • Có tranh cãi về khả năng kích hoạt nhiều LoRA cùng một lúc.
  • Việc sử dụng RLHF để làm cho GPT3 dễ dùng hơn được thừa nhận, và có hy vọng rằng các mô hình tương lai sẽ bao gồm những kết quả tệ như dữ liệu huấn luyện mang tính phủ định.
  • Khả năng hợp nhất các LoRA đã được nhắc đến; có sự quan tâm đến việc dùng một LoRA chứa chủ đề cá nhân, một LoRA khác để cải thiện kết quả, và LoRA thứ ba cho một phong cách cụ thể.