- Krea 1 là mô hình tạo ảnh đầu tiên được công bố với phiên bản trọng số mở mang tên FLUX.1 Krea
- Khác với các mô hình tạo ảnh hiện có, FLUX.1 Krea được thiết kế để tập trung vào thẩm mỹ có sở thích rõ ràng và photorêalism, nhằm tạo ra hình ảnh “không giống AI”
- Phân tích rằng các benchmark và thước đo đánh giá hiện tại lệch khỏi cảm nhận thẩm mỹ mà người dùng thực tế mong muốn, và để giải quyết vấn đề này đã áp dụng dữ liệu được tuyển chọn trực tiếp cùng định hướng thẩm mỹ dựa trên ý kiến
- Tách bạch quy trình pre-training và post-training, vận hành có hệ thống giai đoạn đảm bảo tính đa dạng và giai đoạn hội tụ vào phong cách rõ ràng
- Trong tương lai, nhóm sẽ tăng cường nghiên cứu cá nhân hóa/cá biệt hóa theo sở thích và mở rộng hỗ trợ sang các miền thị giác rộng hơn, cùng các tính năng hỗ trợ nhà sáng tạo tốt hơn
Ra mắt mã nguồn mở FLUX.1 Krea
- Krea 1 là mô hình tạo ảnh đầu tiên được huấn luyện chung với Black Forest Labs, hướng tới kiểm soát thẩm mỹ và chất lượng hình ảnh tốt hơn
- FLUX.1 Krea [dev] được công bố dưới dạng trọng số mở và tương thích hoàn toàn với hệ sinh thái FLUX.1-dev hiện tại
- Mô hình này tối ưu hóa tối đa tính chân thực hình ảnh và yếu tố thẩm mỹ, theo đuổi hướng tiếp cận opinionated aesthetics phản ánh các sở thích thẩm mỹ cụ thể
Hiện tượng và giới hạn của "AI Look"
- Hình ảnh tạo bởi AI trước đây thường xuất hiện các biểu hiện gọi là "AI look", như nền quá mờ, da giống sáp, bố cục đơn điệu
- Việc quá tập trung vào tối ưu hóa benchmark và các chỉ số kỹ thuật khiến chất liệu chân thực, sự đa dạng phong cách, và kết quả sáng tạo bị ảnh hưởng tiêu cực
- Nhận diện các hạn chế của các mô hình đánh giá hiện không phản ánh được sở thích thật của người dùng
- Ở giai đoạn tiền huấn luyện, Fréchet Inception Distance (FID) và CLIP Score hữu ích để đo hiệu năng tổng thể của mô hình
- Trong học thuật và công nghiệp, nhiều benchmark như DPG, GenEval, T2I-Compbench, GenAI-Bench được dùng, nhưng chủ yếu chỉ đánh giá mức độ khớp prompt, quan hệ không gian và kết hợp thuộc tính
- Về đánh giá thẩm mỹ có các mô hình như LAION-Aesthetics, Pickscore, ImageReward, HPSv2, tuy nhiên phần lớn dựa trên CLIP và bị giới hạn bởi độ phân giải và số tham số
- Ví dụ, LAION-Aesthetics có xu hướng thiên về ảnh nữ giới, nền mờ, tông màu sáng; nếu dùng các tiêu chí này để lọc dữ liệu, mô hình có thể thừa hưởng thiên kiến ngầm
- Các thước đo và bộ lọc thẩm mỹ hữu ích cho việc loại bỏ ảnh kém chất lượng, nhưng nếu phụ thuộc quá mức vào tuyển chọn dữ liệu huấn luyện, mô hình dễ bị in sẵn thiên kiến
- Mặc dù đã có các thước đo mới dựa trên mô hình thị giác-ngôn ngữ, thị hiếu thẩm mỹ vẫn mang tính chủ quan nên khó quy về một con số duy nhất
Cấu trúc pre-training và post-training
-
Pre-training
- Trong pre-training, mô hình thu thập kiến thức rộng về thế giới thị giác như phong cách, đồ vật, con người, địa điểm để tối đa hóa độ bao phủ mode (mode coverage)
- Bao gồm cả dữ liệu "không tốt" để mô hình học cả các thuộc tính không mong muốn (ví dụ: ngón tay dị dạng, độ mờ...)
- Pre-training quyết định giới hạn chất lượng cao nhất và đa dạng phong cách của mô hình
-
Post-training
- Trong post-training, quá trình sẽ dồn tập phân phối mô hình về phong cách được ưa thích (mode collapsing), giúp hội tụ theo hướng thẩm mỹ rõ ràng thay vì “AI look”
- Tiến hành theo 2 giai đoạn: Supervised Finetuning (SFT) và RLHF (học tăng cường dựa trên sở thích)
- SFT: sử dụng bộ dữ liệu chất lượng cao được tuyển chọn trực tiếp cùng ảnh tổng hợp từ Krea-1
- RLHF: tối ưu hóa nhiều lần dựa trên dữ liệu sở thích nội bộ để tinh chỉnh tỉ mỉ thẩm mỹ và phong cách
- Khẳng định rằng chất lượng dữ liệu quan trọng hơn số lượng dữ liệu (chỉ cần dưới 1M mẫu dữ liệu chất lượng cao là đủ)
- Áp dụng định hướng thẩm mỹ theo quan điểm (opinionated approach); nếu chỉ dùng dữ liệu sở thích công khai thì dễ rơi vào tính đơn điệu và quay lại AI look
Pipeline mô hình và phát hiện thực nghiệm
- Sử dụng mô hình gốc flux-dev-raw với 12B tham số kiểu guidance-distilled, giúp phân biệt với các mô hình mở đã bị fine-tune quá mức trước đây
- Giai đoạn RLHF áp dụng kỹ thuật TPO (preference optimization) để tăng cường cảm quan và khả năng phong cách hóa
- Nâng cao chất lượng đầu ra của mô hình bằng cách tận dụng nhiều lần dữ liệu sở thích nội bộ chất lượng cao đã qua lọc chặt chẽ
-
Phát hiện chính
- 1. Chất lượng dữ liệu quan trọng hơn số lượng. Có thể tiến hành post-training có ý nghĩa chỉ với dưới 1M dữ liệu. Đa dạng hóa về số lượng có ích cho giảm thiên kiến và ổn định, nhưng quan trọng nhất vẫn là dữ liệu được tuyển chọn chất lượng cao
- 2. Cần thu thập dữ liệu với trục hướng rõ ràng. Dữ liệu công khai phổ biến dễ gây thiên kiến ngoài ý muốn, dẫn tới hồi quy về AI look, thiên hướng bố cục/màu sắc đơn điệu
- Với mục tiêu khách quan như thể hiện văn bản, giải phẫu, cấu trúc..., sự đa dạng dữ liệu hữu ích, nhưng với mục tiêu chủ quan như thẩm mỹ thì dữ liệu tập trung chuyên biệt hiệu quả hơn so với trộn lẫn
- Khi trộn nhiều phân bố thẩm mỹ, kết quả thường làm hài lòng ít người; tác giả cũng nhắc đến việc nhiều người dùng phải dựa vào LoRA hoặc các phương pháp hậu kỳ khác để xử lý
Hướng nghiên cứu tương lai và kết luận
- Krea 1 là bước đầu cho các nhà sáng tạo coi trọng tiêu chuẩn thẩm mỹ và chất lượng, đồng thời kỳ vọng mở rộng cộng đồng mã nguồn mở
- Về sau, nhóm đặt mục tiêu cung cấp mô hình phù hợp với sở thích thẩm mỹ người dùng thông qua việc tăng cường nâng cao năng lực cốt lõi, hỗ trợ miền hình ảnh rộng hơn, và nghiên cứu cá nhân hóa/khả năng điều khiển
- Xem thêm trên GitHub ( https://github.com/krea-ai/flux-krea )
Chưa có bình luận nào.