4 điểm bởi GN⁺ 2025-08-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Krea 1 là mô hình tạo ảnh đầu tiên được công bố với phiên bản trọng số mở mang tên FLUX.1 Krea
  • Khác với các mô hình tạo ảnh hiện có, FLUX.1 Krea được thiết kế để tập trung vào thẩm mỹ có sở thích rõ ràngphotorêalism, nhằm tạo ra hình ảnh “không giống AI”
  • Phân tích rằng các benchmark và thước đo đánh giá hiện tại lệch khỏi cảm nhận thẩm mỹ mà người dùng thực tế mong muốn, và để giải quyết vấn đề này đã áp dụng dữ liệu được tuyển chọn trực tiếp cùng định hướng thẩm mỹ dựa trên ý kiến
  • Tách bạch quy trình pre-trainingpost-training, vận hành có hệ thống giai đoạn đảm bảo tính đa dạng và giai đoạn hội tụ vào phong cách rõ ràng
  • Trong tương lai, nhóm sẽ tăng cường nghiên cứu cá nhân hóa/cá biệt hóa theo sở thích và mở rộng hỗ trợ sang các miền thị giác rộng hơn, cùng các tính năng hỗ trợ nhà sáng tạo tốt hơn

Ra mắt mã nguồn mở FLUX.1 Krea

  • Krea 1 là mô hình tạo ảnh đầu tiên được huấn luyện chung với Black Forest Labs, hướng tới kiểm soát thẩm mỹ và chất lượng hình ảnh tốt hơn
  • FLUX.1 Krea [dev] được công bố dưới dạng trọng số mở và tương thích hoàn toàn với hệ sinh thái FLUX.1-dev hiện tại
  • Mô hình này tối ưu hóa tối đa tính chân thực hình ảnh và yếu tố thẩm mỹ, theo đuổi hướng tiếp cận opinionated aesthetics phản ánh các sở thích thẩm mỹ cụ thể

Hiện tượng và giới hạn của "AI Look"

  • Hình ảnh tạo bởi AI trước đây thường xuất hiện các biểu hiện gọi là "AI look", như nền quá mờ, da giống sáp, bố cục đơn điệu
  • Việc quá tập trung vào tối ưu hóa benchmark và các chỉ số kỹ thuật khiến chất liệu chân thực, sự đa dạng phong cách, và kết quả sáng tạo bị ảnh hưởng tiêu cực
  • Nhận diện các hạn chế của các mô hình đánh giá hiện không phản ánh được sở thích thật của người dùng
    • Ở giai đoạn tiền huấn luyện, Fréchet Inception Distance (FID)CLIP Score hữu ích để đo hiệu năng tổng thể của mô hình
    • Trong học thuật và công nghiệp, nhiều benchmark như DPG, GenEval, T2I-Compbench, GenAI-Bench được dùng, nhưng chủ yếu chỉ đánh giá mức độ khớp prompt, quan hệ không gian và kết hợp thuộc tính
    • Về đánh giá thẩm mỹ có các mô hình như LAION-Aesthetics, Pickscore, ImageReward, HPSv2, tuy nhiên phần lớn dựa trên CLIP và bị giới hạn bởi độ phân giải và số tham số
    • Ví dụ, LAION-Aesthetics có xu hướng thiên về ảnh nữ giới, nền mờ, tông màu sáng; nếu dùng các tiêu chí này để lọc dữ liệu, mô hình có thể thừa hưởng thiên kiến ngầm
  • Các thước đo và bộ lọc thẩm mỹ hữu ích cho việc loại bỏ ảnh kém chất lượng, nhưng nếu phụ thuộc quá mức vào tuyển chọn dữ liệu huấn luyện, mô hình dễ bị in sẵn thiên kiến
  • Mặc dù đã có các thước đo mới dựa trên mô hình thị giác-ngôn ngữ, thị hiếu thẩm mỹ vẫn mang tính chủ quan nên khó quy về một con số duy nhất

Cấu trúc pre-training và post-training

  • Pre-training

    • Trong pre-training, mô hình thu thập kiến thức rộng về thế giới thị giác như phong cách, đồ vật, con người, địa điểm để tối đa hóa độ bao phủ mode (mode coverage)
    • Bao gồm cả dữ liệu "không tốt" để mô hình học cả các thuộc tính không mong muốn (ví dụ: ngón tay dị dạng, độ mờ...)
    • Pre-training quyết định giới hạn chất lượng cao nhấtđa dạng phong cách của mô hình
  • Post-training

    • Trong post-training, quá trình sẽ dồn tập phân phối mô hình về phong cách được ưa thích (mode collapsing), giúp hội tụ theo hướng thẩm mỹ rõ ràng thay vì “AI look”
    • Tiến hành theo 2 giai đoạn: Supervised Finetuning (SFT)RLHF (học tăng cường dựa trên sở thích)
      • SFT: sử dụng bộ dữ liệu chất lượng cao được tuyển chọn trực tiếp cùng ảnh tổng hợp từ Krea-1
      • RLHF: tối ưu hóa nhiều lần dựa trên dữ liệu sở thích nội bộ để tinh chỉnh tỉ mỉ thẩm mỹ và phong cách
    • Khẳng định rằng chất lượng dữ liệu quan trọng hơn số lượng dữ liệu (chỉ cần dưới 1M mẫu dữ liệu chất lượng cao là đủ)
    • Áp dụng định hướng thẩm mỹ theo quan điểm (opinionated approach); nếu chỉ dùng dữ liệu sở thích công khai thì dễ rơi vào tính đơn điệu và quay lại AI look

Pipeline mô hình và phát hiện thực nghiệm

  • Sử dụng mô hình gốc flux-dev-raw với 12B tham số kiểu guidance-distilled, giúp phân biệt với các mô hình mở đã bị fine-tune quá mức trước đây
  • Giai đoạn RLHF áp dụng kỹ thuật TPO (preference optimization) để tăng cường cảm quan và khả năng phong cách hóa
  • Nâng cao chất lượng đầu ra của mô hình bằng cách tận dụng nhiều lần dữ liệu sở thích nội bộ chất lượng cao đã qua lọc chặt chẽ
  • Phát hiện chính

    • 1. Chất lượng dữ liệu quan trọng hơn số lượng. Có thể tiến hành post-training có ý nghĩa chỉ với dưới 1M dữ liệu. Đa dạng hóa về số lượng có ích cho giảm thiên kiến và ổn định, nhưng quan trọng nhất vẫn là dữ liệu được tuyển chọn chất lượng cao
    • 2. Cần thu thập dữ liệu với trục hướng rõ ràng. Dữ liệu công khai phổ biến dễ gây thiên kiến ngoài ý muốn, dẫn tới hồi quy về AI look, thiên hướng bố cục/màu sắc đơn điệu
      • Với mục tiêu khách quan như thể hiện văn bản, giải phẫu, cấu trúc..., sự đa dạng dữ liệu hữu ích, nhưng với mục tiêu chủ quan như thẩm mỹ thì dữ liệu tập trung chuyên biệt hiệu quả hơn so với trộn lẫn
      • Khi trộn nhiều phân bố thẩm mỹ, kết quả thường làm hài lòng ít người; tác giả cũng nhắc đến việc nhiều người dùng phải dựa vào LoRA hoặc các phương pháp hậu kỳ khác để xử lý

Hướng nghiên cứu tương lai và kết luận

  • Krea 1 là bước đầu cho các nhà sáng tạo coi trọng tiêu chuẩn thẩm mỹ và chất lượng, đồng thời kỳ vọng mở rộng cộng đồng mã nguồn mở
  • Về sau, nhóm đặt mục tiêu cung cấp mô hình phù hợp với sở thích thẩm mỹ người dùng thông qua việc tăng cường nâng cao năng lực cốt lõi, hỗ trợ miền hình ảnh rộng hơn, và nghiên cứu cá nhân hóa/khả năng điều khiển
  • Xem thêm trên GitHub ( https://github.com/krea-ai/flux-krea )

1 bình luận

 
GN⁺ 2025-08-02
Ý kiến trên Hacker News
  • Xin chào mọi người, rất vui được gặp mọi người. Tôi là đồng sáng lập kiêm CTO của Krea. Từ lâu chúng tôi đã muốn công khai trọng số của mô hình và chia sẻ với cộng đồng HN. Hôm nay tôi sẽ cố gắng online nhiều nhất có thể trong ngày để trả lời mọi câu hỏi nếu có
    • Tôi muốn hỏi liệu có kế hoạch hỗ trợ bản Flux 'Kontext', tức mô hình chỉnh sửa, hay không. Tiềm năng ứng dụng của việc chỉnh sửa ảnh bằng prompt có vẻ rất lớn. Dù tôi vẫn chưa thấy chất lượng của bản open-weight, bản demo đã rất ấn tượng. Nhân tiện, mô hình này cũng có kích thước 12B
    • Tôi muốn biết mục đích của việc công bố này là gì. Có mục tiêu kinh doanh cụ thể nào không, hay thực sự chỉ là đóng góp thuần túy
    • Cần có một mô hình hỗ trợ cả các ngôn ngữ ngoài tiếng Anh
    • Tôi tò mò trong ví dụ P(.|photo) vs P(.|minimal), trên thực tế các anh quyết định xung đột này như thế nào. Theo tôi, chủ nghĩa hiện thực kiểu ảnh chụp nên là mặc định. Ví dụ, nếu người dùng viết "một con mèo đang đọc sách", thì kết quả nên là một con mèo thật đang đọc sách, chứ không phải phong cách AI hay tranh minh họa. Nếu không có ngữ cảnh bổ sung, việc hiểu 'mèo' là mèo thật có vẻ là điều tự nhiên. Nếu người dùng muốn một phong cách khác như minh họa thì có lẽ nên ghi rõ trong prompt. Tôi muốn hỏi liệu có sắc thái nào tôi đang bỏ sót không
  • Đây là một bản phát hành rất tốt. Tôi đã thử nhanh với mô hình 12b Txt2Img Krea. Điểm nổi bật nhất là tốc độ nhanh (và có lẽ cả độ chân thực). Tuy nhiên, unsurprisingly, về mặt <i>prompt adherence</i> thì nó vẫn không đạt điểm cao hơn mô hình Flux.1D thông thường. Có thể xem kết quả tại https://genai-showdown.specr.net. Trong khi đó, có vẻ Wan 2.2+ sẽ còn đóng vai trò lớn trong mảng T2I thời gian tới, nhưng có thể sẽ cần rất nhiều LoRA để bù cho việc thiếu đa dạng hình ảnh
    • Tôi muốn hỏi liệu bạn có thể cho biết URL để xem kết quả đã thử hay không. Ngoài ra, xin nói thêm rằng mô hình này tập trung nhiều hơn vào <i>aesthetics</i> chứ không cố chấp chỉ tối ưu độ chính xác của prompt. Đây không phải là lời bào chữa cho các mẫu chưa tốt, mà tôi muốn nhấn mạnh đó là một trong những mục tiêu nghiên cứu. Nếu muốn loại bỏ phong cách đặc trưng thường được gọi là 'flux look' thì đây là một đánh đổi bắt buộc phải cân nhắc. Và cũng có người tạo ảnh nền bằng Wan 2.2 rồi dùng Krea để refine, một cách làm khá thú vị
  • Xin chào! Tôi là trưởng nhóm nghiên cứu của Krea-1 FLUX.1. Krea là một mô hình Rectified Flow 12B được distill từ Krea-1 và được thiết kế để tương thích với kiến trúc FLUX. Nếu có câu hỏi kỹ thuật tôi có thể trả lời
    • Tôi xuất thân từ sản xuất media truyền thống. Việc chia media thành nhiều layer rồi phối hợp lại là cốt lõi của quản lý chi phí và chất lượng. Nhưng hiện nay cách tạo ảnh, video, audio bằng AI không hỗ trợ điều này. ForgeUI từng hỗ trợ trong thời gian ngắn nhưng đã dừng lại. Tôi cho rằng nguyên nhân là họ không hiểu yêu cầu thực tế của sản xuất media quy mô lớn. Tôi muốn hỏi liệu trong đội có ai có kinh nghiệm thực tế với VFX điện ảnh, quảng cáo hoạt hình, hay các dự án sản xuất trị giá hàng triệu USD hay không. Nếu muốn thành công, nhất định phải hỗ trợ cách làm của sản xuất media truyền thống. Các công cụ AI hiện tại không được áp dụng tại hiện trường vì hoàn toàn không tích hợp với công cụ hay kỳ vọng của quy trình sản xuất
    • Chất lượng mô hình thực sự rất xuất sắc. Đặc biệt tôi rất ấn tượng với đoạn "flux-dev-raw là guidance distilled model nên chúng tôi tạo hàm loss tùy chỉnh để fine-tune trực tiếp trên phân phối classifier-free guided". Nếu có thể chia sẻ giải thích chi tiết hơn và các mẹo fine-tune thì tôi rất muốn nghe. Trong cộng đồng AI art mã nguồn mở, việc fine-tune bản flux-dev distilled gốc cũng nổi tiếng là rất khó nên tôi rất tò mò
    • Thực sự cảm ơn vì nỗ lực này. Tôi muốn hỏi "được thiết kế để tương thích với kiến trúc FLUX" nghĩa là gì, và tại sao điều đó lại quan trọng
  • Tôi hơi khó hiểu về file safetensor dung lượng 23.8GB đối với một mô hình 12B tham số. Tôi cứ nghĩ 1B tham số cần 1GB VRAM, nên muốn hỏi mô hình này dùng 24GB VRAM hay 12GB VRAM. Không biết có phải tôi đang hiểu sai không
    • Nếu tính theo bfloat16 thì 1B x 16bit = 2GB, nên 12B gần 24GB là đúng. Họ tải lên ở dạng bfloat16 vì khi hạ từ float32 xuống bfloat16 thì hầu như không mất hiệu năng
    • Kích thước float cho mỗi tham số là khác nhau. Nhiều mô hình được phát hành dưới dạng FP8 (8bit/tham số), nhưng mô hình này là FP16 (16bit). Cũng thường có trường hợp huấn luyện bằng FP16 rồi lượng tử hóa xuống FP8 hoặc FP4 để phát hành
    • Với mô hình lượng tử hóa 8bit thì có thể coi 1B=1GB, nhưng 16bit và 32bit sẽ cần gấp 2 đến 4 lần như vậy
  • Tôi đã có một kết quả thú vị với prompt đơn giản: "Octopus DJ spinning the turntables at a rave." Đôi tay người xuất hiện ở DJ rất ấn tượng. Dù thêm prompt thế nào tôi cũng không loại bỏ được những bàn tay đó. Đúng như bài báo nói, nó rõ ràng là rất opinionated
    • Tôi thử prompt "Octopus DJ with no fingers" thì tay biến mất, nhưng đồng thời mọi đặc điểm người của con bạch tuộc cũng biến mất, chỉ còn một con bạch tuộc thuần túy đang điều khiển bàn xoay
  • Hình ảnh tôi luôn muốn có là một Galton board. Từ hai lỗ ở phía trên, đặt cách nhau một chút, các viên bi rơi xuống, một bên là bi xanh, một bên là bi đỏ. Ở phía dưới, phân bố gộp của hai màu tạo thành các cột cho thấy phân phối chuẩn kép. Ảnh tham khảo: https://imgur.com/a/DiAOTzJ (hai vòi ở phía trên). Kết quả thử thực tế: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • Tôi muốn hỏi liệu bạn đã từng tự làm ngoài đời thật chưa. Tôi không tìm được video nào về double Galton board
  • hey hn! Tôi là đồng sáng lập của Krea. Có một bài blog tổng hợp cách chúng tôi huấn luyện FLUX Krea, nếu muốn tìm hiểu kỹ hơn thì xem tại đây: https://www.krea.ai/blog/flux-krea-open-source-release
    • Đây là câu hỏi hơi lạc đề, nhưng tôi thật sự muốn hỏi có phải các bạn đã cố tình ẩn thanh cuộn trên website không. Tôi không hiểu vì sao lại làm vậy.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • Tôi muốn hỏi liệu có cung cấp bản tối ưu hóa cho NVIDIA không. Giống FLUX.1 Kontext tăng tốc RTX: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • Chúng tôi chưa tạo bản tăng tốc RTX riêng cho FLUX.1 Krea. Nhưng mô hình hoàn toàn tương thích với codebase FLUX.1 dev hiện có. Có vẻ cũng chưa có ONNX export riêng. Một hướng tiếp theo tốt là dùng SVDQuant để tạo checkpoint lượng tử hóa 4~8bit, giúp mô hình thân thiện hơn với phần cứng phổ thông
  • Tổng hợp liên kết tham khảo:
  • Tôi khuyến nghị nên cung cấp một lộ trình được tài liệu hóa rõ ràng để các công ty có thể cấp phép rõ ràng cho quyền sử dụng thương mại khi họ đã tạo ra kết quả mình mong muốn (rồi bạn sẽ sớm hiểu vì sao!)