- FLUX.2 là mô hình tạo ảnh chất lượng cao dành cho quy trình sáng tạo thực tế, hỗ trợ duy trì tính nhất quán của nhân vật và phong cách giữa nhiều ảnh tham chiếu, đồng thời hỗ trợ xử lý văn bản và tuân thủ hướng dẫn thương hiệu
- Có thể chỉnh sửa hình ảnh chi tiết ở độ phân giải tối đa 4 megapixel, đồng thời kiểm soát ổn định các yếu tố thị giác như ánh sáng, bố cục và logo
- Thông qua chiến lược open-core, hệ thống cung cấp song song mô hình open-weight và API cấp production, đưa hệ sinh thái mở được xây dựng từ FLUX.1 lên giai đoạn FLUX.2
- Các tính năng chính mới được bổ sung gồm hỗ trợ đa tham chiếu, kết xuất typography tinh vi, xử lý prompt cải thiện, tích hợp tri thức dựa trên thế giới thực
- Dòng mô hình gồm pro, flex, dev, klein, VAE, hỗ trợ cả open-weight lẫn API thương mại
- Black Forest Labs kết hợp nghiên cứu mở với hạ tầng thương mại, hướng tới sự phát triển cởi mở của trí tuệ thị giác
Tổng quan về FLUX.2
- FLUX.2 là mô hình tạo ảnh dành cho môi trường sản xuất thực tế, không chỉ để demo
- Duy trì tính nhất quán của nhân vật và phong cách dựa trên nhiều ảnh tham chiếu
- Có thể làm theo prompt có cấu trúc, đồng thời đọc và viết văn bản phức tạp
- Xử lý ổn định hướng dẫn thương hiệu, ánh sáng, bố cục và logo
- Hỗ trợ chỉnh sửa ảnh ở độ phân giải tối đa 4MP trong khi vẫn giữ được chi tiết và tính nhất quán
Triết lý open-core của Black Forest Labs
- Đề ra nguyên tắc rằng trí tuệ thị giác là lĩnh vực cần được nhà nghiên cứu, nhà sáng tạo và nhà phát triển cùng nhau thúc đẩy
- Cung cấp song song mô hình open-weight và API endpoint cấp thương mại
- Mô hình mở thúc đẩy thử nghiệm, giảm chi phí và nâng cao tính minh bạch
- Kể từ khi thành lập năm 2024, công ty đã xây dựng nền tảng đổi mới mở thông qua FLUX.1 [dev] và FLUX.1 Kontext [pro]
- FLUX.1 [dev] được nhắc đến là mô hình ảnh mở phổ biến nhất thế giới
- FLUX.1 Kontext [pro] được sử dụng bởi các đội ngũ lớn như Adobe và Meta
Từ FLUX.1 đến FLUX.2
- Nếu FLUX.1 cho thấy tiềm năng như một công cụ sáng tạo, thì FLUX.2 tập trung vào đổi mới quy trình sản xuất
- Tăng cường độ chính xác, hiệu quả, khả năng kiểm soát và tính chân thực, qua đó cải thiện đáng kể hiệu quả kinh tế của việc tạo ảnh
- Nhờ đó, mô hình này được kỳ vọng sẽ trở thành thành phần cốt lõi của hạ tầng sáng tạo
Tính năng chính (What’s New)
- Hỗ trợ đa tham chiếu: tham chiếu đồng thời tối đa 10 hình ảnh để duy trì tính nhất quán về nhân vật, sản phẩm và phong cách
- Chi tiết tinh vi và độ chân thực cao: phù hợp cho chụp ảnh sản phẩm, trực quan hóa và đầu ra ở mức độ ảnh chụp
- Cải thiện kết xuất văn bản: tăng khả năng đọc trong typography phức tạp, infographic, mockup UI và các tình huống tương tự
- Tăng cường xử lý prompt: phản ánh chính xác prompt nhiều cấu trúc và các ràng buộc kết hợp
- Mở rộng tri thức dựa trên thế giới thực: xây dựng cảnh nhất quán dựa trên logic ánh sáng và không gian
- Chỉnh sửa độ phân giải cao: hỗ trợ linh hoạt tỷ lệ đầu vào và đầu ra ở độ phân giải tối đa 4MP
Dòng sản phẩm FLUX.2
- FLUX.2 [pro]
- Có chất lượng hình ảnh, khả năng tuân thủ prompt và độ trung thực thị giác cạnh tranh với các mô hình tốt nhất dạng đóng
- Nổi bật với tốc độ tạo nhanh và chi phí thấp, được cung cấp qua BFL Playground, API và các nền tảng đối tác
- FLUX.2 [flex]
- Mô hình cho phép điều chỉnh trực tiếp các tham số như số bước và guidance scale để tối ưu chất lượng, tốc độ và khả năng kết xuất văn bản
- Đặc biệt mạnh trong biểu đạt typography chính xác
- FLUX.2 [dev]
- Mô hình open-weight 32B, là mô hình công khai mạnh nhất hiện nay hỗ trợ text-to-image và chỉnh sửa ảnh nhiều đầu vào trong một checkpoint duy nhất
- Cung cấp trọng số trên Hugging Face, bao gồm triển khai tối ưu FP8 hợp tác với NVIDIA và ComfyUI
- Có thể dùng qua API trên FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra và các nền tảng khác
- FLUX.2 [klein] (sắp ra mắt)
- Mô hình mã nguồn mở Apache 2.0, dự kiến được distill từ nền tảng FLUX.2 để cung cấp ở dạng gọn nhẹ nhưng hiệu năng cao
- FLUX.2 – VAE
- VAE mới tối ưu cân bằng giữa khả năng huấn luyện, chất lượng và tỷ lệ nén, là thành phần cốt lõi của backbone FLUX.2
- Được cung cấp trên Hugging Face theo giấy phép Apache 2.0
Hiệu năng và giá trị
- Dòng mô hình FLUX.2 mang lại chất lượng tạo ảnh hiện đại với mức giá cạnh tranh
- Trong nhóm mô hình open-weight, FLUX.2 [dev] ghi nhận hiệu năng vượt trội hơn mọi lựa chọn mở khác trong tạo ảnh từ văn bản cũng như chỉnh sửa tham chiếu đơn và đa ảnh
- Tất cả mô hình đều được quản lý trước và sau khi phát hành theo nguyên tắc phát triển có trách nhiệm
Cấu trúc kỹ thuật (How It Works)
- Dựa trên kiến trúc latent flow matching, tích hợp tạo và chỉnh sửa ảnh trong cùng một cấu trúc
- Kết hợp mô hình vision-language Mistral-3 24B với Rectified Flow Transformer
- VLM cung cấp tri thức thực tế và khả năng hiểu ngữ cảnh
- Transformer xử lý quan hệ không gian, đặc tính vật liệu và logic bố cục
- Có thể kết hợp tối đa 10 ảnh tham chiếu để tạo ra kết quả mới
- Huấn luyện lại latent space của mô hình để cải thiện bài toán tam nan (trilemma) giữa khả năng huấn luyện, chất lượng và tỷ lệ nén
Tài liệu bổ sung
Hướng đi tương lai (Into the New)
- FLUX.2 là một bước tiến hướng tới mô hình đa phương thức tích hợp nhận thức, tạo sinh, ghi nhớ và suy luận
- Là công nghệ nền tảng cho hạ tầng trí tuệ thị giác, với mục tiêu thay đổi cách con người nhận biết và hiểu thế giới
- Hiện đang tuyển dụng nhân tài tại Freiburg và San Francisco
1 bình luận
Ý kiến trên Hacker News
Gần đây mẫu mới ra mắt quá thường xuyên, đến mức việc cập nhật trang so sánh GenAI gần như mang cảm giác kiểu Sisyphus
Dù vậy, tôi vẫn đã đăng kết quả của mô hình Flux 2 Pro Editing mới ra
Có thể xem tại trang kết quả
Mô hình này đạt điểm nhỉnh hơn Kontext của BFL một chút, ghi được 6 điểm, tức nằm khoảng giữa trong tổng số 12 mô hình
Tôi sắp bổ sung thêm chỉ số định lượng để đánh giá chi tiết hơn
Nếu chỉ muốn so sánh Flux 2 Pro, Nano Banana Pro và Kontext thì xem liên kết này
Nhân tiện, có vẻ BFL hỗ trợ cấu trúc JSON cho các chỉnh sửa tinh vi hơn, nên cũng khá tò mò liệu tận dụng nó có giúp tăng độ chính xác hay không
Việc Flux và Gemini Pro 3 nhận cùng một điểm làm giảm chất lượng của benchmark
Mô hình của OpenAI có dấu ấn riêng quá mạnh nên khớp phong cách kém, còn Flux thì hiệu năng thay đổi theo từng phong cách
Flux đã cố tránh kiểu huấn luyện lấy trung bình nhiều phong cách, nhưng điều đó lại xung đột với mục tiêu tạo ra hình ảnh hấp dẫn về mặt thị giác
Cuối cùng thì vấn đề nhất quán phong cách có lẽ vẫn sẽ còn kéo dài một thời gian
Seedream cũng rất ấn tượng, có vẻ ở phiên bản tiếp theo sẽ đạt mức cạnh tranh với Google
Việc tạo ảnh gần như cho cảm giác là một bài toán đã được giải quyết
Mô hình mới chỉ dừng ở mức trung bình, còn mã nguồn mở cũng không cởi mở bằng các mô hình Trung Quốc
Chất lượng ảnh của Flux vẫn trông như da nhựa, kết cấu nhân tạo
Dù về mặt kỹ thuật có thể đạt yêu cầu, tôi vẫn không nghĩ mình sẽ chọn Flux trong workflow thực tế
Có thể đây là vấn đề của đội dữ liệu thiếu cảm quan thẩm mỹ
BFL đang ở vị trí khó khăn khi bị kẹp giữa Google và hệ sinh thái Trung Quốc
Những công ty mô hình media khác như RunwayML, PikaLabs, LumaLabs cũng đang gặp khó khăn tương tự
BFL gần đây nhận được khoản đầu tư lớn, nhưng việc cạnh tranh với hyperscaler vẫn có vẻ quá sức
Tôi khá vui vì mô hình mới cũng được phát hành dưới dạng phiên bản open-weight
Nhưng tôi tò mò không biết mô hình video SOTA từng được báo trước trước đây giờ ra sao
Nó cũng từng được nhắc đến trong video YouTube, nhưng trang liên quan(bfl.ai/up-next) đã bị xóa
Mô hình ảnh có nhiều use case hơn và dataset cũng phong phú hơn nhiều
Ảnh là nền tảng của video, và số yếu tố có thể kiểm soát cũng nhiều hơn rất nhiều
Mô hình ảnh mang lại phản hồi nhanh và năng suất cao, còn điều khiển phong cách, pose, tính nhất quán vẫn còn cả chặng đường dài
Midjourney áp đảo về mặt thẩm mỹ nhưng thiếu khả năng kiểm soát
Flux thì trông như nhựa, Imagen thì thiên hoạt hình, OpenAI thì mang cảm giác lỗi thời
Cuối cùng thì vẫn phải cạnh tranh ở cả thẩm mỹ, khả năng kiểm soát và tính tái lập
Video chỉ là yếu tố gây xao nhãng cho công việc này
Tôi đã tự test Flux 2 Pro (liên kết Replicate)
So với Nano Banana thì không có khác biệt lớn, và so với Flux 1.1 Pro thì chỉ là mức cải thiện dần dần
Nếu Google tăng giá hoặc thay đổi API thì không có phương án thay thế, còn BFL thì có lựa chọn chạy local
Nó thêm chi tiết không cần thiết giống kiểu upscale ESRGAN (liên kết test)
FLUX.1 Pro Kontext vẫn rất mạnh ở biểu đạt nghệ thuật và khả năng hiểu chỉ thị
Cũng có thể thấy điều đó trong blog so sánh với Nano Banana
Có thể chạy FLUX.2 [dev] cục bộ trên GPU RTX với bản tối ưu fp8
Việc tiếp tục giữ open weight là điểm tốt, nhưng kích thước mô hình đã tăng từ 12B lên 32B nên việc dùng local trở nên nặng nề hơn
Tôi đang chờ bản distill
text encoder là 48GB, mô hình tạo sinh là 64GB, tổng cộng hơn 100GB
Đây là rào cản gia nhập lớn với người dùng local
Text encoder của phiên bản này là Mistral-Small-3.2-24B-Instruct-2506, tốt hơn tổ hợp CLIP/T5 trước đây nhưng kích thước rất lớn
Có lẽ nếu họ đợi đến khi có bản distill theo Apache 2.0 rồi mới phát hành thì đã khác biệt hóa tốt hơn trước Nano Banana
Cấu trúc giá cũng khá lạ — input là $0.015 mỗi MP, output là $0.03 cho MP đầu tiên rồi $0.015 cho mỗi MP sau đó
Thật vui khi Nano Banana Pro đã có đối thủ cạnh tranh
Điều này giúp duy trì cạnh tranh về giá
Google, OpenAI, Claude đều không thể đăng ký thuê bao
Nhân tiện, phiên bản mã nguồn mở FLUX.2-DEV không được phép sử dụng thương mại
Toàn văn giấy phép
Tôi đã so sánh Nano Banana Pro và Flux 2 Pro bằng prompt “family guy cyberpunk 2077”,
mô hình của Google hợp với cảnh trong game hơn, còn Flux thì cho cảm giác quá hiện thực
Flux 2 Pro cũng cho thấy xu hướng tương tự
Nhưng nếu chịu đầu tư vào hệ sinh thái LoRA và thời gian tinh chỉnh, Flux 1 Dev vẫn mạnh ở styling sáng tạo
Có bản 18GB 4bit quant được cung cấp qua diffusers nên cũng có thể chạy trong môi trường VRAM thấp