2 điểm bởi GN⁺ 2025-11-27 | 1 bình luận | Chia sẻ qua WhatsApp
  • FLUX.2 là mô hình tạo ảnh chất lượng cao dành cho quy trình sáng tạo thực tế, hỗ trợ duy trì tính nhất quán của nhân vật và phong cách giữa nhiều ảnh tham chiếu, đồng thời hỗ trợ xử lý văn bản và tuân thủ hướng dẫn thương hiệu
  • Có thể chỉnh sửa hình ảnh chi tiết ở độ phân giải tối đa 4 megapixel, đồng thời kiểm soát ổn định các yếu tố thị giác như ánh sáng, bố cục và logo
  • Thông qua chiến lược open-core, hệ thống cung cấp song song mô hình open-weight và API cấp production, đưa hệ sinh thái mở được xây dựng từ FLUX.1 lên giai đoạn FLUX.2
  • Các tính năng chính mới được bổ sung gồm hỗ trợ đa tham chiếu, kết xuất typography tinh vi, xử lý prompt cải thiện, tích hợp tri thức dựa trên thế giới thực
  • Dòng mô hình gồm pro, flex, dev, klein, VAE, hỗ trợ cả open-weight lẫn API thương mại
  • Black Forest Labs kết hợp nghiên cứu mở với hạ tầng thương mại, hướng tới sự phát triển cởi mở của trí tuệ thị giác

Tổng quan về FLUX.2

  • FLUX.2 là mô hình tạo ảnh dành cho môi trường sản xuất thực tế, không chỉ để demo
    • Duy trì tính nhất quán của nhân vật và phong cách dựa trên nhiều ảnh tham chiếu
    • Có thể làm theo prompt có cấu trúc, đồng thời đọc và viết văn bản phức tạp
    • Xử lý ổn định hướng dẫn thương hiệu, ánh sáng, bố cục và logo
  • Hỗ trợ chỉnh sửa ảnh ở độ phân giải tối đa 4MP trong khi vẫn giữ được chi tiết và tính nhất quán

Triết lý open-core của Black Forest Labs

  • Đề ra nguyên tắc rằng trí tuệ thị giác là lĩnh vực cần được nhà nghiên cứu, nhà sáng tạo và nhà phát triển cùng nhau thúc đẩy
  • Cung cấp song song mô hình open-weightAPI endpoint cấp thương mại
    • Mô hình mở thúc đẩy thử nghiệm, giảm chi phí và nâng cao tính minh bạch
  • Kể từ khi thành lập năm 2024, công ty đã xây dựng nền tảng đổi mới mở thông qua FLUX.1 [dev] và FLUX.1 Kontext [pro]
    • FLUX.1 [dev] được nhắc đến là mô hình ảnh mở phổ biến nhất thế giới
    • FLUX.1 Kontext [pro] được sử dụng bởi các đội ngũ lớn như Adobe và Meta

Từ FLUX.1 đến FLUX.2

  • Nếu FLUX.1 cho thấy tiềm năng như một công cụ sáng tạo, thì FLUX.2 tập trung vào đổi mới quy trình sản xuất
  • Tăng cường độ chính xác, hiệu quả, khả năng kiểm soát và tính chân thực, qua đó cải thiện đáng kể hiệu quả kinh tế của việc tạo ảnh
  • Nhờ đó, mô hình này được kỳ vọng sẽ trở thành thành phần cốt lõi của hạ tầng sáng tạo

Tính năng chính (What’s New)

  • Hỗ trợ đa tham chiếu: tham chiếu đồng thời tối đa 10 hình ảnh để duy trì tính nhất quán về nhân vật, sản phẩm và phong cách
  • Chi tiết tinh vi và độ chân thực cao: phù hợp cho chụp ảnh sản phẩm, trực quan hóa và đầu ra ở mức độ ảnh chụp
  • Cải thiện kết xuất văn bản: tăng khả năng đọc trong typography phức tạp, infographic, mockup UI và các tình huống tương tự
  • Tăng cường xử lý prompt: phản ánh chính xác prompt nhiều cấu trúc và các ràng buộc kết hợp
  • Mở rộng tri thức dựa trên thế giới thực: xây dựng cảnh nhất quán dựa trên logic ánh sáng và không gian
  • Chỉnh sửa độ phân giải cao: hỗ trợ linh hoạt tỷ lệ đầu vào và đầu ra ở độ phân giải tối đa 4MP

Dòng sản phẩm FLUX.2

  • FLUX.2 [pro]
    • Có chất lượng hình ảnh, khả năng tuân thủ prompt và độ trung thực thị giác cạnh tranh với các mô hình tốt nhất dạng đóng
    • Nổi bật với tốc độ tạo nhanh và chi phí thấp, được cung cấp qua BFL Playground, API và các nền tảng đối tác
  • FLUX.2 [flex]
    • Mô hình cho phép điều chỉnh trực tiếp các tham số như số bước và guidance scale để tối ưu chất lượng, tốc độ và khả năng kết xuất văn bản
    • Đặc biệt mạnh trong biểu đạt typography chính xác
  • FLUX.2 [dev]
    • Mô hình open-weight 32B, là mô hình công khai mạnh nhất hiện nay hỗ trợ text-to-image và chỉnh sửa ảnh nhiều đầu vào trong một checkpoint duy nhất
    • Cung cấp trọng số trên Hugging Face, bao gồm triển khai tối ưu FP8 hợp tác với NVIDIA và ComfyUI
    • Có thể dùng qua API trên FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra và các nền tảng khác
  • FLUX.2 [klein] (sắp ra mắt)
    • Mô hình mã nguồn mở Apache 2.0, dự kiến được distill từ nền tảng FLUX.2 để cung cấp ở dạng gọn nhẹ nhưng hiệu năng cao
  • FLUX.2 – VAE
    • VAE mới tối ưu cân bằng giữa khả năng huấn luyện, chất lượng và tỷ lệ nén, là thành phần cốt lõi của backbone FLUX.2
    • Được cung cấp trên Hugging Face theo giấy phép Apache 2.0

Hiệu năng và giá trị

  • Dòng mô hình FLUX.2 mang lại chất lượng tạo ảnh hiện đại với mức giá cạnh tranh
  • Trong nhóm mô hình open-weight, FLUX.2 [dev] ghi nhận hiệu năng vượt trội hơn mọi lựa chọn mở khác trong tạo ảnh từ văn bản cũng như chỉnh sửa tham chiếu đơn và đa ảnh
  • Tất cả mô hình đều được quản lý trước và sau khi phát hành theo nguyên tắc phát triển có trách nhiệm

Cấu trúc kỹ thuật (How It Works)

  • Dựa trên kiến trúc latent flow matching, tích hợp tạo và chỉnh sửa ảnh trong cùng một cấu trúc
  • Kết hợp mô hình vision-language Mistral-3 24B với Rectified Flow Transformer
    • VLM cung cấp tri thức thực tế và khả năng hiểu ngữ cảnh
    • Transformer xử lý quan hệ không gian, đặc tính vật liệu và logic bố cục
  • Có thể kết hợp tối đa 10 ảnh tham chiếu để tạo ra kết quả mới
  • Huấn luyện lại latent space của mô hình để cải thiện bài toán tam nan (trilemma) giữa khả năng huấn luyện, chất lượng và tỷ lệ nén

Tài liệu bổ sung

Hướng đi tương lai (Into the New)

  • FLUX.2 là một bước tiến hướng tới mô hình đa phương thức tích hợp nhận thức, tạo sinh, ghi nhớ và suy luận
  • công nghệ nền tảng cho hạ tầng trí tuệ thị giác, với mục tiêu thay đổi cách con người nhận biết và hiểu thế giới
  • Hiện đang tuyển dụng nhân tài tại Freiburg và San Francisco

1 bình luận

 
GN⁺ 2025-11-27
Ý kiến trên Hacker News
  • Gần đây mẫu mới ra mắt quá thường xuyên, đến mức việc cập nhật trang so sánh GenAI gần như mang cảm giác kiểu Sisyphus
    Dù vậy, tôi vẫn đã đăng kết quả của mô hình Flux 2 Pro Editing mới ra
    Có thể xem tại trang kết quả
    Mô hình này đạt điểm nhỉnh hơn Kontext của BFL một chút, ghi được 6 điểm, tức nằm khoảng giữa trong tổng số 12 mô hình
    Tôi sắp bổ sung thêm chỉ số định lượng để đánh giá chi tiết hơn
    Nếu chỉ muốn so sánh Flux 2 Pro, Nano Banana Pro và Kontext thì xem liên kết này
    Nhân tiện, có vẻ BFL hỗ trợ cấu trúc JSON cho các chỉnh sửa tinh vi hơn, nên cũng khá tò mò liệu tận dụng nó có giúp tăng độ chính xác hay không

    • Sẽ tốt hơn nếu hệ thống chấm điểm đổi sang thang 0~10 thay vì chỉ đậu/rớt đơn giản
      Việc Flux và Gemini Pro 3 nhận cùng một điểm làm giảm chất lượng của benchmark
    • So sánh thì hữu ích, nhưng còn thiếu sự đa dạng về phong cách
      Mô hình của OpenAI có dấu ấn riêng quá mạnh nên khớp phong cách kém, còn Flux thì hiệu năng thay đổi theo từng phong cách
      Flux đã cố tránh kiểu huấn luyện lấy trung bình nhiều phong cách, nhưng điều đó lại xung đột với mục tiêu tạo ra hình ảnh hấp dẫn về mặt thị giác
      Cuối cùng thì vấn đề nhất quán phong cách có lẽ vẫn sẽ còn kéo dài một thời gian
    • Hiện giờ thì Google rõ ràng đang dẫn trước
      Seedream cũng rất ấn tượng, có vẻ ở phiên bản tiếp theo sẽ đạt mức cạnh tranh với Google
      Việc tạo ảnh gần như cho cảm giác là một bài toán đã được giải quyết
    • Trang web có lỗi chính tả: cần sửa s/sttae/state/g
    • Tôi nghi ngờ liệu BFL còn đủ năng lượng để tiếp tục cạnh tranh với các tập đoàn khổng lồ như Google và ByteDance(SeeDream) hay không
      Mô hình mới chỉ dừng ở mức trung bình, còn mã nguồn mở cũng không cởi mở bằng các mô hình Trung Quốc
      Chất lượng ảnh của Flux vẫn trông như da nhựa, kết cấu nhân tạo
      Dù về mặt kỹ thuật có thể đạt yêu cầu, tôi vẫn không nghĩ mình sẽ chọn Flux trong workflow thực tế
      Có thể đây là vấn đề của đội dữ liệu thiếu cảm quan thẩm mỹ
      BFL đang ở vị trí khó khăn khi bị kẹp giữa Google và hệ sinh thái Trung Quốc
      Những công ty mô hình media khác như RunwayML, PikaLabs, LumaLabs cũng đang gặp khó khăn tương tự
      BFL gần đây nhận được khoản đầu tư lớn, nhưng việc cạnh tranh với hyperscaler vẫn có vẻ quá sức
  • Tôi khá vui vì mô hình mới cũng được phát hành dưới dạng phiên bản open-weight
    Nhưng tôi tò mò không biết mô hình video SOTA từng được báo trước trước đây giờ ra sao
    Nó cũng từng được nhắc đến trong video YouTube, nhưng trang liên quan(bfl.ai/up-next) đã bị xóa

    • Với tư cách startup, họ đã pivot sang tập trung vào mô hình ảnh thay vì video
      Mô hình ảnh có nhiều use case hơn và dataset cũng phong phú hơn nhiều
    • Theo những gì tôi nghe được, việc huấn luyện mô hình video kết thúc bằng một thất bại quy mô lớn, nên dự án đã bị hủy
    • Mô hình ảnh vẫn là trục công nghệ cốt lõi
      Ảnh là nền tảng của video, và số yếu tố có thể kiểm soát cũng nhiều hơn rất nhiều
      Mô hình ảnh mang lại phản hồi nhanh và năng suất cao, còn điều khiển phong cách, pose, tính nhất quán vẫn còn cả chặng đường dài
      Midjourney áp đảo về mặt thẩm mỹ nhưng thiếu khả năng kiểm soát
      Flux thì trông như nhựa, Imagen thì thiên hoạt hình, OpenAI thì mang cảm giác lỗi thời
      Cuối cùng thì vẫn phải cạnh tranh ở cả thẩm mỹ, khả năng kiểm soát và tính tái lập
      Video chỉ là yếu tố gây xao nhãng cho công việc này
  • Tôi đã tự test Flux 2 Pro (liên kết Replicate)
    So với Nano Banana thì không có khác biệt lớn, và so với Flux 1.1 Pro thì chỉ là mức cải thiện dần dần

    • Độ nhất quán với prompt đã tốt hơn, nhưng chất lượng hình ảnh lại trông nhân tạo hơn
    • Hướng dẫn prompt Flux 2 khuyến nghị mặc định dùng prompt JSONchỉ định màu HEX
    • Khi bật prompt upsampling, khả năng suy luận được cải thiện, nhưng nếu tắt đi thì đôi khi cho ra kết quả lạc quẻ
    • API Flux 2 có độ nhạy cao với vấn đề IP, nên có trường hợp chỉ vượt qua được khi bật upsampling (ví dụ)
    • Chi phí và tốc độ tương tự Nano Banana, nhưng nếu dùng tính năng nhập ảnh thì Flux 2 Pro đắt hơn
    • Kết quả của Flux 1.1 và 2 không có hơn kém khách quan rõ rệt
    • Chỉ riêng khả năng có thể chạy Flux cục bộ cũng đã là một lợi thế
      Nếu Google tăng giá hoặc thay đổi API thì không có phương án thay thế, còn BFL thì có lựa chọn chạy local
    • Đầu ra độ phân giải cao (4K) của Flux 2 Pro đôi khi lại gây vấn đề
      Nó thêm chi tiết không cần thiết giống kiểu upscale ESRGAN (liên kết test)
    • Phiên bản Flux 2 Dev không có kiểm duyệt IP
  • FLUX.1 Pro Kontext vẫn rất mạnh ở biểu đạt nghệ thuật và khả năng hiểu chỉ thị
    Cũng có thể thấy điều đó trong blog so sánh với Nano Banana

  • Có thể chạy FLUX.2 [dev] cục bộ trên GPU RTX với bản tối ưu fp8
    Việc tiếp tục giữ open weight là điểm tốt, nhưng kích thước mô hình đã tăng từ 12B lên 32B nên việc dùng local trở nên nặng nề hơn
    Tôi đang chờ bản distill

    • Nếu nhìn vào trang Hugging Face thì
      text encoder là 48GB, mô hình tạo sinh là 64GB, tổng cộng hơn 100GB
      Đây là rào cản gia nhập lớn với người dùng local
  • Text encoder của phiên bản này là Mistral-Small-3.2-24B-Instruct-2506, tốt hơn tổ hợp CLIP/T5 trước đây nhưng kích thước rất lớn
    Có lẽ nếu họ đợi đến khi có bản distill theo Apache 2.0 rồi mới phát hành thì đã khác biệt hóa tốt hơn trước Nano Banana
    Cấu trúc giá cũng khá lạ — input là $0.015 mỗi MP, output là $0.03 cho MP đầu tiên rồi $0.015 cho mỗi MP sau đó

    • Qwen-Image-Edit-2511 dự kiến ra mắt theo Apache 2.0 vào tuần sau, nên có vẻ BFL đã vội công bố trước
    • CLIP thực chất là một lựa chọn gần như vô nghĩa. Dù đặt trọng số về 0 thì kết quả vẫn gần như y hệt
    • Tổ hợp CLIP+T5 từng được rất nhiều mô hình tạo ảnh sử dụng vào thời điểm đó. Không phải là lựa chọn kỳ quặc
    • Có vẻ vì chăm lo chiến lược GTM mà thị trường châu Âu đã phải chịu thiệt
  • Thật vui khi Nano Banana Pro đã có đối thủ cạnh tranh
    Điều này giúp duy trì cạnh tranh về giá

    • Ở những khu vực bị hạn chế sử dụng mô hình Mỹ như Hong Kong, các phương án thay thế như vậy đặc biệt quan trọng
      Google, OpenAI, Claude đều không thể đăng ký thuê bao
    • Cũng rất đáng mừng khi thấy một công ty châu Âu hoạt động tốt
  • Nhân tiện, phiên bản mã nguồn mở FLUX.2-DEV không được phép sử dụng thương mại
    Toàn văn giấy phép

  • Tôi đã so sánh Nano Banana Pro và Flux 2 Pro bằng prompt “family guy cyberpunk 2077”,
    mô hình của Google hợp với cảnh trong game hơn, còn Flux thì cho cảm giác quá hiện thực

    • Flux được tối ưu theo dataset thiên về ảnh chụp, nên yếu hơn ở các phong cách nghệ thuật
      Flux 2 Pro cũng cho thấy xu hướng tương tự
      Nhưng nếu chịu đầu tư vào hệ sinh thái LoRA và thời gian tinh chỉnh, Flux 1 Dev vẫn mạnh ở styling sáng tạo
  • Có bản 18GB 4bit quant được cung cấp qua diffusers nên cũng có thể chạy trong môi trường VRAM thấp