8 điểm bởi GN⁺ 2025-06-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • FLUX.1 Kontext [dev] là phiên bản open-weight của mô hình chỉnh sửa hình ảnh tạo sinh trước đây mang tính độc quyền, nay được phát hành miễn phí
  • Với 12B tham số, mô hình có thể chạy trên phần cứng tiêu dùng và được phân phối miễn phí cho mục đích nghiên cứu và phi thương mại
  • Cung cấp hiệu năng chỉnh sửa hình ảnh chất lượng cao ở mức thương mại như chỉnh sửa cục bộ/toàn cục tinh vi, duy trì tính nhất quán của nhân vật, chỉnh sửa lặp lại, đồng thời có thể tích hợp ngay với các framework phổ biến như ComfyUI, Hugging Face Diffusers và TensorRT
  • Trong đánh giá hiệu năng, mô hình cho kết quả vượt trội so với các mô hình mở và đóng hiện có trước đây (ví dụ: Google's Gemini-Flash Image)
  • Cũng cung cấp biến thể TensorRT được tối ưu cho kiến trúc NVIDIA Blackwell (BF16, FP8, FP4), mang lại tốc độ và hiệu quả được cải thiện đáng kể trên phần cứng mới nhất
  • Thông qua giấy phép thương mại và cổng self-serve, doanh nghiệp cũng có thể dễ dàng tích hợp và khai thác

Giới thiệu và tầm quan trọng

  • FLUX.1 Kontext [dev] là mô hình chỉnh sửa hình ảnh tạo sinh mới nhất do Black Forest Labs công bố
  • Cho đến nay, phần lớn các mô hình tạo/sửa hình ảnh xuất sắc đều được cung cấp theo hình thức độc quyền, nhưng giờ đã chuyển sang open-weight, cho phép bất kỳ ai sử dụng cho nghiên cứu và mục đích phi thương mại
  • Mô hình này được cấu thành từ 12B tham số, vừa mang lại hiệu năng nổi bật vừa có tính hiệu quả để hoạt động trên phần cứng tiêu dùng thông thường

Công bố và khả năng tiếp cận

  • FLUX.1 Kontext [dev] được phát hành theo giấy phép phi thương mại FLUX.1, được cung cấp miễn phí cho người dùng nghiên cứu và mục đích phi thương mại
  • Model weight có thể dễ dàng tải xuống từ HuggingFace và tương thích với các framework AI chính như ComfyUI, HuggingFace Diffusers và TensorRT
  • Các đối tác như FAL, Replicate, Runware, DataCrunch và TogetherAI cung cấp API endpoint và mã để sử dụng ngay trong môi trường đám mây và cục bộ

Tiêu chuẩn mới trong lĩnh vực chỉnh sửa hình ảnh

  • FLUX.1 Kontext [dev] được tối ưu riêng cho các tác vụ chỉnh sửa hình ảnh
    • Nổi bật về khả năng giữ nguyên nhân vật qua chỉnh sửa lặp lại và trong nhiều bối cảnh/môi trường khác nhau
    • Hỗ trợ chỉnh sửa cục bộ và toàn cục chính xác
  • Black Forest Labs đặt mục tiêu cung cấp công cụ mở sánh ngang các mô hình proprietary
  • Trong các benchmark quy mô lớn (như KontextBench), mô hình đã chứng minh hiệu năng vượt trội so với các mô hình mở hiện có như ByteDance Bagel, HiDream-E1-Full cũng như các mô hình thương mại như Google Gemini-Flash Image
  • Các đánh giá độc lập từ tổ chức bên ngoài như Artificial Analysis cũng xác nhận kết quả nhất quán

Tối ưu phần cứng và nhiều lựa chọn

  • Hợp tác với NVIDIA để cung cấp TensorRT weights được tối ưu cho kiến trúc Blackwell mới nhất (các phiên bản BF16, FP8, FP4 tối ưu về năng lượng và tốc độ)
  • Nhà phát triển có thể dễ dàng lựa chọn cân bằng giữa tốc độ, hiệu quả và chất lượng theo nhu cầu

Giấy phép và cổng phục vụ cho khai thác thương mại

  • Black Forest Labs đã mở cổng cấp phép self-serve với điều khoản minh bạch, đơn giản hóa việc tiếp cận thương mại/phi thương mại cho mọi mô hình open-weight
  • Doanh nghiệp có thể dễ dàng mua giấy phép trên cổng và nhanh chóng tích hợp dòng mô hình FLUX.1 vào các dịch vụ kinh doanh

Cập nhật về giấy phép

  • Làm rõ định nghĩa mục đích phi thương mại để nêu cụ thể phạm vi được phép và các giới hạn
  • Bổ sung điều khoản bộ lọc nội dung nhằm ngăn việc tạo ra nội dung bất hợp pháp/xâm phạm quyền và hoàn thiện điều khoản miễn trừ liên quan
  • Quản lý nguồn gốc nội dung và lịch sử tạo sinh được quy định phải tuân thủ pháp luật liên quan
  • Bổ sung ví dụ rõ ràng và các giới hạn đối với các trường hợp sử dụng không được phép

Tài liệu tham khảo và hỗ trợ

1 bình luận

 
GN⁺ 2025-06-29
Ý kiến trên Hacker News
  • Việc BFL công bố trọng số thật sự là một điểm rất tuyệt, và trong thực tế khi tính bền vững tài chính của mã nguồn mở là điều khó khăn, tôi nghĩ cách cung cấp miễn phí cho giới học thuật và thu phí giấy phép hợp lý với startup là phương thức giúp BFL và các công ty khác tiếp tục phát hành các mô hình open-weight

    • Nếu BFL phải trả trước chi phí cấp phép sử dụng một cách rõ ràng cho mọi nội dung dựa trên hình ảnh và video mà họ dùng, thì tôi nghĩ cách đó sẽ không bền vững về mặt tài chính
  • Một điểm thú vị khi công bố open-weight là có thể bổ sung các tính năng (tác vụ) mới cho những mô hình chỉnh sửa kiểu này

    • Trông có vẻ mô hình tổng quát hóa tốt ngay cả với ít mẫu (khoảng 30 mẫu), và điều này đã được chia sẻ trên blog
      • Kontext lần này là phiên bản mà mọi người đã chờ đợi, và cảm giác thực dụng hơn nhiều
      • Đây là ví dụ đầu tiên trong thế hệ mới các mô hình tạo ảnh có thể huấn luyện được, điều mà các mô hình lớn hiện có như Gemini, GPT, MJ không làm được
  • Tôi đang hy vọng mô hình Dev đã được distill vẫn giữ được hiệu năng đủ tốt khi so với các mô hình Pro/Max lớn hơn

    • Gần đây tôi kỳ vọng mô hình này có thể thay thế hoàn toàn các kỹ thuật inpainting kiểu cũ như Stable Diffusion ở nhiều khía cạnh
    • Có thể xem các thử nghiệm trước/sau về chỉnh sửa ảnh bằng Kontext tại đây
  • Tôi đã trực tiếp dùng hệ thống này tại một hackathon tổ chức ở San Francisco tuần trước, và cảm thấy khá ấn tượng

    • Tôi tò mò mọi người đã làm những dự án gì ở hackathon đó
  • Có cảm giác mục đích của giấy phép là đóng vai trò như một kiểu bộ lọc đầu vào, hạn chế chính những người có thể tiếp cận nó

    • Dù trên hình thức là mở, trên thực tế phạm vi áp dụng lại bị thu hẹp, và cách thiết lập này có tác dụng định hình ai là người có thể thử sức
    • Nó có ưu điểm là ngăn lạm dụng, nhưng cũng có thể cắt bỏ các trường hợp sử dụng hữu ích, và rốt cuộc còn âm thầm làm thay đổi cả tiêu chuẩn cho những thử nghiệm mới
  • Giấy phép sử dụng phi thương mại mới áp dụng có quy định khá ngặt nghèo, có thể tham khảo toàn văn giấy phép

    • Nếu diễn giải giấy phép này một cách đúng đắn, thì ngay cả khi mục đích không phải tạo ra sản phẩm phái sinh mà chỉ đơn thuần tạo kết quả đầu ra, nó vẫn không thể được dùng trong môi trường thương mại
    • Tôi thắc mắc chính xác giấy phép này áp dụng cho cái gì; có lẽ ngoại trừ phần mã Python dễ tái hiện thì tôi nghĩ sẽ không có bản quyền
    • Quan điểm của tôi là trọng số mô hình không phải là loại tác phẩm sáng tạo có thể được cấp bản quyền theo mức độ mà các công ty mong muốn, và cũng không thuộc định nghĩa pháp lý của bản quyền
    • Không giống cơ sở dữ liệu hay phần mềm, trọng số mô hình không đáp ứng các yêu cầu về bản quyền; dù có bao nhiêu tính sáng tạo đi nữa thì chúng vẫn không phải đối tượng được bảo hộ bản quyền
  • Tôi muốn dùng các mô hình như Kontext theo cách cộng tác với AI theo thời gian thực ngay trên canvas để hoàn thiện bức vẽ

    • Tôi thật sự mong sẽ có trải nghiệm kiểu “đối tác vẽ tranh thời gian thực”, kết hợp đột phá dự báo chuỗi thời gian trong lĩnh vực LLM với những thứ như bộ dữ liệu Google Quick Draw, để có thể vừa trò chuyện bằng cọ vẽ vừa hoàn thiện bức tranh
      • Khi thử mô hình Kontext của Fal.ai, tôi thấy ấn tượng với thanh trượt chuyển đổi trước/sau và khả năng tiếp tục chỉnh sửa bằng ảnh đã chỉnh sửa
      • Giờ đây khi BFL đã công bố cả mô hình dev, tôi rất mong sẽ có plugin Kontext cho Krita, vốn đã có plugin cho Stable Diffusion
      • Liên kết tham khảo plugin Krita
  • Tôi tò mò hệ thống này chạy được ở mức VRAM nào

    • Theo hiện tại, nó cần khoảng 18~20GB VRAM, nhưng vào ngày mai hoặc trong tương lai gần, chỉ cần có khoảng 1 giờ rảnh là nó có thể chạy được cả trên 4GB VRAM
  • Thật đáng tiếc là giấy phép mang tính hạn chế