- FLUX.1 Kontext [dev] là phiên bản open-weight của mô hình chỉnh sửa hình ảnh tạo sinh trước đây mang tính độc quyền, nay được phát hành miễn phí
- Với 12B tham số, mô hình có thể chạy trên phần cứng tiêu dùng và được phân phối miễn phí cho mục đích nghiên cứu và phi thương mại
- Cung cấp hiệu năng chỉnh sửa hình ảnh chất lượng cao ở mức thương mại như chỉnh sửa cục bộ/toàn cục tinh vi, duy trì tính nhất quán của nhân vật, chỉnh sửa lặp lại, đồng thời có thể tích hợp ngay với các framework phổ biến như ComfyUI, Hugging Face Diffusers và TensorRT
- Trong đánh giá hiệu năng, mô hình cho kết quả vượt trội so với các mô hình mở và đóng hiện có trước đây (ví dụ: Google's Gemini-Flash Image)
- Cũng cung cấp biến thể TensorRT được tối ưu cho kiến trúc NVIDIA Blackwell (BF16, FP8, FP4), mang lại tốc độ và hiệu quả được cải thiện đáng kể trên phần cứng mới nhất
- Thông qua giấy phép thương mại và cổng self-serve, doanh nghiệp cũng có thể dễ dàng tích hợp và khai thác
Giới thiệu và tầm quan trọng
- FLUX.1 Kontext [dev] là mô hình chỉnh sửa hình ảnh tạo sinh mới nhất do Black Forest Labs công bố
- Cho đến nay, phần lớn các mô hình tạo/sửa hình ảnh xuất sắc đều được cung cấp theo hình thức độc quyền, nhưng giờ đã chuyển sang open-weight, cho phép bất kỳ ai sử dụng cho nghiên cứu và mục đích phi thương mại
- Mô hình này được cấu thành từ 12B tham số, vừa mang lại hiệu năng nổi bật vừa có tính hiệu quả để hoạt động trên phần cứng tiêu dùng thông thường
Công bố và khả năng tiếp cận
- FLUX.1 Kontext [dev] được phát hành theo giấy phép phi thương mại FLUX.1, được cung cấp miễn phí cho người dùng nghiên cứu và mục đích phi thương mại
- Model weight có thể dễ dàng tải xuống từ HuggingFace và tương thích với các framework AI chính như ComfyUI, HuggingFace Diffusers và TensorRT
- Các đối tác như FAL, Replicate, Runware, DataCrunch và TogetherAI cung cấp API endpoint và mã để sử dụng ngay trong môi trường đám mây và cục bộ
Tiêu chuẩn mới trong lĩnh vực chỉnh sửa hình ảnh
- FLUX.1 Kontext [dev] được tối ưu riêng cho các tác vụ chỉnh sửa hình ảnh
- Nổi bật về khả năng giữ nguyên nhân vật qua chỉnh sửa lặp lại và trong nhiều bối cảnh/môi trường khác nhau
- Hỗ trợ chỉnh sửa cục bộ và toàn cục chính xác
- Black Forest Labs đặt mục tiêu cung cấp công cụ mở sánh ngang các mô hình proprietary
- Trong các benchmark quy mô lớn (như KontextBench), mô hình đã chứng minh hiệu năng vượt trội so với các mô hình mở hiện có như ByteDance Bagel, HiDream-E1-Full cũng như các mô hình thương mại như Google Gemini-Flash Image
- Các đánh giá độc lập từ tổ chức bên ngoài như Artificial Analysis cũng xác nhận kết quả nhất quán
Tối ưu phần cứng và nhiều lựa chọn
- Hợp tác với NVIDIA để cung cấp TensorRT weights được tối ưu cho kiến trúc Blackwell mới nhất (các phiên bản BF16, FP8, FP4 tối ưu về năng lượng và tốc độ)
- Nhà phát triển có thể dễ dàng lựa chọn cân bằng giữa tốc độ, hiệu quả và chất lượng theo nhu cầu
Giấy phép và cổng phục vụ cho khai thác thương mại
- Black Forest Labs đã mở cổng cấp phép self-serve với điều khoản minh bạch, đơn giản hóa việc tiếp cận thương mại/phi thương mại cho mọi mô hình open-weight
- Doanh nghiệp có thể dễ dàng mua giấy phép trên cổng và nhanh chóng tích hợp dòng mô hình FLUX.1 vào các dịch vụ kinh doanh
Cập nhật về giấy phép
- Làm rõ định nghĩa mục đích phi thương mại để nêu cụ thể phạm vi được phép và các giới hạn
- Bổ sung điều khoản bộ lọc nội dung nhằm ngăn việc tạo ra nội dung bất hợp pháp/xâm phạm quyền và hoàn thiện điều khoản miễn trừ liên quan
- Quản lý nguồn gốc nội dung và lịch sử tạo sinh được quy định phải tuân thủ pháp luật liên quan
- Bổ sung ví dụ rõ ràng và các giới hạn đối với các trường hợp sử dụng không được phép
Tài liệu tham khảo và hỗ trợ
- Mô hình/mã/tài liệu
- Báo cáo kỹ thuật về việc công bố FLUX.1 Kontext [dev] có thể được xem trên arxiv
- Cả người dùng lẫn doanh nghiệp đều có thể truy cập nhiều API, tài liệu hướng dẫn và dữ liệu benchmark
1 bình luận
Ý kiến trên Hacker News
Việc BFL công bố trọng số thật sự là một điểm rất tuyệt, và trong thực tế khi tính bền vững tài chính của mã nguồn mở là điều khó khăn, tôi nghĩ cách cung cấp miễn phí cho giới học thuật và thu phí giấy phép hợp lý với startup là phương thức giúp BFL và các công ty khác tiếp tục phát hành các mô hình open-weight
Một điểm thú vị khi công bố open-weight là có thể bổ sung các tính năng (tác vụ) mới cho những mô hình chỉnh sửa kiểu này
Tôi đang hy vọng mô hình Dev đã được distill vẫn giữ được hiệu năng đủ tốt khi so với các mô hình Pro/Max lớn hơn
Tôi đã trực tiếp dùng hệ thống này tại một hackathon tổ chức ở San Francisco tuần trước, và cảm thấy khá ấn tượng
Có cảm giác mục đích của giấy phép là đóng vai trò như một kiểu bộ lọc đầu vào, hạn chế chính những người có thể tiếp cận nó
Giấy phép sử dụng phi thương mại mới áp dụng có quy định khá ngặt nghèo, có thể tham khảo toàn văn giấy phép
Tôi muốn dùng các mô hình như Kontext theo cách cộng tác với AI theo thời gian thực ngay trên canvas để hoàn thiện bức vẽ
Tôi tò mò hệ thống này chạy được ở mức VRAM nào
Thật đáng tiếc là giấy phép mang tính hạn chế