- FLUX.1 Kontext của Black Forest Labs là mô hình AI tạo sinh mới nhất có thể nhận đồng thời văn bản và hình ảnh làm đầu vào, hiểu ngữ cảnh và chỉnh sửa/tạo nội dung ngay lập tức trong khi vẫn giữ được đặc điểm và phong cách của hình ảnh gốc
- So với các thuật toán tạo ảnh từ văn bản hiện có, mô hình này cho thấy hiệu năng vượt trội về tính nhất quán của chữ và đối tượng, chỉnh sửa cục bộ, tham chiếu phong cách và phản hồi tốc độ cao
- Người dùng có thể chỉ nhập văn bản, hoặc kết hợp hình ảnh với văn bản để chỉ thay đổi một vùng cụ thể, chỉ áp dụng phong cách, thực hiện chỉnh sửa nhiều bước và nhiều tác vụ hình ảnh tương tác khác
- FLUX.1 Kontext [pro] duy trì tính nhất quán của hình ảnh ngay cả sau nhiều lần chỉnh sửa và hoạt động với tốc độ hàng đầu trong ngành
- Mô hình mã nguồn mở phiên bản [dev] là diffusion transformer 12B đã được tinh gọn, được phát hành dưới dạng beta riêng tư cho mục đích nghiên cứu và tùy biến
Giới thiệu FLUX.1 Kontext
- FLUX.1 Kontext vượt qua giới hạn của các mô hình hiện có chỉ tạo ảnh từ văn bản, bằng cách nhận đồng thời văn bản và hình ảnh để thực hiện tạo và chỉnh sửa hình ảnh dựa trên ngữ cảnh bằng mô hình generative flow matching
- Bằng cách sử dụng đồng thời prompt văn bản và hình ảnh, mô hình có thể xóa/thêm/thay đổi các yếu tố cụ thể trong ảnh và tạo ra cảnh mới trong khi vẫn giữ nguyên phong cách hoặc đặc trưng
Tính năng chính
- Tính nhất quán của nhân vật: cùng một người, đối tượng hoặc phong cách được giữ nhất quán trong nhiều bối cảnh và môi trường khác nhau
- Chỉnh sửa cục bộ: chỉ chỉnh sửa một phần cụ thể của hình ảnh bằng lệnh văn bản (ví dụ: chỉ xóa một yếu tố cụ thể trên khuôn mặt, chỉ thay đổi chữ viết, v.v.)
- Tham chiếu phong cách: có thể áp dụng phong cách độc đáo của hình ảnh tham chiếu vào một cảnh mới
- Tốc độ tương tác: hỗ trợ chỉnh sửa và tạo nội dung theo thời gian thực với tốc độ suy luận nhanh hơn tới 8 lần so với các mô hình hiện có
Tích hợp chỉnh sửa văn bản-hình ảnh và hình ảnh-hình ảnh
- FLUX.1 Kontext không chỉ xử lý một lần chỉnh sửa mà còn giữ được chất lượng và đặc điểm hình ảnh ngay cả với các chỉ dẫn lặp lại qua nhiều bước
- Bằng cách liên tục sử dụng prompt và kết quả hình ảnh trước đó, người dùng có thể từng bước tiến tới kết quả mong muốn
Dòng mô hình FLUX.1 Kontext
- FLUX.1 Kontext [pro]
- Mô hình chủ lực được tối ưu cho chỉnh sửa và tạo sinh lặp nhanh
- Nhận đồng thời văn bản và hình ảnh tham chiếu để thực hiện chỉnh sửa vùng mục tiêu và biến đổi cảnh phức tạp một cách nhanh chóng và nhất quán
- FLUX.1 Kontext [max]
- Mô hình cấu hình cao nhất mang tính thử nghiệm, với khả năng hiểu prompt, typography và chỉnh sửa nhất quán tốc độ cao được cải thiện
- FLUX.1 Kontext [dev]
- Mô hình tinh gọn (12B) cho mục đích nghiên cứu và tùy biến, được phát hành dưới dạng beta riêng tư
- Khi phát hành công khai, sẽ được cung cấp thông qua các đối tác hạ tầng AI lớn như FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace
Hỗ trợ và truy cập
- Dòng FLUX.1 Kontext có thể sử dụng trên nhiều dịch vụ như KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI và các hạ tầng như FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
- Thông qua FLUX Playground(https://playground.bfl.ai/) để trải nghiệm và demo theo thời gian thực, người dùng có thể dễ dàng kiểm chứng hiệu năng mô hình và xem kết quả mà không cần tích hợp riêng
Đánh giá hiệu năng
- Trên benchmark nội bộ KontextBench, mô hình được đánh giá so sánh với các mô hình SOTA theo 6 tác vụ tạo và chỉnh sửa hình ảnh
- Ghi nhận điểm số hàng đầu ngành ở các hạng mục chỉnh sửa văn bản và bảo toàn nhân vật
- Tốc độ suy luận cũng đạt độ trễ thấp vượt trội so với các mô hình hiệu năng cao hàng đầu trước đó
- Chứng minh năng lực cạnh tranh theo nhiều tiêu chí như độ hoàn thiện thẩm mỹ, khả năng hiểu prompt, typography và tính chân thực
Hạn chế và bài toán tiếp theo
- Khi chỉnh sửa lặp nhiều bước (trên 6 lần), có thể xuất hiện nhiễu thị giác (artifact) làm giảm chất lượng hình ảnh
- Đôi khi có trường hợp mô hình không tuân theo chính xác các chỉ dẫn chi tiết trong một số prompt cụ thể
- Do còn hạn chế về tri thức thế giới và khả năng hiểu ngữ cảnh, mô hình có thể tạo ra hình ảnh không chính xác về mặt bối cảnh
- Trong quá trình tinh gọn mô hình và distillation, chất lượng hình ảnh có thể bị suy giảm
1 bình luận
Ý kiến trên Hacker News
Tôi đã tự dùng thử và gặp hiện tượng “context slip” khá thú vị hình liên quan. Tôi tạo một ảnh con tàu vũ trụ hạ cánh xuống một hành tinh hẻo lánh bằng prompt sinh ảnh, rồi yêu cầu chỉnh sửa rằng “hãy làm con tàu nhiều màu sắc hơn và hiển thị lớn hơn trong ảnh”. Kết quả là con tàu vũ trụ biến thành một con tàu chở container. Vì lịch sử chat vẫn còn đó, lẽ ra nó phải hiểu tôi muốn tàu vũ trụ, nhưng lại bỏ lỡ ngữ cảnh quan trọng nên cho ra kết quả lệch hẳn
Tôi đang trực tiếp thử với endpoint FLUX Kontext Pro của Replicate. Cũng có ứng dụng Replicate minh họa nhiều cách dùng chỉnh sửa ảnh khác nhau của FLUX Kontext: FLUX Kontext Apps. Chất lượng ảnh, trong trường hợp image-to-image đơn giản, khá tương đương với mức tạo ảnh của GPT-4o. Tốc độ tạo cũng khá nhanh, khoảng 4 giây. Prompt engineering ngoài các ví dụ mẫu thì có cảm giác hơi khó, nhưng tôi nghĩ sẽ dần cải thiện. Việc đổi style hay các yêu cầu chi tiết vẫn áp dụng được, nhưng càng đưa chỉ thị cụ thể thì lại càng có xu hướng bỏ qua các yêu cầu chi tiết
Một số sample có vẻ chỉ chọn những kết quả quá đẹp để trưng ra. Có ai đã thử app chụp headshot chuyên nghiệp trong “Kontext Apps” chưa? liên kết Kontext Apps. Tôi đưa vào vài tấm ảnh của mình nhưng lần nào nó cũng biến tôi thành một người hoàn toàn khác. Kết quả headshot cuối cùng thì đúng là trông rất chuyên nghiệp
Tôi đang cân nhắc có nên thêm model FLUX Kontext vào trang so sánh ảnh GenAI của mình không. Bản Max có điểm về độ bám prompt gần như cao gấp đôi, nhưng vẫn kém khá xa so với gpt-image-1 của OpenAI (chưa bàn tới chất lượng hình ảnh). gpt-image-1 đang đứng số 1 trên leaderboard. Tôi vẫn giữ Flux 1.D làm baseline cho năng lực GenAI chạy cục bộ. trang so sánh. Tôi cũng mới thêm model Image 2.0 của Hunyuan, nhưng đúng kiểu model thời gian thực nên điểm khá thấp. Nhân tiện, model này của Black Forest Labs có vẻ tập trung vào chỉnh sửa và tinh chỉnh lặp đi lặp lại trên ảnh có sẵn hơn là text-to-image
Tôi thắc mắc liệu ảnh đầu vào có bị giới hạn chỉ một ảnh không. Tôi muốn thử đưa nhiều ảnh vào để làm các prompt phức hợp kiểu “đặt món đồ trong ảnh A vào trong ảnh B” hoặc “đưa nhân vật ở ảnh A vào phong cảnh của ảnh B”
Với những ai tò mò về bài báo kỹ thuật, xin chia sẻ báo cáo chính thức
Nếu muốn tự chỉnh sửa và huấn luyện thứ này trên máy local thì cần mức độ chuyên môn nào? Tôi đã đào sâu suốt hai ngày để thử LoRa tuning với Flux 1 dev trên RTX 4090, Windows, mà vẫn chưa làm được ra hồn. Tôi muốn biết phải đào sâu tới mức nào, liệu rào cản vào có thấp không, người mới có làm được không hay chỉ dân nhiều kinh nghiệm mới vào nổi
Tôi không hiểu rõ ví dụ “remove from face”. Nếu không có ảnh khuôn mặt khác thì chẳng phải cuối cùng nó vẫn dùng một khuôn mặt điển hình nào đó sao?
Có người hỏi liệu nó có tạo được ảnh cờ vua không liên kết dự đoán AI cờ vua
Có bình luận đoán xem bao giờ bản developer mở sẽ ra mắt, liệu trong vòng một tuần hay phải thêm một hai tháng nữa