FLUX.1 Kontext - Mô hình AI tạo sinh và chỉnh sửa theo thời gian thực kết hợp văn bản và hình ảnh

(bfl.ai)

3 điểm bởi GN⁺ 2025-05-30 | 1 bình luận | Chia sẻ qua WhatsApp

FLUX.1 Kontext của Black Forest Labs là mô hình AI tạo sinh mới nhất có thể nhận đồng thời văn bản và hình ảnh làm đầu vào, hiểu ngữ cảnh và chỉnh sửa/tạo nội dung ngay lập tức trong khi vẫn giữ được đặc điểm và phong cách của hình ảnh gốc
So với các thuật toán tạo ảnh từ văn bản hiện có, mô hình này cho thấy hiệu năng vượt trội về tính nhất quán của chữ và đối tượng, chỉnh sửa cục bộ, tham chiếu phong cách và phản hồi tốc độ cao
Người dùng có thể chỉ nhập văn bản, hoặc kết hợp hình ảnh với văn bản để chỉ thay đổi một vùng cụ thể, chỉ áp dụng phong cách, thực hiện chỉnh sửa nhiều bước và nhiều tác vụ hình ảnh tương tác khác
FLUX.1 Kontext [pro] duy trì tính nhất quán của hình ảnh ngay cả sau nhiều lần chỉnh sửa và hoạt động với tốc độ hàng đầu trong ngành
Mô hình mã nguồn mở phiên bản [dev] là diffusion transformer 12B đã được tinh gọn, được phát hành dưới dạng beta riêng tư cho mục đích nghiên cứu và tùy biến

Giới thiệu FLUX.1 Kontext

FLUX.1 Kontext vượt qua giới hạn của các mô hình hiện có chỉ tạo ảnh từ văn bản, bằng cách nhận đồng thời văn bản và hình ảnh để thực hiện tạo và chỉnh sửa hình ảnh dựa trên ngữ cảnh bằng mô hình generative flow matching
Bằng cách sử dụng đồng thời prompt văn bản và hình ảnh, mô hình có thể xóa/thêm/thay đổi các yếu tố cụ thể trong ảnh và tạo ra cảnh mới trong khi vẫn giữ nguyên phong cách hoặc đặc trưng

Tính năng chính

Tính nhất quán của nhân vật: cùng một người, đối tượng hoặc phong cách được giữ nhất quán trong nhiều bối cảnh và môi trường khác nhau
Chỉnh sửa cục bộ: chỉ chỉnh sửa một phần cụ thể của hình ảnh bằng lệnh văn bản (ví dụ: chỉ xóa một yếu tố cụ thể trên khuôn mặt, chỉ thay đổi chữ viết, v.v.)
Tham chiếu phong cách: có thể áp dụng phong cách độc đáo của hình ảnh tham chiếu vào một cảnh mới
Tốc độ tương tác: hỗ trợ chỉnh sửa và tạo nội dung theo thời gian thực với tốc độ suy luận nhanh hơn tới 8 lần so với các mô hình hiện có

Tích hợp chỉnh sửa văn bản-hình ảnh và hình ảnh-hình ảnh

FLUX.1 Kontext không chỉ xử lý một lần chỉnh sửa mà còn giữ được chất lượng và đặc điểm hình ảnh ngay cả với các chỉ dẫn lặp lại qua nhiều bước
Bằng cách liên tục sử dụng prompt và kết quả hình ảnh trước đó, người dùng có thể từng bước tiến tới kết quả mong muốn

Dòng mô hình FLUX.1 Kontext

FLUX.1 Kontext [pro]
- Mô hình chủ lực được tối ưu cho chỉnh sửa và tạo sinh lặp nhanh
- Nhận đồng thời văn bản và hình ảnh tham chiếu để thực hiện chỉnh sửa vùng mục tiêu và biến đổi cảnh phức tạp một cách nhanh chóng và nhất quán
FLUX.1 Kontext [max]
- Mô hình cấu hình cao nhất mang tính thử nghiệm, với khả năng hiểu prompt, typography và chỉnh sửa nhất quán tốc độ cao được cải thiện
FLUX.1 Kontext [dev]
- Mô hình tinh gọn (12B) cho mục đích nghiên cứu và tùy biến, được phát hành dưới dạng beta riêng tư
- Khi phát hành công khai, sẽ được cung cấp thông qua các đối tác hạ tầng AI lớn như FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace

Hỗ trợ và truy cập

Dòng FLUX.1 Kontext có thể sử dụng trên nhiều dịch vụ như KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI và các hạ tầng như FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
Thông qua FLUX Playground(https://playground.bfl.ai/) để trải nghiệm và demo theo thời gian thực, người dùng có thể dễ dàng kiểm chứng hiệu năng mô hình và xem kết quả mà không cần tích hợp riêng

Đánh giá hiệu năng

Trên benchmark nội bộ KontextBench, mô hình được đánh giá so sánh với các mô hình SOTA theo 6 tác vụ tạo và chỉnh sửa hình ảnh
Ghi nhận điểm số hàng đầu ngành ở các hạng mục chỉnh sửa văn bản và bảo toàn nhân vật
Tốc độ suy luận cũng đạt độ trễ thấp vượt trội so với các mô hình hiệu năng cao hàng đầu trước đó
Chứng minh năng lực cạnh tranh theo nhiều tiêu chí như độ hoàn thiện thẩm mỹ, khả năng hiểu prompt, typography và tính chân thực

Hạn chế và bài toán tiếp theo

Khi chỉnh sửa lặp nhiều bước (trên 6 lần), có thể xuất hiện nhiễu thị giác (artifact) làm giảm chất lượng hình ảnh
Đôi khi có trường hợp mô hình không tuân theo chính xác các chỉ dẫn chi tiết trong một số prompt cụ thể
Do còn hạn chế về tri thức thế giới và khả năng hiểu ngữ cảnh, mô hình có thể tạo ra hình ảnh không chính xác về mặt bối cảnh
Trong quá trình tinh gọn mô hình và distillation, chất lượng hình ảnh có thể bị suy giảm

Bất kỳ ai cũng có thể thử nghiệm mô hình theo thời gian thực trên FLUX Playground và kiểm chứng tính năng trước khi triển khai API
Xem báo cáo kỹ thuật đầy đủ (PDF)

1 bình luận

GN⁺ 2025-05-30

Ý kiến trên Hacker News

Tôi đã tự dùng thử và gặp hiện tượng “context slip” khá thú vị hình liên quan. Tôi tạo một ảnh con tàu vũ trụ hạ cánh xuống một hành tinh hẻo lánh bằng prompt sinh ảnh, rồi yêu cầu chỉnh sửa rằng “hãy làm con tàu nhiều màu sắc hơn và hiển thị lớn hơn trong ảnh”. Kết quả là con tàu vũ trụ biến thành một con tàu chở container. Vì lịch sử chat vẫn còn đó, lẽ ra nó phải hiểu tôi muốn tàu vũ trụ, nhưng lại bỏ lỡ ngữ cảnh quan trọng nên cho ra kết quả lệch hẳn
Tôi đang trực tiếp thử với endpoint FLUX Kontext Pro của Replicate. Cũng có ứng dụng Replicate minh họa nhiều cách dùng chỉnh sửa ảnh khác nhau của FLUX Kontext: FLUX Kontext Apps. Chất lượng ảnh, trong trường hợp image-to-image đơn giản, khá tương đương với mức tạo ảnh của GPT-4o. Tốc độ tạo cũng khá nhanh, khoảng 4 giây. Prompt engineering ngoài các ví dụ mẫu thì có cảm giác hơi khó, nhưng tôi nghĩ sẽ dần cải thiện. Việc đổi style hay các yêu cầu chi tiết vẫn áp dụng được, nhưng càng đưa chỉ thị cụ thể thì lại càng có xu hướng bỏ qua các yêu cầu chi tiết
- Nếu xét mức độ bảo toàn thuộc tính gốc, tôi thấy FLUX chính xác hơn 4o. Khi yêu cầu chỉ đổi lighting của một nhân vật động vật 3D có sẵn, 4o thường làm hỏng khuôn mặt nhân vật và đụng vào cơ thể hay các chi tiết khác, trong khi FLUX gần như giữ nguyên hình dạng nhìn thấy được một cách hoàn hảo ngay cả khi thay đổi lớn về tư thế hoặc ánh sáng
- Trong các thử nghiệm image-to-image, nó gây ấn tượng hơn GPT-4o. 4o bị ám ảnh khá nặng với tông màu sepia, nhất là khi chỉnh sửa lặp lại thì rất dễ nhận ra đó là kết quả của 4o. Trong khi đó, FLUX.1 Kontext Max thể hiện màu sắc rộng và đa dạng hơn nhiều, đồng thời bắt được cả những chi tiết nhỏ mà 4o dễ bỏ sót. Tôi vẫn chưa thử việc tạo ảnh mới hoàn toàn chỉ bằng prompt. Nhưng với việc chỉnh sửa ảnh có sẵn bằng prompt thì tôi có cảm giác FLUX vượt trội hẳn
- Tôi rất thích việc Replicate luôn cung cấp ngay các model mới nhất. Trong thời đại AI phát triển quá nhanh này, việc các model phiên bản nghiên cứu mới được triển khai ngay thành API và có thể dùng ở quy mô thực tế là rất ấn tượng. Có vẻ như các đơn vị triển khai như Replicate đang khuếch đại tác động của việc công bố các model này lên gấp nhiều lần
- Tôi tò mò không biết mốc khoảng 4 giây đó là dựa trên GPU và VRAM nào. Bạn đang nói tới UI của Huggingface à?
Một số sample có vẻ chỉ chọn những kết quả quá đẹp để trưng ra. Có ai đã thử app chụp headshot chuyên nghiệp trong “Kontext Apps” chưa? liên kết Kontext Apps. Tôi đưa vào vài tấm ảnh của mình nhưng lần nào nó cũng biến tôi thành một người hoàn toàn khác. Kết quả headshot cuối cùng thì đúng là trông rất chuyên nghiệp
- Tôi đã thử prompt headshot với một tấm selfie mệt mỏi trong phòng gym trên flux playground, và nó giữ lại hầu hết ngoại hình của tôi như cùng biểu cảm, mồ hôi, màu da v.v. Cảm giác như chỉ đổi nền thôi. Khi tôi mở rộng yêu cầu thành “hãy biến nó thành một headshot đẹp để dùng cho mạng xã hội, mỉm cười, tư thế đẹp và quần áo đẹp, làn da sạch không mồ hôi, v.v.” thì nó chỉ đổi quần áo và thêm một nụ cười khá gượng. Kết quả khá giống những gì thường thấy với loại ảnh này
- Tôi thắc mắc liệu tỷ lệ giữa ảnh đầu vào và đầu ra có giống nhau không. Nếu tỷ lệ bị ép đổi thì có vẻ sẽ sinh ra hiện tượng lạ
- Bảo toàn danh tính, đặc biệt là khuôn mặt, vẫn là bài toán mà chưa ai giải quyết hoàn hảo. Bàn tay cũng vậy, đó là một bài toán khoa học khó
Tôi đang cân nhắc có nên thêm model FLUX Kontext vào trang so sánh ảnh GenAI của mình không. Bản Max có điểm về độ bám prompt gần như cao gấp đôi, nhưng vẫn kém khá xa so với gpt-image-1 của OpenAI (chưa bàn tới chất lượng hình ảnh). gpt-image-1 đang đứng số 1 trên leaderboard. Tôi vẫn giữ Flux 1.D làm baseline cho năng lực GenAI chạy cục bộ. trang so sánh. Tôi cũng mới thêm model Image 2.0 của Hunyuan, nhưng đúng kiểu model thời gian thực nên điểm khá thấp. Nhân tiện, model này của Black Forest Labs có vẻ tập trung vào chỉnh sửa và tinh chỉnh lặp đi lặp lại trên ảnh có sẵn hơn là text-to-image
- Mong bạn thêm cả “Flux 1.1 Pro Ultra” vào site. Nó được đánh giá là mạnh nhất trong dòng này và bám prompt tốt hơn nhiều so với Flux Dev. Có lẽ nó sẽ là một trong những model mã nguồn mở tốt nhất để đem ra so sánh công bằng. Bản thân site cũng rất vui và các prompt cũng thú vị
- Đề xuất của tôi: kiểu prompt cảnh này thì từ trước đến nay chưa model nào làm cho ra hồn, dù gần đây chắc đã cải thiện nhiều…
```
A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
```
  Thật lạ là dù có đủ dữ liệu nhưng kết quả vẫn tệ như vậy. Đây là một cảnh khá mang tính biểu tượng
- Tôi đã yêu cầu thêm vào site rồi, đang theo dõi rất kỹ
Tôi thắc mắc liệu ảnh đầu vào có bị giới hạn chỉ một ảnh không. Tôi muốn thử đưa nhiều ảnh vào để làm các prompt phức hợp kiểu “đặt món đồ trong ảnh A vào trong ảnh B” hoặc “đưa nhân vật ở ảnh A vào phong cảnh của ảnh B”
- Có thể nhập nhiều ảnh trong chế độ “multi” thử nghiệm
- Bạn có thể thử giao diện multi-image trên Fal, và Replicate chắc cũng có lẽ hỗ trợ (tôi chưa xác nhận). Model này cực kỳ mạnh. Tuy chưa bằng gpt-image-1 nhưng đã rất sát rồi. Tôi nghĩ với ảnh và video, rào cản độc quyền giờ đã không còn. Trước đây có lo ngại Google hay OpenAI sẽ độc chiếm thị trường sáng tạo, nhưng giờ thì ai cũng có thể tự làm
Với những ai tò mò về bài báo kỹ thuật, xin chia sẻ báo cáo chính thức
- Phần triển khai trông khá đơn giản và tương tự các open model khác (HiDream-E1, ICEdit, DreamO, v.v.). Điểm khác biệt thực sự là khâu data curation, nhưng phần này trong bài chỉ được mô tả rất ngắn gọn
- Phần lớn mọi người thật ra không quan tâm đến chính bài báo, họ chỉ muốn tải model open-weight về và tự chạy. Chủ yếu là lấy về dùng, gần như không đóng góp gì
Nếu muốn tự chỉnh sửa và huấn luyện thứ này trên máy local thì cần mức độ chuyên môn nào? Tôi đã đào sâu suốt hai ngày để thử LoRa tuning với Flux 1 dev trên RTX 4090, Windows, mà vẫn chưa làm được ra hồn. Tôi muốn biết phải đào sâu tới mức nào, liệu rào cản vào có thấp không, người mới có làm được không hay chỉ dân nhiều kinh nghiệm mới vào nổi
- Model mã nguồn mở này vẫn chưa được phát hành, và chắc chắn sẽ không dễ hơn việc huấn luyện LoRA trên Flux 1 Dev
- Tôi khuyên dùng script SimpleTuner. Tôi đã có thể tự tune LoRa mà không cần biết nhiều về thư viện Python
- Thường có thể dễ dàng tìm thấy các bản cấu hình sẵn trên comfyui. Với các YouTuber thì đôi khi họ còn phát hành như phần thưởng hỗ trợ Patreon
- Nếu RTX 4090 + Windows không chạy ổn thì có lẽ vấn đề nằm ở hệ điều hành Windows. Hiệu năng thật sự thường phát huy trên Linux
Tôi không hiểu rõ ví dụ “remove from face”. Nếu không có ảnh khuôn mặt khác thì chẳng phải cuối cùng nó vẫn dùng một khuôn mặt điển hình nào đó sao?
- Nó không thực sự phục hồi thứ gì có thật, tất cả chỉ là ảnh được sinh ra thôi. Không có khuôn mặt thật nào ở đó cả
- Nếu nhìn kỹ ví dụ, khi một vật thể cụ thể che khuất một phần khuôn mặt thì model có thể suy luận và tái tạo lại
- Còn tùy model nền đang ở giai đoạn nào; một số model về danh tính có thể nội suy khuôn mặt khá tinh vi chỉ từ hình học cục bộ
- Có vẻ slideshow của ví dụ đầu tiên bị lỗi; bông tuyết che gần hết khuôn mặt
- Có lẽ họ dùng ảnh không thấy rõ mặt làm ví dụ vì nếu dùng ảnh thật thì model thường hay đổi luôn cả khuôn mặt
Có người hỏi liệu nó có tạo được ảnh cờ vua không liên kết dự đoán AI cờ vua
Có bình luận đoán xem bao giờ bản developer mở sẽ ra mắt, liệu trong vòng một tuần hay phải thêm một hai tháng nữa

FLUX.1 Kontext - Mô hình AI tạo sinh và chỉnh sửa theo thời gian thực kết hợp văn bản và hình ảnh

Giới thiệu FLUX.1 Kontext

Tính năng chính

Tích hợp chỉnh sửa văn bản-hình ảnh và hình ảnh-hình ảnh

Dòng mô hình FLUX.1 Kontext

Hỗ trợ và truy cập

Đánh giá hiệu năng

Hạn chế và bài toán tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News