- FLUX.2 [klein] là dòng mô hình tạo sinh thị giác siêu nhanh tích hợp cả tạo và chỉnh sửa ảnh, cung cấp tốc độ suy luận dưới 1 giây và tương thích với GPU tiêu dùng
- Hỗ trợ tạo ảnh từ văn bản, chỉnh sửa ảnh và tạo sinh đa tham chiếu trong một kiến trúc duy nhất, đồng thời vẫn duy trì chất lượng ở mức mô hình lớn
- Mô hình 9B được phát hành theo giấy phép FLUX NCL, còn mô hình 4B theo giấy phép Apache 2.0, giúp nhà phát triển dễ tiếp cận và tùy biến hơn
- Các phiên bản lượng tử hóa FP8·NVFP4 được xây dựng cùng NVIDIA giúp giảm mức sử dụng VRAM tối đa 55% và tăng tốc độ lên tới 2,7 lần
- Đây là một bước tiến hướng tới tầm nhìn “trí tuệ thị giác tương tác” với mục tiêu tạo sinh theo thời gian thực và tương tác, có thể ứng dụng vào các công cụ thiết kế và sản xuất nội dung thời gian thực
Tổng quan về FLUX.2 [klein]
- FLUX.2 [klein] là dòng mô hình tạo ảnh nhanh nhất do Black Forest Labs công bố, hợp nhất việc tạo sinh và chỉnh sửa trong một cấu trúc duy nhất
- Tốc độ suy luận end-to-end dưới 1 giây, tạo ảnh chất lượng cao theo thời gian thực
- Có thể chạy chỉ với 13GB VRAM, nên vận hành được trên GPU như RTX 3090/4070
- Tên mô hình ‘klein’ trong tiếng Đức có nghĩa là ‘nhỏ’, thể hiện cấu trúc gọn nhẹ và độ trễ thấp
- Tuy nhiên, hiệu năng vẫn sánh ngang các mô hình lớn, đồng thời hỗ trợ đầy đủ tạo ảnh từ văn bản, chỉnh sửa ảnh và tạo sinh đa tham chiếu
Đặc điểm chính
- Có thể tạo hoặc chỉnh sửa ảnh với thời gian suy luận dưới 0,5 giây
- Cung cấp độ chân thực ở cấp độ ảnh chụp và độ đa dạng cao
- Cấu trúc mô hình hợp nhất cho phép xử lý văn bản-sang-ảnh, ảnh-sang-ảnh và đa tham chiếu trong một mô hình duy nhất
- Tương thích với GPU tiêu dùng: mô hình 4B hoạt động với khoảng 13GB VRAM
- Tăng cường tính thân thiện với nhà phát triển: mô hình 4B được phát hành theo Apache 2.0, mô hình 9B theo FLUX NCL
- Cung cấp API và trọng số mở để hỗ trợ cả chạy cục bộ lẫn triển khai production
Cấu hình mô hình
FLUX.2 [klein] 9B
- Mô hình chủ lực, định nghĩa sự cân bằng giữa chất lượng và độ trễ
- Trong các tác vụ tạo ảnh từ văn bản, chỉnh sửa với một tham chiếu và tạo sinh đa tham chiếu, đạt hiệu năng tương đương hoặc vượt mô hình lớn gấp 5 lần
- Tốc độ suy luận dưới 0,5 giây
- Dựa trên mô hình luồng 9B và bộ nhúng văn bản Qwen3 8B
- Cấu trúc suy luận 4 bước (step-distilled) để tối đa hiệu quả
- Giấy phép: FLUX NCL
FLUX.2 [klein] 4B
- Mô hình được công khai hoàn toàn theo giấy phép Apache 2.0
- Có thể chạy trên GPU tiêu dùng như RTX 3090/4070
- Hỗ trợ text-to-image (T2I), image-to-image (I2I) và tạo sinh đa tham chiếu
- Dù nhỏ gọn nhưng vẫn cho chất lượng cao so với kích thước
- Phù hợp với phát triển cục bộ và triển khai biên
FLUX.2 [klein] Base 9B / 4B
- Phiên bản không chưng cất (full-capacity), giữ lại đầy đủ tín hiệu huấn luyện
- Phù hợp với fine-tuning, huấn luyện LoRA và pipeline nghiên cứu
- Có độ đa dạng đầu ra cao hơn phiên bản chưng cất
- Giấy phép: 4B Base dùng Apache 2.0, 9B Base dùng FLUX NCL
Phiên bản lượng tử hóa
- Công bố các phiên bản FP8 và NVFP4 hợp tác cùng NVIDIA
- FP8: nhanh hơn tối đa 1,6 lần và giảm 40% VRAM
- NVFP4: nhanh hơn tối đa 2,7 lần và giảm 55% VRAM
- Benchmark T2I 1024×1024 được thực hiện trên RTX 5080/5090
- Giữ nguyên hệ thống giấy phép: 4B dùng Apache 2.0, 9B dùng FLUX NCL
Phân tích hiệu năng
- FLUX.2 [klein] đạt chất lượng tương đương hoặc cao hơn Qwen với độ trễ và mức sử dụng VRAM thấp hơn
- Cho hiệu năng vượt Z-Image, đồng thời hỗ trợ cả tạo ảnh từ văn bản và chỉnh sửa đa tham chiếu trong một mô hình duy nhất
- Phiên bản Base chậm hơn đôi chút nhưng có khả năng tùy biến và mức độ phù hợp cho nghiên cứu cao hơn
- Việc đo tốc độ được thực hiện trong môi trường GB200 (bf16)
Tầm nhìn về trí tuệ thị giác tương tác
- FLUX.2 [klein] không chỉ đơn thuần là tăng tốc mà còn là bước tiến tới trí tuệ thị giác tương tác theo thời gian thực
- Hướng tới một hệ thống AI có thể nhìn, sáng tạo và lặp lại
- Qua đó mở ra các lĩnh vực ứng dụng mới như công cụ thiết kế thời gian thực, suy luận thị giác và sản xuất nội dung tương tác
Tài nguyên và đường truy cập
2 bình luận
À, vậy thì chắc là không chạy được trên Mac rồi. Nó báo là No GPU or XPU found đó haha,,
Ý kiến trên Hacker News
Tôi vẫn chưa thêm Klein vào trang GenAI Showdown của mình
Nhưng nếu nó tương tự Z-Image Turbo thì có lẽ hiệu năng sẽ rất ấn tượng
Tham khảo thêm, Z-Image Turbo được 4 điểm trên thang 15 điểm, và xét việc Flux.2 (32b) lớn hơn nhiều chỉ cao hơn đúng 1 điểm thì điều này khá ấn tượng
Có thể xem kết quả so sánh các mô hình chạy cục bộ tại đây
Kiểm thử dựa trên dữ liệu có cấu trúc có thể tạo ra sự tự tin sai lầm. Giờ đây text-to-image đơn thuần không còn là benchmark tốt nữa
Thật đáng kinh ngạc khi các mô hình ngày càng nhỏ đi mà chất lượng và hiệu quả lại tăng lên
Z-Image Turbo thực sự rất ấn tượng, và tôi muốn sớm thử mô hình lần này
Có thể xem thread cũ liên quan ở đây
Mô hình 100GB thì khó tải xuống và chạy, nhưng mô hình 4GB thì phần lớn lập trình viên có thể thử ngay
Đặc biệt khác biệt lớn ở việc thể hiện con người, nghệ sĩ và các vật thể cụ thể
Sau GPT 3.5, Deepseek đã huấn luyện với chi phí thấp hơn nhiều, và giờ đây ngay cả laptop cũng có thể chạy mô hình vượt 3.5. Không rõ còn có thể thu nhỏ đến mức nào
Mô hình này không thể tạo ảnh pogo stick
Tôi đã thử tạo ảnh “một con hổ nhảy trên pogo stick”, nhưng ngay cả bản thân pogo stick cũng không tạo ra được
Những thao tác vật lý như thế này mô hình vẫn chưa làm được, nên các nghề liên quan có lẽ vẫn an toàn thêm một thời gian nữa
Có thể xem mẫu từ nhiều mô hình tại đây
Các mô hình nhỏ cần prompt bổ sung để thể hiện một vật thể cụ thể như “pogo stick”
Nếu mô hình có đủ năng lực suy luận, lẽ ra nó có thể bù đắp kiến thức thông qua ảnh tham chiếu bên ngoài, nhưng hiện tại vẫn chưa đủ
Ví dụ con hổ, đây không phải pogo stick, ví dụ Nano Banana Pro
FLUX.2 [klein] 4B là phiên bản nhanh nhất trong họ Klein, được nói là thiết kế cho xem trước thời gian thực hoặc môi trường production nơi độ trễ là yếu tố quan trọng
Tôi tò mò những tình huống nào thuộc kiểu môi trường đó
Đặc biệt trong các tác vụ chỉnh sửa ảnh, tốc độ rất quan trọng
Lúc đầu tôi tưởng đang nói về ứng dụng F.lux đổi màn hình sang tông cam vào ban đêm
Giờ thì tính năng đó đã có sẵn mặc định trong mọi OS nên không còn cần nữa
Nếu xem các mô hình GenAI như hiện thực nén, thì văn bản được nén tốt nhưng hình ảnh và video thì không như vậy
Thế nhưng các mô hình text-to-image và text-to-video hiện đại lại nhỏ hơn rất nhiều so với các LLM như Llama-3
Điều này có thể là vì chúng ta mới chỉ học phần vùng hẹp lấy con người làm trung tâm của thế giới thị giác. Vẫn còn rất nhiều không gian tổ hợp thị giác chưa được khám phá
Nếu là nén mất dữ liệu mà con người không phân biệt được, thì phía hình ảnh thậm chí có thể hiệu quả hơn
Văn bản thường ở mức 4:1~6:1, còn ảnh thì trên 10:1 vẫn gần như không mất mát về mặt thị giác, và video còn hiệu quả hơn nhờ tính nhất quán theo thời gian
Đồng thời cũng không nên đánh giá thấp lượng tri thức meta mà LLM đang hàm chứa một cách ngầm định
Có ai đã thử Flux 2 Klein chưa
Giờ tôi không còn chạy theo mô hình mới nữa, mà đang xây dựng toàn bộ ứng dụng chỉ với Nano Banana Pro
Kết quả đủ làm tôi hài lòng
picxstudio.com
Tôi đã dùng Flux 1 rất vui và hiện giờ đang nghịch với Z-Image Turbo
Khi Flux2 Klein được thêm vào Invoke thì tôi sẽ thử
Tôi tò mò khả năng tương tác của nó thế nào khi so với các phiên bản GPT
Tôi thích việc đây là phiên bản nhỏ nhưng vẫn được phát hành dưới dạng mã nguồn mở
Điều đó mở ra nhiều cơ hội vì có thể chạy mà không cần ngân sách khổng lồ
Cải thiện về tốc độ cũng khá ấn tượng