FLUX.2 [klein]: Hướng tới trí tuệ thị giác tương tác

(bfl.ai)

5 điểm bởi GN⁺ 2026-01-19 | 2 bình luận | Chia sẻ qua WhatsApp

FLUX.2 [klein] là dòng mô hình tạo sinh thị giác siêu nhanh tích hợp cả tạo và chỉnh sửa ảnh, cung cấp tốc độ suy luận dưới 1 giây và tương thích với GPU tiêu dùng
Hỗ trợ tạo ảnh từ văn bản, chỉnh sửa ảnh và tạo sinh đa tham chiếu trong một kiến trúc duy nhất, đồng thời vẫn duy trì chất lượng ở mức mô hình lớn
Mô hình 9B được phát hành theo giấy phép FLUX NCL, còn mô hình 4B theo giấy phép Apache 2.0, giúp nhà phát triển dễ tiếp cận và tùy biến hơn
Các phiên bản lượng tử hóa FP8·NVFP4 được xây dựng cùng NVIDIA giúp giảm mức sử dụng VRAM tối đa 55% và tăng tốc độ lên tới 2,7 lần
Đây là một bước tiến hướng tới tầm nhìn “trí tuệ thị giác tương tác” với mục tiêu tạo sinh theo thời gian thực và tương tác, có thể ứng dụng vào các công cụ thiết kế và sản xuất nội dung thời gian thực

Tổng quan về FLUX.2 [klein]

FLUX.2 [klein] là dòng mô hình tạo ảnh nhanh nhất do Black Forest Labs công bố, hợp nhất việc tạo sinh và chỉnh sửa trong một cấu trúc duy nhất
- Tốc độ suy luận end-to-end dưới 1 giây, tạo ảnh chất lượng cao theo thời gian thực
- Có thể chạy chỉ với 13GB VRAM, nên vận hành được trên GPU như RTX 3090/4070
Tên mô hình ‘klein’ trong tiếng Đức có nghĩa là ‘nhỏ’, thể hiện cấu trúc gọn nhẹ và độ trễ thấp
- Tuy nhiên, hiệu năng vẫn sánh ngang các mô hình lớn, đồng thời hỗ trợ đầy đủ tạo ảnh từ văn bản, chỉnh sửa ảnh và tạo sinh đa tham chiếu

Đặc điểm chính

Có thể tạo hoặc chỉnh sửa ảnh với thời gian suy luận dưới 0,5 giây
Cung cấp độ chân thực ở cấp độ ảnh chụp và độ đa dạng cao
Cấu trúc mô hình hợp nhất cho phép xử lý văn bản-sang-ảnh, ảnh-sang-ảnh và đa tham chiếu trong một mô hình duy nhất
Tương thích với GPU tiêu dùng: mô hình 4B hoạt động với khoảng 13GB VRAM
Tăng cường tính thân thiện với nhà phát triển: mô hình 4B được phát hành theo Apache 2.0, mô hình 9B theo FLUX NCL
Cung cấp API và trọng số mở để hỗ trợ cả chạy cục bộ lẫn triển khai production

Cấu hình mô hình

FLUX.2 [klein] 9B

Mô hình chủ lực, định nghĩa sự cân bằng giữa chất lượng và độ trễ
- Trong các tác vụ tạo ảnh từ văn bản, chỉnh sửa với một tham chiếu và tạo sinh đa tham chiếu, đạt hiệu năng tương đương hoặc vượt mô hình lớn gấp 5 lần
- Tốc độ suy luận dưới 0,5 giây
- Dựa trên mô hình luồng 9B và bộ nhúng văn bản Qwen3 8B
- Cấu trúc suy luận 4 bước (step-distilled) để tối đa hiệu quả
Giấy phép: FLUX NCL

FLUX.2 [klein] 4B

Mô hình được công khai hoàn toàn theo giấy phép Apache 2.0
- Có thể chạy trên GPU tiêu dùng như RTX 3090/4070
- Hỗ trợ text-to-image (T2I), image-to-image (I2I) và tạo sinh đa tham chiếu
- Dù nhỏ gọn nhưng vẫn cho chất lượng cao so với kích thước
- Phù hợp với phát triển cục bộ và triển khai biên

FLUX.2 [klein] Base 9B / 4B

Phiên bản không chưng cất (full-capacity), giữ lại đầy đủ tín hiệu huấn luyện
- Phù hợp với fine-tuning, huấn luyện LoRA và pipeline nghiên cứu
- Có độ đa dạng đầu ra cao hơn phiên bản chưng cất
Giấy phép: 4B Base dùng Apache 2.0, 9B Base dùng FLUX NCL

Phiên bản lượng tử hóa

Công bố các phiên bản FP8 và NVFP4 hợp tác cùng NVIDIA
- FP8: nhanh hơn tối đa 1,6 lần và giảm 40% VRAM
- NVFP4: nhanh hơn tối đa 2,7 lần và giảm 55% VRAM
- Benchmark T2I 1024×1024 được thực hiện trên RTX 5080/5090
Giữ nguyên hệ thống giấy phép: 4B dùng Apache 2.0, 9B dùng FLUX NCL

Phân tích hiệu năng

FLUX.2 [klein] đạt chất lượng tương đương hoặc cao hơn Qwen với độ trễ và mức sử dụng VRAM thấp hơn
Cho hiệu năng vượt Z-Image, đồng thời hỗ trợ cả tạo ảnh từ văn bản và chỉnh sửa đa tham chiếu trong một mô hình duy nhất
Phiên bản Base chậm hơn đôi chút nhưng có khả năng tùy biến và mức độ phù hợp cho nghiên cứu cao hơn
Việc đo tốc độ được thực hiện trong môi trường GB200 (bf16)

Tầm nhìn về trí tuệ thị giác tương tác

FLUX.2 [klein] không chỉ đơn thuần là tăng tốc mà còn là bước tiến tới trí tuệ thị giác tương tác theo thời gian thực
Hướng tới một hệ thống AI có thể nhìn, sáng tạo và lặp lại
Qua đó mở ra các lĩnh vực ứng dụng mới như công cụ thiết kế thời gian thực, suy luận thị giác và sản xuất nội dung tương tác

Tài nguyên và đường truy cập

Trải nghiệm: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
Tài liệu phát triển: Tài liệu, GitHub, Trọng số mô hình
Thông tin thêm: Trang mô hình chính thức

2 bình luận

yangeok 2026-01-19

À, vậy thì chắc là không chạy được trên Mac rồi. Nó báo là No GPU or XPU found đó haha,,

GN⁺ 2026-01-19

Ý kiến trên Hacker News

Tôi vẫn chưa thêm Klein vào trang GenAI Showdown của mình
Nhưng nếu nó tương tự Z-Image Turbo thì có lẽ hiệu năng sẽ rất ấn tượng
Tham khảo thêm, Z-Image Turbo được 4 điểm trên thang 15 điểm, và xét việc Flux.2 (32b) lớn hơn nhiều chỉ cao hơn đúng 1 điểm thì điều này khá ấn tượng
Có thể xem kết quả so sánh các mô hình chạy cục bộ tại đây
- Trên di động có vấn đề là khi nhấn vào bong bóng thông tin thì nó biến mất ngay. Tôi đã yêu cầu sửa
- Tôi nghĩ cách kiểm thử có vấn đề. Các mô hình lớn có khả năng học tinh vi hơn nhiều và hiểu rõ hơn về render CGI
  Kiểm thử dựa trên dữ liệu có cấu trúc có thể tạo ra sự tự tin sai lầm. Giờ đây text-to-image đơn thuần không còn là benchmark tốt nữa
Thật đáng kinh ngạc khi các mô hình ngày càng nhỏ đi mà chất lượng và hiệu quả lại tăng lên
Z-Image Turbo thực sự rất ấn tượng, và tôi muốn sớm thử mô hình lần này
Có thể xem thread cũ liên quan ở đây
- Có vẻ các mô hình nhỏ cũng có lúc chạm tới điểm tới hạn
  Mô hình 100GB thì khó tải xuống và chạy, nhưng mô hình 4GB thì phần lớn lập trình viên có thể thử ngay
- Chất lượng đang tốt lên, nhưng mô hình nhỏ vẫn thiếu lượng kiến thức so với các mô hình lớn (Qwen Image, Flux 2 Full)
  Đặc biệt khác biệt lớn ở việc thể hiện con người, nghệ sĩ và các vật thể cụ thể
- Tôi tò mò liệu có tồn tại số lượng tham số tối thiểu cần thiết cho một mức chất lượng đầu ra nhất định hay không
  Sau GPT 3.5, Deepseek đã huấn luyện với chi phí thấp hơn nhiều, và giờ đây ngay cả laptop cũng có thể chạy mô hình vượt 3.5. Không rõ còn có thể thu nhỏ đến mức nào
Mô hình này không thể tạo ảnh pogo stick
Tôi đã thử tạo ảnh “một con hổ nhảy trên pogo stick”, nhưng ngay cả bản thân pogo stick cũng không tạo ra được
- Ngay cả khi đưa ảnh ly rượu vang rỗng và yêu cầu đổ đầy rượu, nó vẫn thất bại
  Những thao tác vật lý như thế này mô hình vẫn chưa làm được, nên các nghề liên quan có lẽ vẫn an toàn thêm một thời gian nữa
- Đây là bài kiểm thử khó đối với mô hình cục bộ. gpt-image và NB không gặp vấn đề, nhưng chỉ Qwen-Image cho ra kết quả gần đúng
  Có thể xem mẫu từ nhiều mô hình tại đây
  Các mô hình nhỏ cần prompt bổ sung để thể hiện một vật thể cụ thể như “pogo stick”
- Ngay cả khi cho ảnh tham chiếu thì nó vẫn thất bại.
  Nếu mô hình có đủ năng lực suy luận, lẽ ra nó có thể bù đắp kiến thức thông qua ảnh tham chiếu bên ngoài, nhưng hiện tại vẫn chưa đủ
- Đây là một prompt benchmark hay. Z-Image Turbo cũng vẽ pogo stick không tốt
  Ví dụ con hổ, đây không phải pogo stick, ví dụ Nano Banana Pro
FLUX.2 [klein] 4B là phiên bản nhanh nhất trong họ Klein, được nói là thiết kế cho xem trước thời gian thực hoặc môi trường production nơi độ trễ là yếu tố quan trọng
Tôi tò mò những tình huống nào thuộc kiểu môi trường đó
- Khi dùng mô hình cục bộ, tôi không muốn phải chờ 10 phút để tạo ra một ảnh
  Đặc biệt trong các tác vụ chỉnh sửa ảnh, tốc độ rất quan trọng
- Có lẽ nó sẽ phù hợp để chỉnh sửa ảnh nhanh
Lúc đầu tôi tưởng đang nói về ứng dụng F.lux đổi màn hình sang tông cam vào ban đêm
Giờ thì tính năng đó đã có sẵn mặc định trong mọi OS nên không còn cần nữa
Nếu xem các mô hình GenAI như hiện thực nén, thì văn bản được nén tốt nhưng hình ảnh và video thì không như vậy
Thế nhưng các mô hình text-to-image và text-to-video hiện đại lại nhỏ hơn rất nhiều so với các LLM như Llama-3
Điều này có thể là vì chúng ta mới chỉ học phần vùng hẹp lấy con người làm trung tâm của thế giới thị giác. Vẫn còn rất nhiều không gian tổ hợp thị giác chưa được khám phá
- Văn bản có thể được nén không mất dữ liệu, nhưng ảnh và video có nhiều nhiễu, nên so sánh đơn giản là không công bằng
  Nếu là nén mất dữ liệu mà con người không phân biệt được, thì phía hình ảnh thậm chí có thể hiệu quả hơn
- Thực tế thì ảnh và video được nén tốt hơn văn bản rất nhiều
  Văn bản thường ở mức 4:1~6:1, còn ảnh thì trên 10:1 vẫn gần như không mất mát về mặt thị giác, và video còn hiệu quả hơn nhờ tính nhất quán theo thời gian
- Tôi cho rằng LLM vẫn còn rất nhiều dư địa cải thiện hiệu quả
  Đồng thời cũng không nên đánh giá thấp lượng tri thức meta mà LLM đang hàm chứa một cách ngầm định
Có ai đã thử Flux 2 Klein chưa
Giờ tôi không còn chạy theo mô hình mới nữa, mà đang xây dựng toàn bộ ứng dụng chỉ với Nano Banana Pro
Kết quả đủ làm tôi hài lòng
picxstudio.com
Tôi đã dùng Flux 1 rất vui và hiện giờ đang nghịch với Z-Image Turbo
Khi Flux2 Klein được thêm vào Invoke thì tôi sẽ thử
- Đồng ý. Trải nghiệm dùng ZIT trong Invoke rất tuyệt
Tôi tò mò khả năng tương tác của nó thế nào khi so với các phiên bản GPT
Tôi thích việc đây là phiên bản nhỏ nhưng vẫn được phát hành dưới dạng mã nguồn mở
Điều đó mở ra nhiều cơ hội vì có thể chạy mà không cần ngân sách khổng lồ
Cải thiện về tốc độ cũng khá ấn tượng

FLUX.2 [klein]: Hướng tới trí tuệ thị giác tương tác

Tổng quan về FLUX.2 [klein]

Đặc điểm chính

Cấu hình mô hình

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

Phiên bản lượng tử hóa

Phân tích hiệu năng

Tầm nhìn về trí tuệ thị giác tương tác

Tài nguyên và đường truy cập

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News