5 điểm bởi GN⁺ 2026-01-19 | 2 bình luận | Chia sẻ qua WhatsApp
  • FLUX.2 [klein]dòng mô hình tạo sinh thị giác siêu nhanh tích hợp cả tạo và chỉnh sửa ảnh, cung cấp tốc độ suy luận dưới 1 giây và tương thích với GPU tiêu dùng
  • Hỗ trợ tạo ảnh từ văn bản, chỉnh sửa ảnh và tạo sinh đa tham chiếu trong một kiến trúc duy nhất, đồng thời vẫn duy trì chất lượng ở mức mô hình lớn
  • Mô hình 9B được phát hành theo giấy phép FLUX NCL, còn mô hình 4B theo giấy phép Apache 2.0, giúp nhà phát triển dễ tiếp cận và tùy biến hơn
  • Các phiên bản lượng tử hóa FP8·NVFP4 được xây dựng cùng NVIDIA giúp giảm mức sử dụng VRAM tối đa 55% và tăng tốc độ lên tới 2,7 lần
  • Đây là một bước tiến hướng tới tầm nhìn “trí tuệ thị giác tương tác” với mục tiêu tạo sinh theo thời gian thực và tương tác, có thể ứng dụng vào các công cụ thiết kế và sản xuất nội dung thời gian thực

Tổng quan về FLUX.2 [klein]

  • FLUX.2 [klein] là dòng mô hình tạo ảnh nhanh nhất do Black Forest Labs công bố, hợp nhất việc tạo sinh và chỉnh sửa trong một cấu trúc duy nhất
    • Tốc độ suy luận end-to-end dưới 1 giây, tạo ảnh chất lượng cao theo thời gian thực
    • Có thể chạy chỉ với 13GB VRAM, nên vận hành được trên GPU như RTX 3090/4070
  • Tên mô hình ‘klein’ trong tiếng Đức có nghĩa là ‘nhỏ’, thể hiện cấu trúc gọn nhẹ và độ trễ thấp
    • Tuy nhiên, hiệu năng vẫn sánh ngang các mô hình lớn, đồng thời hỗ trợ đầy đủ tạo ảnh từ văn bản, chỉnh sửa ảnh và tạo sinh đa tham chiếu

Đặc điểm chính

  • Có thể tạo hoặc chỉnh sửa ảnh với thời gian suy luận dưới 0,5 giây
  • Cung cấp độ chân thực ở cấp độ ảnh chụp và độ đa dạng cao
  • Cấu trúc mô hình hợp nhất cho phép xử lý văn bản-sang-ảnh, ảnh-sang-ảnh và đa tham chiếu trong một mô hình duy nhất
  • Tương thích với GPU tiêu dùng: mô hình 4B hoạt động với khoảng 13GB VRAM
  • Tăng cường tính thân thiện với nhà phát triển: mô hình 4B được phát hành theo Apache 2.0, mô hình 9B theo FLUX NCL
  • Cung cấp API và trọng số mở để hỗ trợ cả chạy cục bộ lẫn triển khai production

Cấu hình mô hình

FLUX.2 [klein] 9B

  • Mô hình chủ lực, định nghĩa sự cân bằng giữa chất lượng và độ trễ
    • Trong các tác vụ tạo ảnh từ văn bản, chỉnh sửa với một tham chiếu và tạo sinh đa tham chiếu, đạt hiệu năng tương đương hoặc vượt mô hình lớn gấp 5 lần
    • Tốc độ suy luận dưới 0,5 giây
    • Dựa trên mô hình luồng 9Bbộ nhúng văn bản Qwen3 8B
    • Cấu trúc suy luận 4 bước (step-distilled) để tối đa hiệu quả
  • Giấy phép: FLUX NCL

FLUX.2 [klein] 4B

  • Mô hình được công khai hoàn toàn theo giấy phép Apache 2.0
    • Có thể chạy trên GPU tiêu dùng như RTX 3090/4070
    • Hỗ trợ text-to-image (T2I), image-to-image (I2I)tạo sinh đa tham chiếu
    • Dù nhỏ gọn nhưng vẫn cho chất lượng cao so với kích thước
    • Phù hợp với phát triển cục bộ và triển khai biên

FLUX.2 [klein] Base 9B / 4B

  • Phiên bản không chưng cất (full-capacity), giữ lại đầy đủ tín hiệu huấn luyện
    • Phù hợp với fine-tuning, huấn luyện LoRA và pipeline nghiên cứu
    • độ đa dạng đầu ra cao hơn phiên bản chưng cất
  • Giấy phép: 4B Base dùng Apache 2.0, 9B Base dùng FLUX NCL

Phiên bản lượng tử hóa

  • Công bố các phiên bản FP8NVFP4 hợp tác cùng NVIDIA
    • FP8: nhanh hơn tối đa 1,6 lần và giảm 40% VRAM
    • NVFP4: nhanh hơn tối đa 2,7 lần và giảm 55% VRAM
    • Benchmark T2I 1024×1024 được thực hiện trên RTX 5080/5090
  • Giữ nguyên hệ thống giấy phép: 4B dùng Apache 2.0, 9B dùng FLUX NCL

Phân tích hiệu năng

  • FLUX.2 [klein] đạt chất lượng tương đương hoặc cao hơn Qwen với độ trễ và mức sử dụng VRAM thấp hơn
  • Cho hiệu năng vượt Z-Image, đồng thời hỗ trợ cả tạo ảnh từ văn bản và chỉnh sửa đa tham chiếu trong một mô hình duy nhất
  • Phiên bản Base chậm hơn đôi chút nhưng có khả năng tùy biến và mức độ phù hợp cho nghiên cứu cao hơn
  • Việc đo tốc độ được thực hiện trong môi trường GB200 (bf16)

Tầm nhìn về trí tuệ thị giác tương tác

  • FLUX.2 [klein] không chỉ đơn thuần là tăng tốc mà còn là bước tiến tới trí tuệ thị giác tương tác theo thời gian thực
  • Hướng tới một hệ thống AI có thể nhìn, sáng tạo và lặp lại
  • Qua đó mở ra các lĩnh vực ứng dụng mới như công cụ thiết kế thời gian thực, suy luận thị giác và sản xuất nội dung tương tác

Tài nguyên và đường truy cập


2 bình luận

 
yangeok 2026-01-19

À, vậy thì chắc là không chạy được trên Mac rồi. Nó báo là No GPU or XPU found đó haha,,

 
GN⁺ 2026-01-19
Ý kiến trên Hacker News
  • Tôi vẫn chưa thêm Klein vào trang GenAI Showdown của mình
    Nhưng nếu nó tương tự Z-Image Turbo thì có lẽ hiệu năng sẽ rất ấn tượng
    Tham khảo thêm, Z-Image Turbo được 4 điểm trên thang 15 điểm, và xét việc Flux.2 (32b) lớn hơn nhiều chỉ cao hơn đúng 1 điểm thì điều này khá ấn tượng
    Có thể xem kết quả so sánh các mô hình chạy cục bộ tại đây

    • Trên di động có vấn đề là khi nhấn vào bong bóng thông tin thì nó biến mất ngay. Tôi đã yêu cầu sửa
    • Tôi nghĩ cách kiểm thử có vấn đề. Các mô hình lớn có khả năng học tinh vi hơn nhiều và hiểu rõ hơn về render CGI
      Kiểm thử dựa trên dữ liệu có cấu trúc có thể tạo ra sự tự tin sai lầm. Giờ đây text-to-image đơn thuần không còn là benchmark tốt nữa
  • Thật đáng kinh ngạc khi các mô hình ngày càng nhỏ đi mà chất lượng và hiệu quả lại tăng lên
    Z-Image Turbo thực sự rất ấn tượng, và tôi muốn sớm thử mô hình lần này
    Có thể xem thread cũ liên quan ở đây

    • Có vẻ các mô hình nhỏ cũng có lúc chạm tới điểm tới hạn
      Mô hình 100GB thì khó tải xuống và chạy, nhưng mô hình 4GB thì phần lớn lập trình viên có thể thử ngay
    • Chất lượng đang tốt lên, nhưng mô hình nhỏ vẫn thiếu lượng kiến thức so với các mô hình lớn (Qwen Image, Flux 2 Full)
      Đặc biệt khác biệt lớn ở việc thể hiện con người, nghệ sĩ và các vật thể cụ thể
    • Tôi tò mò liệu có tồn tại số lượng tham số tối thiểu cần thiết cho một mức chất lượng đầu ra nhất định hay không
      Sau GPT 3.5, Deepseek đã huấn luyện với chi phí thấp hơn nhiều, và giờ đây ngay cả laptop cũng có thể chạy mô hình vượt 3.5. Không rõ còn có thể thu nhỏ đến mức nào
  • Mô hình này không thể tạo ảnh pogo stick
    Tôi đã thử tạo ảnh “một con hổ nhảy trên pogo stick”, nhưng ngay cả bản thân pogo stick cũng không tạo ra được

    • Ngay cả khi đưa ảnh ly rượu vang rỗng và yêu cầu đổ đầy rượu, nó vẫn thất bại
      Những thao tác vật lý như thế này mô hình vẫn chưa làm được, nên các nghề liên quan có lẽ vẫn an toàn thêm một thời gian nữa
    • Đây là bài kiểm thử khó đối với mô hình cục bộ. gpt-image và NB không gặp vấn đề, nhưng chỉ Qwen-Image cho ra kết quả gần đúng
      Có thể xem mẫu từ nhiều mô hình tại đây
      Các mô hình nhỏ cần prompt bổ sung để thể hiện một vật thể cụ thể như “pogo stick”
    • Ngay cả khi cho ảnh tham chiếu thì nó vẫn thất bại.
      Nếu mô hình có đủ năng lực suy luận, lẽ ra nó có thể bù đắp kiến thức thông qua ảnh tham chiếu bên ngoài, nhưng hiện tại vẫn chưa đủ
    • Đây là một prompt benchmark hay. Z-Image Turbo cũng vẽ pogo stick không tốt
      Ví dụ con hổ, đây không phải pogo stick, ví dụ Nano Banana Pro
  • FLUX.2 [klein] 4B là phiên bản nhanh nhất trong họ Klein, được nói là thiết kế cho xem trước thời gian thực hoặc môi trường production nơi độ trễ là yếu tố quan trọng
    Tôi tò mò những tình huống nào thuộc kiểu môi trường đó

    • Khi dùng mô hình cục bộ, tôi không muốn phải chờ 10 phút để tạo ra một ảnh
      Đặc biệt trong các tác vụ chỉnh sửa ảnh, tốc độ rất quan trọng
    • Có lẽ nó sẽ phù hợp để chỉnh sửa ảnh nhanh
  • Lúc đầu tôi tưởng đang nói về ứng dụng F.lux đổi màn hình sang tông cam vào ban đêm
    Giờ thì tính năng đó đã có sẵn mặc định trong mọi OS nên không còn cần nữa

  • Nếu xem các mô hình GenAI như hiện thực nén, thì văn bản được nén tốt nhưng hình ảnh và video thì không như vậy
    Thế nhưng các mô hình text-to-image và text-to-video hiện đại lại nhỏ hơn rất nhiều so với các LLM như Llama-3
    Điều này có thể là vì chúng ta mới chỉ học phần vùng hẹp lấy con người làm trung tâm của thế giới thị giác. Vẫn còn rất nhiều không gian tổ hợp thị giác chưa được khám phá

    • Văn bản có thể được nén không mất dữ liệu, nhưng ảnh và video có nhiều nhiễu, nên so sánh đơn giản là không công bằng
      Nếu là nén mất dữ liệu mà con người không phân biệt được, thì phía hình ảnh thậm chí có thể hiệu quả hơn
    • Thực tế thì ảnh và video được nén tốt hơn văn bản rất nhiều
      Văn bản thường ở mức 4:1~6:1, còn ảnh thì trên 10:1 vẫn gần như không mất mát về mặt thị giác, và video còn hiệu quả hơn nhờ tính nhất quán theo thời gian
    • Tôi cho rằng LLM vẫn còn rất nhiều dư địa cải thiện hiệu quả
      Đồng thời cũng không nên đánh giá thấp lượng tri thức meta mà LLM đang hàm chứa một cách ngầm định
  • Có ai đã thử Flux 2 Klein chưa
    Giờ tôi không còn chạy theo mô hình mới nữa, mà đang xây dựng toàn bộ ứng dụng chỉ với Nano Banana Pro
    Kết quả đủ làm tôi hài lòng
    picxstudio.com

  • Tôi đã dùng Flux 1 rất vui và hiện giờ đang nghịch với Z-Image Turbo
    Khi Flux2 Klein được thêm vào Invoke thì tôi sẽ thử

    • Đồng ý. Trải nghiệm dùng ZIT trong Invoke rất tuyệt
  • Tôi tò mò khả năng tương tác của nó thế nào khi so với các phiên bản GPT

  • Tôi thích việc đây là phiên bản nhỏ nhưng vẫn được phát hành dưới dạng mã nguồn mở
    Điều đó mở ra nhiều cơ hội vì có thể chạy mà không cần ngân sách khổng lồ
    Cải thiện về tốc độ cũng khá ấn tượng