Bonsai Image 4B - Mô hình tạo ảnh 1-bit/ternary cho thiết bị cục bộ

(prismml.com)

3 điểm bởi GN⁺ 2026-06-01 | 1 bình luận | Chia sẻ qua WhatsApp

Dòng mô hình tạo ảnh nhỏ gọn được thiết kế để chạy suy luận khuếch tán chất lượng cao trên phần cứng cục bộ như laptop và điện thoại
Giữ nguyên kiến trúc FLUX.2 Klein 4B nhưng chuyển trọng số diffusion transformer sang biểu diễn 1-bit hoặc ternary
Kích thước diffusion transformer giảm từ 7.75GB ban đầu xuống 0.93GB với bản 1-bit và 1.21GB với bản ternary, giúp giảm gánh nặng ngân sách bộ nhớ
Tạo ảnh 512×512 trên iPhone 17 Pro Max trong 9.4 giây, và trên Mac M4 Pro trong khoảng 6 giây, nhanh hơn tối đa 5.6 lần so với MFLUX
Bản ternary giữ được 95% hiệu năng so với FLUX.2 Klein 4B, và cả hai biến thể sẽ được phát hành với open weights và mã nguồn theo Apache 2.0

Bonsai Image 4B cho tạo ảnh cục bộ

Bonsai Image 4B là dòng mô hình tạo ảnh nhỏ gọn được thiết kế để chạy suy luận khuếch tán chất lượng cao trên phần cứng cục bộ, từ laptop đến điện thoại
Dựa trên FLUX.2 Klein 4B, giữ nguyên kiến trúc nhưng chuyển trọng số diffusion transformer sang dạng 1-bit hoặc ternary
- 1-bit Bonsai Image 4B sử dụng trọng số transformer nhị phân {−1, +1} và hệ số scale theo nhóm ở FP16, cung cấp 1.125 bit hiệu dụng cho mỗi trọng số
- Ternary Bonsai Image 4B sử dụng trọng số transformer {−1, 0, +1} và hệ số scale theo nhóm ở FP16, cung cấp 1.71 bit hiệu dụng cho mỗi trọng số
Biến thể ternary lớn hơn bản 1-bit, nhưng trạng thái 0 bổ sung giúp cải thiện chất lượng hình ảnh và độ bám sát prompt
Với open weights và suy luận cục bộ, Bonsai Image 4B hướng tới hình thức triển khai cho phép tạo ảnh trên cả những thiết bị trước đây khó chạy được các mô hình cùng hạng này
Theo PrismML, Bonsai Image 4B là mô hình đầu tiên chạy trực tiếp trên iPhone trong nhóm mô hình ảnh cùng cấp tham số

Giảm bộ nhớ cho chạy cục bộ

Ràng buộc cốt lõi của tạo ảnh cục bộ là mô hình phải nằm trong ngân sách bộ nhớ của thiết bị
Ở mô hình ảnh cỡ 4B, diffusion transformer là phần lớn nhất của mô hình và được chạy lặp lại ở mỗi bước khử nhiễu trong quá trình tạo ảnh
Kích thước transformer ảnh hưởng trực tiếp đến áp lực bộ nhớ, nhu cầu băng thông và tốc độ suy luận cục bộ
Diffusion transformer của FLUX.2 Klein 4B là 7.75GB, trong khi 1-bit Bonsai Image 4B là 0.93GB và Ternary Bonsai Image 4B là 1.21GB
Biến thể 1-bit nhỏ hơn 8.3 lần so với FLUX.2 Klein 4B đầy đủ độ chính xác, còn biến thể ternary nhỏ hơn 6.4 lần
Bản thân các lớp nhị phân giảm khoảng 14 lần so với trọng số transformer đầy đủ độ chính xác, nhưng khoảng 5% projection layer nhạy với độ chính xác vẫn được giữ ở FP16
Các lớp ternary mang lại mức giảm khoảng 10 lần, đưa kích thước transformer cuối cùng xuống 1.21GB

Payload triển khai và bộ nhớ runtime

Payload triển khai trên Apple Silicon, bao gồm text encoder đã nén và VAE FP16, có kích thước 3.42GB với bản 1-bit và 3.88GB với bản ternary
Payload triển khai của FLUX.2 Klein 4B đầy đủ độ chính xác là 15.97GB
Khi chạy runtime, text encoder được offload sau khi mã hóa prompt, nên mức dùng bộ nhớ trung bình thấp hơn tổng payload
Khi tạo ảnh 512×512, bộ nhớ hoạt động trung bình là 1.5GB với bản 1-bit, 1.96GB với bản ternary, và 11.74GB với FLUX.2 Klein 4B gốc
Theo mốc 512×512, mức giảm bộ nhớ là 7.8 lần với bản 1-bit và 6.0 lần với bản ternary
Khi tạo ảnh 1024×1024, bộ nhớ hoạt động trung bình là 1.95GB với bản 1-bit, 2.38GB với bản ternary, và 14.39GB với FLUX.2 Klein 4B gốc
Theo mốc 1024×1024, mức giảm bộ nhớ là 7.4 lần với bản 1-bit và 6.0 lần với bản ternary

Phần cứng hỗ trợ và hiệu năng chạy

Stack triển khai hỗ trợ iPhone, iPad, Mac dùng Apple Silicon và GPU CUDA
Trên phần cứng Apple, mô hình dùng MLX low-bit path, còn trên CUDA dùng Gemlite low-bit GEMM kernel
Trên iPhone 17 Pro Max, pipeline FLUX.2 Klein 4B đầy đủ độ chính xác không thể nằm trong ngân sách bộ nhớ của thiết bị, nhưng cả hai biến thể Bonsai Image đều chạy được on-device
Bonsai Image 4B tạo ảnh 512×512 trên iPhone 17 Pro Max trong 9.4 giây
Trên Mac M4 Pro, mô hình tạo ảnh 512×512 trong khoảng 6 giây
Trên Mac M4 Pro, Bonsai Image 4B nhanh hơn tối đa 5.6 lần so với pipeline MFLUX đầy đủ độ chính xác mặc định

Hiệu năng benchmark

Bonsai Image 4B được đánh giá bằng ba benchmark: GenEval, HPSv3 và DPG-Bench
GenEval đánh giá cấu thành đối tượng và gán thuộc tính; HPSv3 đánh giá sở thích của con người và chất lượng thẩm mỹ; DPG-Bench đánh giá khả năng bám sát prompt dày đặc và độ trung thực ngữ nghĩa
Ternary Bonsai Image 4B với diffusion transformer 1.21GB đạt GenEval 0.723, HPSv3 12.22 và DPG-Bench 0.851
Ternary Bonsai Image 4B giữ được 95% hiệu năng so với FLUX.2 Klein 4B trong khi giảm kích thước diffusion transformer đi 6.4 lần
1-bit Bonsai Image 4B với diffusion transformer 0.93GB đạt GenEval 0.671, HPSv3 11.15 và DPG-Bench 0.822
1-bit Bonsai Image 4B giữ được 88% hiệu năng so với FLUX.2 Klein 4B đồng thời đưa diffusion transformer xuống dưới 1GB
FLUX.2 Klein 4B với diffusion transformer 7.75GB đạt GenEval 0.819, HPSv3 12.84 và DPG-Bench 0.853
SDXL với diffusion transformer 5.14GB đạt GenEval 0.3, HPSv3 10.05 và DPG-Bench 0.74, tương đương 67% hiệu năng của FLUX.2 Klein 4B
BK-SDM-Small với diffusion transformer 0.98GB đạt GenEval 0.297, HPSv3 3.05 và DPG-Bench 0.559, tương đương 42% hiệu năng của FLUX.2 Klein 4B
Stable Diffusion 1.5 với diffusion transformer 1.72GB đạt GenEval 0.396, HPSv3 4.2 và DPG-Bench 0.601, tương đương 51% hiệu năng của FLUX.2 Klein 4B
PixArt-Σ XL 2 với diffusion transformer 1.2GB đạt GenEval 0.541, HPSv3 11.93 và DPG-Bench 0.769, tương đương 83% hiệu năng của FLUX.2 Klein 4B
Hai biến thể Bonsai cạnh tranh được với các mô hình ảnh 4B hiện đại nhưng vẫn giữ footprint diffusion transformer nhỏ hơn rất nhiều
Nhờ hiệu năng cao hơn các mô hình nhỏ hơn có footprint bộ nhớ tương tự, chúng đưa khả năng vận hành diffusion transformer hiện đại vào dải bộ nhớ vốn trước đây chỉ dành cho những mô hình nhỏ hơn và kém hiệu năng hơn

Ý nghĩa sản phẩm của suy luận cục bộ

Tạo ảnh không chỉ phụ thuộc vào chất lượng mô hình mà còn vào cách triển khai
Cloud API vẫn phù hợp với nhiều sản phẩm, nhưng tạo ảnh chỉ dựa vào cloud khiến mọi prompt đều thành yêu cầu từ xa, đồng thời thêm chi phí phục vụ và độ trễ khứ hồi cho mỗi vòng lặp
Tạo ảnh vốn có tính lặp lại tự nhiên, nên người dùng sẽ chỉnh prompt, so sánh kết quả, tạo biến thể, loại bỏ kết quả lỗi rồi thử lại
Nếu mỗi lần thử đều là công việc phía máy chủ, người dùng sẽ phải tính chi phí và chờ đợi trong từng vòng lặp sáng tạo
Suy luận cục bộ cho phép đặt trực tiếp khả năng tạo ảnh vào ngay trong trải nghiệm sản phẩm sau khi mô hình đã nằm trên thiết bị
Chạy cục bộ giúp giảm chi phí thực thi, tăng tốc độ lặp lại, đồng thời dễ dùng trong các môi trường mà prompt và tài sản tạo sinh cần được giữ riêng tư
Bonsai Image 4B là một bước tiến hướng tới cách triển khai tạo ảnh dịch chuyển gần hơn tới người dùng, trên chính phần cứng mà họ đã sở hữu

Cách phát hành và tài nguyên

1-bit Bonsai Image 4B và Ternary Bonsai Image 4B sẽ được phát hành với open weights và mã nguồn
Giấy phép là Apache 2.0
PrismML cũng ra mắt ứng dụng iOS Bonsai Studio để người dùng có thể trực tiếp thử Bonsai Image 4B trên iPhone
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub

1 bình luận

GN⁺ 2026-06-01

Ý kiến trên Hacker News

Có lẽ 20 năm trước không ai mong đợi một Internet tương lai nơi ta không thể tin rằng những gì mình xem hay đọc là thật
Mong rằng một ngày nào đó chúng ta có thể nhìn lại thời kỳ này như một giai đoạn lệch chuẩn, giống cảnh gia đình Draper trong Mad Men ném rác picnic xuống bãi cỏ rồi bỏ đi
- 20 năm trước, giáo viên bảo rằng đừng dùng Wikipedia vì trên Internet không thể tin bất cứ thứ gì, và tuyệt đối đừng hẹn hò với người quen qua app hay website. Họ nói những người đó chắc chắn 100% là kẻ giết người, và còn có câu “Internet là để xem khiêu dâm” nữa.
  Theo thời gian nhiều thứ lại tốt lên, và mọi người thường luôn đánh giá quá mức rủi ro xã hội khi công nghệ mới vừa xuất hiện
- Cảnh picnic đó: https://www.youtube.com/watch?v=FDIvzDGBLWU
- Có vẻ mọi người không nhớ cuộc thảo luận quanh Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) hồi đó
  Đây là một công ty spinout từ đại học, có thể chỉ dùng số liệu thống kê để viết các bài báo bóng chày nghe khá thuyết phục, rồi sau đó là các bài tài chính. Việc này giúp các trang tin địa phương có thể đăng bài về mọi trận đấu, có lợi cho người hâm mộ thể thao và được xem là động lực quan trọng để tăng web traffic, nhưng cũng bị chỉ trích nhiều vì không phải là thứ “thật”
  Bài Slate viết về việc này năm 2012: https://slate.com/technology/2012/03/narrative-science-robot...
  Từ khi máy tính ra đời, con người đã cố làm cho máy tính nghe giống con người, và việc lo rằng đối tượng mình đang trò chuyện hay đang đọc có phải robot giả làm người hay không cũng không phải điều mới mẻ
- Gọi đây là một giai đoạn lệch chuẩn có vẻ là phản ứng hơi quá
- Văn bản và hình ảnh lúc nào cũng có thông tin sai lệch, và ảnh thì đã có thể bị chỉnh sửa ngay từ khi nhiếp ảnh ra đời
  Chắc chắn giờ việc đó dễ hơn, nhưng không phải là thay đổi hoàn toàn khác biệt về mặt bản chất. Tin nguyên xi những gì thấy trên Internet 20 năm trước cũng đã ngớ ngẩn không kém bây giờ
Tôi thật sự mong chờ một tương lai nơi thay vì trả tiền thuê bao đắt đỏ, tôi nâng cấp phần cứng để nâng cấp AI của mình
Có nhiều bài toán tôi muốn làm cần tới hàng chục tỷ token, mà hiện giờ gần như không thể tiếp cận nếu không có tài trợ từ các dự án doanh nghiệp. Chỉ cần một cỗ máy suy luận ASIC có thể xuất ra hàng chục nghìn token mỗi giây với chất lượng cỡ Opus 4.6 là đủ
- Có một công ty tên Taalas đang làm thứ tương tự. Chưa đạt chất lượng Opus 4.6, nhưng có lẽ đang nhắm tới các mô hình lớn hơn
  Hiện tại họ dùng mô hình LLama 8B, chạy khoảng 17k token/giây, và có thể thử tại https://chatjimmy.ai/
- Bạn có thể cho một ví dụ về loại bài toán đó không?
- Tôi tò mò chi phí phần cứng và điện năng sẽ ở mức nào so với chi phí thuê bao
- Xét về mặt logic, năm người gộp tài nguyên lại sẽ mạnh hơn một người, nên datacenter luôn thắng
  Lý do là tỷ lệ tận dụng thời gian cao hơn. Tôi cũng luôn mơ mộng như vậy, nhưng xét logic thì đó là ảo tưởng. Trung bình bạn không thể dùng nhiều hơn cả một tập thể vốn khai thác phần cứng hiệu quả hơn
  Phần cứng cá nhân cũng sẽ tốt lên, nhưng công nghệ tiên tiến nhất sẽ luôn ở trên cloud
Khi thấy “1-bit”, điều đầu tiên tôi nghĩ tới không phải là trọng số mô hình 1 bit mà là tạo ảnh đen trắng dither 1 bit
Vì thế tôi tự hỏi nếu giới hạn ảnh huấn luyện và không gian làm việc vào các ảnh 1 bit được dither bằng Floyd-Steinberg, Atkinson, hay thuật toán ưa thích nào đó, thì bộ sinh ảnh khuếch tán sẽ ngầu, nhanh và nén tốt tới mức nào
Việc huấn luyện có lẽ sẽ khá nhanh, và có thể thậm chí vừa trong một GPU đời mới
- Dù vậy, có lẽ vẫn tốt hơn nếu huấn luyện trên grayscale rồi dither sau
- Tôi cũng đã nghĩ y hệt vậy, và có vẻ ở đây có khá nhiều ý tưởng thú vị đáng để khám phá
Hỏi thật vì tò mò thôi, cái này có đang giải quyết vấn đề thực tế nào không?
Khi dùng mô hình khuếch tán, theo tôi nút thắt không phải dung lượng lưu trữ hay bộ nhớ mà là thời gian sinh ảnh. Nhiều mô hình vẫn chạy được trên GPU 8~12GB từ đời 1080 trở lên hoặc trên Mac có lượng bộ nhớ tương tự, mà dù sao xét về hiệu năng GPU thì đó cũng gần như là mức sàn. Hơn nữa, các mô hình này có vẻ còn chậm hơn đôi chút so với mô hình FLUX.2 nhỏ làm nền tảng cho chúng
Tất nhiên nó có thể giúp chạy mô hình cục bộ trên các thiết bị như iPhone, nơi GPU tương đối mạnh nhưng bộ nhớ hạn chế, nhưng đó có thực sự là nhu cầu phổ biến không?
- Đây là một bước tiến hữu ích. Nếu suy luận ở quy mô cục bộ cho ra chất lượng tạm ổn, thì có thể làm ra sản phẩm tạo ảnh để dùng thường xuyên và sẵn sàng bỏ đi mà không cần lo chi phí
  Các sản phẩm tạo ảnh tôi từng thấy từ trước tới nay đều tính phí theo mức sử dụng nên giá trị bị hạn chế đáng kể. Chỉ là tôi chưa biết cái này đã thực sự chạm tới ngưỡng “chất lượng tạm ổn” hay chưa
- Hiện nay là thời kỳ nhu cầu GPU cực cao còn nguồn cung thì hạn chế. Mỗi lần đẩy suy luận ra edge là lại giải phóng tài nguyên cloud cho việc khác
  Mỗi lần hiệu suất tốt hơn là số việc có thể làm với lượng tài nguyên sẵn có lại tăng lên. Nếu có thể render ảnh với một nửa lượng tính toán, thì cũng chỉ cần một nửa số GPU
- GPU 8~12GB đời 1080 trở lên hay Mac có bộ nhớ tương tự không phải là mức sàn. Phần lớn mọi người dùng laptop hoặc thiết bị di động có GPU yếu hơn nhiều
- Giá trị hiện tại có vẻ gần với giá trị học thuật hơn là giá trị sử dụng thực tế
  Ngay cả các mô hình tuyến đầu cũng mới chỉ vừa đủ dùng, còn trong tạo ảnh thì ngay cả model tốt nhất phần lớn vẫn cho kết quả khá tệ. Vì vậy một mô hình 1 bit nhỏ, vốn chắc chắn kém xa tuyến đầu về năng lực, theo tôi là chưa thể dùng ngay được
  Nhưng việc tăng mạnh mật độ năng lực trên mỗi đơn vị tính toán vẫn rất có ý nghĩa. Nó có thể giúp vận hành các mô hình tuyến đầu tốt hơn, rẻ hơn và ít tốn tài nguyên hơn, đồng thời mở rộng phạm vi công việc có thể chạy trên edge như laptop cá nhân hay điện thoại
  Xét từ góc độ quyền riêng tư cũng có nhiều tác vụ cần phải chạy trên thiết bị, và không phải ai cũng có GPU rời cỡ lớn
- Đúng vậy. Kích thước và hiệu năng không chỉ là vấn đề của LLM cục bộ mà còn là vấn đề với các công ty LLM tuyến đầu như OpenAI và Anthropic
  Những công ty như Anthropic đến giờ vẫn chịu lỗ rất lớn ở mảng suy luận, nên tiến bộ của các mô hình vừa hiệu quả vừa có hiệu năng tốt sẽ giúp ích cho khả năng sinh lời
Câu “Theo hiểu biết của chúng tôi, Bonsai Image 4B là mô hình ảnh đầu tiên ở quy mô tham số đó chạy trực tiếp trên iPhone” là sai. Tuy vậy họ đã diễn đạt rất thận trọng nên không hoàn toàn sai
FLUX.2 [klein] 4B, tức cùng quy mô tham số và về cơ bản gần như cùng mô hình, chạy được trên iPhone qua ứng dụng Draw Things. Nó dùng lượng tử hóa 8 bit hoặc 6 bit nên có thể bảo là không chạy “trực tiếp”, nhưng chi tiết kỹ thuật đó nghe khá đáng ngờ
Người ta gọi đây là mô hình khuếch tán, nhưng nền tảng Flux.2 của nó thực ra là mô hình rectified flow
- Cá nhân tôi thấy dùng “diffusion” để chỉ cả họ mô hình này cũng không sao
Lạ thật. Tôi là khách truy cập từ Anh mà nó hiện thế này:
Website Not Allowed
“⁦‪prismml.com‬⁩” is a restricted website.
Trong vòng một ngày sẽ có người huấn luyện LoRA cho mô hình 1 bit này để tạo nội dung hentai trên Apple Watch
Nếu muốn chạy mà không phải nghịch local filesystem, có thể dùng https://github.com/kordless/bonsai-docker
Tôi đã trích code từ web demo rồi gắn nó vào công cụ workflow AI trong trình duyệt như một node tạo ảnh web, và khá ổn
Giờ đang chờ xenova thêm nó vào transformersjs 4.3, rồi tôi cũng sẽ công khai. Tôi không chờ được để test nên thử trước luôn
- Bạn có thể giải thích công cụ workflow AI trong trình duyệt đó là gì không? Tôi có thể cũng đang làm thứ tương tự, nên rất tò mò xem người khác đang xây gì trong lĩnh vực này

Bonsai Image 4B - Mô hình tạo ảnh 1-bit/ternary cho thiết bị cục bộ

Bonsai Image 4B cho tạo ảnh cục bộ

Giảm bộ nhớ cho chạy cục bộ

Payload triển khai và bộ nhớ runtime

Phần cứng hỗ trợ và hiệu năng chạy

Hiệu năng benchmark

Ý nghĩa sản phẩm của suy luận cục bộ

Cách phát hành và tài nguyên

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News