Bonsai Image 4B 1-bit tạo ảnh cho thiết bị cục bộ
(prismml.com)- Bonsai Image 4B là một họ mô hình tạo ảnh nhỏ gọn được thiết kế để chạy suy luận khuếch tán chất lượng cao trên phần cứng cục bộ như laptop và điện thoại
- Vẫn giữ nguyên kiến trúc FLUX.2 Klein 4B nhưng chuyển trọng số diffusion transformer sang biểu diễn 1-bit hoặc ternary
- Kích thước diffusion transformer giảm từ 7.75GB của bản gốc xuống 0.93GB với 1-bit và 1.21GB với ternary, giúp giảm gánh nặng ngân sách bộ nhớ
- Tạo ảnh 512×512 trong 9.4 giây trên iPhone 17 Pro Max, và khoảng 6 giây trên Mac M4 Pro, nhanh hơn tối đa 5.6 lần so với MFLUX
- Bản ternary giữ được 95% hiệu năng so với FLUX.2 Klein 4B, và cả hai biến thể sẽ được phát hành với trọng số mở và mã nguồn theo giấy phép Apache 2.0
Bonsai Image 4B cho tạo ảnh cục bộ
- Bonsai Image 4B là một họ mô hình tạo ảnh nhỏ gọn được thiết kế để chạy suy luận khuếch tán chất lượng cao trên phần cứng cục bộ, từ laptop đến điện thoại
- Dựa trên FLUX.2 Klein 4B, giữ nguyên kiến trúc nhưng chuyển trọng số diffusion transformer sang dạng 1-bit hoặc ternary
- 1-bit Bonsai Image 4B sử dụng trọng số transformer nhị phân
{−1, +1}và hệ số scale theo nhóm ở FP16, cung cấp 1.125 bit hiệu dụng trên mỗi trọng số - Ternary Bonsai Image 4B sử dụng trọng số transformer
{−1, 0, +1}và hệ số scale theo nhóm ở FP16, cung cấp 1.71 bit hiệu dụng trên mỗi trọng số
- 1-bit Bonsai Image 4B sử dụng trọng số transformer nhị phân
- Biến thể ternary lớn hơn bản 1-bit, nhưng trạng thái 0 bổ sung giúp tăng chất lượng hình ảnh và độ trung thực với prompt
- Thông qua trọng số mở và suy luận cục bộ, Bonsai Image 4B hướng tới một hình thức triển khai cho phép tạo ảnh trên cả những thiết bị trước đây khó chạy được các mô hình cùng cấp này
- Theo PrismML, Bonsai Image 4B là mô hình ảnh đầu tiên ở cấp tham số này chạy trực tiếp trên iPhone
Cắt giảm bộ nhớ để chạy cục bộ
- Ràng buộc cốt lõi của tạo ảnh cục bộ là mô hình phải vừa trong ngân sách bộ nhớ của thiết bị
- Với mô hình ảnh cỡ 4B, diffusion transformer là phần lớn nhất trong mô hình và được lặp lại ở mỗi bước khử nhiễu trong quá trình tạo ảnh
- Kích thước transformer ảnh hưởng trực tiếp đến áp lực bộ nhớ, yêu cầu băng thông và tốc độ suy luận cục bộ
- Diffusion transformer của FLUX.2 Klein 4B có kích thước 7.75GB, trong khi 1-bit Bonsai Image 4B là 0.93GB và Ternary Bonsai Image 4B là 1.21GB
- Biến thể 1-bit nhỏ hơn 8.3 lần so với FLUX.2 Klein 4B độ chính xác đầy đủ, còn biến thể ternary nhỏ hơn 6.4 lần
- Các lớp nhị phân tự thân giảm khoảng 14 lần so với trọng số transformer độ chính xác đầy đủ, nhưng khoảng 5% projection layer vốn nhạy với độ chính xác vẫn được giữ ở FP16
- Các lớp ternary mang lại mức giảm khoảng 10 lần, đưa kích thước transformer cuối cùng xuống còn 1.21GB
Payload triển khai và bộ nhớ runtime
- Payload triển khai cho Apple Silicon, gồm bộ mã hóa văn bản đã nén và VAE FP16, có kích thước 3.42GB với 1-bit và 3.88GB với ternary
- Payload triển khai của FLUX.2 Klein 4B độ chính xác đầy đủ là 15.97GB
- Ở runtime, sau khi mã hóa prompt, bộ mã hóa văn bản được offload nên mức dùng bộ nhớ trung bình nhỏ hơn toàn bộ payload
- Khi tạo ảnh 512×512, bộ nhớ hoạt động trung bình là 1.5GB với 1-bit, 1.96GB với ternary và 11.74GB với FLUX.2 Klein 4B gốc
- Ở mức 512×512, mức giảm bộ nhớ là 7.8 lần với 1-bit và 6.0 lần với ternary
- Khi tạo ảnh 1024×1024, bộ nhớ hoạt động trung bình là 1.95GB với 1-bit, 2.38GB với ternary và 14.39GB với FLUX.2 Klein 4B gốc
- Ở mức 1024×1024, mức giảm bộ nhớ là 7.4 lần với 1-bit và 6.0 lần với ternary
Phần cứng hỗ trợ và hiệu năng chạy
- Stack triển khai hỗ trợ iPhone, iPad, Mac dùng Apple Silicon và GPU CUDA
- Trên phần cứng Apple, hệ thống dùng đường dẫn low-bit của MLX, còn trên CUDA dùng kernel low-bit GEMM của Gemlite
- Trên iPhone 17 Pro Max, pipeline FLUX.2 Klein 4B độ chính xác đầy đủ không vừa trong ngân sách bộ nhớ của thiết bị, nhưng cả hai biến thể Bonsai Image đều chạy được hoàn toàn trên máy
- Bonsai Image 4B tạo ảnh 512×512 trong 9.4 giây trên iPhone 17 Pro Max
- Trên Mac M4 Pro, mô hình tạo ảnh 512×512 trong khoảng 6 giây
- Trên Mac M4 Pro, Bonsai Image 4B nhanh hơn tối đa 5.6 lần so với pipeline MFLUX độ chính xác đầy đủ mặc định
Hiệu năng benchmark
- Bonsai Image 4B được đánh giá bằng ba benchmark: GenEval, HPSv3 và DPG-Bench
- GenEval đánh giá bố cục đối tượng và liên kết thuộc tính, HPSv3 đánh giá sở thích của con người và chất lượng thẩm mỹ, còn DPG-Bench đánh giá khả năng bám sát prompt dày đặc và độ trung thực ngữ nghĩa
- Ternary Bonsai Image 4B, với diffusion transformer 1.21GB, đạt GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851
- Ternary Bonsai Image 4B giữ được 95% hiệu năng so với FLUX.2 Klein 4B trong khi giảm kích thước diffusion transformer đi 6.4 lần
- 1-bit Bonsai Image 4B, với diffusion transformer 0.93GB, đạt GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822
- 1-bit Bonsai Image 4B giữ được 88% hiệu năng so với FLUX.2 Klein 4B đồng thời đưa diffusion transformer xuống dưới 1GB
- FLUX.2 Klein 4B, với diffusion transformer 7.75GB, đạt GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853
- SDXL, với diffusion transformer 5.14GB, đạt GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74 và cho thấy mức hiệu năng bằng 67% so với FLUX.2 Klein 4B
- BK-SDM-Small, với diffusion transformer 0.98GB, đạt GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559 và cho thấy mức hiệu năng bằng 42% so với FLUX.2 Klein 4B
- Stable Diffusion 1.5, với diffusion transformer 1.72GB, đạt GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601 và cho thấy mức hiệu năng bằng 51% so với FLUX.2 Klein 4B
- PixArt-Σ XL 2, với diffusion transformer 1.2GB, đạt GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769 và cho thấy mức hiệu năng bằng 83% so với FLUX.2 Klein 4B
- Cả hai biến thể Bonsai đều cạnh tranh được với các mô hình ảnh 4B hiện đại trong khi vẫn giữ footprint của diffusion transformer nhỏ hơn rất nhiều
- So với các mô hình nhỏ hơn có footprint bộ nhớ tương tự, hiệu năng của chúng cao hơn, đưa khả năng vận hành diffusion transformer hiện đại vào dải bộ nhớ trước đây vốn chỉ dành cho các mô hình nhỏ hơn và yếu hơn
Ý nghĩa sản phẩm của suy luận cục bộ
- Tạo ảnh không chỉ phụ thuộc vào chất lượng mô hình mà còn phụ thuộc vào cách triển khai
- Cloud API vẫn tiếp tục phù hợp với nhiều sản phẩm, nhưng tạo ảnh chỉ chạy trên cloud sẽ biến mọi prompt thành một yêu cầu từ xa và cộng thêm chi phí phục vụ cùng độ trễ khứ hồi cho mỗi vòng lặp
- Tạo ảnh vốn có tính lặp tự nhiên: người dùng chỉnh prompt, so sánh kết quả, tạo biến thể, bỏ đi những kết quả thất bại và thử lại
- Nếu mỗi lần thử đều là một tác vụ phía máy chủ, người dùng sẽ phải cân nhắc chi phí và chờ đợi ở mỗi vòng lặp sáng tạo
- Suy luận cục bộ cho phép đặt chức năng tạo ảnh trực tiếp vào trong trải nghiệm sản phẩm ngay khi mô hình đã nằm trên thiết bị
- Chạy cục bộ giúp giảm chi phí thực thi, tăng tốc độ lặp, và dễ dùng trong các môi trường mà prompt và tài sản tạo sinh cần được giữ riêng tư
- Bonsai Image 4B là một bước tiến hướng tới mô hình triển khai tạo ảnh gần người dùng hơn, chạy trên chính phần cứng mà họ đã sở hữu
Cách phát hành và tài nguyên
- 1-bit Bonsai Image 4B và Ternary Bonsai Image 4B sẽ được phát hành với trọng số mở và mã nguồn
- Giấy phép là Apache 2.0
- PrismML cũng phát hành ứng dụng iOS Bonsai Studio để có thể trực tiếp thử Bonsai Image 4B trên iPhone
- Whitepaper
- Hugging Face
- WebGPU demo
- Bonsai Studio for iPhone
- GitHub
1 bình luận
Ý kiến trên Hacker News
Có lẽ 20 năm trước không ai mong đợi một Internet tương lai nơi ta không thể tin rằng những gì mình xem hay đọc là thật
Mong rằng một ngày nào đó chúng ta có thể nhìn lại thời kỳ này như một giai đoạn lệch chuẩn, giống cảnh gia đình Draper trong Mad Men ném rác picnic xuống bãi cỏ rồi bỏ đi
Theo thời gian nhiều thứ lại tốt lên, và mọi người thường luôn đánh giá quá mức rủi ro xã hội khi công nghệ mới vừa xuất hiện
Đây là một công ty spinout từ đại học, có thể chỉ dùng số liệu thống kê để viết các bài báo bóng chày nghe khá thuyết phục, rồi sau đó là các bài tài chính. Việc này giúp các trang tin địa phương có thể đăng bài về mọi trận đấu, có lợi cho người hâm mộ thể thao và được xem là động lực quan trọng để tăng web traffic, nhưng cũng bị chỉ trích nhiều vì không phải là thứ “thật”
Bài Slate viết về việc này năm 2012: https://slate.com/technology/2012/03/narrative-science-robot...
Từ khi máy tính ra đời, con người đã cố làm cho máy tính nghe giống con người, và việc lo rằng đối tượng mình đang trò chuyện hay đang đọc có phải robot giả làm người hay không cũng không phải điều mới mẻ
Chắc chắn giờ việc đó dễ hơn, nhưng không phải là thay đổi hoàn toàn khác biệt về mặt bản chất. Tin nguyên xi những gì thấy trên Internet 20 năm trước cũng đã ngớ ngẩn không kém bây giờ
Tôi thật sự mong chờ một tương lai nơi thay vì trả tiền thuê bao đắt đỏ, tôi nâng cấp phần cứng để nâng cấp AI của mình
Có nhiều bài toán tôi muốn làm cần tới hàng chục tỷ token, mà hiện giờ gần như không thể tiếp cận nếu không có tài trợ từ các dự án doanh nghiệp. Chỉ cần một cỗ máy suy luận ASIC có thể xuất ra hàng chục nghìn token mỗi giây với chất lượng cỡ Opus 4.6 là đủ
Hiện tại họ dùng mô hình LLama 8B, chạy khoảng 17k token/giây, và có thể thử tại https://chatjimmy.ai/
Lý do là tỷ lệ tận dụng thời gian cao hơn. Tôi cũng luôn mơ mộng như vậy, nhưng xét logic thì đó là ảo tưởng. Trung bình bạn không thể dùng nhiều hơn cả một tập thể vốn khai thác phần cứng hiệu quả hơn
Phần cứng cá nhân cũng sẽ tốt lên, nhưng công nghệ tiên tiến nhất sẽ luôn ở trên cloud
Khi thấy “1-bit”, điều đầu tiên tôi nghĩ tới không phải là trọng số mô hình 1 bit mà là tạo ảnh đen trắng dither 1 bit
Vì thế tôi tự hỏi nếu giới hạn ảnh huấn luyện và không gian làm việc vào các ảnh 1 bit được dither bằng Floyd-Steinberg, Atkinson, hay thuật toán ưa thích nào đó, thì bộ sinh ảnh khuếch tán sẽ ngầu, nhanh và nén tốt tới mức nào
Việc huấn luyện có lẽ sẽ khá nhanh, và có thể thậm chí vừa trong một GPU đời mới
Hỏi thật vì tò mò thôi, cái này có đang giải quyết vấn đề thực tế nào không?
Khi dùng mô hình khuếch tán, theo tôi nút thắt không phải dung lượng lưu trữ hay bộ nhớ mà là thời gian sinh ảnh. Nhiều mô hình vẫn chạy được trên GPU 8~12GB từ đời 1080 trở lên hoặc trên Mac có lượng bộ nhớ tương tự, mà dù sao xét về hiệu năng GPU thì đó cũng gần như là mức sàn. Hơn nữa, các mô hình này có vẻ còn chậm hơn đôi chút so với mô hình FLUX.2 nhỏ làm nền tảng cho chúng
Tất nhiên nó có thể giúp chạy mô hình cục bộ trên các thiết bị như iPhone, nơi GPU tương đối mạnh nhưng bộ nhớ hạn chế, nhưng đó có thực sự là nhu cầu phổ biến không?
Các sản phẩm tạo ảnh tôi từng thấy từ trước tới nay đều tính phí theo mức sử dụng nên giá trị bị hạn chế đáng kể. Chỉ là tôi chưa biết cái này đã thực sự chạm tới ngưỡng “chất lượng tạm ổn” hay chưa
Mỗi lần hiệu suất tốt hơn là số việc có thể làm với lượng tài nguyên sẵn có lại tăng lên. Nếu có thể render ảnh với một nửa lượng tính toán, thì cũng chỉ cần một nửa số GPU
Ngay cả các mô hình tuyến đầu cũng mới chỉ vừa đủ dùng, còn trong tạo ảnh thì ngay cả model tốt nhất phần lớn vẫn cho kết quả khá tệ. Vì vậy một mô hình 1 bit nhỏ, vốn chắc chắn kém xa tuyến đầu về năng lực, theo tôi là chưa thể dùng ngay được
Nhưng việc tăng mạnh mật độ năng lực trên mỗi đơn vị tính toán vẫn rất có ý nghĩa. Nó có thể giúp vận hành các mô hình tuyến đầu tốt hơn, rẻ hơn và ít tốn tài nguyên hơn, đồng thời mở rộng phạm vi công việc có thể chạy trên edge như laptop cá nhân hay điện thoại
Xét từ góc độ quyền riêng tư cũng có nhiều tác vụ cần phải chạy trên thiết bị, và không phải ai cũng có GPU rời cỡ lớn
Những công ty như Anthropic đến giờ vẫn chịu lỗ rất lớn ở mảng suy luận, nên tiến bộ của các mô hình vừa hiệu quả vừa có hiệu năng tốt sẽ giúp ích cho khả năng sinh lời
Câu “Theo hiểu biết của chúng tôi, Bonsai Image 4B là mô hình ảnh đầu tiên ở quy mô tham số đó chạy trực tiếp trên iPhone” là sai. Tuy vậy họ đã diễn đạt rất thận trọng nên không hoàn toàn sai
FLUX.2 [klein] 4B, tức cùng quy mô tham số và về cơ bản gần như cùng mô hình, chạy được trên iPhone qua ứng dụng Draw Things. Nó dùng lượng tử hóa 8 bit hoặc 6 bit nên có thể bảo là không chạy “trực tiếp”, nhưng chi tiết kỹ thuật đó nghe khá đáng ngờ
Người ta gọi đây là mô hình khuếch tán, nhưng nền tảng Flux.2 của nó thực ra là mô hình rectified flow
Lạ thật. Tôi là khách truy cập từ Anh mà nó hiện thế này:
Website Not Allowed
“prismml.com” is a restricted website.
Trong vòng một ngày sẽ có người huấn luyện LoRA cho mô hình 1 bit này để tạo nội dung hentai trên Apple Watch
Nếu muốn chạy mà không phải nghịch local filesystem, có thể dùng https://github.com/kordless/bonsai-docker
Tôi đã trích code từ web demo rồi gắn nó vào công cụ workflow AI trong trình duyệt như một node tạo ảnh web, và khá ổn
Giờ đang chờ xenova thêm nó vào transformersjs 4.3, rồi tôi cũng sẽ công khai. Tôi không chờ được để test nên thử trước luôn