- PrismML, startup AI khởi nguồn từ nghiên cứu tại Caltech, đã công bố mô hình 1-bit Bonsai 8B, hiện thực hóa suy luận AI thực dụng trên smartphone và thiết bị edge với kích thước 1.15GB, nhỏ hơn khoảng 14 lần so với các mô hình 16 bit cùng hạng
- Với thiết kế 1 bit end-to-end thực thụ gồm toàn bộ mạng lưới (embedding, attention, MLP, LM head) đều là 1 bit không ngoại lệ, mô hình vượt qua các vấn đề suy giảm chất lượng ở tác vụ làm theo chỉ thị, suy luận nhiều bước và sử dụng công cụ mà các mô hình low-bit trước đây từng gặp phải
- Theo chỉ số Intelligence Density, mô hình đạt 1.06/GB, cao hơn khoảng 10.6 lần so với đối thủ gần nhất trong cùng lớp tham số (Qwen3 8B, 0.10/GB)
- Chạy ở 131 tok/s trên M4 Pro Mac, 368 tok/s trên RTX 4090, và khoảng 44 tok/s trên iPhone 17 Pro Max, đồng thời hiệu quả năng lượng tốt hơn khoảng 4~5 lần so với mô hình 16 bit
- Nếu phần cứng chuyên dụng cho 1 bit được thiết kế, hiệu năng và hiệu suất còn có thể tăng thêm ở mức một chữ số lần, mở rộng các danh mục triển khai mới như AI on-device, robotics và enterprise bảo mật
Bối cảnh ra đời của PrismML và 1-bit Bonsai
- Trong 10 năm qua, sự phát triển của AI diễn ra theo hướng làm cho mô hình ngày càng lớn hơn: nhiều tham số hơn, nhiều GPU hơn, tiêu thụ điện, bộ nhớ và chi phí nhiều hơn
- Kết quả là loại trí tuệ mạnh nhất bị mắc kẹt trong những cụm máy quy mô lớn và hạ tầng chuyên dụng, tạo ra một ràng buộc mang tính cấu trúc
- Trên thực tế, nơi AI cần hiện diện không chỉ giới hạn ở datacenter mà còn rất đa dạng như smartphone, laptop, xe cộ, robot, enterprise bảo mật và thiết bị edge
- PrismML xuất phát từ một nhóm nghiên cứu tại Caltech và được thành lập với sự hỗ trợ từ Khosla Ventures, Cerberus và Google
- Công ty đặt Intelligence Density — lượng trí tuệ có thể cung cấp trên mỗi đơn vị kích thước mô hình (GB) — làm chỉ số tối ưu hóa cốt lõi
Thiết kế mô hình 1 bit thực thụ
- 1-bit Bonsai 8B triển khai embedding, attention layer, MLP layer và LM head hoàn toàn ở 1 bit, đồng thời duy trì kiến trúc 1 bit đầy đủ trên toàn bộ 8.2 tỷ tham số không có escape hatch độ chính xác cao
- Các mô hình low-bit trước đây gặp tổn thất hiệu năng lớn ở khả năng làm theo chỉ thị, suy luận nhiều bước và độ tin cậy khi dùng công cụ, nên rất khó dùng làm nền tảng cho sản phẩm thực tế
- Bonsai cho thấy mô hình 1 bit cũng có thể là một hệ thống hoàn chỉnh ở cấp độ production, chứ không chỉ là một điểm thỏa hiệp hẹp
Đo Intelligence Density
- Intelligence Density được định nghĩa là giá trị âm của log lỗi trung bình trên toàn bộ benchmark, chia cho kích thước mô hình
- Chỉ số này phản ánh mức độ trí tuệ thực tế tốt hơn so với việc chỉ lấy trung bình benchmark đơn thuần: nó trao giá trị cao hơn cho các cải thiện bổ sung khi độ chính xác vốn đã cao
- 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — không chỉ là nhỉnh hơn, mà là một kết quả ở cấp độ khác hẳn
- Ngay cả theo điểm benchmark trung bình thô, 1-bit Bonsai 8B vẫn giữ hiệu năng cạnh tranh với các mô hình 8B chủ chốt, trong khi memory footprint chỉ 1.15GB, nhỏ hơn khoảng 12~14 lần so với các mô hình cùng hạng
Kích thước và tốc độ
- Với kích thước 1.15GB, mô hình có thể chạy trên iPhone 17 Pro — trong khi các mô hình 8B 16 bit trước đây không thể triển khai trên bất kỳ iPhone nào
- Tốc độ suy luận theo thiết bị:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: khoảng 44 tok/s
- Khi mô phỏng tác vụ tóm tắt và phân công 50 ticket, 1-bit Bonsai 8B xử lý được cả 50, còn mô hình 8B 16 bit trong cùng điều kiện chỉ xử lý được 6
- Trong workload agent dài hạn, thông lượng cao hơn và mức dùng bộ nhớ thấp hơn giúp mở rộng chính khối lượng công việc mà agent có thể xử lý trên thực tế
Hiệu quả năng lượng
- 1-bit Bonsai 8B đạt hiệu quả năng lượng tốt hơn khoảng 4~5 lần so với mô hình full-precision 16 bit
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
- Để AI trở thành một hạ tầng nền tảng, cải thiện đột phá về hiệu quả năng lượng là điều bắt buộc
Tiềm năng của phần cứng chuyên dụng 1 bit
- Mức tăng hiệu năng hiện tại chủ yếu đến từ memory footprint đã được thu gọn của mô hình 1 bit; việc tận dụng hoàn toàn cấu trúc trọng số 1 bit trong quá trình suy luận vẫn chưa được hiện thực hóa đầy đủ
- Ở các linear layer như MLP, trọng số 1 bit cho phép thay phép nhân bằng phép cộng
- Nếu thiết kế phần cứng chuyên dụng cho suy luận 1 bit, hiệu năng và hiệu quả năng lượng còn có thể tăng thêm ở mức một chữ số lần
Các mô hình Bonsai 4B và 1.7B
- Hai mô hình nhỏ hơn là 1-bit Bonsai 4B và 1-bit Bonsai 1.7B cũng được phát hành cùng lúc
- Trên biểu đồ phân tán intelligence vs kích thước khi so sánh với 20 mô hình instruct chủ chốt (trong khoảng 1.2GB~16.4GB), toàn bộ họ Bonsai đã đẩy Pareto frontier hiện có dịch mạnh sang bên trái
- Pareto frontier trước đó gồm Qwen3 0.6B, 1.7B, 4B, 8B và Ministral3 3B, nhưng họ Bonsai đã xác lập một frontier mới
Trí tuệ được nén đậm đặc mở ra điều gì
- Khi mô hình trở nên đủ nhỏ, đủ nhanh và đủ hiệu quả để chạy on-device, không gian thiết kế sản phẩm AI lập tức thay đổi:
- Tăng độ phản hồi: suy luận on-device hoạt động không có độ trễ mạng
- Tăng cường quyền riêng tư: dữ liệu nhạy cảm không rời khỏi thiết bị
- Cải thiện độ tin cậy: giảm phụ thuộc vào kết nối cloud liên tục
- Đảm bảo tính kinh tế: có thể ứng dụng AI ở những môi trường mà triển khai phía server trước đây là bất khả thi vì chi phí
- Các danh mục mới được mở ra: agent on-device hoạt động liên tục, robotics thời gian thực, copilot enterprise bảo mật, trí tuệ ngoại tuyến và các sản phẩm AI-native cho môi trường bị ràng buộc về băng thông, điện năng hoặc quy định
Hỗ trợ nền tảng và cách công bố
- 1-bit Bonsai 8B hỗ trợ chạy native trên thiết bị Apple (Mac, iPhone, iPad) qua MLX và trên GPU NVIDIA qua llama.cpp CUDA
- Trọng số mô hình hiện được công bố theo giấy phép Apache 2.0
- Toàn bộ chi tiết kỹ thuật của quy trình huấn luyện, đánh giá và benchmark được cung cấp trong whitepaper chính thức
2 bình luận
Thông tin rất hữu ích.
Ý kiến trên Hacker News
Nhấn mạnh rằng cách biểu diễn 1.125 bit (trọng số 1 bit + thang đo 16 bit dùng chung cho mỗi nhóm 128 phần tử) là con số trung thực về mặt kỹ thuật
Cần phân biệt việc “khả thi về mặt thương mại” đang xét theo chi phí suy luận hay có thể đạt được nhờ fine-tuning
Nếu là mô hình được huấn luyện ngay từ đầu với mục tiêu 1 bit như trong bài báo BitNet của Microsoft, thì đó là một thứ hoàn toàn khác với mô hình chỉ được lượng tử hóa đơn thuần
Đặc biệt, hiệu quả suy luận trên phần cứng phổ thông có vẻ hấp dẫn hơn nhiều so với lượng tử hóa INT4
Tuy vậy, benchmark lại so sánh với các mô hình lớn đã lượng tử hóa, nên phần cốt lõi của tuyên bố này phần nào bị lu mờ
Muốn thấy liệu hiệu năng có còn giữ được ở các tác vụ cần suy luận nhiều bước hay không
Thật thú vị khi kiến trúc 1 bit + thang FP16 (1 giá trị cho mỗi 128 bit) lại hoạt động tốt đến vậy
Đã thử tạo test cho trang web qua Cursor, và khả năng dùng công cụ khá ấn tượng
Với mô phỏng Monte Carlo cho π thì logic đúng, nhưng thất bại ở phần tạo giao diện và cần chỉnh tay một chút
Kết quả hình pelican rất trừu tượng
Không có demo chính thức nên đã mở một instance llama.cpp cục bộ
Đã thử nhiều yêu cầu như script R, tạo công thức LaTeX, và đặc biệt công thức Euler được tạo hoàn hảo
Dù là mô hình 1 bit nhỏ, mật độ tri thức cao và phản hồi nhanh
Nếu thêm “bước suy nghĩ” hoặc tăng cường bằng tìm kiếm thì có lẽ sẽ hữu ích hơn nhiều
Đã chạy benchmark debug SQL tự làm và thấy khá ấn tượng
Qua 8/25, không có lỗi sai, 17 lỗi thực thi, ở mức nằm giữa Qwen3.5-4B và Nanbeige4.1-3B
Toàn bộ test kết thúc chỉ trong 200 giây, và về tốc độ thì hiệu quả hơn hẳn Granite 7B 4bit
Có thể xem kết quả tại trang benchmark SQL
Cá nhân đã thử bài test tạo ứng dụng Pomodoro, chất lượng hoàn thiện chưa cao nhưng ở một số mảng thì khá dùng được
Khả năng viết lách cũng ổn hơn mong đợi, và thú vị là ít dùng em-dash
Viết HTML thì yếu, nhưng nếu kết hợp mô hình 1 bit với Ngram-embedding thì có vẻ có nhiều khả năng mới
Cũng chia sẻ mã prototype tự làm
Có thể chạy trên iPhone bằng ứng dụng Locally AI mới được cập nhật
Hiệu năng rất đáng kinh ngạc so với dung lượng 1.2GB
Kết quả SVG pelican có phần chú thích tốt nhưng hình vẽ thì không ổn lắm
Đã hỏi “9:30am theo giờ chuẩn Đài Loan là mấy giờ theo giờ Thái Bình Dương của Mỹ?” nhưng không mô hình nào trả lời đúng
Đã chạy công khai mô hình 8GiB trên RTX 3090 trong 5 giờ
Chia sẻ liên kết máy chủ và lệnh chạy
5 yêu cầu song song, giới hạn khoảng 13K token, dùng 4GiB VRAM
Hiệu năng rất nhanh, xuất ra ở tốc độ 190t/s
Trong ví dụ hội thoại, khi hỏi “nên đi bộ hay lái xe đến tiệm rửa xe”, nó đưa ra câu trả lời sáng tạo
Không có GPU nên chạy bằng CPU, và trên laptop cũ hiệu năng tăng từ 0.6t/s lên 12t/s sau khi thêm AVX2
Cảm giác là khá ổn
Nguyên nhân là đã bỏ sót bước
git checkout prism, và sau khi sửa thì chạy bình thườngNghĩ rằng tương lai của các mô hình lớn sẽ đi theo hướng bit-level hơn là float
Phần lớn giá trị float tập trung trong một dải hẹp nên kém hiệu quả, và rốt cuộc vẫn được hiện thực bằng phép toán bit
Tuy nhiên, vấn đề là GPU và nền tảng lý thuyết hiện nay đều được tối ưu cho phép toán số thực
Lý do định dạng float vẫn tồn tại đơn giản là vì nó tương thích tốt với stack GPU
Nó đưa ra khái niệm “Boolean variation”, định nghĩa vi phân ở dạng nhị phân và thực hiện backprop trực tiếp
Sự tương đồng với mạng nơ-ron spiking khá thú vị
Chúng giao tiếp 1 bit thông qua việc có spike hay không, và dùng điện thế màng dạng analog
Đã điều khiển chuyển động bốn chân bằng 5.000 nơ-ron Izhikevich, và hiệu quả hơn PPO
Hiệu quả 1 bit là một khái niệm vượt ra ngoài riêng LLM
Tò mò liệu tỷ lệ “-log error / model size” bằng khoảng 1 có nghĩa là tỷ lệ lỗi ở mức 40% hay không
Cũng nói thêm rằng về mặt toán học thì error/model size = 1/e
Bonsai cung cấp mô hình 8B ở mức 1.15GB, nên cũng tò mò các mô hình 27B hay 35B sẽ lớn đến mức nào
Nếu khả năng scaling vẫn giữ được, thì có vẻ ngay cả mô hình 100B cũng có thể nằm trong 64GB RAM
Có lẽ nó sẽ đắt ngang mô hình full-precision; nếu không thì hẳn họ đã nhắc đến rồi