1-bit Bonsai - LLM 1 bit đầu tiên khả dụng thực tế cho mục đích thương mại

(prismml.com)

14 điểm bởi GN⁺ 21 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp

PrismML, startup AI khởi nguồn từ nghiên cứu tại Caltech, đã công bố mô hình 1-bit Bonsai 8B, hiện thực hóa suy luận AI thực dụng trên smartphone và thiết bị edge với kích thước 1.15GB, nhỏ hơn khoảng 14 lần so với các mô hình 16 bit cùng hạng
Với thiết kế 1 bit end-to-end thực thụ gồm toàn bộ mạng lưới (embedding, attention, MLP, LM head) đều là 1 bit không ngoại lệ, mô hình vượt qua các vấn đề suy giảm chất lượng ở tác vụ làm theo chỉ thị, suy luận nhiều bước và sử dụng công cụ mà các mô hình low-bit trước đây từng gặp phải
Theo chỉ số Intelligence Density, mô hình đạt 1.06/GB, cao hơn khoảng 10.6 lần so với đối thủ gần nhất trong cùng lớp tham số (Qwen3 8B, 0.10/GB)
Chạy ở 131 tok/s trên M4 Pro Mac, 368 tok/s trên RTX 4090, và khoảng 44 tok/s trên iPhone 17 Pro Max, đồng thời hiệu quả năng lượng tốt hơn khoảng 4~5 lần so với mô hình 16 bit
Nếu phần cứng chuyên dụng cho 1 bit được thiết kế, hiệu năng và hiệu suất còn có thể tăng thêm ở mức một chữ số lần, mở rộng các danh mục triển khai mới như AI on-device, robotics và enterprise bảo mật

Bối cảnh ra đời của PrismML và 1-bit Bonsai

Trong 10 năm qua, sự phát triển của AI diễn ra theo hướng làm cho mô hình ngày càng lớn hơn: nhiều tham số hơn, nhiều GPU hơn, tiêu thụ điện, bộ nhớ và chi phí nhiều hơn
Kết quả là loại trí tuệ mạnh nhất bị mắc kẹt trong những cụm máy quy mô lớn và hạ tầng chuyên dụng, tạo ra một ràng buộc mang tính cấu trúc
Trên thực tế, nơi AI cần hiện diện không chỉ giới hạn ở datacenter mà còn rất đa dạng như smartphone, laptop, xe cộ, robot, enterprise bảo mật và thiết bị edge
PrismML xuất phát từ một nhóm nghiên cứu tại Caltech và được thành lập với sự hỗ trợ từ Khosla Ventures, Cerberus và Google
Công ty đặt Intelligence Density — lượng trí tuệ có thể cung cấp trên mỗi đơn vị kích thước mô hình (GB) — làm chỉ số tối ưu hóa cốt lõi

Thiết kế mô hình 1 bit thực thụ

1-bit Bonsai 8B triển khai embedding, attention layer, MLP layer và LM head hoàn toàn ở 1 bit, đồng thời duy trì kiến trúc 1 bit đầy đủ trên toàn bộ 8.2 tỷ tham số không có escape hatch độ chính xác cao
Các mô hình low-bit trước đây gặp tổn thất hiệu năng lớn ở khả năng làm theo chỉ thị, suy luận nhiều bước và độ tin cậy khi dùng công cụ, nên rất khó dùng làm nền tảng cho sản phẩm thực tế
Bonsai cho thấy mô hình 1 bit cũng có thể là một hệ thống hoàn chỉnh ở cấp độ production, chứ không chỉ là một điểm thỏa hiệp hẹp

Đo Intelligence Density

Intelligence Density được định nghĩa là giá trị âm của log lỗi trung bình trên toàn bộ benchmark, chia cho kích thước mô hình
Chỉ số này phản ánh mức độ trí tuệ thực tế tốt hơn so với việc chỉ lấy trung bình benchmark đơn thuần: nó trao giá trị cao hơn cho các cải thiện bổ sung khi độ chính xác vốn đã cao
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — không chỉ là nhỉnh hơn, mà là một kết quả ở cấp độ khác hẳn
Ngay cả theo điểm benchmark trung bình thô, 1-bit Bonsai 8B vẫn giữ hiệu năng cạnh tranh với các mô hình 8B chủ chốt, trong khi memory footprint chỉ 1.15GB, nhỏ hơn khoảng 12~14 lần so với các mô hình cùng hạng

Kích thước và tốc độ

Với kích thước 1.15GB, mô hình có thể chạy trên iPhone 17 Pro — trong khi các mô hình 8B 16 bit trước đây không thể triển khai trên bất kỳ iPhone nào
Tốc độ suy luận theo thiết bị:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: khoảng 44 tok/s
Khi mô phỏng tác vụ tóm tắt và phân công 50 ticket, 1-bit Bonsai 8B xử lý được cả 50, còn mô hình 8B 16 bit trong cùng điều kiện chỉ xử lý được 6
Trong workload agent dài hạn, thông lượng cao hơn và mức dùng bộ nhớ thấp hơn giúp mở rộng chính khối lượng công việc mà agent có thể xử lý trên thực tế

Hiệu quả năng lượng

1-bit Bonsai 8B đạt hiệu quả năng lượng tốt hơn khoảng 4~5 lần so với mô hình full-precision 16 bit
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
Để AI trở thành một hạ tầng nền tảng, cải thiện đột phá về hiệu quả năng lượng là điều bắt buộc

Tiềm năng của phần cứng chuyên dụng 1 bit

Mức tăng hiệu năng hiện tại chủ yếu đến từ memory footprint đã được thu gọn của mô hình 1 bit; việc tận dụng hoàn toàn cấu trúc trọng số 1 bit trong quá trình suy luận vẫn chưa được hiện thực hóa đầy đủ
Ở các linear layer như MLP, trọng số 1 bit cho phép thay phép nhân bằng phép cộng
Nếu thiết kế phần cứng chuyên dụng cho suy luận 1 bit, hiệu năng và hiệu quả năng lượng còn có thể tăng thêm ở mức một chữ số lần

Các mô hình Bonsai 4B và 1.7B

Hai mô hình nhỏ hơn là 1-bit Bonsai 4B và 1-bit Bonsai 1.7B cũng được phát hành cùng lúc
Trên biểu đồ phân tán intelligence vs kích thước khi so sánh với 20 mô hình instruct chủ chốt (trong khoảng 1.2GB~16.4GB), toàn bộ họ Bonsai đã đẩy Pareto frontier hiện có dịch mạnh sang bên trái
Pareto frontier trước đó gồm Qwen3 0.6B, 1.7B, 4B, 8B và Ministral3 3B, nhưng họ Bonsai đã xác lập một frontier mới

Trí tuệ được nén đậm đặc mở ra điều gì

Khi mô hình trở nên đủ nhỏ, đủ nhanh và đủ hiệu quả để chạy on-device, không gian thiết kế sản phẩm AI lập tức thay đổi:
- Tăng độ phản hồi: suy luận on-device hoạt động không có độ trễ mạng
- Tăng cường quyền riêng tư: dữ liệu nhạy cảm không rời khỏi thiết bị
- Cải thiện độ tin cậy: giảm phụ thuộc vào kết nối cloud liên tục
- Đảm bảo tính kinh tế: có thể ứng dụng AI ở những môi trường mà triển khai phía server trước đây là bất khả thi vì chi phí
Các danh mục mới được mở ra: agent on-device hoạt động liên tục, robotics thời gian thực, copilot enterprise bảo mật, trí tuệ ngoại tuyến và các sản phẩm AI-native cho môi trường bị ràng buộc về băng thông, điện năng hoặc quy định

Hỗ trợ nền tảng và cách công bố

1-bit Bonsai 8B hỗ trợ chạy native trên thiết bị Apple (Mac, iPhone, iPad) qua MLX và trên GPU NVIDIA qua llama.cpp CUDA
Trọng số mô hình hiện được công bố theo giấy phép Apache 2.0
Toàn bộ chi tiết kỹ thuật của quy trình huấn luyện, đánh giá và benchmark được cung cấp trong whitepaper chính thức

2 bình luận

runableapp 20 ngày trước

Thông tin rất hữu ích.

GN⁺ 21 ngày trước

Ý kiến trên Hacker News

Nhấn mạnh rằng cách biểu diễn 1.125 bit (trọng số 1 bit + thang đo 16 bit dùng chung cho mỗi nhóm 128 phần tử) là con số trung thực về mặt kỹ thuật
Cần phân biệt việc “khả thi về mặt thương mại” đang xét theo chi phí suy luận hay có thể đạt được nhờ fine-tuning
Nếu là mô hình được huấn luyện ngay từ đầu với mục tiêu 1 bit như trong bài báo BitNet của Microsoft, thì đó là một thứ hoàn toàn khác với mô hình chỉ được lượng tử hóa đơn thuần
Đặc biệt, hiệu quả suy luận trên phần cứng phổ thông có vẻ hấp dẫn hơn nhiều so với lượng tử hóa INT4
Tuy vậy, benchmark lại so sánh với các mô hình lớn đã lượng tử hóa, nên phần cốt lõi của tuyên bố này phần nào bị lu mờ
Muốn thấy liệu hiệu năng có còn giữ được ở các tác vụ cần suy luận nhiều bước hay không
Thật thú vị khi kiến trúc 1 bit + thang FP16 (1 giá trị cho mỗi 128 bit) lại hoạt động tốt đến vậy
Đã thử tạo test cho trang web qua Cursor, và khả năng dùng công cụ khá ấn tượng
Với mô phỏng Monte Carlo cho π thì logic đúng, nhưng thất bại ở phần tạo giao diện và cần chỉnh tay một chút
Kết quả hình pelican rất trừu tượng
Không có demo chính thức nên đã mở một instance llama.cpp cục bộ
- Nhờ liên kết đó nên đã tự thử được, và tốc độ phản hồi rất nhanh
  Đã thử nhiều yêu cầu như script R, tạo công thức LaTeX, và đặc biệt công thức Euler được tạo hoàn hảo
  Dù là mô hình 1 bit nhỏ, mật độ tri thức cao và phản hồi nhanh
- Với tư cách là người học lịch sử nghệ thuật, hoàn toàn ủng hộ ý tưởng “con pelican đi xe đạp”
- Liên kết ngrok bị quá tải nên đã chia sẻ bản Google Colab
- Tò mò không biết có cần bản fork llama.cpp của Prism hay không
- Cảm giác giống ChatGPT thời kỳ đầu: đa phần đúng nhưng đôi khi vẫn nói linh tinh
  Nếu thêm “bước suy nghĩ” hoặc tăng cường bằng tìm kiếm thì có lẽ sẽ hữu ích hơn nhiều
Đã chạy benchmark debug SQL tự làm và thấy khá ấn tượng
Qua 8/25, không có lỗi sai, 17 lỗi thực thi, ở mức nằm giữa Qwen3.5-4B và Nanbeige4.1-3B
Toàn bộ test kết thúc chỉ trong 200 giây, và về tốc độ thì hiệu quả hơn hẳn Granite 7B 4bit
Có thể xem kết quả tại trang benchmark SQL
- Tôi cũng dùng runpod của @freakynit
  Cá nhân đã thử bài test tạo ứng dụng Pomodoro, chất lượng hoàn thiện chưa cao nhưng ở một số mảng thì khá dùng được
  Khả năng viết lách cũng ổn hơn mong đợi, và thú vị là ít dùng em-dash
  Viết HTML thì yếu, nhưng nếu kết hợp mô hình 1 bit với Ngram-embedding thì có vẻ có nhiều khả năng mới
  Cũng chia sẻ mã prototype tự làm
Có thể chạy trên iPhone bằng ứng dụng Locally AI mới được cập nhật
Hiệu năng rất đáng kinh ngạc so với dung lượng 1.2GB
Kết quả SVG pelican có phần chú thích tốt nhưng hình vẽ thì không ổn lắm
- Phát hiện rằng các mô hình nhỏ rất yếu ở chuyển đổi múi giờ
  Đã hỏi “9:30am theo giờ chuẩn Đài Loan là mấy giờ theo giờ Thái Bình Dương của Mỹ?” nhưng không mô hình nào trả lời đúng
- Tò mò không biết có yêu cầu pelican đi xe đạp hay mô hình tự sáng tạo thêm chi tiết đó
Đã chạy công khai mô hình 8GiB trên RTX 3090 trong 5 giờ
Chia sẻ liên kết máy chủ và lệnh chạy
5 yêu cầu song song, giới hạn khoảng 13K token, dùng 4GiB VRAM
Hiệu năng rất nhanh, xuất ra ở tốc độ 190t/s
- Khuyên nên giữ KV cache không mất độ chính xác
- Trò chuyện với mô hình thật sự rất thú vị
  Trong ví dụ hội thoại, khi hỏi “nên đi bộ hay lái xe đến tiệm rửa xe”, nó đưa ra câu trả lời sáng tạo
- Cập nhật rằng máy chủ đã dừng do spot instance bị thu hồi
- Trầm trồ trước tốc độ
- Cũng chia sẻ kết quả trên Pastebin, nói rằng các mô hình yếu sẽ không cho ra kết quả như vậy
Không có GPU nên chạy bằng CPU, và trên laptop cũ hiệu năng tăng từ 0.6t/s lên 12t/s sau khi thêm AVX2
Cảm giác là khá ổn
- Có phản hồi rằng ngay cả bản build AVX2 vẫn chậm hoặc chỉ cho đầu ra vô nghĩa
  Nguyên nhân là đã bỏ sót bước git checkout prism, và sau khi sửa thì chạy bình thường
- Đùa rằng cách nói “not shabby” còn là đánh giá quá thấp
Nghĩ rằng tương lai của các mô hình lớn sẽ đi theo hướng bit-level hơn là float
Phần lớn giá trị float tập trung trong một dải hẹp nên kém hiệu quả, và rốt cuộc vẫn được hiện thực bằng phép toán bit
Tuy nhiên, vấn đề là GPU và nền tảng lý thuyết hiện nay đều được tối ưu cho phép toán số thực
- Suy luận ở độ rộng bit thấp thì dễ, nhưng huấn luyện khó và không ổn định
  Lý do định dạng float vẫn tồn tại đơn giản là vì nó tương thích tốt với stack GPU
- Bài báo này thực hiện cả huấn luyện theo cách dựa trên nhị phân
  Nó đưa ra khái niệm “Boolean variation”, định nghĩa vi phân ở dạng nhị phân và thực hiện backprop trực tiếp
Sự tương đồng với mạng nơ-ron spiking khá thú vị
Chúng giao tiếp 1 bit thông qua việc có spike hay không, và dùng điện thế màng dạng analog
Đã điều khiển chuyển động bốn chân bằng 5.000 nơ-ron Izhikevich, và hiệu quả hơn PPO
Hiệu quả 1 bit là một khái niệm vượt ra ngoài riêng LLM
Tò mò liệu tỷ lệ “-log error / model size” bằng khoảng 1 có nghĩa là tỷ lệ lỗi ở mức 40% hay không
Cũng nói thêm rằng về mặt toán học thì error/model size = 1/e
Bonsai cung cấp mô hình 8B ở mức 1.15GB, nên cũng tò mò các mô hình 27B hay 35B sẽ lớn đến mức nào
Nếu khả năng scaling vẫn giữ được, thì có vẻ ngay cả mô hình 100B cũng có thể nằm trong 64GB RAM
- Tuy nhiên, chi phí huấn luyện mới là vấn đề
  Có lẽ nó sẽ đắt ngang mô hình full-precision; nếu không thì hẳn họ đã nhắc đến rồi

1-bit Bonsai - LLM 1 bit đầu tiên khả dụng thực tế cho mục đích thương mại

Bối cảnh ra đời của PrismML và 1-bit Bonsai

Thiết kế mô hình 1 bit thực thụ

Đo Intelligence Density

Kích thước và tốc độ

Hiệu quả năng lượng

Tiềm năng của phần cứng chuyên dụng 1 bit

Các mô hình Bonsai 4B và 1.7B

Trí tuệ được nén đậm đặc mở ra điều gì

Hỗ trợ nền tảng và cách công bố

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News