14 điểm bởi GN⁺ 21 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp
  • PrismML, startup AI khởi nguồn từ nghiên cứu tại Caltech, đã công bố mô hình 1-bit Bonsai 8B, hiện thực hóa suy luận AI thực dụng trên smartphone và thiết bị edge với kích thước 1.15GB, nhỏ hơn khoảng 14 lần so với các mô hình 16 bit cùng hạng
  • Với thiết kế 1 bit end-to-end thực thụ gồm toàn bộ mạng lưới (embedding, attention, MLP, LM head) đều là 1 bit không ngoại lệ, mô hình vượt qua các vấn đề suy giảm chất lượng ở tác vụ làm theo chỉ thị, suy luận nhiều bước và sử dụng công cụ mà các mô hình low-bit trước đây từng gặp phải
  • Theo chỉ số Intelligence Density, mô hình đạt 1.06/GB, cao hơn khoảng 10.6 lần so với đối thủ gần nhất trong cùng lớp tham số (Qwen3 8B, 0.10/GB)
  • Chạy ở 131 tok/s trên M4 Pro Mac, 368 tok/s trên RTX 4090, và khoảng 44 tok/s trên iPhone 17 Pro Max, đồng thời hiệu quả năng lượng tốt hơn khoảng 4~5 lần so với mô hình 16 bit
  • Nếu phần cứng chuyên dụng cho 1 bit được thiết kế, hiệu năng và hiệu suất còn có thể tăng thêm ở mức một chữ số lần, mở rộng các danh mục triển khai mới như AI on-device, robotics và enterprise bảo mật

Bối cảnh ra đời của PrismML và 1-bit Bonsai

  • Trong 10 năm qua, sự phát triển của AI diễn ra theo hướng làm cho mô hình ngày càng lớn hơn: nhiều tham số hơn, nhiều GPU hơn, tiêu thụ điện, bộ nhớ và chi phí nhiều hơn
  • Kết quả là loại trí tuệ mạnh nhất bị mắc kẹt trong những cụm máy quy mô lớn và hạ tầng chuyên dụng, tạo ra một ràng buộc mang tính cấu trúc
  • Trên thực tế, nơi AI cần hiện diện không chỉ giới hạn ở datacenter mà còn rất đa dạng như smartphone, laptop, xe cộ, robot, enterprise bảo mật và thiết bị edge
  • PrismML xuất phát từ một nhóm nghiên cứu tại Caltech và được thành lập với sự hỗ trợ từ Khosla Ventures, Cerberus và Google
  • Công ty đặt Intelligence Density — lượng trí tuệ có thể cung cấp trên mỗi đơn vị kích thước mô hình (GB) — làm chỉ số tối ưu hóa cốt lõi

Thiết kế mô hình 1 bit thực thụ

  • 1-bit Bonsai 8B triển khai embedding, attention layer, MLP layer và LM head hoàn toàn ở 1 bit, đồng thời duy trì kiến trúc 1 bit đầy đủ trên toàn bộ 8.2 tỷ tham số không có escape hatch độ chính xác cao
  • Các mô hình low-bit trước đây gặp tổn thất hiệu năng lớn ở khả năng làm theo chỉ thị, suy luận nhiều bước và độ tin cậy khi dùng công cụ, nên rất khó dùng làm nền tảng cho sản phẩm thực tế
  • Bonsai cho thấy mô hình 1 bit cũng có thể là một hệ thống hoàn chỉnh ở cấp độ production, chứ không chỉ là một điểm thỏa hiệp hẹp

Đo Intelligence Density

  • Intelligence Density được định nghĩa là giá trị âm của log lỗi trung bình trên toàn bộ benchmark, chia cho kích thước mô hình
  • Chỉ số này phản ánh mức độ trí tuệ thực tế tốt hơn so với việc chỉ lấy trung bình benchmark đơn thuần: nó trao giá trị cao hơn cho các cải thiện bổ sung khi độ chính xác vốn đã cao
  • 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — không chỉ là nhỉnh hơn, mà là một kết quả ở cấp độ khác hẳn
  • Ngay cả theo điểm benchmark trung bình thô, 1-bit Bonsai 8B vẫn giữ hiệu năng cạnh tranh với các mô hình 8B chủ chốt, trong khi memory footprint chỉ 1.15GB, nhỏ hơn khoảng 12~14 lần so với các mô hình cùng hạng

Kích thước và tốc độ

  • Với kích thước 1.15GB, mô hình có thể chạy trên iPhone 17 Pro — trong khi các mô hình 8B 16 bit trước đây không thể triển khai trên bất kỳ iPhone nào
  • Tốc độ suy luận theo thiết bị:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: khoảng 44 tok/s
  • Khi mô phỏng tác vụ tóm tắt và phân công 50 ticket, 1-bit Bonsai 8B xử lý được cả 50, còn mô hình 8B 16 bit trong cùng điều kiện chỉ xử lý được 6
  • Trong workload agent dài hạn, thông lượng cao hơn và mức dùng bộ nhớ thấp hơn giúp mở rộng chính khối lượng công việc mà agent có thể xử lý trên thực tế

Hiệu quả năng lượng

  • 1-bit Bonsai 8B đạt hiệu quả năng lượng tốt hơn khoảng 4~5 lần so với mô hình full-precision 16 bit
    • M4 Pro: 0.074 mWh/tok
    • iPhone 17 Pro Max: 0.068 mWh/tok
  • Để AI trở thành một hạ tầng nền tảng, cải thiện đột phá về hiệu quả năng lượng là điều bắt buộc

Tiềm năng của phần cứng chuyên dụng 1 bit

  • Mức tăng hiệu năng hiện tại chủ yếu đến từ memory footprint đã được thu gọn của mô hình 1 bit; việc tận dụng hoàn toàn cấu trúc trọng số 1 bit trong quá trình suy luận vẫn chưa được hiện thực hóa đầy đủ
  • Ở các linear layer như MLP, trọng số 1 bit cho phép thay phép nhân bằng phép cộng
  • Nếu thiết kế phần cứng chuyên dụng cho suy luận 1 bit, hiệu năng và hiệu quả năng lượng còn có thể tăng thêm ở mức một chữ số lần

Các mô hình Bonsai 4B và 1.7B

  • Hai mô hình nhỏ hơn là 1-bit Bonsai 4B1-bit Bonsai 1.7B cũng được phát hành cùng lúc
  • Trên biểu đồ phân tán intelligence vs kích thước khi so sánh với 20 mô hình instruct chủ chốt (trong khoảng 1.2GB~16.4GB), toàn bộ họ Bonsai đã đẩy Pareto frontier hiện có dịch mạnh sang bên trái
  • Pareto frontier trước đó gồm Qwen3 0.6B, 1.7B, 4B, 8B và Ministral3 3B, nhưng họ Bonsai đã xác lập một frontier mới

Trí tuệ được nén đậm đặc mở ra điều gì

  • Khi mô hình trở nên đủ nhỏ, đủ nhanh và đủ hiệu quả để chạy on-device, không gian thiết kế sản phẩm AI lập tức thay đổi:
    • Tăng độ phản hồi: suy luận on-device hoạt động không có độ trễ mạng
    • Tăng cường quyền riêng tư: dữ liệu nhạy cảm không rời khỏi thiết bị
    • Cải thiện độ tin cậy: giảm phụ thuộc vào kết nối cloud liên tục
    • Đảm bảo tính kinh tế: có thể ứng dụng AI ở những môi trường mà triển khai phía server trước đây là bất khả thi vì chi phí
  • Các danh mục mới được mở ra: agent on-device hoạt động liên tục, robotics thời gian thực, copilot enterprise bảo mật, trí tuệ ngoại tuyến và các sản phẩm AI-native cho môi trường bị ràng buộc về băng thông, điện năng hoặc quy định

Hỗ trợ nền tảng và cách công bố

  • 1-bit Bonsai 8B hỗ trợ chạy native trên thiết bị Apple (Mac, iPhone, iPad) qua MLX và trên GPU NVIDIA qua llama.cpp CUDA
  • Trọng số mô hình hiện được công bố theo giấy phép Apache 2.0
  • Toàn bộ chi tiết kỹ thuật của quy trình huấn luyện, đánh giá và benchmark được cung cấp trong whitepaper chính thức

2 bình luận

 
runableapp 20 ngày trước

Thông tin rất hữu ích.

 
Ý kiến trên Hacker News
  • Nhấn mạnh rằng cách biểu diễn 1.125 bit (trọng số 1 bit + thang đo 16 bit dùng chung cho mỗi nhóm 128 phần tử) là con số trung thực về mặt kỹ thuật
    Cần phân biệt việc “khả thi về mặt thương mại” đang xét theo chi phí suy luận hay có thể đạt được nhờ fine-tuning
    Nếu là mô hình được huấn luyện ngay từ đầu với mục tiêu 1 bit như trong bài báo BitNet của Microsoft, thì đó là một thứ hoàn toàn khác với mô hình chỉ được lượng tử hóa đơn thuần
    Đặc biệt, hiệu quả suy luận trên phần cứng phổ thông có vẻ hấp dẫn hơn nhiều so với lượng tử hóa INT4
    Tuy vậy, benchmark lại so sánh với các mô hình lớn đã lượng tử hóa, nên phần cốt lõi của tuyên bố này phần nào bị lu mờ
    Muốn thấy liệu hiệu năng có còn giữ được ở các tác vụ cần suy luận nhiều bước hay không

  • Thật thú vị khi kiến trúc 1 bit + thang FP16 (1 giá trị cho mỗi 128 bit) lại hoạt động tốt đến vậy
    Đã thử tạo test cho trang web qua Cursor, và khả năng dùng công cụ khá ấn tượng
    Với mô phỏng Monte Carlo cho π thì logic đúng, nhưng thất bại ở phần tạo giao diện và cần chỉnh tay một chút
    Kết quả hình pelican rất trừu tượng
    Không có demo chính thức nên đã mở một instance llama.cpp cục bộ

    • Nhờ liên kết đó nên đã tự thử được, và tốc độ phản hồi rất nhanh
      Đã thử nhiều yêu cầu như script R, tạo công thức LaTeX, và đặc biệt công thức Euler được tạo hoàn hảo
      Dù là mô hình 1 bit nhỏ, mật độ tri thức cao và phản hồi nhanh
    • Với tư cách là người học lịch sử nghệ thuật, hoàn toàn ủng hộ ý tưởng “con pelican đi xe đạp”
    • Liên kết ngrok bị quá tải nên đã chia sẻ bản Google Colab
    • Tò mò không biết có cần bản fork llama.cpp của Prism hay không
    • Cảm giác giống ChatGPT thời kỳ đầu: đa phần đúng nhưng đôi khi vẫn nói linh tinh
      Nếu thêm “bước suy nghĩ” hoặc tăng cường bằng tìm kiếm thì có lẽ sẽ hữu ích hơn nhiều
  • Đã chạy benchmark debug SQL tự làm và thấy khá ấn tượng
    Qua 8/25, không có lỗi sai, 17 lỗi thực thi, ở mức nằm giữa Qwen3.5-4B và Nanbeige4.1-3B
    Toàn bộ test kết thúc chỉ trong 200 giây, và về tốc độ thì hiệu quả hơn hẳn Granite 7B 4bit
    Có thể xem kết quả tại trang benchmark SQL

    • Tôi cũng dùng runpod của @freakynit
      Cá nhân đã thử bài test tạo ứng dụng Pomodoro, chất lượng hoàn thiện chưa cao nhưng ở một số mảng thì khá dùng được
      Khả năng viết lách cũng ổn hơn mong đợi, và thú vị là ít dùng em-dash
      Viết HTML thì yếu, nhưng nếu kết hợp mô hình 1 bit với Ngram-embedding thì có vẻ có nhiều khả năng mới
      Cũng chia sẻ mã prototype tự làm
  • Có thể chạy trên iPhone bằng ứng dụng Locally AI mới được cập nhật
    Hiệu năng rất đáng kinh ngạc so với dung lượng 1.2GB
    Kết quả SVG pelican có phần chú thích tốt nhưng hình vẽ thì không ổn lắm

    • Phát hiện rằng các mô hình nhỏ rất yếu ở chuyển đổi múi giờ
      Đã hỏi “9:30am theo giờ chuẩn Đài Loan là mấy giờ theo giờ Thái Bình Dương của Mỹ?” nhưng không mô hình nào trả lời đúng
    • Tò mò không biết có yêu cầu pelican đi xe đạp hay mô hình tự sáng tạo thêm chi tiết đó
  • Đã chạy công khai mô hình 8GiB trên RTX 3090 trong 5 giờ
    Chia sẻ liên kết máy chủ và lệnh chạy
    5 yêu cầu song song, giới hạn khoảng 13K token, dùng 4GiB VRAM
    Hiệu năng rất nhanh, xuất ra ở tốc độ 190t/s

    • Khuyên nên giữ KV cache không mất độ chính xác
    • Trò chuyện với mô hình thật sự rất thú vị
      Trong ví dụ hội thoại, khi hỏi “nên đi bộ hay lái xe đến tiệm rửa xe”, nó đưa ra câu trả lời sáng tạo
    • Cập nhật rằng máy chủ đã dừng do spot instance bị thu hồi
    • Trầm trồ trước tốc độ
    • Cũng chia sẻ kết quả trên Pastebin, nói rằng các mô hình yếu sẽ không cho ra kết quả như vậy
  • Không có GPU nên chạy bằng CPU, và trên laptop cũ hiệu năng tăng từ 0.6t/s lên 12t/s sau khi thêm AVX2
    Cảm giác là khá ổn

    • Có phản hồi rằng ngay cả bản build AVX2 vẫn chậm hoặc chỉ cho đầu ra vô nghĩa
      Nguyên nhân là đã bỏ sót bước git checkout prism, và sau khi sửa thì chạy bình thường
    • Đùa rằng cách nói “not shabby” còn là đánh giá quá thấp
  • Nghĩ rằng tương lai của các mô hình lớn sẽ đi theo hướng bit-level hơn là float
    Phần lớn giá trị float tập trung trong một dải hẹp nên kém hiệu quả, và rốt cuộc vẫn được hiện thực bằng phép toán bit
    Tuy nhiên, vấn đề là GPU và nền tảng lý thuyết hiện nay đều được tối ưu cho phép toán số thực

    • Suy luận ở độ rộng bit thấp thì dễ, nhưng huấn luyện khó và không ổn định
      Lý do định dạng float vẫn tồn tại đơn giản là vì nó tương thích tốt với stack GPU
    • Bài báo này thực hiện cả huấn luyện theo cách dựa trên nhị phân
      Nó đưa ra khái niệm “Boolean variation”, định nghĩa vi phân ở dạng nhị phân và thực hiện backprop trực tiếp
  • Sự tương đồng với mạng nơ-ron spiking khá thú vị
    Chúng giao tiếp 1 bit thông qua việc có spike hay không, và dùng điện thế màng dạng analog
    Đã điều khiển chuyển động bốn chân bằng 5.000 nơ-ron Izhikevich, và hiệu quả hơn PPO
    Hiệu quả 1 bit là một khái niệm vượt ra ngoài riêng LLM

  • Tò mò liệu tỷ lệ “-log error / model size” bằng khoảng 1 có nghĩa là tỷ lệ lỗi ở mức 40% hay không
    Cũng nói thêm rằng về mặt toán học thì error/model size = 1/e

  • Bonsai cung cấp mô hình 8B ở mức 1.15GB, nên cũng tò mò các mô hình 27B hay 35B sẽ lớn đến mức nào
    Nếu khả năng scaling vẫn giữ được, thì có vẻ ngay cả mô hình 100B cũng có thể nằm trong 64GB RAM

    • Tuy nhiên, chi phí huấn luyện mới là vấn đề
      Có lẽ nó sẽ đắt ngang mô hình full-precision; nếu không thì hẳn họ đã nhắc đến rồi