22 điểm bởi GN⁺ 2026-01-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình Qwen3-30B-A3B-Instruct-2507 hoạt động thời gian thực trên Raspberry Pi 5 (16GB), duy trì 8.03 TPS và 94.18% chất lượng BF16
  • Thông qua phương pháp học độ dài bit ShapeLearn của ByteShape, hệ thống tối ưu sự cân bằng giữa tốc độ và chất lượng trong giới hạn bộ nhớ của từng thiết bị
  • So với UnslothMagicQuant, đạt TPS cao hơn ở cùng chất lượng hoặc chất lượng cao hơn ở cùng TPS
  • Trên cả CPU và GPU (đặc biệt là RTX 5090·4080), gần mức 4 bit là vùng hiệu năng tối ưu, và việc giảm số bit không phải lúc nào cũng giúp tăng tốc
  • Nhìn chung, các mô hình ByteShape cung cấp hiệu năng hiệu quả từ edge đến data center với cách tiếp cận “xem bộ nhớ như ngân sách và tối ưu TPS/chất lượng”

Tổng quan tối ưu hóa dựa trên ShapeLearn

  • ByteShape tối ưu tập trung vào tốc độ và chất lượng phản hồi mà người dùng thực sự cảm nhận khi chạy mô hình
    • ShapeLearn học kiểu dữ liệu trọng số (bitlength) của từng tensor để đồng thời tối đa hóa TPS (số token mỗi giây)chất lượng đầu ra
    • Mục tiêu không chỉ là giảm kích thước tệp, mà là cải thiện cân bằng thực tế giữa tốc độ và chất lượng
  • Trong môi trường llama.cpp, việc giảm số bit không phải lúc nào cũng cải thiện tốc độ, vì lựa chọn kernel và overhead ảnh hưởng lớn đến hiệu năng
  • ByteShape xem bộ nhớ là một “ngân sách vừa đủ để chứa mô hình”, sau đó điều chỉnh xoay quanh TPS và chất lượng

Hiệu năng trên Raspberry Pi 5

  • Trên Raspberry Pi 5 (16GB), mô hình 30B duy trì 8.5 TPS và độ chính xác trên 92%
    • Mô hình Q3_K_S-2.70bpw [KQ-2] cung cấp tốc độ phản hồi ở mức hội thoại thời gian thực
  • mô hình ưu tiên độ chính xác, ByteShape đạt tỷ lệ lỗi tương đối 1.1~1.3% (khoảng 98.8% độ chính xác), tức tỷ lệ lỗi thấp hơn tối đa 1.87 lần so với Unsloth
    • Trong cùng môi trường vẫn duy trì 5~6 TPS, phù hợp cho các tác vụ ưu tiên độ chính xác
  • Mô hình ưu tiên tốc độ (Q3_K_S-3.25bpw [KQ-5]) cũng nhỏ hơn, nhanh hơn và vẫn chính xác hơn so với Unsloth
  • Nhiều mô hình của Unsloth và MagicQuant không thể chạy trong môi trường Pi do giới hạn bộ nhớ

Hiệu năng trên Intel i7 (64GB)

  • Trong môi trường mà mọi mô hình đều vừa bộ nhớ, ByteShape đạt chất lượng và TPS cao hơn so với Unsloth·MagicQuant
  • Vùng ưu tiên chất lượng: mô hình IQ4_XS-4.67bpw [KQ-9] của ByteShape có tỷ lệ lỗi thấp hơn 1.44 lần và TPS cao hơn so với Q6_K của Unsloth
  • Vùng cân bằng: mô hình Q3_K_S-3.25bpw của ByteShape có tỷ lệ lỗi thấp hơn 1.73 lần so với Unsloth, đồng thời vượt MagicQuant ở cả độ chính xác lẫn tốc độ
  • Chỉ ByteShape mới đồng thời bao phủ được vùng 26+ TPS và vùng chất lượng cao

So sánh hiệu năng GPU (RTX 5090 / RTX 4080)

  • Trên GPU, lựa chọn kernel và hiệu quả truy cập VRAM quyết định hiệu năng
    • Gần 4 bit (~4bpw) được xác nhận là điểm ngọt về TPS và chất lượng
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant và ByteShape đều đạt 302~303 TPS, độ chính xác 98.4~98.9% trong vùng 4b
    • Mô hình IQ4_XS-4.67bpw của ByteShape đạt độ chính xác cao nhất với 272.98 TPS và 99.75%
    • Vượt trội hơn Unsloth Q6_K (6.57bpw, 264.88 TPS, 99.64%) và MagicQuant mxfp4 (5.46bpw, 240.42 TPS, 99.32%)
  • RTX 4080 (16GB)
    • Do giới hạn VRAM, không thể chạy mô hình 4b; trong cùng điều kiện 16GB, ByteShape vượt Unsloth ở cả TPS lẫn độ chính xác
    • ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% độ chính xác
      • So với Unsloth Q3_K_XL: tỷ lệ lỗi thấp hơn 1.59 lần, TPS cao hơn 9.4%
      • So với Unsloth IQ2_M: tỷ lệ lỗi thấp hơn 2.54 lần

Nghịch lý giữa số bit và tốc độ

  • Giảm xuống dưới 3 bit cũng không đảm bảo tăng tốc
    • GPU hoạt động theo warp 32 luồng và được tối ưu cho các kiểu dữ liệu cũng như mẫu truy cập nhất định
    • VRAM được đọc theo các khối căn chỉnh 32 byte, nên dữ liệu nhỏ hơn vẫn có thể dùng cùng băng thông
    • Bitwidth thấp có thể làm tăng overhead giải mã, khiến mô hình thậm chí chậm hơn
  • Ví dụ: trên RTX 5090, iq4_xs mất 54µs còn iq3_xxs mất 62µs → giảm 25% dung lượng nhưng tốc độ giảm 13%
  • ShapeLearn xem xét các đặc tính phần cứng này để chọn kiểu dữ liệu theo từng tensor, qua đó đảm bảo cả tốc độ lẫn độ chính xác

Phương pháp đánh giá và kết luận

  • Tất cả mô hình được đo TPSđiểm chất lượng chuẩn hóa (so với BF16) bằng cùng một evaluation harness
    • Đánh giá chất lượng tổng hợp từ kết quả MMLU, GSM8K, IFEval, LiveCodeBench V4
  • Kết luận chính:
    • “Hãy coi bộ nhớ là một ràng buộc, không phải mục tiêu.”
    • Khi mô hình đã được nạp vừa vào thiết bị, điều quan trọng tiếp theo là đường cong cân bằng giữa TPS và chất lượng
    • ByteShape trên mọi thiết bị đều đạt nhanh hơn ở cùng chất lượng, hoặc chất lượng cao hơn ở cùng tốc độ
  • Trên Raspberry Pi 5, mô hình Q3_K_S-2.70bpw [KQ-2] phù hợp cho hội thoại thời gian thực
  • Trong môi trường CPU·GPU lớn hơn cũng áp dụng cùng nguyên tắc: “Trước hết phải vừa, sau đó mới tối ưu.”
  • ByteShape dự kiến tiếp tục công bố thêm nhiều mô hình tối ưu theo từng thiết bị trong tương lai

1 bình luận

 
GN⁺ 2026-01-07
Ý kiến trên Hacker News
  • Tôi nghĩ ở đây có một cơ hội thị trường lớn
    Điều tôi muốn là một trợ lý giọng nói kiểu Alexa, nhưng là một hệ thống có các thành phần tiêu chuẩn hóa dựa trên suy luận cục bộ và lưu trữ cục bộ

    • Thiết bị đàm thoại: thiết bị kiểu Alexa/Google/Apple hoặc thiết bị nhập cho TV, có loa tốt và điều khiển bằng giọng nói. Sẽ càng tốt nếu nó còn có thể hoạt động như bộ mở rộng Wi-Fi hay router. Tôi muốn đặt một cái ở mỗi phòng để tạo thành một mạng mesh thực sự
    • Máy chủ đám mây gia đình: một thiết bị có CPU rẻ, một ít RAM và đủ dung lượng lưu trữ, đóng vai trò nút trung tâm quản lý các ứng dụng trong nhà và sao lưu mạng
    • Bộ máy suy luận: sẽ tốt hơn nếu nó quảng bá dịch vụ theo cách tiêu chuẩn và nút điều khiển có thể tự động kết nối. Tôi muốn một môi trường plug-and-play đúng nghĩa, chỉ cần cắm vào là chạy
      Điểm cốt lõi là quyền riêng tư và khả năng tương tác. Nếu phải đăng ký tài khoản hoặc kết nối tới máy chủ bên ngoài thì tôi sẽ không mua. Tôi muốn xử lý cục bộ những lệnh như “Freddy, đặt hẹn giờ 10 phút”
    • Dù vẫn chưa có sản phẩm plug-and-play hoàn chỉnh, tôi đã có kết quả khá tốt với Home AssistantVoice Preview Edition của nó
      Cấu trúc là đặt nhiều thiết bị Wi-Fi giá rẻ + micro + loa ở khắp nhà, còn việc xử lý giọng nói được thực hiện trên một máy trung tâm mạnh hơn
      Cuối cùng thì nó hoạt động như một chương trình duy nhất, nên nếu thêm card Wi-Fi vào một máy mạnh hơn một chút thì nó cũng có thể đóng vai trò bộ mở rộng Wi-Fi
    • Tôi cũng đồng cảm với ý tưởng này. Tôi đang gặp khó khăn trong việc làm cho kết nối giọng nói với ChatGPT trong Home Assistant (HA) hoạt động mượt mà
      Tôi cũng không thích khái niệm wake word. Tôi cảm thấy toàn bộ stack này vẫn còn rất nhiều chỗ cần cải thiện
    • Và sẽ rất thú vị nếu hệ thống như vậy được áp dụng cho cả đồ chơi
  • Tôi tò mò không biết có tài liệu nào tốt để dễ dàng so sánh nhiều mô hình khác nhau không
    Tôi biết sự khác biệt về số lượng tham số giữa gpt-oss-20b và gpt-oss-120b, nhưng không rõ chênh lệch hiệu năng thực tế ra sao
    Tôi chỉ mới dùng các mô hình lớn như Gemini hay GPT, nhưng muốn biết với phần cứng của mình thì các mô hình nhỏ đến mức nào vẫn còn hữu ích để sử dụng

  • Tôi đã tìm thử vì muốn biết hiệu năng “thời gian thực” ở mức nào
    Trên Pi 5 (16GB), mô hình Q3_K_S-2.70bpw [KQ-2] đạt 8.03 TPS và giữ được 94.18% chất lượng của BF16
    Bài viết cũng đề cập đến các chi tiết phần cứng khác

    • Tôi nghĩ sẽ hay nếu có một trang tóm tắt Hacker News chỉ chắt lọc và hiển thị những con số cốt lõi như thế này
  • Tôi cũng đã thử nghiệm với llama.cpp mới nhất trên Pi 5 (16GB) nhưng bị segmentation fault (segfault)
    Thông báo lỗi thiếu bộ nhớ xuất hiện, và nó thoát sau khi dùng khoảng 10GB RAM
    Khi giảm kích thước ngữ cảnh bằng tùy chọn -c 4096 thì việc tải đã thành công

    • Cũng có thể thử mô hình lượng tử hóa 4-bit của illama hoặc ik_llama.cpp, hay Microsoft BitNet
      Các mô hình như BitNet b1.58-2B-4T-gguf có vẻ phù hợp để thử nghiệm so sánh trên thiết bị cấu hình thấp hoặc PC văn phòng chỉ có iGPU
    • Cũng có khả năng họ đã thêm bộ nhớ swap
  • Tôi thắc mắc liệu cách đo độ chính xác này có khác với perplexity thông thường không
    Việc giảm từ BF16 xuống 2.8 mà chỉ mất 5% chất lượng nghe khá khó hiểu

  • GPT-OSS-20B có kích thước khoảng 11.2GB, nên ngay cả trên thiết bị có 16GB bộ nhớ thì vẫn có thể chạy ổn mà không bị suy giảm chất lượng đáng kể