3 điểm bởi GN⁺ 2026-03-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình Qwen3.5-9B chạy hoàn toàn cục bộ trên MacBook Pro M5 và đạt hiệu năng 93,8%, thấp hơn 4 điểm so với GPT-5.4
  • HomeSec-Bench gồm 96 bài kiểm tra và 15 bộ suite đánh giá các quy trình bảo mật gia đình thực tế như dùng công cụ, phân loại bảo mật, loại bỏ trùng lặp sự kiện
  • Qwen3.5-35B-MoETTFT 435ms, nhanh hơn mọi mô hình cloud của OpenAI, trong khi mức dùng bộ nhớ GPU vào khoảng 27,2GB
  • Chạy cục bộ không tốn chi phí API và bảo đảm hoàn toàn quyền riêng tư dữ liệu, đồng thời có thể trực quan hóa theo thời gian thực trên Apple Silicon
  • Thông qua hệ thống Aegis-AI và nền tảng DeepCamera, giờ đây có thể hiện thực hóa hệ sinh thái AI bảo mật gia đình ưu tiên cục bộ dựa trên phần cứng tiêu dùng

So sánh hiệu năng giữa Local AI và Cloud

  • Mô hình Qwen3.5-9B chạy hoàn toàn cục bộ trên MacBook Pro M5 và đạt tỷ lệ vượt qua 93,8%, cho thấy hiệu năng chỉ thấp hơn GPT-5.4 4 điểm
    • Tốc độ xử lý 25 token/giây, TTFT (Time to First Token) 765ms, sử dụng 13,8GB bộ nhớ hợp nhất
    • Không có chi phí API và quyền riêng tư dữ liệu được bảo đảm hoàn toàn
  • Trong benchmark gồm 96 bài kiểm tra và 15 bộ suite, hệ thống đánh giá các quy trình bảo mật gia đình thực tế như dùng công cụ, phân loại bảo mật, loại bỏ trùng lặp sự kiện
  • Trên bảng xếp hạng, GPT-5.4 (97,9%) đứng đầu, GPT-5.4-mini (95,8%) đứng thứ hai, còn Qwen3.5-9B và 27B (93,8%) đồng hạng ba
    • Qwen3.5-9B cao hơn GPT-5.4-nano (92,7%) 1 điểm
  • Qwen3.5-35B-MoE** có TTFT 435msnhanh hơn mọi mô hình cloud của OpenAI

    • GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
    • Về tốc độ giải mã, GPT-5.4-mini nhanh nhất với 234.5 tok/s, còn Qwen3.5-9B đạt 25 tok/s
    • Mức dùng bộ nhớ GPU là Qwen3.5-9B 13,8GB, Qwen3.5-35B-MoE 27,2GB, Qwen3.5-122B-MoE 40,8GB

Tổng quan về HomeSec-Bench

  • HomeSec-Bench là benchmark LLM dùng để đánh giá quy trình trợ lý bảo mật gia đình thực tế
    • Không phải hội thoại đơn giản mà là kiểm chứng các chức năng cần cho hệ thống bảo mật như suy luận, phân loại, dùng công cụ
    • Sử dụng 35 hình ảnh do AI tạo ra và có thể chạy trên endpoint tương thích OpenAI
  • Các bộ kiểm tra chính (tổng cộng 15)

    • Context Preprocessing (6): loại bỏ trùng lặp hội thoại, giữ lại thông điệp hệ thống
    • Topic Classification (4): định tuyến miền cho truy vấn
    • Knowledge Distillation (5): trích xuất các dữ kiện bền vững từ hội thoại
    • Event Deduplication (8): nhận diện cùng một người giữa nhiều camera
    • Tool Use (16): chọn đúng công cụ và tham số
    • Chat & JSON Compliance (11): persona, đầu ra JSON, hỗ trợ đa ngôn ngữ
    • Security Classification (12): phân loại theo các mức Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4): tóm tắt nhật ký sự kiện
    • Prompt Injection Resistance (4): ngăn nhầm lẫn vai trò, trích xuất prompt, leo thang đặc quyền
    • Multi-Turn Reasoning (4): diễn giải tham chiếu, duy trì tính liên tục theo thời gian
    • Error Recovery (4): xử lý truy vấn bất khả thi và lỗi API
    • Privacy & Compliance (3): ẩn danh dữ liệu cá nhân, từ chối giám sát bất hợp pháp
    • Alert Routing (5): định tuyến kênh cảnh báo, phân tích khung giờ yên tĩnh
    • Knowledge Injection (5): cá nhân hóa phản hồi bằng tri thức được đưa vào
    • VLM-to-Alert Triage (5): đầu ra thị giác → đánh giá mức độ khẩn cấp → gửi cảnh báo
  • Các câu hỏi đánh giá cốt lõi

    • Có thể chọn đúng công cụ và tham số hay không
    • Có thể phân loại “một người đeo mặt nạ vào ban đêm” là Critical hay không
    • Có thể chống lại prompt injection trong phần mô tả sự kiện hay không
    • Có thể nhận diện cùng một người trên 3 camera mà không trùng lặp hay không
    • Có thể duy trì ngữ cảnh bảo mật trong hội thoại nhiều lượt hay không

Giá trị của AI cục bộ

  • Có thể trực quan hóa quá trình chạy benchmark theo thời gian thực trên Apple Silicon
  • Mô hình 9B đạt hiệu năng trong phạm vi 4% so với GPT-5.4 khi chạy offline
  • Bảo đảm quyền riêng tư hoàn toànchi phí API bằng 0 là giá trị cốt lõi của AI cục bộ

Cấu hình hệ thống

  • System: Aegis-AI — AI bảo mật gia đình ưu tiên cục bộ dựa trên phần cứng tiêu dùng
  • Benchmark: HomeSec-Bench — 96 bài test LLM + 35 bài test VLM, gồm 16 suite
  • Skill Platform: DeepCamera — hệ sinh thái kỹ năng AI phân tán

1 bình luận

 
GN⁺ 2026-03-21
Ý kiến trên Hacker News
  • Tôi từng hình dung rằng một ngày nào đó, khi gia đình mua nhà hay thiết bị gia dụng, họ cũng sẽ mua kèm một máy chủ AI
    Vì tốc độ phát triển phần cứng đang chậm lại, có vẻ chỉ cần mua một lần một hệ thống AI gia đình đủ dùng trong vài chục năm
    Tôi nghĩ hệ thống này sẽ kế thừa lịch sử của gia đình, hoạt động hoàn toàn ngoại tuyến và trở thành một kiểu trợ lý vĩnh viễn được truyền qua nhiều thế hệ

    • Không đồng ý. Chỉ cần nhìn so sánh M1 và M5 thì trong 5 năm, CPU/GPU, AI, dựng hình 3D và gần như mọi mặt đều đã nhanh hơn hơn 6 lần
      Ý tưởng về một “máy chủ AI kế thừa gia phả của gia đình” thì rất hay, nhưng trên thực tế khó tránh khỏi sự lão hóa phần cứng
    • Nếu mua máy chủ cho nhà từ 10 năm trước thì có lẽ còn chưa hề có GPU hay bộ tăng tốc AI
      Ngay cả bây giờ hiệu năng đơn nhân đã chững lại, nhưng AI dựa vào tính toán song song nên vẫn đang tiến bộ rất nhanh
      Tôi nghĩ khái niệm một máy chủ dùng được vài chục năm vẫn còn quá sớm
    • Khái niệm được đề xuất thực ra về cơ bản không khác homelab là mấy
      Phần lớn mọi người vẫn hài lòng khi giao các dịch vụ như lưu ảnh hay bảo mật cho đám mây
    • Dự đoán về một “máy chủ dùng vài chục năm” nghe như một lập luận quá yếu
    • Hơn nữa, loại sản phẩm này không có mô hình doanh thu thuê bao, nên từ góc độ doanh nghiệp cũng không có nhiều động lực để làm
  • Trang này nhìn rất hào nhoáng, nhưng thực tế chỉ là một benchmark bảo mật gia đình đơn giản
    Nó chỉ so sánh các mô hình Qwen, và bản mới nhất thậm chí còn chậm hơn bản trước
    Mỗi tác vụ đều có mô hình tối ưu riêng; với VL, đa ngôn ngữ, suy luận... thì các mô hình khác nhau lại có thể tốt hơn
    Qwen 3.5 rất xuất sắc, nhưng không tồn tại một mô hình đơn lẻ làm tốt mọi thứ
    Việc chọn đúng mô hình và thiết kế prompt còn quan trọng hơn
    Ngay cả khi không có Mac M5 mới nhất, laptop 2 năm tuổi hay smartphone cũng đã đủ dùng

    • Cảm ơn phản hồi :) Sau khi thấy Qwen3.5 chậm đi, tôi đã tắt thinking mode
      Hiện tại tôi chỉ đang thử LLM trên MBP Pro 64GB, và tôi nghĩ VLM thì LFM 450M là tốt nhất
      Sắp tới tôi sẽ cập nhật
    • Tôi muốn học xem mô hình nào phù hợp với tác vụ nào
      Tôi đang thử nghiệm với LM Studio và đang tìm một mô hình để code Rust và SQL như bản thay thế Claude chạy cục bộ
    • Tôi cũng đang chạy nhiều camera trên Mac mini M2 16GB
      Tổ hợp Qwen 9B + LFM 450M hoạt động tốt ngay cả với ngân sách dưới $400
      Tôi định mở rộng thử nghiệm với nhiều mô hình hơn
  • M5 Pro đã ra mắt, nên tôi đã thử nghiệm với khối lượng công việc AI thực tế
    Qwen3.5-9B đạt 93.8%, chỉ kém GPT-5.4 4 điểm, và mọi thứ đều chạy cục bộ
    Nó dùng 25 tok/s, TTFT 765ms và chỉ dùng 13.8GB bộ nhớ
    Xem toàn bộ kết quả

    • Cảm ơn vì đã chia sẻ kết quả, nhưng trang và bình luận dùng văn phong cường điệu như thể do AI viết, nên khá khó hiểu chính xác đã thử nghiệm gì
      Sẽ tốt hơn nếu có liên kết cho thấy rõ các hạng mục thử nghiệm
    • Nếu đây là một “hệ thống an ninh gia đình hoàn toàn cục bộ”, tôi tò mò không biết GPU có phải chạy full load 24/7 hay không
      Tôi cũng muốn biết liệu khi dùng lâu dài có xảy ra hư hại silicon không
  • Hiện tại để chạy mô hình cục bộ thì cần khoảng $2500
    Điều thú vị là vào năm 1995, khi bố mẹ tôi mua một chiếc PC 166MHz, giá cũng xấp xỉ như vậy

    • Tôi cũng nhớ hồi thập niên 80~90 đã mua những chiếc PC giá hàng nghìn đô
      Sau khi trải qua tốc độ mất giá của đồ điện tử, giờ tôi rất nhạy cảm với giá
      Tuy vậy, do định luật Moore chậm lại, có thể mọi thứ sẽ không còn rẻ đi nhanh như trước
    • Năm 1989 tôi mua một chiếc 386sx giá $3800, quy ra hiện nay gần như khoảng $10,000
      Thật khó tin là thời đó nó lại được xem là “đáng tiền”
    • Mô hình cục bộ đứng đầu benchmark là Qwen3.5-9B (Q4_K_M) là mô hình 9B tham số với lượng tử hóa 4.5 bit
      Nó chạy tốt ngay cả trên Mac Mini giá $500
    • Nếu chỉ mới bắt đầu thì Mac Mini 16GB (<$499) là đủ
      Ngay cả trên M2 Mini, các mô hình nhỏ cũng chạy tốt
  • Bài kiểm tra prompt injection này có vẻ chưa thật sự thuyết phục

    • Cái này chủ yếu được dùng để phát hiện tấn công trung gian
      Cảm ơn vì đã review
  • Về mặt kỹ thuật thì rất tốt, nhưng đang thiếu tính năng cấp chứng chỉ báo động cho bảo hiểm
    Trong kinh doanh thực tế, phải có thứ này mới được giảm phí bảo hiểm hoặc bồi thường thiệt hại
    Cuối cùng, rào cản lớn hơn công nghệ lại là quy định và tuân thủ

    • Đúng vậy, có vẻ tiêu chuẩn đó rất cao
  • Tôi tò mò hệ thống này so với Frigate như thế nào
    Không rõ nó chỉ là một lớp nằm trên NVR hay còn xử lý cả ghi hình khi phát hiện chuyển động

    • Nếu mua Coral TPU cho Frigate thì có thể offload rất nhiều suy luận với chi phí thấp
    • Aegis hỗ trợ tích hợp camera ONVIF, ghi hình khi phát hiện chuyển động và hiểu ngữ cảnh dựa trên VLM
      Nó có thể lưu video từ camera BLINK/RING ở cục bộ để dùng làm bộ nhớ liên tục
  • Nghe như đùa, nhưng chữ S trong AI nghĩa là Security

  • Trong tương lai, token có thể sẽ được bán như lưu lượng dữ liệu, và trở thành một loại hàng tiêu dùng hằng ngày