- Mô hình Qwen3.5-9B chạy hoàn toàn cục bộ trên MacBook Pro M5 và đạt hiệu năng 93,8%, thấp hơn 4 điểm so với GPT-5.4
- HomeSec-Bench gồm 96 bài kiểm tra và 15 bộ suite đánh giá các quy trình bảo mật gia đình thực tế như dùng công cụ, phân loại bảo mật, loại bỏ trùng lặp sự kiện
- Qwen3.5-35B-MoE có TTFT 435ms, nhanh hơn mọi mô hình cloud của OpenAI, trong khi mức dùng bộ nhớ GPU vào khoảng 27,2GB
- Chạy cục bộ không tốn chi phí API và bảo đảm hoàn toàn quyền riêng tư dữ liệu, đồng thời có thể trực quan hóa theo thời gian thực trên Apple Silicon
- Thông qua hệ thống Aegis-AI và nền tảng DeepCamera, giờ đây có thể hiện thực hóa hệ sinh thái AI bảo mật gia đình ưu tiên cục bộ dựa trên phần cứng tiêu dùng
So sánh hiệu năng giữa Local AI và Cloud
- Mô hình Qwen3.5-9B chạy hoàn toàn cục bộ trên MacBook Pro M5 và đạt tỷ lệ vượt qua 93,8%, cho thấy hiệu năng chỉ thấp hơn GPT-5.4 4 điểm
- Tốc độ xử lý 25 token/giây, TTFT (Time to First Token) 765ms, sử dụng 13,8GB bộ nhớ hợp nhất
- Không có chi phí API và quyền riêng tư dữ liệu được bảo đảm hoàn toàn
- Trong benchmark gồm 96 bài kiểm tra và 15 bộ suite, hệ thống đánh giá các quy trình bảo mật gia đình thực tế như dùng công cụ, phân loại bảo mật, loại bỏ trùng lặp sự kiện
- Trên bảng xếp hạng, GPT-5.4 (97,9%) đứng đầu, GPT-5.4-mini (95,8%) đứng thứ hai, còn Qwen3.5-9B và 27B (93,8%) đồng hạng ba
- Qwen3.5-9B cao hơn GPT-5.4-nano (92,7%) 1 điểm
-
Qwen3.5-35B-MoE** có TTFT 435ms và nhanh hơn mọi mô hình cloud của OpenAI
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- Về tốc độ giải mã, GPT-5.4-mini nhanh nhất với 234.5 tok/s, còn Qwen3.5-9B đạt 25 tok/s
- Mức dùng bộ nhớ GPU là Qwen3.5-9B 13,8GB, Qwen3.5-35B-MoE 27,2GB, Qwen3.5-122B-MoE 40,8GB
Tổng quan về HomeSec-Bench
- HomeSec-Bench là benchmark LLM dùng để đánh giá quy trình trợ lý bảo mật gia đình thực tế
- Không phải hội thoại đơn giản mà là kiểm chứng các chức năng cần cho hệ thống bảo mật như suy luận, phân loại, dùng công cụ
- Sử dụng 35 hình ảnh do AI tạo ra và có thể chạy trên endpoint tương thích OpenAI
-
Các bộ kiểm tra chính (tổng cộng 15)
- Context Preprocessing (6): loại bỏ trùng lặp hội thoại, giữ lại thông điệp hệ thống
- Topic Classification (4): định tuyến miền cho truy vấn
- Knowledge Distillation (5): trích xuất các dữ kiện bền vững từ hội thoại
- Event Deduplication (8): nhận diện cùng một người giữa nhiều camera
- Tool Use (16): chọn đúng công cụ và tham số
- Chat & JSON Compliance (11): persona, đầu ra JSON, hỗ trợ đa ngôn ngữ
- Security Classification (12): phân loại theo các mức Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): tóm tắt nhật ký sự kiện
- Prompt Injection Resistance (4): ngăn nhầm lẫn vai trò, trích xuất prompt, leo thang đặc quyền
- Multi-Turn Reasoning (4): diễn giải tham chiếu, duy trì tính liên tục theo thời gian
- Error Recovery (4): xử lý truy vấn bất khả thi và lỗi API
- Privacy & Compliance (3): ẩn danh dữ liệu cá nhân, từ chối giám sát bất hợp pháp
- Alert Routing (5): định tuyến kênh cảnh báo, phân tích khung giờ yên tĩnh
- Knowledge Injection (5): cá nhân hóa phản hồi bằng tri thức được đưa vào
- VLM-to-Alert Triage (5): đầu ra thị giác → đánh giá mức độ khẩn cấp → gửi cảnh báo
-
Các câu hỏi đánh giá cốt lõi
- Có thể chọn đúng công cụ và tham số hay không
- Có thể phân loại “một người đeo mặt nạ vào ban đêm” là Critical hay không
- Có thể chống lại prompt injection trong phần mô tả sự kiện hay không
- Có thể nhận diện cùng một người trên 3 camera mà không trùng lặp hay không
- Có thể duy trì ngữ cảnh bảo mật trong hội thoại nhiều lượt hay không
Giá trị của AI cục bộ
- Có thể trực quan hóa quá trình chạy benchmark theo thời gian thực trên Apple Silicon
- Mô hình 9B đạt hiệu năng trong phạm vi 4% so với GPT-5.4 khi chạy offline
- Bảo đảm quyền riêng tư hoàn toàn và chi phí API bằng 0 là giá trị cốt lõi của AI cục bộ
Cấu hình hệ thống
- System: Aegis-AI — AI bảo mật gia đình ưu tiên cục bộ dựa trên phần cứng tiêu dùng
- Benchmark: HomeSec-Bench — 96 bài test LLM + 35 bài test VLM, gồm 16 suite
- Skill Platform: DeepCamera — hệ sinh thái kỹ năng AI phân tán
1 bình luận
Ý kiến trên Hacker News
Tôi từng hình dung rằng một ngày nào đó, khi gia đình mua nhà hay thiết bị gia dụng, họ cũng sẽ mua kèm một máy chủ AI
Vì tốc độ phát triển phần cứng đang chậm lại, có vẻ chỉ cần mua một lần một hệ thống AI gia đình đủ dùng trong vài chục năm
Tôi nghĩ hệ thống này sẽ kế thừa lịch sử của gia đình, hoạt động hoàn toàn ngoại tuyến và trở thành một kiểu trợ lý vĩnh viễn được truyền qua nhiều thế hệ
Ý tưởng về một “máy chủ AI kế thừa gia phả của gia đình” thì rất hay, nhưng trên thực tế khó tránh khỏi sự lão hóa phần cứng
Ngay cả bây giờ hiệu năng đơn nhân đã chững lại, nhưng AI dựa vào tính toán song song nên vẫn đang tiến bộ rất nhanh
Tôi nghĩ khái niệm một máy chủ dùng được vài chục năm vẫn còn quá sớm
Phần lớn mọi người vẫn hài lòng khi giao các dịch vụ như lưu ảnh hay bảo mật cho đám mây
Trang này nhìn rất hào nhoáng, nhưng thực tế chỉ là một benchmark bảo mật gia đình đơn giản
Nó chỉ so sánh các mô hình Qwen, và bản mới nhất thậm chí còn chậm hơn bản trước
Mỗi tác vụ đều có mô hình tối ưu riêng; với VL, đa ngôn ngữ, suy luận... thì các mô hình khác nhau lại có thể tốt hơn
Qwen 3.5 rất xuất sắc, nhưng không tồn tại một mô hình đơn lẻ làm tốt mọi thứ
Việc chọn đúng mô hình và thiết kế prompt còn quan trọng hơn
Ngay cả khi không có Mac M5 mới nhất, laptop 2 năm tuổi hay smartphone cũng đã đủ dùng
Hiện tại tôi chỉ đang thử LLM trên MBP Pro 64GB, và tôi nghĩ VLM thì LFM 450M là tốt nhất
Sắp tới tôi sẽ cập nhật
Tôi đang thử nghiệm với LM Studio và đang tìm một mô hình để code Rust và SQL như bản thay thế Claude chạy cục bộ
Tổ hợp Qwen 9B + LFM 450M hoạt động tốt ngay cả với ngân sách dưới $400
Tôi định mở rộng thử nghiệm với nhiều mô hình hơn
M5 Pro đã ra mắt, nên tôi đã thử nghiệm với khối lượng công việc AI thực tế
Qwen3.5-9B đạt 93.8%, chỉ kém GPT-5.4 4 điểm, và mọi thứ đều chạy cục bộ
Nó dùng 25 tok/s, TTFT 765ms và chỉ dùng 13.8GB bộ nhớ
Xem toàn bộ kết quả
Sẽ tốt hơn nếu có liên kết cho thấy rõ các hạng mục thử nghiệm
Tôi cũng muốn biết liệu khi dùng lâu dài có xảy ra hư hại silicon không
Hiện tại để chạy mô hình cục bộ thì cần khoảng $2500
Điều thú vị là vào năm 1995, khi bố mẹ tôi mua một chiếc PC 166MHz, giá cũng xấp xỉ như vậy
Sau khi trải qua tốc độ mất giá của đồ điện tử, giờ tôi rất nhạy cảm với giá
Tuy vậy, do định luật Moore chậm lại, có thể mọi thứ sẽ không còn rẻ đi nhanh như trước
Thật khó tin là thời đó nó lại được xem là “đáng tiền”
Nó chạy tốt ngay cả trên Mac Mini giá $500
Ngay cả trên M2 Mini, các mô hình nhỏ cũng chạy tốt
Bài kiểm tra prompt injection này có vẻ chưa thật sự thuyết phục
Cảm ơn vì đã review
Về mặt kỹ thuật thì rất tốt, nhưng đang thiếu tính năng cấp chứng chỉ báo động cho bảo hiểm
Trong kinh doanh thực tế, phải có thứ này mới được giảm phí bảo hiểm hoặc bồi thường thiệt hại
Cuối cùng, rào cản lớn hơn công nghệ lại là quy định và tuân thủ
Tôi tò mò hệ thống này so với Frigate như thế nào
Không rõ nó chỉ là một lớp nằm trên NVR hay còn xử lý cả ghi hình khi phát hiện chuyển động
Nó có thể lưu video từ camera BLINK/RING ở cục bộ để dùng làm bộ nhớ liên tục
Nghe như đùa, nhưng chữ S trong AI nghĩa là Security
Trong tương lai, token có thể sẽ được bán như lưu lượng dữ liệu, và trở thành một loại hàng tiêu dùng hằng ngày