- Raspberry Pi AI HAT+ 2 được trang bị Hailo 10H NPU và 8GB LPDDR4X RAM, có thể tự chạy suy luận LLM cục bộ một cách độc lập
- Cung cấp hiệu năng tối đa 3W điện năng tiêu thụ và 40 TOPS (INT8), nhưng trong thử nghiệm thực tế lại cho kết quả chậm hơn CPU của Pi 5
- Giới hạn điện năng (3W) và dung lượng RAM (8GB) trở thành nút thắt cổ chai, nên với các mô hình cỡ trung thì Pi 5 16GB hiệu quả hơn
- Trong xử lý thị giác (Computer Vision), thiết bị cho tốc độ nhanh hơn 10 lần so với AI HAT trước đây, nhưng lại gặp vấn đề tương thích phần mềm và lỗi khi chạy đồng thời nhiều mô hình
- Trừ trường hợp cần chạy song song thị giác + suy luận trong môi trường điện năng thấp, giá trị của nó chủ yếu nằm ở vai trò bo mạch phát triển hoặc nền tảng thử nghiệm
Thông số và đặc điểm chính của AI HAT+ 2
- Mẫu mới có giá 130 USD, tích hợp Hailo 10H NPU và 8GB LPDDR4X RAM
- Hailo 10H cung cấp 40 TOPS hiệu năng suy luận INT8 và 26 TOPS hiệu năng thị giác INT4
- Có thể chạy LLM độc lập mà không chiếm CPU hay bộ nhớ hệ thống của Pi
- Vấn đề không thể nâng cấp RAM vẫn còn, nhưng khi dùng như một bộ xử lý hỗ trợ AI thì có thể giảm gánh nặng bộ nhớ
- Được đánh giá là rẻ hơn và gọn hơn so với kết nối eGPU, đồng thời thực dụng hơn NPU tích hợp trong các máy ‘AI PC’ của Microsoft
Đánh giá hiệu năng thực tế
- Bài thử nghiệm so sánh cùng một mô hình chạy trên CPU và NPU, đều thực hiện trên Raspberry Pi 5 bản 8GB RAM
- Với đa số mô hình, CPU của Pi 5 cho hiệu năng nhanh hơn Hailo 10H
- Chỉ riêng mô hình Qwen2.5 Coder 1.5B là cho kết quả gần tương đương
- Hailo 10H có hiệu quả điện năng cao, nhưng hiệu năng bị giới hạn bởi mức điện năng 3W
- SoC của Pi 5 có thể dùng tối đa 10W điện năng
Giới hạn khi chạy LLM và trường hợp Qwen 30B
- RAM 8GB là yếu tố hạn chế lớn nhất khi chạy LLM
- Các mô hình cỡ trung thường cần 10~12GB RAM, nên phù hợp hơn với Pi 5 16GB
- ByteShape đã nén mô hình Qwen3 30B A3B Instruct xuống 10GB để chạy thành công trên Pi 5 16GB
- Dù có suy giảm chất lượng, thiết bị vẫn có thể thực hiện các tác vụ cơ bản như tạo ứng dụng đơn giản
- Kết quả chạy mô hình trên Pi 5 bằng llama.cpp cho thấy, dù tốc độ chậm, nó vẫn có thể đảm nhiệm các công việc thực tế với mô hình cục bộ
Hiệu năng thị giác và các vấn đề phần mềm
- Trong các tác vụ Computer Vision, thiết bị cho tốc độ xử lý nhanh gấp 10 lần so với CPU của Pi
- Khi thử với Camera Module 3, hệ thống nhận diện chính xác bàn phím, màn hình, điện thoại, chuột và các vật thể khác
- Tuy nhiên, mã ví dụ của Hailo (hailo-rpi5-examples) vẫn chưa hỗ trợ đầy đủ AI HAT+ 2
- Khi cấu hình thủ công có thể xảy ra lỗi tải mô hình hoặc phát sinh lỗi
- Khi chạy đồng thời nhiều mô hình (thị giác + LLM), xuất hiện lỗi segmentation và vấn đề ‘device not ready’
- Do thiếu ví dụ vận hành từ Hailo, bài thử nghiệm không thể hoàn tất
Kết luận và khả năng ứng dụng
- RAM 8GB là hữu ích, nhưng Pi 5 16GB vẫn là lựa chọn nhanh hơn và linh hoạt hơn
- Chỉ thực sự có tính thực dụng trong trường hợp phải xử lý thị giác và suy luận song song trong môi trường điện năng thấp
- Phối hợp AI Camera (70 USD) hoặc AI HAT+ hiện có (110 USD) có thể hiệu quả hơn
- Có tiềm năng dùng như thiết bị chạy LLM nhỏ gọn (dưới 10W) hoặc bộ kit phát triển cho các thiết bị dựa trên Hailo 10H
- Nhìn chung, đây là sản phẩm được đánh giá là phần cứng đi trước nhưng độ hoàn thiện phần mềm còn thiếu, phù hợp hơn với các trường hợp sử dụng ngách
1 bình luận
Ý kiến trên Hacker News
Chỉ trong vài phút đã thấy đồng thời cả ý kiến rằng AI HAT 8GB cho RPi là quá tuyệt, lẫn ý kiến rằng MacBook M2 MAX 96GB của tôi lại vô dụng với LLM
Dù vậy, việc chiếc máy sau vẫn là một laptop tuyệt vời cũng phần nào an ủi
Có cảm giác Raspberry đã đánh mất "phép màu" và ý thức về mục đích của thời Pi trước đây
Thuở ban đầu họ tạo ra một thị trường mới, còn giờ thì giống như đang nhảy vào một lĩnh vực đã bão hòa
Tất nhiên có thể hiểu việc họ mở rộng để tồn tại, nhưng có vẻ họ không còn tạo lại được một "khoảnh khắc Raspberry Pi" như trước
Giống như các giải pháp như Frigate đã kéo doanh số Coral TPU đi lên, lần này cũng có thể tồn tại nhu cầu như vậy, nhưng có vẻ vẫn thiếu một đề xuất giá trị khác biệt
Giờ đây RPi dường như đang nhắm tới thị trường thương mại vì rẻ hơn các bo nhúng công nghiệp
Cảm giác như khách hàng chính đã trở thành doanh nghiệp hơn là người tiêu dùng
Các SBC khác thường có chất lượng phần mềm rất tệ, và sự kết hợp với Raspbian mới là đổi mới thực sự
RPi vẫn đang lấp đầy đúng thị trường ngách này
Pico dành cho các tác vụ nhỏ, Pi mới dành cho các tác vụ lớn, còn Pi đời cũ và Zero vẫn tiếp tục được bán
Các sản phẩm liên quan đến AI cũng chỉ là phần nối dài của xu hướng đó, một mở rộng tự nhiên cho những ai đã làm AI trên Pi5
Bản chất của Pi là GPIO + điện toán đa dụng, và giờ AI cũng đã trở thành một phần của điều đó
Những việc có thể làm với AI cục bộ đã tăng lên đáng kinh ngạc, mở ra các ứng dụng mới như tự hành cho drone và robot
Thực tế thì không ghê gớm đến vậy
Chạy AI với 8GB RAM trên Pi khá là gây thất vọng
Ở Anh, tôi chưa từng thấy Hailo HAT được quảng bá cho LLM
Nó chủ yếu được dùng cho phát hiện đối tượng trong video thời gian thực, và tôi cũng muốn thử nó để phát hiện động vật hay khách ghé nhà trong nhà và khu vườn
Trong các phiên bản Pimonori gần đây có nhắc đến hỗ trợ LLM và VLM, nhưng có vẻ đó mới là hướng dùng thực tế hơn
Mức độ đến mức có người đùa rằng: "8GB? LLM cho kiến à?"
Không phù hợp cho tác vụ nặng, nhưng để sinh văn bản đơn giản thì hoàn toàn đủ dùng
Nó mang tính thử nghiệm cho các LLM siêu nhỏ chuyên biệt
Tuy nhiên, vấn đề là mức cải thiện xử lý thị giác không lớn so với giá thành cao, và hỗ trợ phần mềm cũng còn thiếu
Nếu là vài năm trước thì loại sản phẩm này hẳn chỉ được gọi là bộ tăng tốc ML
Nhưng dạo này cứ gắn mác "AI" thì kỳ vọng cũng thay đổi, nên có vẻ đánh giá mới bị chia rẽ như vậy
Tôi không chắc các LLM nhỏ có ích gì ngoài embedding hay huấn luyện
Nếu để học tập thì có thể dùng phần cứng tốt hơn với giá rẻ hơn, còn nếu để tạo embedding thì chỉ chậm và đắt
Ngay cả mô hình nhỏ cũng có thể đạt hiệu năng gần với mô hình tổng quát lớn hơn rất nhiều nếu được fine-tune bằng dữ liệu chuyên biệt
Ý tưởng thú vị, nhưng với nhu cầu này thì Jetson Orin Nano là lựa chọn tốt hơn
Tuy nhiên nhược điểm là RAM dùng chung nên mất khoảng 1GB cho phần overhead của hệ điều hành
Nói "có thể chạy LLM" không có nghĩa là "chạy LLM là hợp lý"
Đây là một ví dụ cho thấy con số thông số và trải nghiệm thực tế khác nhau hoàn toàn
Nhìn từ góc độ edge computing, đây là một bước tiến có ý nghĩa của hệ sinh thái RPi
Nếu tích hợp sẵn bộ tăng tốc suy luận tiết kiệm điện, có thể triển khai AI cục bộ không cần cloud
Dù vẫn còn ở giai đoạn đầu, đây là hướng đi đúng cho các workload edge thực thụ