- Ứng dụng iOS/Android được tối ưu để chạy AI tạo sinh trên thiết bị, vận hành LLM trong môi trường hoàn toàn ngoại tuyến và riêng tư mà không cần kết nối Internet
- Bổ sung hỗ trợ chính thức cho dòng Gemma 4 - có thể thử nghiệm suy luận nâng cao, logic và sáng tạo mà không cần gửi dữ liệu lên máy chủ
- Agent Skills: đưa LLM vượt ra ngoài hội thoại để trở thành trợ lý chủ động
- Mở rộng năng lực của LLM bằng các công cụ như tìm kiếm dữ kiện trên Wikipedia, bản đồ tương tác, thẻ tóm tắt trực quan
- Hỗ trợ tải kỹ năng dạng mô-đun từ URL và khám phá kỹ năng cộng đồng qua GitHub Discussions
- Thinking Mode: có thể xem trực quan quá trình suy luận từng bước của mô hình khi trò chuyện với AI (hiện chỉ giới hạn ở các mô hình được hỗ trợ như dòng Gemma 4)
- Ask Image: tận dụng camera và thư viện ảnh để nhận diện đối tượng đa phương thức, giải đố thị giác và tạo mô tả chi tiết
- Audio Scribe: phiên âm và dịch giọng nói theo thời gian thực bằng mô hình chạy trên thiết bị
- Prompt Lab: không gian làm việc chuyên dụng để thử nghiệm prompt với khả năng tinh chỉnh chi tiết các tham số như temperature, top-k
- Mobile Actions : tự động hóa điều khiển thiết bị ngoại tuyến dựa trên mô hình fine-tuned FunctionGemma 270m
- Tiny Garden : minigame ngôn ngữ tự nhiên
- Model Management & Benchmark: hỗ trợ tải mô hình mã nguồn mở, nạp mô hình tùy chỉnh và kiểm thử benchmark theo từng phần cứng
- LiteRT runtime nhẹ + tích hợp Hugging Face để khám phá mô hình và chạy tối ưu hóa
- Hỗ trợ Android 12+, iOS 17+ / có thể cài từ Google Play , App Store / với môi trường không truy cập được Google Play cũng có thể cài trực tiếp APK từ GitHub Releases
- Giấy phép: Apache-2.0 / Ngôn ngữ phát triển: Kotlin
2 bình luận
https://github.com/google-ai-edge/gallery/issues/437
Có vẻ khả năng tương thích với Exynos không tốt. Trên Galaxy Quantum 5 (A55) có vấn đề trả lời bằng cách lặp vô hạn các ký tự Hán.
Ý kiến trên Hacker News
Đây thực sự là một mô hình ấn tượng. Hiện tôi đang chạy nó trên Mac, nên giờ nghe nói có thể chạy cục bộ cả trên iPhone thì nhất định phải thử
Tôi đã thử dealignment (gỡ kiểm duyệt) mô hình này bằng script heretic, và nó hoạt động rất tốt. Tôi còn tự tạo repo gemma4-heretical để tổng hợp lại
Cũng có thể làm bản MLX, trên Mac thì nhanh hơn một chút nhưng không chạy được trong Ollama (có thể LM Studio thì được)
Nó chạy rất tốt trên M4 Macbook Pro 128GB, và có lẽ 64GB cũng ổn. Nếu bộ nhớ ít hơn thì phải hạ mức lượng tử hóa
Tôi thích những mô hình cục bộ không căn chỉnh kiểu này. Thay vì bị kiểm duyệt trên nền tảng bên ngoài, tôi có thể tự do thử nghiệm ngay trên thiết bị của mình. Nhờ vậy có thể có những cuộc trò chuyện “nhạy cảm nhưng hữu ích”
Tôi đã thử kết nối với OpenClaw nhưng gặp vấn đề. Dĩ nhiên cách tiếp cận này có thể bị lạm dụng, nhưng tôi nghĩ người dùng thiện chí vẫn nhiều hơn rất nhiều
Ứng dụng này hay, nhưng chưa thể hiện hết tiềm năng của mô hình E2B
Tôi đã tạo một hệ thống AI âm thanh·video thời gian thực bằng Gemma E2B trên M3 Pro, và đăng nó lên /r/LocalLLaMA với tên Parlor. Phản hồi nhận được khá tốt
Tôi đang chạy nó trên Macbook, nhưng theo benchmark này, thì ngay cả iPhone 17 Pro cũng hoàn toàn đủ sức
Tôi đã thử chạy mô hình trên iPhone và nhận được kết quả khá ổn. Không bằng Gemini trên đám mây nhưng hoàn toàn dùng được
Tính năng “mobile actions” cho phép điều khiển thiết bị như bật đèn pin hay mở bản đồ nên khá thú vị. Nếu tích hợp được với Siri Shortcuts thì sẽ rất tuyệt
Với tư cách là người làm ứng dụng cho giáo viên, tôi rất mừng khi thấy mô hình cục bộ đang trở nên phổ biến. Vì luật bảo vệ dữ liệu cá nhân, việc chạy phía client là rất quan trọng. iOS hay Chrome cũng có API mô hình on-device, nhưng chất lượng vẫn còn thấp
Tôi nghĩ tương lai thực tế của AI chỉ có hai hướng — chạy miễn phí cục bộ trên thiết bị, hoặc dịch vụ đám mây chi phí cao
Hướng sau sẽ chỉ được dùng cho những tác vụ mà con người còn đắt hơn hoặc chậm hơn. Các mô hình Gemma 4 cho thấy khả năng về một Siri kiểu tương lai tích hợp vào iPhone và macOS, tức dạng trợ lý như trong phim “Her”
Chia sẻ link ứng dụng bản tiếng Anh
Google AI Edge Gallery cho iOS
Phiên bản Android
Đây là ứng dụng demo của dự án Edge của Google
Phần lớn mô hình vẫn chưa thể tải xuống. Hy vọng sẽ sớm được phát hành
Có ý kiến đặt câu hỏi rằng trang web App Store trông như hàng giả. Chữ ở phần header bị vỡ hạt, nền bị nhấp nháy, và chất lượng biểu tượng cũng thấp
Tôi đã thử mẫu Gemma-4-E2B-it trên iPhone 16 Pro và đạt khoảng 30 token mỗi giây. Điện thoại nóng lên khá nhiều nhưng hiệu năng rất ấn tượng. Tôi dự định cũng sẽ áp dụng nó vào ứng dụng của mình
Con trai tôi đã bắt đầu dùng mô hình 2B trên Android. Nó chạy tốt ngay cả trên điện thoại Motorola giá rẻ, và cháu đang dùng để luyện đọc·viết ngoại ngữ. Khả năng nhẹ hóa của mô hình thực sự đáng kinh ngạc
Các mô hình mới thực sự rất ấn tượng. AI Edge Gallery chạy trên GPU, nhưng NPU của các chip mới còn nhanh hơn nhiều
Ví dụ, chip A16 có Neural Engine 35 TOPS, còn GPU ở mức khoảng 7 TFLOPS. Qualcomm cũng tương tự