- Mô hình mã nguồn mở Gemma 4 của Google có thể chạy native trên iPhone mà không cần kết nối Internet, cho phép suy luận hoàn toàn ngoại tuyến
- Mô hình 31B của Gemma 4 cho hiệu năng tương đương mô hình 27B của Qwen 3.5, với số lượng tham số nhiều hơn khoảng 4 tỷ
- Các biến thể E2B·E4B là mô hình dành cho di động được tối ưu cho tốc độ và kiểm soát nhiệt, và ứng dụng của Google mặc định khuyến nghị dùng E2B
- Người dùng có thể chọn mô hình qua ứng dụng Google AI Edge Gallery và chạy suy luận ngay trên thiết bị mà không cần API hay đám mây
- Việc triển khai này cho thấy AI on-device đang trở thành hiện thực, và được xem là một cột mốc quan trọng cho sự mở rộng của hệ sinh thái edge AI
Chạy Google Gemma 4 on-device trên iPhone
- Mô hình mã nguồn mở Gemma 4 của Google hỗ trợ suy luận hoàn toàn ngoại tuyến trên iPhone và hoạt động native
- Có thể thực hiện suy luận cục bộ mà không cần kết nối Internet
- Việc triển khai edge AI không còn là bài toán của tương lai mà đã trở thành hiện thực công nghệ đang diễn ra
- Trong so sánh hiệu năng, biến thể 31B của Gemma 4 được đánh giá ở mức tương đương mô hình 27B của Qwen 3.5
- Gemma sở hữu nhiều hơn khoảng 4 tỷ tham số
- Cả hai mô hình đều có thế mạnh khác nhau tùy tác vụ, nên không có ưu thế tuyệt đối
- Các biến thể E2B và E4B, vốn là mô hình tối ưu cho di động, đang được chú ý
- Ưu tiên hiệu quả nên có lợi thế về tốc độ, độ gọn nhẹ và kiểm soát nhiệt
- Ứng dụng của Google mặc định khuyến nghị sử dụng E2B
- Có thể tải ứng dụng Google AI Edge Gallery từ App Store và chạy ngay
- Người dùng có thể chọn biến thể mô hình để thực hiện suy luận trực tiếp trên thiết bị
- Không cần gọi API hay phụ thuộc vào đám mây
- Ứng dụng này vượt xa giao diện văn bản đơn thuần, bao gồm nhận diện hình ảnh, tương tác giọng nói và framework Skills có thể mở rộng
- Được thiết kế như một nền tảng thử nghiệm AI on-device, cho phép nhà phát triển và người dùng nâng cao khai thác
Cấu trúc kỹ thuật và hiệu năng
- Gemma 4 sử dụng đường suy luận thông qua GPU của iPhone
- Độ trễ phản hồi rất thấp, chứng minh rằng khối lượng công việc AI hiệu năng cao vẫn có thể xử lý trên phần cứng tiêu dùng
- Được đánh giá là một ví dụ tiêu biểu cho thấy khả năng thương mại hóa của triển khai AI cục bộ
- Khả năng ngoại tuyến mở rộng đáng kể tính ứng dụng trong môi trường doanh nghiệp
- Có thể dùng mà không phụ thuộc vào đám mây trong công việc hiện trường, môi trường y tế và các lĩnh vực coi trọng quyền riêng tư dữ liệu
Ý nghĩa và triển vọng
- Việc Gemma 4 chạy trên iPhone không chỉ là một màn trình diễn công nghệ mà còn tượng trưng cho sự xuất hiện của kỷ nguyên AI on-device
- Google đang bắt đầu đẩy mạnh mở rộng hệ sinh thái edge AI thông qua Gemma
- Như cách nói “Gemma đã ra khỏi chai”, sự chuyển dịch sang AI cục bộ đã thực sự bắt đầu
1 bình luận
Ý kiến trên Hacker News
Văn phong bài báo tạo cảm giác như do LLM viết
Mẫu câu kiểu “It’s not mere X — it’s Y” bị lặp lại nhiều lần
Phát hiện việc suy luận được thực hiện qua GPU chứ không phải Apple Neural Engine
Có vẻ các kỹ sư Google đã từ bỏ việc biên dịch kernel tùy chỉnh cho các khối tensor độc quyền của Apple. Metal thì dễ port hơn nhưng hao pin hơn nhiều. Trước khi backend ANE được viết lại, chuyện này chỉ ở mức demo kỹ thuật
Đã tạo ứng dụng lập trình offline (pucky) bằng Gemma 4 và chạy trên iPhone
Xem liên kết GitHub. Mô hình 4B cũng chạy được, nhưng do giới hạn bộ nhớ nên mặc định dùng 2B. Ứng dụng tạo một file TypeScript duy nhất rồi biên dịch bằng oxc. Khó qua được vòng duyệt App Store nên phải tự build bằng Xcode
Có vẻ Apple đang hạn chế LLM cục bộ trên App Store. Có người nói họ định phát hành trực tiếp ứng dụng nhưng bị chặn bởi điều khoản 2.5.2
Chia sẻ thread liên quan là Gemma 4 on iPhone
Trên iPhone 16 Plus, tốc độ rất nhanh nhưng với tin nhắn dài thì chậm đi đột ngột. Không phải do thermal throttling. Người viết muốn xem dữ liệu chẩn đoán
Từng kỳ vọng có ứng dụng Edge Gallery iOS tích hợp Gemma 4, nhưng lại thấy bất tiện vì hạn chế truy cập intents và cần plugin tùy chỉnh cho tìm kiếm web. ChatMCP dùng API nên còn tạm ổn
Cài Google AI Edge Gallery trên iPhone 16 Pro và chạy benchmark
Chia sẻ kết quả theo GPU: Prefill 231t/s, Decode 16t/s, thời gian đến token đầu tiên 1.16 giây, khởi tạo 20 giây
Cần cẩn thận khi dùng các mô hình nhỏ
Khi hỏi “chó có ăn được bơ không”, nó tự tin trả lời ‘Yes’. Cần nhận thức được giới hạn của mô hình
Dù là offline, vẫn có người nghi Google sẽ thu thập dữ liệu đầu vào hoặc thông tin thiết bị