Google Gemma 4 hỗ trợ suy luận AI hoàn toàn ngoại tuyến trên iPhone

(gizmoweek.com)

3 điểm bởi GN⁺ 5 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình mã nguồn mở Gemma 4 của Google có thể chạy native trên iPhone mà không cần kết nối Internet, cho phép suy luận hoàn toàn ngoại tuyến
Mô hình 31B của Gemma 4 cho hiệu năng tương đương mô hình 27B của Qwen 3.5, với số lượng tham số nhiều hơn khoảng 4 tỷ
Các biến thể E2B·E4B là mô hình dành cho di động được tối ưu cho tốc độ và kiểm soát nhiệt, và ứng dụng của Google mặc định khuyến nghị dùng E2B
Người dùng có thể chọn mô hình qua ứng dụng Google AI Edge Gallery và chạy suy luận ngay trên thiết bị mà không cần API hay đám mây
Việc triển khai này cho thấy AI on-device đang trở thành hiện thực, và được xem là một cột mốc quan trọng cho sự mở rộng của hệ sinh thái edge AI

Chạy Google Gemma 4 on-device trên iPhone

Mô hình mã nguồn mở Gemma 4 của Google hỗ trợ suy luận hoàn toàn ngoại tuyến trên iPhone và hoạt động native
- Có thể thực hiện suy luận cục bộ mà không cần kết nối Internet
- Việc triển khai edge AI không còn là bài toán của tương lai mà đã trở thành hiện thực công nghệ đang diễn ra
Trong so sánh hiệu năng, biến thể 31B của Gemma 4 được đánh giá ở mức tương đương mô hình 27B của Qwen 3.5
- Gemma sở hữu nhiều hơn khoảng 4 tỷ tham số
- Cả hai mô hình đều có thế mạnh khác nhau tùy tác vụ, nên không có ưu thế tuyệt đối
Các biến thể E2B và E4B, vốn là mô hình tối ưu cho di động, đang được chú ý
- Ưu tiên hiệu quả nên có lợi thế về tốc độ, độ gọn nhẹ và kiểm soát nhiệt
- Ứng dụng của Google mặc định khuyến nghị sử dụng E2B
Có thể tải ứng dụng Google AI Edge Gallery từ App Store và chạy ngay
- Người dùng có thể chọn biến thể mô hình để thực hiện suy luận trực tiếp trên thiết bị
- Không cần gọi API hay phụ thuộc vào đám mây
Ứng dụng này vượt xa giao diện văn bản đơn thuần, bao gồm nhận diện hình ảnh, tương tác giọng nói và framework Skills có thể mở rộng
- Được thiết kế như một nền tảng thử nghiệm AI on-device, cho phép nhà phát triển và người dùng nâng cao khai thác

Cấu trúc kỹ thuật và hiệu năng

Gemma 4 sử dụng đường suy luận thông qua GPU của iPhone
- Độ trễ phản hồi rất thấp, chứng minh rằng khối lượng công việc AI hiệu năng cao vẫn có thể xử lý trên phần cứng tiêu dùng
- Được đánh giá là một ví dụ tiêu biểu cho thấy khả năng thương mại hóa của triển khai AI cục bộ
Khả năng ngoại tuyến mở rộng đáng kể tính ứng dụng trong môi trường doanh nghiệp
- Có thể dùng mà không phụ thuộc vào đám mây trong công việc hiện trường, môi trường y tế và các lĩnh vực coi trọng quyền riêng tư dữ liệu

Ý nghĩa và triển vọng

Việc Gemma 4 chạy trên iPhone không chỉ là một màn trình diễn công nghệ mà còn tượng trưng cho sự xuất hiện của kỷ nguyên AI on-device
- Google đang bắt đầu đẩy mạnh mở rộng hệ sinh thái edge AI thông qua Gemma
- Như cách nói “Gemma đã ra khỏi chai”, sự chuyển dịch sang AI cục bộ đã thực sự bắt đầu

1 bình luận

GN⁺ 5 ngày trước

Ý kiến trên Hacker News

Văn phong bài báo tạo cảm giác như do LLM viết
Mẫu câu kiểu “It’s not mere X — it’s Y” bị lặp lại nhiều lần
- Đùa rằng thật khó tin khi lại đi nghi ngờ tiêu chuẩn đạo đức của “gizmoweek dot com”
- Tác giả là người hay LLM không quan trọng. Vấn đề là thiếu chi tiết. Không có benchmark theo mẫu iPhone nào, và nội dung gần như rỗng tuếch
- Đã thử chạy qua nhiều mô hình như Claude, Grok..., và tất cả đều chỉ ra những vấn đề đặc trưng của content farm như thiếu nguồn và câu chữ lặp lại. Thậm chí còn không chứng minh được tác giả có phải người thật hay không
- Thấy biểu tượng “:v” nên vui mừng như vừa bắt gặp lại thế hệ millennial sau một thời gian dài
- Có cảm giác AI đang huấn luyện chúng ta tránh một số kiểu mẫu ngôn ngữ nhất định. Người viết nói không muốn trở thành con tin của thứ ngôn ngữ yếu
Phát hiện việc suy luận được thực hiện qua GPU chứ không phải Apple Neural Engine
Có vẻ các kỹ sư Google đã từ bỏ việc biên dịch kernel tùy chỉnh cho các khối tensor độc quyền của Apple. Metal thì dễ port hơn nhưng hao pin hơn nhiều. Trước khi backend ANE được viết lại, chuyện này chỉ ở mức demo kỹ thuật
- ANE không thực sự phù hợp để chạy LLM. Hệ sinh thái LLM được chuẩn hóa quanh CPU/GPU, và ngay cả MLX của Apple cũng không hỗ trợ ANE
- Nhắc đến bài viết của 9to5mac nói rằng vài tháng nữa tại WWDC sẽ công bố framework Core AI thay cho CoreML, và bày tỏ sự kỳ vọng
- ANE chỉ hiệu quả khi gom theo đơn vị vector tối thiểu 128. Nó kém hiệu quả cho sinh token, nhưng nhờ các kỹ thuật mới như Flash-MoE hay DFlash nên giờ lạc quan hơn trước
- Mức tiêu thụ điện thì ổn, nhưng các tính năng như nghe nền 24/7 lại không đáng hoan nghênh vì vấn đề kiểm soát quyền riêng tư
- Ứng dụng AI Edge Gallery trên Android cũng chỉ dùng GPU. Có vẻ đây không hẳn là vấn đề của khối tensor của Apple, mà là Google nói chung không mấy quan tâm
Đã tạo ứng dụng lập trình offline (pucky) bằng Gemma 4 và chạy trên iPhone
Xem liên kết GitHub. Mô hình 4B cũng chạy được, nhưng do giới hạn bộ nhớ nên mặc định dùng 2B. Ứng dụng tạo một file TypeScript duy nhất rồi biên dịch bằng oxc. Khó qua được vòng duyệt App Store nên phải tự build bằng Xcode
- Gợi ý có thể tham khảo thread HN trước đó và thử chuyển sang Swift thay vì React Native
Có vẻ Apple đang hạn chế LLM cục bộ trên App Store. Có người nói họ định phát hành trực tiếp ứng dụng nhưng bị chặn bởi điều khoản 2.5.2
- Dự đoán Apple sẽ ngày càng siết chặt quy định liên quan đến LLM. Nếu người dùng có thể tự tạo ứng dụng, mô hình kinh doanh của Apple sẽ bị đe dọa
- Nhưng quy tắc lại không nhất quán. Trên điện thoại của người viết đã có Google Edge Gallery và Locally AI chạy bình thường
- Trích dẫn toàn văn hướng dẫn App Store mục 2.5.2 và đặt câu hỏi vì sao LLM cục bộ lại bị vướng ở đây
- Có người nói ứng dụng của họ dùng LLM tối ưu cho ANE, chạy hoàn toàn offline và cũng được duyệt chỉ trong một ngày. Họ phân tích rằng Apple có thể đang cố lọc các ứng dụng AI spam. Cũng nhắc đến bài viết trên MacRumors
- Hỏi liệu các ứng dụng liên quan đến Cactus Compute có gặp vấn đề tương tự không
Chia sẻ thread liên quan là Gemma 4 on iPhone
- Đồng thời nhắc đến trường hợp iPhone 17 Pro chạy LLM 400B được đăng cách đó 22 ngày
Trên iPhone 16 Plus, tốc độ rất nhanh nhưng với tin nhắn dài thì chậm đi đột ngột. Không phải do thermal throttling. Người viết muốn xem dữ liệu chẩn đoán
- Suy luận LLM có độ phức tạp O(tokens²) nên việc chậm dần theo độ dài là điều tự nhiên
Từng kỳ vọng có ứng dụng Edge Gallery iOS tích hợp Gemma 4, nhưng lại thấy bất tiện vì hạn chế truy cập intents và cần plugin tùy chỉnh cho tìm kiếm web. ChatMCP dùng API nên còn tạm ổn
Cài Google AI Edge Gallery trên iPhone 16 Pro và chạy benchmark
Chia sẻ kết quả theo GPU: Prefill 231t/s, Decode 16t/s, thời gian đến token đầu tiên 1.16 giây, khởi tạo 20 giây
Cần cẩn thận khi dùng các mô hình nhỏ
Khi hỏi “chó có ăn được bơ không”, nó tự tin trả lời ‘Yes’. Cần nhận thức được giới hạn của mô hình
- Đùa rằng “về mặt kỹ thuật thì đúng là ăn được...”
Dù là offline, vẫn có người nghi Google sẽ thu thập dữ liệu đầu vào hoặc thông tin thiết bị
- Xem mã nguồn GitHub thì thấy nội dung tin nhắn không bị thu thập, nhưng thống kê mức sử dụng mô hình thì có được ghi lại
- Chia sẻ một giai thoại thú vị rằng trong tài liệu đào tạo nội bộ của Google, họ dùng sản phẩm giả tưởng ‘gShoe’ làm ví dụ để nói về vấn đề quyền riêng tư trong thu thập dữ liệu
- Nói thêm rằng Apple đang trả 1 tỷ USD cho Google trong khi thúc đẩy chiến lược AI on-device, và đây có thể là bản xem trước của điều đó

Google Gemma 4 hỗ trợ suy luận AI hoàn toàn ngoại tuyến trên iPhone

Chạy Google Gemma 4 on-device trên iPhone

Cấu trúc kỹ thuật và hiệu năng

Ý nghĩa và triển vọng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News