3 điểm bởi GN⁺ 5 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình mã nguồn mở Gemma 4 của Google có thể chạy native trên iPhone mà không cần kết nối Internet, cho phép suy luận hoàn toàn ngoại tuyến
  • Mô hình 31B của Gemma 4 cho hiệu năng tương đương mô hình 27B của Qwen 3.5, với số lượng tham số nhiều hơn khoảng 4 tỷ
  • Các biến thể E2B·E4B là mô hình dành cho di động được tối ưu cho tốc độ và kiểm soát nhiệt, và ứng dụng của Google mặc định khuyến nghị dùng E2B
  • Người dùng có thể chọn mô hình qua ứng dụng Google AI Edge Gallery và chạy suy luận ngay trên thiết bị mà không cần API hay đám mây
  • Việc triển khai này cho thấy AI on-device đang trở thành hiện thực, và được xem là một cột mốc quan trọng cho sự mở rộng của hệ sinh thái edge AI

Chạy Google Gemma 4 on-device trên iPhone

  • Mô hình mã nguồn mở Gemma 4 của Google hỗ trợ suy luận hoàn toàn ngoại tuyến trên iPhone và hoạt động native
    • Có thể thực hiện suy luận cục bộ mà không cần kết nối Internet
    • Việc triển khai edge AI không còn là bài toán của tương lai mà đã trở thành hiện thực công nghệ đang diễn ra
  • Trong so sánh hiệu năng, biến thể 31B của Gemma 4 được đánh giá ở mức tương đương mô hình 27B của Qwen 3.5
    • Gemma sở hữu nhiều hơn khoảng 4 tỷ tham số
    • Cả hai mô hình đều có thế mạnh khác nhau tùy tác vụ, nên không có ưu thế tuyệt đối
  • Các biến thể E2B và E4B, vốn là mô hình tối ưu cho di động, đang được chú ý
    • Ưu tiên hiệu quả nên có lợi thế về tốc độ, độ gọn nhẹ và kiểm soát nhiệt
    • Ứng dụng của Google mặc định khuyến nghị sử dụng E2B
  • Có thể tải ứng dụng Google AI Edge Gallery từ App Store và chạy ngay
    • Người dùng có thể chọn biến thể mô hình để thực hiện suy luận trực tiếp trên thiết bị
    • Không cần gọi API hay phụ thuộc vào đám mây
  • Ứng dụng này vượt xa giao diện văn bản đơn thuần, bao gồm nhận diện hình ảnh, tương tác giọng nói và framework Skills có thể mở rộng
    • Được thiết kế như một nền tảng thử nghiệm AI on-device, cho phép nhà phát triển và người dùng nâng cao khai thác

Cấu trúc kỹ thuật và hiệu năng

  • Gemma 4 sử dụng đường suy luận thông qua GPU của iPhone
    • Độ trễ phản hồi rất thấp, chứng minh rằng khối lượng công việc AI hiệu năng cao vẫn có thể xử lý trên phần cứng tiêu dùng
    • Được đánh giá là một ví dụ tiêu biểu cho thấy khả năng thương mại hóa của triển khai AI cục bộ
  • Khả năng ngoại tuyến mở rộng đáng kể tính ứng dụng trong môi trường doanh nghiệp
    • Có thể dùng mà không phụ thuộc vào đám mây trong công việc hiện trường, môi trường y tế và các lĩnh vực coi trọng quyền riêng tư dữ liệu

Ý nghĩa và triển vọng

  • Việc Gemma 4 chạy trên iPhone không chỉ là một màn trình diễn công nghệ mà còn tượng trưng cho sự xuất hiện của kỷ nguyên AI on-device
    • Google đang bắt đầu đẩy mạnh mở rộng hệ sinh thái edge AI thông qua Gemma
    • Như cách nói “Gemma đã ra khỏi chai”, sự chuyển dịch sang AI cục bộ đã thực sự bắt đầu

1 bình luận

 
Ý kiến trên Hacker News
  • Văn phong bài báo tạo cảm giác như do LLM viết
    Mẫu câu kiểu “It’s not mere X — it’s Y” bị lặp lại nhiều lần

    • Đùa rằng thật khó tin khi lại đi nghi ngờ tiêu chuẩn đạo đức của “gizmoweek dot com”
    • Tác giả là người hay LLM không quan trọng. Vấn đề là thiếu chi tiết. Không có benchmark theo mẫu iPhone nào, và nội dung gần như rỗng tuếch
    • Đã thử chạy qua nhiều mô hình như Claude, Grok..., và tất cả đều chỉ ra những vấn đề đặc trưng của content farm như thiếu nguồn và câu chữ lặp lại. Thậm chí còn không chứng minh được tác giả có phải người thật hay không
    • Thấy biểu tượng “:v” nên vui mừng như vừa bắt gặp lại thế hệ millennial sau một thời gian dài
    • Có cảm giác AI đang huấn luyện chúng ta tránh một số kiểu mẫu ngôn ngữ nhất định. Người viết nói không muốn trở thành con tin của thứ ngôn ngữ yếu
  • Phát hiện việc suy luận được thực hiện qua GPU chứ không phải Apple Neural Engine
    Có vẻ các kỹ sư Google đã từ bỏ việc biên dịch kernel tùy chỉnh cho các khối tensor độc quyền của Apple. Metal thì dễ port hơn nhưng hao pin hơn nhiều. Trước khi backend ANE được viết lại, chuyện này chỉ ở mức demo kỹ thuật

    • ANE không thực sự phù hợp để chạy LLM. Hệ sinh thái LLM được chuẩn hóa quanh CPU/GPU, và ngay cả MLX của Apple cũng không hỗ trợ ANE
    • Nhắc đến bài viết của 9to5mac nói rằng vài tháng nữa tại WWDC sẽ công bố framework Core AI thay cho CoreML, và bày tỏ sự kỳ vọng
    • ANE chỉ hiệu quả khi gom theo đơn vị vector tối thiểu 128. Nó kém hiệu quả cho sinh token, nhưng nhờ các kỹ thuật mới như Flash-MoE hay DFlash nên giờ lạc quan hơn trước
    • Mức tiêu thụ điện thì ổn, nhưng các tính năng như nghe nền 24/7 lại không đáng hoan nghênh vì vấn đề kiểm soát quyền riêng tư
    • Ứng dụng AI Edge Gallery trên Android cũng chỉ dùng GPU. Có vẻ đây không hẳn là vấn đề của khối tensor của Apple, mà là Google nói chung không mấy quan tâm
  • Đã tạo ứng dụng lập trình offline (pucky) bằng Gemma 4 và chạy trên iPhone
    Xem liên kết GitHub. Mô hình 4B cũng chạy được, nhưng do giới hạn bộ nhớ nên mặc định dùng 2B. Ứng dụng tạo một file TypeScript duy nhất rồi biên dịch bằng oxc. Khó qua được vòng duyệt App Store nên phải tự build bằng Xcode

  • Có vẻ Apple đang hạn chế LLM cục bộ trên App Store. Có người nói họ định phát hành trực tiếp ứng dụng nhưng bị chặn bởi điều khoản 2.5.2

    • Dự đoán Apple sẽ ngày càng siết chặt quy định liên quan đến LLM. Nếu người dùng có thể tự tạo ứng dụng, mô hình kinh doanh của Apple sẽ bị đe dọa
    • Nhưng quy tắc lại không nhất quán. Trên điện thoại của người viết đã có Google Edge Gallery và Locally AI chạy bình thường
    • Trích dẫn toàn văn hướng dẫn App Store mục 2.5.2 và đặt câu hỏi vì sao LLM cục bộ lại bị vướng ở đây
    • Có người nói ứng dụng của họ dùng LLM tối ưu cho ANE, chạy hoàn toàn offline và cũng được duyệt chỉ trong một ngày. Họ phân tích rằng Apple có thể đang cố lọc các ứng dụng AI spam. Cũng nhắc đến bài viết trên MacRumors
    • Hỏi liệu các ứng dụng liên quan đến Cactus Compute có gặp vấn đề tương tự không
  • Chia sẻ thread liên quan là Gemma 4 on iPhone

  • Trên iPhone 16 Plus, tốc độ rất nhanh nhưng với tin nhắn dài thì chậm đi đột ngột. Không phải do thermal throttling. Người viết muốn xem dữ liệu chẩn đoán

    • Suy luận LLM có độ phức tạp O(tokens²) nên việc chậm dần theo độ dài là điều tự nhiên
  • Từng kỳ vọng có ứng dụng Edge Gallery iOS tích hợp Gemma 4, nhưng lại thấy bất tiện vì hạn chế truy cập intents và cần plugin tùy chỉnh cho tìm kiếm web. ChatMCP dùng API nên còn tạm ổn

  • Cài Google AI Edge Gallery trên iPhone 16 Pro và chạy benchmark
    Chia sẻ kết quả theo GPU: Prefill 231t/s, Decode 16t/s, thời gian đến token đầu tiên 1.16 giây, khởi tạo 20 giây

  • Cần cẩn thận khi dùng các mô hình nhỏ
    Khi hỏi “chó có ăn được bơ không”, nó tự tin trả lời ‘Yes’. Cần nhận thức được giới hạn của mô hình

    • Đùa rằng “về mặt kỹ thuật thì đúng là ăn được...”
  • Dù là offline, vẫn có người nghi Google sẽ thu thập dữ liệu đầu vào hoặc thông tin thiết bị

    • Xem mã nguồn GitHub thì thấy nội dung tin nhắn không bị thu thập, nhưng thống kê mức sử dụng mô hình thì có được ghi lại
    • Chia sẻ một giai thoại thú vị rằng trong tài liệu đào tạo nội bộ của Google, họ dùng sản phẩm giả tưởng ‘gShoe’ làm ví dụ để nói về vấn đề quyền riêng tư trong thu thập dữ liệu
    • Nói thêm rằng Apple đang trả 1 tỷ USD cho Google trong khi thúc đẩy chiến lược AI on-device, và đây có thể là bản xem trước của điều đó