21 điểm bởi xguru 16 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Ứng dụng iOS/Android được tối ưu để chạy AI tạo sinh trên thiết bị, vận hành LLM trong môi trường hoàn toàn ngoại tuyến và riêng tư mà không cần kết nối Internet
  • Bổ sung hỗ trợ chính thức cho dòng Gemma 4 - có thể thử nghiệm suy luận nâng cao, logic và sáng tạo mà không cần gửi dữ liệu lên máy chủ
  • Agent Skills: đưa LLM vượt ra ngoài hội thoại để trở thành trợ lý chủ động
    • Mở rộng năng lực của LLM bằng các công cụ như tìm kiếm dữ kiện trên Wikipedia, bản đồ tương tác, thẻ tóm tắt trực quan
    • Hỗ trợ tải kỹ năng dạng mô-đun từ URL và khám phá kỹ năng cộng đồng qua GitHub Discussions
  • Thinking Mode: có thể xem trực quan quá trình suy luận từng bước của mô hình khi trò chuyện với AI (hiện chỉ giới hạn ở các mô hình được hỗ trợ như dòng Gemma 4)
  • Ask Image: tận dụng camera và thư viện ảnh để nhận diện đối tượng đa phương thức, giải đố thị giác và tạo mô tả chi tiết
  • Audio Scribe: phiên âm và dịch giọng nói theo thời gian thực bằng mô hình chạy trên thiết bị
  • Prompt Lab: không gian làm việc chuyên dụng để thử nghiệm prompt với khả năng tinh chỉnh chi tiết các tham số như temperature, top-k
  • Mobile Actions : tự động hóa điều khiển thiết bị ngoại tuyến dựa trên mô hình fine-tuned FunctionGemma 270m
  • Tiny Garden : minigame ngôn ngữ tự nhiên
  • Model Management & Benchmark: hỗ trợ tải mô hình mã nguồn mở, nạp mô hình tùy chỉnh và kiểm thử benchmark theo từng phần cứng
  • LiteRT runtime nhẹ + tích hợp Hugging Face để khám phá mô hình và chạy tối ưu hóa
  • Hỗ trợ Android 12+, iOS 17+ / có thể cài từ Google Play , App Store / với môi trường không truy cập được Google Play cũng có thể cài trực tiếp APK từ GitHub Releases
  • Giấy phép: Apache-2.0 / Ngôn ngữ phát triển: Kotlin

2 bình luận

 
lastorder 15 ngày trước

https://github.com/google-ai-edge/gallery/issues/437

Có vẻ khả năng tương thích với Exynos không tốt. Trên Galaxy Quantum 5 (A55) có vấn đề trả lời bằng cách lặp vô hạn các ký tự Hán.

 
Ý kiến trên Hacker News
  • Đây thực sự là một mô hình ấn tượng. Hiện tôi đang chạy nó trên Mac, nên giờ nghe nói có thể chạy cục bộ cả trên iPhone thì nhất định phải thử
    Tôi đã thử dealignment (gỡ kiểm duyệt) mô hình này bằng script heretic, và nó hoạt động rất tốt. Tôi còn tự tạo repo gemma4-heretical để tổng hợp lại
    Cũng có thể làm bản MLX, trên Mac thì nhanh hơn một chút nhưng không chạy được trong Ollama (có thể LM Studio thì được)
    Nó chạy rất tốt trên M4 Macbook Pro 128GB, và có lẽ 64GB cũng ổn. Nếu bộ nhớ ít hơn thì phải hạ mức lượng tử hóa
    Tôi thích những mô hình cục bộ không căn chỉnh kiểu này. Thay vì bị kiểm duyệt trên nền tảng bên ngoài, tôi có thể tự do thử nghiệm ngay trên thiết bị của mình. Nhờ vậy có thể có những cuộc trò chuyện “nhạy cảm nhưng hữu ích”
    Tôi đã thử kết nối với OpenClaw nhưng gặp vấn đề. Dĩ nhiên cách tiếp cận này có thể bị lạm dụng, nhưng tôi nghĩ người dùng thiện chí vẫn nhiều hơn rất nhiều

    • Tôi đang chạy các mô hình MLX trên Mac bằng omlx, và nó hoạt động rất tốt
    • Tôi có xem script abliterate nhưng không rõ chính xác nó làm gì. Tôi tò mò không biết nó mở ra được những kiểu hội thoại nào
    • Tôi đã thử dùng nó để lập trình trên Mac nhưng không thấy ấn tượng bằng Qwen. Có thể ở một số mảng nó tốt hơn, nhưng hiện tại thì tôi vẫn chưa chắc
    • Tôi vẫn chưa xây dựng gì bằng nền tảng agent skills, nhưng nó khá thú vị. Trên Android, sandbox tải index.html trong WebView và tương tác bằng chuỗi I/O được chuẩn hóa. Nó cho cảm giác như hình hài ban đầu của một sandbox tác tử edge computing trong tương lai
    • Tôi tò mò không biết bạn định thử những “cuộc trò chuyện nhạy cảm” nào với LLM cục bộ, có thể cho ví dụ không
  • Ứng dụng này hay, nhưng chưa thể hiện hết tiềm năng của mô hình E2B
    Tôi đã tạo một hệ thống AI âm thanh·video thời gian thực bằng Gemma E2B trên M3 Pro, và đăng nó lên /r/LocalLLaMA với tên Parlor. Phản hồi nhận được khá tốt
    Tôi đang chạy nó trên Macbook, nhưng theo benchmark này, thì ngay cả iPhone 17 Pro cũng hoàn toàn đủ sức

    • Parlor thực sự rất tuyệt. Hơn nữa bạn còn phát hành miễn phí nữa thì quá ấn tượng. Tôi nghĩ đây là một ví dụ rất hay về ứng dụng của LLM cục bộ
  • Tôi đã thử chạy mô hình trên iPhone và nhận được kết quả khá ổn. Không bằng Gemini trên đám mây nhưng hoàn toàn dùng được
    Tính năng “mobile actions” cho phép điều khiển thiết bị như bật đèn pin hay mở bản đồ nên khá thú vị. Nếu tích hợp được với Siri Shortcuts thì sẽ rất tuyệt
    Với tư cách là người làm ứng dụng cho giáo viên, tôi rất mừng khi thấy mô hình cục bộ đang trở nên phổ biến. Vì luật bảo vệ dữ liệu cá nhân, việc chạy phía client là rất quan trọng. iOS hay Chrome cũng có API mô hình on-device, nhưng chất lượng vẫn còn thấp

    • Với tôi, mức độ ảo giác (hallucination) của mô hình này cho cảm giác như quay lại thời trước. Dù vậy, việc có thể chạy được đến mức này ngay trên máy cục bộ vẫn rất ấn tượng. Tôi hy vọng trong tương lai vẫn có thể tiếp tục chạy cục bộ cả những mô hình ở trình độ vài năm trước
  • Tôi nghĩ tương lai thực tế của AI chỉ có hai hướng — chạy miễn phí cục bộ trên thiết bị, hoặc dịch vụ đám mây chi phí cao
    Hướng sau sẽ chỉ được dùng cho những tác vụ mà con người còn đắt hơn hoặc chậm hơn. Các mô hình Gemma 4 cho thấy khả năng về một Siri kiểu tương lai tích hợp vào iPhone và macOS, tức dạng trợ lý như trong phim “Her”

    • Tôi tò mò tại sao bạn nghĩ đám mây sẽ đắt hơn. Các công ty lớn đã kiếm được lợi nhuận ở giai đoạn suy luận rồi. Phần cứng chuyên cho đám mây hiệu quả hơn, còn chạy trên điện thoại thì chỉ tốn pin
    • Nếu có thể chạy mô hình miễn phí trên thiết bị người dùng, chẳng phải nhà cung cấp đám mây cũng có thể bán kèm chất lượng tốt hơn và giá trị gia tăng nhiều hơn sao?
    • Dù chạy mô hình cục bộ trên điện thoại do nhà cung cấp kiểm soát, điều đó vẫn không phải tính tự chủ cục bộ theo đúng nghĩa
    • Đây không phải bước đầu tiên hướng tới tương lai mà bạn đang mơ tới
    • Tôi thực sự muốn hỏi liệu sau khi xem “Her”, bạn có thật lòng mong tương lai như vậy sẽ đến không
  • Chia sẻ link ứng dụng bản tiếng Anh
    Google AI Edge Gallery cho iOS
    Phiên bản Android
    Đây là ứng dụng demo của dự án Edge của Google

  • Phần lớn mô hình vẫn chưa thể tải xuống. Hy vọng sẽ sớm được phát hành

  • Có ý kiến đặt câu hỏi rằng trang web App Store trông như hàng giả. Chữ ở phần header bị vỡ hạt, nền bị nhấp nháy, và chất lượng biểu tượng cũng thấp

    • Ngay cả trang bản Mỹ cũng có chất lượng thiết kế kém. Có vẻ giờ thiết kế không còn là thế mạnh cốt lõi của Apple nữa
    • Nhìn URL có /nl/ thì có vẻ đây là bản Hà Lan. Trang chính App Store mặc định trông đỡ hơn một chút nhưng vẫn khá kỳ
    • Chắc là vấn đề chất lượng bản địa hóa. Trên iPhone của tôi, nếu mở bằng ứng dụng App Store thì trông bình thường
    • Trên Firefox thì không thấy hiện tượng này
    • Trên Firefox của GrapheneOS thì render hoàn hảo
  • Tôi đã thử mẫu Gemma-4-E2B-it trên iPhone 16 Pro và đạt khoảng 30 token mỗi giây. Điện thoại nóng lên khá nhiều nhưng hiệu năng rất ấn tượng. Tôi dự định cũng sẽ áp dụng nó vào ứng dụng của mình

  • Con trai tôi đã bắt đầu dùng mô hình 2B trên Android. Nó chạy tốt ngay cả trên điện thoại Motorola giá rẻ, và cháu đang dùng để luyện đọc·viết ngoại ngữ. Khả năng nhẹ hóa của mô hình thực sự đáng kinh ngạc

  • Các mô hình mới thực sự rất ấn tượng. AI Edge Gallery chạy trên GPU, nhưng NPU của các chip mới còn nhanh hơn nhiều
    Ví dụ, chip A16 có Neural Engine 35 TOPS, còn GPU ở mức khoảng 7 TFLOPS. Qualcomm cũng tương tự

    • Thật đáng kinh ngạc khi các chip công suất thấp như vậy lại có hiệu năng đến mức đó. Tôi rất mong chờ phiên bản M series. Có cảm giác kỷ nguyên TPU siêu tốc trên desktop và điện thoại sắp đến rồi