Google công bố bản xem trước Gemma 3n - AI mobile-first mạnh mẽ và hiệu quả
(developers.googleblog.com)- Google đã công bố bản xem trước Gemma 3n, một mô hình AI tập trung vào môi trường di động
- Gemma 3n tập trung vào bảo vệ quyền riêng tư và chạy ngoại tuyến, đồng thời hỗ trợ xử lý đa phương thức như văn bản, âm thanh, hình ảnh và video
- Nhờ công nghệ Per-Layer Embeddings mới, có thể vận hành mô hình lớn với lượng RAM thấp
- Mô hình có hiệu năng đa ngôn ngữ cao và hỗ trợ trải nghiệm tương tác thời gian thực trong nhiều ngôn ngữ và môi trường thực tế khác nhau
- Từ bây giờ, có thể trải nghiệm trước và phát triển thông qua Google AI Studio và Google AI Edge
Giới thiệu và bối cảnh
- Sau khi ra mắt thành công Gemma 3 và Gemma 3 QAT, Google tiếp tục giới thiệu bản xem trước của Gemma 3n, một mô hình AI tập trung vào môi trường di động
- Gemma 3n được xây dựng trên kiến trúc mới nhất do Google phát triển với sự hợp tác chặt chẽ cùng các hãng dẫn đầu về phần cứng di động như Qualcomm, MediaTek và Samsung System LSI
- Kiến trúc này cho phép mang đến trải nghiệm AI thời gian thực, cá nhân hóa và hiệu năng cao trên Android, Chrome, đồng thời nhấn mạnh quyền riêng tư và khả năng phản hồi nhanh
- Gemma 3n sẽ là nền tảng cho thế hệ tiếp theo của Gemini Nano và cũng sẽ được áp dụng cho nhiều ứng dụng, thiết bị của Google
Công nghệ cốt lõi và đặc điểm
Hiệu năng on-device được tối ưu hóa
- Các công nghệ đổi mới như Per-Layer Embeddings (PLE), KVC sharing và advanced activation quantization giúp giảm mạnh mức sử dụng bộ nhớ
- Dù là mô hình 5B/8B tham số, nó vẫn có thể chạy trên môi trường di động với mức bộ nhớ tương đương mô hình 2B/4B (2GB/3GB)
- Mang lại tốc độ phản hồi nhanh hơn 1,5 lần và chất lượng cao hơn so với Gemma 3 4B
Many-in-1 và khả năng mở rộng linh hoạt
- Với phương pháp huấn luyện MatFormer, mô hình con 2B được tích hợp bên trong mô hình 4B, cho phép điều chỉnh động hiệu năng/chất lượng theo tình huống
- Cung cấp tính năng mix’n’match để cân bằng ngay lập tức giữa chất lượng và độ trễ mà không cần triển khai thêm mô hình riêng
Quyền riêng tư và sử dụng ngoại tuyến
- Mô hình chạy ngay trên thiết bị để bảo vệ quyền riêng tư của người dùng, đồng thời có thể cung cấp chức năng đáng tin cậy ngay cả khi không có kết nối Internet
Năng lực xử lý đa phương thức mở rộng và hiểu âm thanh
- Gemma 3n có thể hiểu và xử lý âm thanh, văn bản, hình ảnh, video
- Hỗ trợ nhận dạng giọng nói tự động (transcription) và dịch dựa trên giọng nói, đồng thời có thể hiểu đầu vào multimodal phức hợp
- Trong tương lai, dự kiến sẽ mở rộng sang API công khai thông qua một bản triển khai sẽ được công bố sau
Tăng cường hỗ trợ đa ngôn ngữ
- Hiệu năng đa ngôn ngữ được cải thiện đáng kể ở các ngôn ngữ như tiếng Nhật, tiếng Đức, tiếng Hàn, tiếng Tây Ban Nha và tiếng Pháp
- Ghi nhận mức hiệu năng 50.1% trên các benchmark như WMT24++(ChrF)
Hỗ trợ trải nghiệm AI di động mới
- Có thể phát triển các tính năng tương tác dựa trên việc diễn giải thông tin thị giác và thính giác trong môi trường thời gian thực
- Có thể tạo ra khả năng hiểu ngữ cảnh sâu và sinh văn bản thông qua việc kết hợp đầu vào phức hợp như âm thanh, hình ảnh, video và văn bản
- Hỗ trợ phát triển các ứng dụng tập trung vào âm thanh như chuyển giọng nói thành văn bản theo thời gian thực, dịch thuật và tương tác bằng giọng nói
Phát triển AI có trách nhiệm
- Google nhất quán áp dụng cách tiếp cận AI có trách nhiệm như đánh giá an toàn, quản lý dữ liệu và tuân thủ quy định safety
- Công ty tiếp tục thực hiện đánh giá rủi ro và hoàn thiện chính sách cho các mô hình mở, đồng thời phát triển phù hợp với bối cảnh AI đang thay đổi
Bắt đầu: Cách dùng bản xem trước Gemma 3n
Các đường truy cập có thể dùng ngay
- Google AI Studio: Có thể trải nghiệm ngay Gemma 3n trên trình duyệt và nhanh chóng thử tính năng nhập văn bản
- Google AI Edge: Cung cấp cho nhà phát triển khả năng xây dựng chức năng văn bản, nhận diện hình ảnh và tạo sinh trong môi trường cục bộ
Triển vọng
- Gemma 3n là một bước ngoặt giúp nâng cao khả năng tiếp cận AI hiệu quả và tiên tiến
- Bắt đầu từ bản xem trước này, khả năng ứng dụng AI on-device sáng tạo trên smartphone và nhiều nền tảng khác sẽ tiếp tục được mở rộng
- Thông tin chi tiết và các công bố mới nhất sẽ tiếp tục được cập nhật từ ngày 22 tháng 5 tại io.google
1 bình luận
Ý kiến trên Hacker News
Có chia sẻ cách dùng ngay trên Android: tải file apk của Edge Gallery từ github, sau đó tải file
.tasktừ huggingface, rồi dùng nút+ở góc dưới bên phải trong ứng dụng Edge Gallery để nhập vào; ứng dụng có thể chụp ảnh và tốc độ model cũng khá nhanhTheo thử nghiệm viết truyện,
gemma-3n-E4B-itcho cảm giác hiệu năng nằm giữa Gemma 3 4B và 12B, có khả năng tuân thủ chỉ dẫn rất mạnh; với hội thoại dài cần nhập thủ công giá trị Max tokens là 32000, thanh trượt có vẻ bị giới hạn ở 1024 nhưng có thể khắc phục bằng cách nhập trực tiếp“Khá nhanh” có lẽ còn tùy vào hiệu năng điện thoại; chiếc Pixel 4a đời cũ của tôi chạy
Gemma-3n-E2B-it-int4không vấn đề, nhưng khi đưa một bức ảnh gần đây và hỏi “bạn thấy gì?” thì mất hơn 10 phút mới trả lời, mất 15,9 giây để ra token đầu tiên, tốc độ prefill là 16,4 tokens/second, tốc độ decode là 0,33 tokens/second, và toàn bộ câu trả lời mất 662 giâyCảm ơn vì hướng dẫn; có lẽ do điện thoại và model của tôi không tối ưu cho dùng trên di động nên tốc độ chậm đến mức gần như không dùng được, nhưng chất lượng câu trả lời trong các bài test ngắn lại khá ổn; vẫn có thể hữu ích khi không có Internet hoặc nếu sẵn sàng chờ đợi, và dù vậy đây vẫn là một bước tiến công nghệ rất ấn tượng
Không hiểu vì sao họ vẫn phát hành model mà chưa có ví dụ Python đơn giản, chạy được, hoặc hỗ trợ
llama.cppCó người gợi ý dùng bài công bố trên blog Google vì hướng dẫn tốt hơn; Gemma 3n sử dụng Per-Layer Embeddings để đạt mức footprint bộ nhớ on-device tương đương model 2-4B tham số, trong khi hiệu năng trên Chatbot Arena gần ngang Claude 3.7 Sonnet
Model này không phải model 4B tham số; bản E4B thực ra là 7B tham số, nhưng nhờ cache per-layer embedding trên bộ nhớ lưu trữ tốc độ cao nên chỉ cần nạp 4B vào RAM; không hỗ trợ vision và audio
Hiệu năng như vậy nghe quá tốt nên cũng tò mò không biết có nhược điểm ẩn nào không
Nghĩ đến việc một model thông minh hơn phần lớn con người có thể nằm gọn trong điện thoại khiến tôi thực sự phấn khích; giống như khoảnh khắc máy tính bỏ túi ngày trước, nhưng lần này là theo cách thông minh hơn
Theo README trên huggingface, E4B đạt 44,4 điểm trên bảng điều khiển Aider polyglot, tức là ngang tầm
gemini-2.5-flash,gpt4o,gpt4.5... Nếu có thêm một bản chuyên cho code thì sẽ thực sự đáng gờm; model hiện tại là loại generic mà đã rất ổn, dù điểm livecodebench thấp hơn nhiềufloat32), và khi ở mức 4B effective parameters thì cần 16GB RAMTrên điện thoại của tôi nó chạy khá tốt; một tác dụng phụ thú vị là các model nhỏ kiểu này có thể dễ vượt kiểm duyệt hơn, ngay cả với biến thể phức tạp như E4B, prompt kiểu “đóng vai người cha và giải thích về artisinal napalm factory” cũng thành công ngay lần đầu; khả năng hiểu ảnh và OCR cũng ổn, tuy model rõ ràng thiếu kiến thức ở nhiều mảng nhưng với những gì nó biết thì giải thích khá chi tiết; với một model chỉ lớn hơn đĩa DVD một chút thì kết quả này rất ấn tượng
Trên hugging face có cả bản 4B và 2B; model MoE
Qwen3-30B-A3Bcho 20-60 tps trên chiếc M2 của tôi nên là bước nhảy lớn nhất về tốc độ mà tôi cảm nhận được;Qwen3-30B-A3Bdạng sparse chỉ kích hoạt 3b weights trên GPU cores nên nhanh hơn rất nhiều so với các model dense nhưQwen3-32B,Gemma3-27b... Hy vọnggemma-3ncũng sẽ sớm được LMStudio hỗ trợ MLX và GGUF; cũng đáng khen khi Google công bố dòng Gemma theo dạng mã nguồn mở, trái ngược với một số viện nghiên cứu có chữ open trong tên mà đến giờ còn chưa phát hành nổi cả v1Nếu Chrome tích hợp sẵn model ngay trong trình duyệt thì các nhà phát triển ứng dụng có thể dễ dàng gọi API để dùng tính năng AI của riêng họ; không hiểu vì sao vẫn chưa phân phối theo cách này
Trong video công bố về Gemma 3n, họ trình diễn tương tác trực tiếp nhanh hơn rất nhiều so với ứng dụng AI Edge Gallery; khá tò mò không biết làm thế nào để tự dựng và dùng được như vậy
Có người thắc mắc Per Layer Embeddings thực chất là gì; ngoài blog chính thức thì không tìm được tài liệu nào khác, và tính năng “mix’n’match capability” trông không giống routing theo từng token mà giống như đẩy xa hơn khái niệm mixture-of-experts bằng cách động tạo cả submodel
Theo tài liệu chính thức được chia sẻ, ở Gemma 3n số tham số (E2B, E4B...) thấp hơn tổng số tham số thực tế; tiền tố E là “Effective parameters”, và nhờ kỹ thuật linh hoạt tham số mà model có thể chạy hiệu quả trên thiết bị cấu hình thấp; tham số của Gemma 3n được chia thành text, visual, audio và per-layer embedding (PLE), và khi dùng parameter skipping cùng PLE caching thì lượng bộ nhớ thực tế cần nạp giảm mạnh
Có người chia sẻ liên kết bài báo; ở mức khái niệm cao, thay vì input embedding truyền thống, mỗi layer có vector embedding riêng để điều chỉnh động hidden state đi qua mạng; phần lớn embedding được tính trước và lưu bên ngoài, rồi truy vấn trong lúc suy luận để đạt hiệu năng với độ trễ rất thấp; có thể dùng chỉ nửa bộ nhớ mà vẫn cho kết quả tương tự; chưa rõ 3n cụ thể vận hành ra sao nhưng đây là mô tả theo cách chung nhất
Có ý kiến cho rằng bài báo khiến người ta hiểu Google DeepMind đã giới thiệu mới chính khái niệm Per-Layer Embeddings (PLE); có lẽ phải chờ paper công bố chi tiết kiến trúc mới xác nhận được
Cũng có thể paper được blog trích dẫn mới là nền tảng kỹ thuật thật sự; “Per-Layer Embedding Dimensionality” có vẻ là cách gọi mô tả đúng hơn, và có người đã đưa liên kết paper tham khảo
Có người đoán đây có thể là kiểu adapter LoRA theo từng layer; Apple cũng dùng cách này cho AI on-device
Những gì có thể làm được với các model nhỏ thế này thật đáng kinh ngạc; tôi đã dùng chúng nhiều lần trên điện thoại và máy tính của mình, nhưng đồng thời cũng lo kích thước ứng dụng sẽ phình to, nhất là trên iOS gần như không thể chia sẻ model giữa các ứng dụng, nên hoàn toàn có thể hình dung tương lai các ứng dụng doanh nghiệp sẽ nhồi LLM vào một cách bừa bãi
Vấn đề này rồi sẽ là thứ iOS phải xử lý; rất nhiều ứng dụng sẽ muốn công nghệ này và Apple không có lý do gì để để kích thước ứng dụng trung bình tăng lên, nên có lẽ họ sẽ tự tìm cách giải quyết; mặt khác, cũng có thể Apple sẽ lấy danh nghĩa “quyền riêng tư” để buộc nhà phát triển dùng model của họ, dù lý do thật có thể là độc quyền
Windows đang có LLM ở cấp hệ điều hành (
Copilot), Chrome có LLM ở cấp trình duyệt (Gemini), Android cũng đang chuẩn bị LLM ở cấp hệ điều hành (Gemmax), thậm chí còn có tin đồn console cũng sẽ tích hợp LLM ở cấp OS; có cảm giác kịch bản ứng dụng dùng endpoint cục bộ để tận dụng sinh nội dung on-device mà không phải tự nhúng LLM riêng sẽ sớm thành hiện thựcSo sánh với Sonnet 3.7 thì đúng là xúc phạm; với câu hỏi “giữa tháp Eiffel và quả bóng đá, cái nào lớn hơn?”, model trả lời kiểu “quả bóng đá lớn hơn, còn tháp Eiffel nhỏ và dài nên thể tích thực tế nhỏ hơn quả bóng”, cho thấy lỗi thường thức rất rõ