- Google DeepMind đã công bố Gemma 4, mô hình AI mở thế hệ tiếp theo dựa trên công nghệ Gemini 3, được thiết kế với kiến trúc tối đa hóa hiệu quả trí tuệ trên mỗi tham số
- Mô hình có bốn kích cỡ E2B, E4B, 26B, 31B, hỗ trợ phạm vi triển khai rộng từ di động·IoT đến môi trường GPU cá nhân
- Bao gồm các tính năng chính như suy luận đa phương thức, hỗ trợ 140 ngôn ngữ, quy trình làm việc dạng tác tử, fine-tuning chi tiết, kiến trúc hiệu quả
- Hiệu năng ở các lĩnh vực toán học·lập trình·hiểu đa phương thức đã cải thiện đáng kể so với Gemma 3, đồng thời tiêu chuẩn bảo mật·độ tin cậy được duy trì ở cùng mức với các mô hình thương mại của Google
- Có thể tải trọng số mô hình từ Hugging Face, Ollama, Kaggle, LM Studio, Docker và hỗ trợ chạy tích hợp trong môi trường cục bộ lẫn đám mây
Gemma 4 — mô hình AI mở thế hệ tiếp theo
- Gemma 4 là mô hình mở mới nhất của Google DeepMind, được phát triển dựa trên nghiên cứu và công nghệ của Gemini 3, với kiến trúc tối đa hóa hiệu quả trí tuệ trên mỗi tham số (intelligence-per-parameter)
- Mô hình được cung cấp với bốn kích cỡ E2B, E4B, 26B, 31B, có thể chạy trong nhiều môi trường khác nhau từ di động·IoT đến máy trạm cá nhân
- Các tính năng chính gồm suy luận đa phương thức, hỗ trợ 140 ngôn ngữ, quy trình làm việc dạng tác tử, fine-tuning chi tiết, kiến trúc hiệu quả
- Trong các benchmark hiệu năng, Gemma 4 ghi nhận mức cải thiện tổng thể so với Gemma 3, đặc biệt đạt điểm cao ở các lĩnh vực toán học·lập trình·hiểu đa phương thức
- Tiêu chuẩn bảo mật·độ tin cậy được giữ ở cùng mức với các mô hình thương mại của Google, và có thể tải trọng số mô hình từ Hugging Face, Ollama, Kaggle, LM Studio, Docker
Cấu hình mô hình và hiệu quả
- Gemma 4 được thiết kế trên nền tảng công nghệ Gemini 3, áp dụng kiến trúc mô hình mở nhằm tối đa hóa hiệu quả trí tuệ
- Kích cỡ mô hình được chia thành bốn phiên bản E2B, E4B, 26B, 31B, mỗi phiên bản được tối ưu theo tài nguyên tính toán và hiệu quả bộ nhớ
- E2B·E4B: dành cho thiết bị di động và IoT, hỗ trợ hiệu quả tối đa và chạy ngoại tuyến
- 26B·31B: cung cấp năng lực suy luận cấp frontier trong môi trường GPU cá nhân
Các tính năng chính
-
Agentic workflows
- Hỗ trợ native function calling, cho phép xây dựng tác tử tự chủ có thể lập kế hoạch·duyệt ứng dụng·thực hiện tác vụ thay người dùng
-
Multimodal reasoning
- Kết hợp khả năng hiểu âm thanh và thị giác để hỗ trợ phát triển ứng dụng đa phương thức phong phú
-
Support for 140 languages
- Vượt ra ngoài dịch thuật đơn thuần để tạo ra trải nghiệm đa ngôn ngữ bao gồm cả hiểu ngữ cảnh văn hóa
-
Fine tuning
- Người dùng có thể fine-tuning bằng framework và kỹ thuật ưa thích để cải thiện hiệu năng cho tác vụ cụ thể
-
Efficient architecture
- Có thể chạy trên phần cứng riêng, đồng thời cung cấp môi trường phát triển và triển khai hiệu quả
Hiệu năng
- Gemma 4 được đánh giá dựa trên nhiều bộ dữ liệu và chỉ số liên quan đến sinh văn bản
- Kết quả benchmark chính (theo Gemma 4 31B IT):
- Arena AI (text): 1452 (so với 1365 của Gemma 3 27B)
- MMMLU (Hỏi đáp đa ngôn ngữ): 85.2%
- MMMU Pro (suy luận đa phương thức): 76.9%
- AIME 2026 (toán học): 89.2%
- LiveCodeBench v6 (bài toán lập trình): 80.0%
- GPQA Diamond (kiến thức khoa học): 84.3%
- τ2-bench (sử dụng công cụ của tác tử): 86.4%
- Nhìn chung, mô hình cho thấy cải thiện hiệu năng ở mọi hạng mục so với Gemma 3, đặc biệt là trong các lĩnh vực toán học·lập trình·hiểu đa phương thức
E2B và E4B — dành cho di động và IoT
- Hỗ trợ âm thanh·thị giác để cho phép xử lý thời gian thực trên thiết bị edge
- Cung cấp khả năng chạy hoàn toàn ngoại tuyến và hiệu năng độ trễ gần như bằng 0 (latency) trên smartphone, Raspberry Pi, Jetson Nano
- Có thể trải nghiệm thông qua Google AI Edge Gallery
26B và 31B — AI cục bộ hiệu năng cao
- Cung cấp năng lực suy luận nâng cao, phù hợp cho IDE, trợ lý lập trình, quy trình làm việc dạng tác tử
- Được tối ưu cho GPU tiêu dùng, giúp sinh viên·nhà nghiên cứu·nhà phát triển có thể xây dựng môi trường máy chủ AI cục bộ
- Có thể chạy trực tiếp trong Google AI Studio
Bảo mật và độ tin cậy
- Gemma 4 áp dụng các giao thức bảo mật hạ tầng giống với mô hình thương mại của Google
- Cung cấp nền tảng minh bạch và đáng tin cậy để doanh nghiệp và cơ quan công có thể sử dụng
- Đáp ứng tiêu chuẩn bảo mật·độ tin cậy ở mức cao nhất đồng thời cung cấp các tính năng AI mới nhất
Tải xuống và chạy
-
Tải trọng số mô hình
- Cung cấp trọng số mô hình Gemma 4 trên Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
-
Hỗ trợ huấn luyện và triển khai
- Hỗ trợ tích hợp với nhiều nền tảng như Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
- Có thể cấu hình môi trường huấn luyện·triển khai·suy luận thông qua tài liệu chính thức và API
Cộng đồng Gemmaverse
- Thông qua Gemmaverse, có thể khám phá các dự án mà các nhà phát triển trên toàn thế giới đã xây dựng bằng Gemma
- Google DeepMind cung cấp các cập nhật mới nhất qua các kênh X, Instagram, YouTube, LinkedIn, GitHub
- Có thể đăng ký để nhận tin tức mới nhất về các đổi mới AI
2 bình luận
Ý kiến trên Hacker News
Đã công bố phiên bản Gemma 4 tích hợp khả năng reasoning, đa phương thức và gọi công cụ
Có thể tải các mô hình đã lượng tử hóa từ bộ sưu tập Hugging Face, đồng thời có cả hướng dẫn của Unsloth
Tham số được khuyến nghị là temperature=1.0, top_p=0.95, top_k=64, EOS là
"và thinking trace dùng<|channel>thought\nTôi đã xây dựng một pipeline OCR·embedding·tóm tắt để giúp tra cứu được hồ sơ đất đai từ những năm 1800
Nhờ GGUF và llama.cpp, việc tìm kiếm đa ngôn ngữ đã trở nên khả thi, và thời gian chờ xử lý 1 phút không còn là vấn đề gì lớn
--reasoning-budget 0hoặc--chat-template-kwargs '{"enable_thinking":false}'đều không hoạt độngSau đó phát hiện phải dùng cờ mới
--reasoning offTôi đã thử unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL trên MacBook Air M4(32GB) và thấy ấn tượng hơn nhiều so với qwen3.5-35b-a3b
PowerShell cài hàng loạt thành phần rồi yêu cầu mở URL
localhost, nhưng ngay sau đó bị lỗiTôi không phải lập trình viên nên không quen dùng PowerShell, và sẽ rất tốt nếu được phát hành dưới dạng một tệp thực thi duy nhất (.exe)
Đã thử các mô hình Gemma 4 trong LM Studio
Mô hình 2B·4B tạo ra hình chim bồ nông kỳ quặc, còn mô hình 26B-A4B cho kết quả tốt nhất tôi từng thấy
Chia sẻ kết quả thử nghiệm
Mô hình 31B ở local chỉ in ra "---\n", nhưng qua AI Studio API thì hoạt động bình thường
Ví dụ: clocks.brianmoore.com
Có người đã tổng hợp bảng so sánh benchmark giữa Gemma 4 và Qwen 3.5
Bao gồm nhiều chỉ số như MMLU-Pro, GPQA, Codeforces ELO
Khi so sánh Qwen 3.5-27B với Gemma 4 26B/31B có những chỗ kết quả bị đảo ngược
Việc đội Unsloth phát hành GGUF rất nhanh là điều đáng ấn tượng, và nếu ngang tầm Qwen 3.5 thì đây là tín hiệu rất đáng khích lệ
Các mô hình Gemma nhỏ yếu hơn nhiều so với các mô hình nhỏ của Qwen
Xem Qwen3.5-4B và thread Reddit về Gemma 4
Tôi là một thành viên của đội Gemma và đã cùng tham gia đợt phát hành lớn lần này
Nếu có câu hỏi thì tôi có thể trả lời
Xem blog liên quan
Tôi đã kỳ vọng một mô hình tầm trung để cạnh tranh với Qwen3.5 9B
Liệu có phải chính benchmark đang làm méo việc so sánh hay không
Liên kết so sánh
Có người đã so sánh Gemma 4 và Qwen 3.5 bằng prompt tính Unix timestamp
Qwen suy nghĩ hơn 8 phút rồi đưa ra đáp án đúng, còn Gemma trả kết quả sai chỉ sau 30 giây
Gemma đã viết script Python nhưng không thể chạy nó, nên cho ra đáp án sai
Nếu không thì nó chỉ có thể đoán mò
datehoạt động đúng trong môi trường GNUTrên macOS thì cần cài
gdate(brew install coreutils)liên kết gist
Kết quả đó chỉ là do mô hình “tưởng tượng” ra mình đã chạy
MAX nightly của Modular là bản triển khai mã nguồn mở nhanh nhất trên Blackwell và AMD MI355
Blog của Modular cho biết có thể cài ngay bằng pip
Benchmark của Gemma 4 quá tập trung vào ELO nên dễ gây hiểu nhầm
Nó thấp hơn Qwen 3.5 27B ở hầu hết các chỉ số
Tuy vậy, các mô hình 2B·4B lại khá thú vị cho ASR hoặc OCR
Tôi tin điểm Lmarena (dựa trên đánh giá của con người) hơn
Liên kết so sánh
Cuối cùng thì bản phát hành được chờ đợi đã ra mắt
Chỉ cần thêm một hai vòng lặp nữa là có lẽ ngay cả trong môi trường tự host cũng sẽ đáp ứng được hầu hết nhu cầu
Trước đây chỉ cần hỏi đáp đơn giản, còn giờ thì tôi đã kỳ vọng đến mức coding agent
Mô hình mở vẫn chưa tới mức đó, nhưng bản phát hành này rất đáng mong đợi
Chúng xử lý phần lớn công việc dịch thuật·phân loại·phân mục của tôi
Điểm tuyệt vời nhất của bản phát hành lần này là giấy phép Apache 2.0
Có các mô hình E2B·E4B(dành cho di động), 26B-A4B(MoE), 31B(large dense)
Bản di động hỗ trợ đầu vào âm thanh, còn 31B mạnh ở các tác vụ agent
26B-A4B có hiệu quả VRAM tương đương nhưng tốc độ suy luận nhanh hơn nhiều
Có người cho Gemma 4 26B và Qwen 3.5 27B làm một dự án Rust nhỏ để so sánh
Qwen bỏ cuộc sau hơn 1 tiếng, còn Gemma bỏ cuộc sau 20 phút
Theo phần tổng kết của Codex, Qwen có mức độ hoàn chỉnh về cấu trúc cao hơn còn Gemma nhanh hơn nhưng chưa hoàn thiện
Tôi cũng đồng ý với đánh giá đó
Xem PR liên quan và issue
Không nên vội kết luận quá sớm ở giai đoạn mới ra mắt
26B-A4B nên được so với Qwen 3.5 35B-A3B
Tin đồn về bản 120b tiếc là không đúng rồi.