Google công bố mô hình mở Gemma 4

(deepmind.google)

10 điểm bởi GN⁺ 19 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp

Google DeepMind đã công bố Gemma 4, mô hình AI mở thế hệ tiếp theo dựa trên công nghệ Gemini 3, được thiết kế với kiến trúc tối đa hóa hiệu quả trí tuệ trên mỗi tham số
Mô hình có bốn kích cỡ E2B, E4B, 26B, 31B, hỗ trợ phạm vi triển khai rộng từ di động·IoT đến môi trường GPU cá nhân
Bao gồm các tính năng chính như suy luận đa phương thức, hỗ trợ 140 ngôn ngữ, quy trình làm việc dạng tác tử, fine-tuning chi tiết, kiến trúc hiệu quả
Hiệu năng ở các lĩnh vực toán học·lập trình·hiểu đa phương thức đã cải thiện đáng kể so với Gemma 3, đồng thời tiêu chuẩn bảo mật·độ tin cậy được duy trì ở cùng mức với các mô hình thương mại của Google
Có thể tải trọng số mô hình từ Hugging Face, Ollama, Kaggle, LM Studio, Docker và hỗ trợ chạy tích hợp trong môi trường cục bộ lẫn đám mây

Gemma 4 — mô hình AI mở thế hệ tiếp theo

Gemma 4 là mô hình mở mới nhất của Google DeepMind, được phát triển dựa trên nghiên cứu và công nghệ của Gemini 3, với kiến trúc tối đa hóa hiệu quả trí tuệ trên mỗi tham số (intelligence-per-parameter)
Mô hình được cung cấp với bốn kích cỡ E2B, E4B, 26B, 31B, có thể chạy trong nhiều môi trường khác nhau từ di động·IoT đến máy trạm cá nhân
Các tính năng chính gồm suy luận đa phương thức, hỗ trợ 140 ngôn ngữ, quy trình làm việc dạng tác tử, fine-tuning chi tiết, kiến trúc hiệu quả
Trong các benchmark hiệu năng, Gemma 4 ghi nhận mức cải thiện tổng thể so với Gemma 3, đặc biệt đạt điểm cao ở các lĩnh vực toán học·lập trình·hiểu đa phương thức
Tiêu chuẩn bảo mật·độ tin cậy được giữ ở cùng mức với các mô hình thương mại của Google, và có thể tải trọng số mô hình từ Hugging Face, Ollama, Kaggle, LM Studio, Docker

Cấu hình mô hình và hiệu quả

Gemma 4 được thiết kế trên nền tảng công nghệ Gemini 3, áp dụng kiến trúc mô hình mở nhằm tối đa hóa hiệu quả trí tuệ
Kích cỡ mô hình được chia thành bốn phiên bản E2B, E4B, 26B, 31B, mỗi phiên bản được tối ưu theo tài nguyên tính toán và hiệu quả bộ nhớ
- E2B·E4B: dành cho thiết bị di động và IoT, hỗ trợ hiệu quả tối đa và chạy ngoại tuyến
- 26B·31B: cung cấp năng lực suy luận cấp frontier trong môi trường GPU cá nhân

Các tính năng chính

Agentic workflows
- Hỗ trợ native function calling, cho phép xây dựng tác tử tự chủ có thể lập kế hoạch·duyệt ứng dụng·thực hiện tác vụ thay người dùng
Multimodal reasoning
- Kết hợp khả năng hiểu âm thanh và thị giác để hỗ trợ phát triển ứng dụng đa phương thức phong phú
Support for 140 languages
- Vượt ra ngoài dịch thuật đơn thuần để tạo ra trải nghiệm đa ngôn ngữ bao gồm cả hiểu ngữ cảnh văn hóa
Fine tuning
- Người dùng có thể fine-tuning bằng framework và kỹ thuật ưa thích để cải thiện hiệu năng cho tác vụ cụ thể
Efficient architecture
- Có thể chạy trên phần cứng riêng, đồng thời cung cấp môi trường phát triển và triển khai hiệu quả

Hiệu năng

Gemma 4 được đánh giá dựa trên nhiều bộ dữ liệu và chỉ số liên quan đến sinh văn bản
Kết quả benchmark chính (theo Gemma 4 31B IT):
- Arena AI (text): 1452 (so với 1365 của Gemma 3 27B)
- MMMLU (Hỏi đáp đa ngôn ngữ): 85.2%
- MMMU Pro (suy luận đa phương thức): 76.9%
- AIME 2026 (toán học): 89.2%
- LiveCodeBench v6 (bài toán lập trình): 80.0%
- GPQA Diamond (kiến thức khoa học): 84.3%
- τ2-bench (sử dụng công cụ của tác tử): 86.4%
Nhìn chung, mô hình cho thấy cải thiện hiệu năng ở mọi hạng mục so với Gemma 3, đặc biệt là trong các lĩnh vực toán học·lập trình·hiểu đa phương thức

E2B và E4B — dành cho di động và IoT

Hỗ trợ âm thanh·thị giác để cho phép xử lý thời gian thực trên thiết bị edge
Cung cấp khả năng chạy hoàn toàn ngoại tuyến và hiệu năng độ trễ gần như bằng 0 (latency) trên smartphone, Raspberry Pi, Jetson Nano
Có thể trải nghiệm thông qua Google AI Edge Gallery

26B và 31B — AI cục bộ hiệu năng cao

Cung cấp năng lực suy luận nâng cao, phù hợp cho IDE, trợ lý lập trình, quy trình làm việc dạng tác tử
Được tối ưu cho GPU tiêu dùng, giúp sinh viên·nhà nghiên cứu·nhà phát triển có thể xây dựng môi trường máy chủ AI cục bộ
Có thể chạy trực tiếp trong Google AI Studio

Bảo mật và độ tin cậy

Gemma 4 áp dụng các giao thức bảo mật hạ tầng giống với mô hình thương mại của Google
Cung cấp nền tảng minh bạch và đáng tin cậy để doanh nghiệp và cơ quan công có thể sử dụng
Đáp ứng tiêu chuẩn bảo mật·độ tin cậy ở mức cao nhất đồng thời cung cấp các tính năng AI mới nhất

Tải xuống và chạy

Tải trọng số mô hình
- Cung cấp trọng số mô hình Gemma 4 trên Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
Hỗ trợ huấn luyện và triển khai
- Hỗ trợ tích hợp với nhiều nền tảng như Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
- Có thể cấu hình môi trường huấn luyện·triển khai·suy luận thông qua tài liệu chính thức và API

Cộng đồng Gemmaverse

Thông qua Gemmaverse, có thể khám phá các dự án mà các nhà phát triển trên toàn thế giới đã xây dựng bằng Gemma
Google DeepMind cung cấp các cập nhật mới nhất qua các kênh X, Instagram, YouTube, LinkedIn, GitHub
Có thể đăng ký để nhận tin tức mới nhất về các đổi mới AI

2 bình luận

GN⁺ 19 ngày trước

Ý kiến trên Hacker News

Đã công bố phiên bản Gemma 4 tích hợp khả năng reasoning, đa phương thức và gọi công cụ
Có thể tải các mô hình đã lượng tử hóa từ bộ sưu tập Hugging Face, đồng thời có cả hướng dẫn của Unsloth
Tham số được khuyến nghị là temperature=1.0, top_p=0.95, top_k=64, EOS là " và thinking trace dùng <|channel>thought\n
- Công việc của Daniel đang thay đổi thế giới
  Tôi đã xây dựng một pipeline OCR·embedding·tóm tắt để giúp tra cứu được hồ sơ đất đai từ những năm 1800
  Nhờ GGUF và llama.cpp, việc tìm kiếm đa ngôn ngữ đã trở nên khả thi, và thời gian chờ xử lý 1 phút không còn là vấn đề gì lớn
- Tôi đã cố tắt “thinking” trong llama.cpp nhưng --reasoning-budget 0 hoặc --chat-template-kwargs '{"enable_thinking":false}' đều không hoạt động
  Sau đó phát hiện phải dùng cờ mới --reasoning off
  Tôi đã thử unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL trên MacBook Air M4(32GB) và thấy ấn tượng hơn nhiều so với qwen3.5-35b-a3b
- Ảnh chụp màn hình ở bước “Search and download Gemma 4” trong hướng dẫn lại là của qwen3.5, còn trong Unsloth Studio thì chỉ thấy các mô hình Gemma 3
- Câu hỏi của người mới bắt đầu: tại sao nên dùng phiên bản này thay vì mô hình gốc?
- Khi cài Gemma 4 bằng Unsloth trên Windows 11, đã gặp lỗi ở bước đặt mật khẩu
  PowerShell cài hàng loạt thành phần rồi yêu cầu mở URL localhost, nhưng ngay sau đó bị lỗi
  Tôi không phải lập trình viên nên không quen dùng PowerShell, và sẽ rất tốt nếu được phát hành dưới dạng một tệp thực thi duy nhất (.exe)
Đã thử các mô hình Gemma 4 trong LM Studio
Mô hình 2B·4B tạo ra hình chim bồ nông kỳ quặc, còn mô hình 26B-A4B cho kết quả tốt nhất tôi từng thấy
Chia sẻ kết quả thử nghiệm
Mô hình 31B ở local chỉ in ra "---\n", nhưng qua AI Studio API thì hoạt động bình thường
- Nhờ benchmark chim bồ nông mà mỗi lần có model mới ra tôi đều vào xem bình luận trên Hacker News
- Không biết có phải chim bồ nông giờ đã trở thành một phần của dữ liệu huấn luyện hay không
- Sẽ rất hay nếu có một trang gallery để xem toàn bộ ảnh chim bồ nông trong một chỗ
  Ví dụ: clocks.brianmoore.com
- Nếu dùng bản instruction-tuned thì chất lượng chim bồ nông có lẽ sẽ tốt hơn nhiều
- Tôi tò mò không biết đã chạy trên cấu hình laptop nào
Có người đã tổng hợp bảng so sánh benchmark giữa Gemma 4 và Qwen 3.5
Bao gồm nhiều chỉ số như MMLU-Pro, GPQA, Codeforces ELO
- Điểm ELO khác khá xa so với biểu đồ của tfa
  Khi so sánh Qwen 3.5-27B với Gemma 4 26B/31B có những chỗ kết quả bị đảo ngược
  Việc đội Unsloth phát hành GGUF rất nhanh là điều đáng ấn tượng, và nếu ngang tầm Qwen 3.5 thì đây là tín hiệu rất đáng khích lệ
- Người dùng có GPU 24GB không rõ nên chọn mô hình nào từ bảng này
- So sánh bằng cách đảo trục và loại bớt một số mô hình lại có thể gây hiểu nhầm
  Các mô hình Gemma nhỏ yếu hơn nhiều so với các mô hình nhỏ của Qwen
  Xem Qwen3.5-4B và thread Reddit về Gemma 4
Tôi là một thành viên của đội Gemma và đã cùng tham gia đợt phát hành lớn lần này
Nếu có câu hỏi thì tôi có thể trả lời
- Tôi muốn biết liệu có kế hoạch phát hành bản quantization-aware training (QAT) như Gemma 3 hay không
  Xem blog liên quan
- Tôi thắc mắc vì sao lần này không có bản 12B
  Tôi đã kỳ vọng một mô hình tầm trung để cạnh tranh với Qwen3.5 9B
- Tôi muốn biết liệu “major number release” có thực sự đồng nghĩa với tăng quy mô tài nguyên tính toán, hay là chỉ việc chuyển sang kiến trúc mới
- Có người hỏi vì sao hiệu năng lại thấp trên các benchmark ngoài ELO
  Liệu có phải chính benchmark đang làm méo việc so sánh hay không
- Trong thử nghiệm cá nhân, nó cho hiệu năng gần như Gemini 3 Pro nhưng rẻ hơn 10 lần
  Liên kết so sánh
Có người đã so sánh Gemma 4 và Qwen 3.5 bằng prompt tính Unix timestamp
Qwen suy nghĩ hơn 8 phút rồi đưa ra đáp án đúng, còn Gemma trả kết quả sai chỉ sau 30 giây
Gemma đã viết script Python nhưng không thể chạy nó, nên cho ra đáp án sai
- Để mô hình thật sự chạy được code thì cần môi trường agentic harness với sandbox và đặc tả rõ ràng
  Nếu không thì nó chỉ có thể đoán mò
- Lệnh date hoạt động đúng trong môi trường GNU
  Trên macOS thì cần cài gdate (brew install coreutils)
- Trong môi trường RX 9070 XT(24GB VRAM), kể cả chạy không có công cụ vẫn nhận được kết quả đúng
  liên kết gist
- Tác giả bình luận gốc thực ra không cấp cho mô hình quyền chạy lệnh thật
  Kết quả đó chỉ là do mô hình “tưởng tượng” ra mình đã chạy
- Câu cuối cùng thật buồn cười
MAX nightly của Modular là bản triển khai mã nguồn mở nhanh nhất trên Blackwell và AMD MI355
Blog của Modular cho biết có thể cài ngay bằng pip
- Có người hỏi liệu nó có nhanh hơn TensorRT-LLM không, hoặc vì sao TensorRT-LLM lại không được xem là mã nguồn mở
- Tôi tò mò mức tăng tốc so với PyTorch là bao nhiêu
Benchmark của Gemma 4 quá tập trung vào ELO nên dễ gây hiểu nhầm
Nó thấp hơn Qwen 3.5 27B ở hầu hết các chỉ số
Tuy vậy, các mô hình 2B·4B lại khá thú vị cho ASR hoặc OCR
- Benchmark công khai rất dễ bị thao túng
  Tôi tin điểm Lmarena (dựa trên đánh giá của con người) hơn
- Trong thử nghiệm cá nhân, ngoài mảng coding thì nó cho kết quả khá tốt
  Liên kết so sánh
- Các mô hình Trung Quốc có hiệu năng thấp ở những bài test kín như arc-agi 2
- Benchmark chỉ mang tính tham khảo, chính xác nhất vẫn là tự thử trên use case thực tế của mình
- Không rõ “ELO Score” ở đây chính xác là đang chỉ chỉ số nào
Cuối cùng thì bản phát hành được chờ đợi đã ra mắt
Chỉ cần thêm một hai vòng lặp nữa là có lẽ ngay cả trong môi trường tự host cũng sẽ đáp ứng được hầu hết nhu cầu
- Tôi cũng đồng ý, nhưng “nhu cầu hằng ngày” của tôi mỗi năm lại càng phức tạp hơn
  Trước đây chỉ cần hỏi đáp đơn giản, còn giờ thì tôi đã kỳ vọng đến mức coding agent
  Mô hình mở vẫn chưa tới mức đó, nhưng bản phát hành này rất đáng mong đợi
- Gemma3:27b và Qwen3-vl:30b-a3b là các LLM local tôi dùng thường xuyên nhất
  Chúng xử lý phần lớn công việc dịch thuật·phân loại·phân mục của tôi
- Tôi muốn biết mọi người đang dùng self-hosting cho những loại tác vụ nào
Điểm tuyệt vời nhất của bản phát hành lần này là giấy phép Apache 2.0
Có các mô hình E2B·E4B(dành cho di động), 26B-A4B(MoE), 31B(large dense)
Bản di động hỗ trợ đầu vào âm thanh, còn 31B mạnh ở các tác vụ agent
26B-A4B có hiệu quả VRAM tương đương nhưng tốc độ suy luận nhanh hơn nhiều
Có người cho Gemma 4 26B và Qwen 3.5 27B làm một dự án Rust nhỏ để so sánh
Qwen bỏ cuộc sau hơn 1 tiếng, còn Gemma bỏ cuộc sau 20 phút
Theo phần tổng kết của Codex, Qwen có mức độ hoàn chỉnh về cấu trúc cao hơn còn Gemma nhanh hơn nhưng chưa hoàn thiện
Tôi cũng đồng ý với đánh giá đó
- Hiện tại có lỗi chat template khiến việc gọi công cụ không ổn định
  Xem PR liên quan và issue
  Không nên vội kết luận quá sớm ở giai đoạn mới ra mắt
- Qwen 3.5 27B là mô hình dense nên so với Gemma 4 31B sẽ hợp lý hơn
  26B-A4B nên được so với Qwen 3.5 35B-A3B
- Qwen là dense, còn Gemma là kiến trúc MoE nên khó so sánh trực tiếp

eoeoe 19 ngày trước

Tin đồn về bản 120b tiếc là không đúng rồi.

Google công bố mô hình mở Gemma 4

Gemma 4 — mô hình AI mở thế hệ tiếp theo

Cấu hình mô hình và hiệu quả

Các tính năng chính

Agentic workflows

Multimodal reasoning

Support for 140 languages

Fine tuning

Efficient architecture

Hiệu năng

E2B và E4B — dành cho di động và IoT

26B và 31B — AI cục bộ hiệu năng cao

Bảo mật và độ tin cậy

Tải xuống và chạy

Tải trọng số mô hình

Hỗ trợ huấn luyện và triển khai

Cộng đồng Gemmaverse

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News