10 điểm bởi GN⁺ 19 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Google DeepMind đã công bố Gemma 4, mô hình AI mở thế hệ tiếp theo dựa trên công nghệ Gemini 3, được thiết kế với kiến trúc tối đa hóa hiệu quả trí tuệ trên mỗi tham số
  • Mô hình có bốn kích cỡ E2B, E4B, 26B, 31B, hỗ trợ phạm vi triển khai rộng từ di động·IoT đến môi trường GPU cá nhân
  • Bao gồm các tính năng chính như suy luận đa phương thức, hỗ trợ 140 ngôn ngữ, quy trình làm việc dạng tác tử, fine-tuning chi tiết, kiến trúc hiệu quả
  • Hiệu năng ở các lĩnh vực toán học·lập trình·hiểu đa phương thức đã cải thiện đáng kể so với Gemma 3, đồng thời tiêu chuẩn bảo mật·độ tin cậy được duy trì ở cùng mức với các mô hình thương mại của Google
  • Có thể tải trọng số mô hình từ Hugging Face, Ollama, Kaggle, LM Studio, Docker và hỗ trợ chạy tích hợp trong môi trường cục bộ lẫn đám mây

Gemma 4 — mô hình AI mở thế hệ tiếp theo

  • Gemma 4 là mô hình mở mới nhất của Google DeepMind, được phát triển dựa trên nghiên cứu và công nghệ của Gemini 3, với kiến trúc tối đa hóa hiệu quả trí tuệ trên mỗi tham số (intelligence-per-parameter)
  • Mô hình được cung cấp với bốn kích cỡ E2B, E4B, 26B, 31B, có thể chạy trong nhiều môi trường khác nhau từ di động·IoT đến máy trạm cá nhân
  • Các tính năng chính gồm suy luận đa phương thức, hỗ trợ 140 ngôn ngữ, quy trình làm việc dạng tác tử, fine-tuning chi tiết, kiến trúc hiệu quả
  • Trong các benchmark hiệu năng, Gemma 4 ghi nhận mức cải thiện tổng thể so với Gemma 3, đặc biệt đạt điểm cao ở các lĩnh vực toán học·lập trình·hiểu đa phương thức
  • Tiêu chuẩn bảo mật·độ tin cậy được giữ ở cùng mức với các mô hình thương mại của Google, và có thể tải trọng số mô hình từ Hugging Face, Ollama, Kaggle, LM Studio, Docker

Cấu hình mô hình và hiệu quả

  • Gemma 4 được thiết kế trên nền tảng công nghệ Gemini 3, áp dụng kiến trúc mô hình mở nhằm tối đa hóa hiệu quả trí tuệ
  • Kích cỡ mô hình được chia thành bốn phiên bản E2B, E4B, 26B, 31B, mỗi phiên bản được tối ưu theo tài nguyên tính toán và hiệu quả bộ nhớ
    • E2B·E4B: dành cho thiết bị di động và IoT, hỗ trợ hiệu quả tối đa và chạy ngoại tuyến
    • 26B·31B: cung cấp năng lực suy luận cấp frontier trong môi trường GPU cá nhân

Các tính năng chính

  • Agentic workflows

    • Hỗ trợ native function calling, cho phép xây dựng tác tử tự chủ có thể lập kế hoạch·duyệt ứng dụng·thực hiện tác vụ thay người dùng
  • Multimodal reasoning

    • Kết hợp khả năng hiểu âm thanh và thị giác để hỗ trợ phát triển ứng dụng đa phương thức phong phú
  • Support for 140 languages

    • Vượt ra ngoài dịch thuật đơn thuần để tạo ra trải nghiệm đa ngôn ngữ bao gồm cả hiểu ngữ cảnh văn hóa
  • Fine tuning

    • Người dùng có thể fine-tuning bằng framework và kỹ thuật ưa thích để cải thiện hiệu năng cho tác vụ cụ thể
  • Efficient architecture

    • Có thể chạy trên phần cứng riêng, đồng thời cung cấp môi trường phát triển và triển khai hiệu quả

Hiệu năng

  • Gemma 4 được đánh giá dựa trên nhiều bộ dữ liệu và chỉ số liên quan đến sinh văn bản
  • Kết quả benchmark chính (theo Gemma 4 31B IT):
    • Arena AI (text): 1452 (so với 1365 của Gemma 3 27B)
    • MMMLU (Hỏi đáp đa ngôn ngữ): 85.2%
    • MMMU Pro (suy luận đa phương thức): 76.9%
    • AIME 2026 (toán học): 89.2%
    • LiveCodeBench v6 (bài toán lập trình): 80.0%
    • GPQA Diamond (kiến thức khoa học): 84.3%
    • τ2-bench (sử dụng công cụ của tác tử): 86.4%
  • Nhìn chung, mô hình cho thấy cải thiện hiệu năng ở mọi hạng mục so với Gemma 3, đặc biệt là trong các lĩnh vực toán học·lập trình·hiểu đa phương thức

E2B và E4B — dành cho di động và IoT

  • Hỗ trợ âm thanh·thị giác để cho phép xử lý thời gian thực trên thiết bị edge
  • Cung cấp khả năng chạy hoàn toàn ngoại tuyến và hiệu năng độ trễ gần như bằng 0 (latency) trên smartphone, Raspberry Pi, Jetson Nano
  • Có thể trải nghiệm thông qua Google AI Edge Gallery

26B và 31B — AI cục bộ hiệu năng cao

  • Cung cấp năng lực suy luận nâng cao, phù hợp cho IDE, trợ lý lập trình, quy trình làm việc dạng tác tử
  • Được tối ưu cho GPU tiêu dùng, giúp sinh viên·nhà nghiên cứu·nhà phát triển có thể xây dựng môi trường máy chủ AI cục bộ
  • Có thể chạy trực tiếp trong Google AI Studio

Bảo mật và độ tin cậy

  • Gemma 4 áp dụng các giao thức bảo mật hạ tầng giống với mô hình thương mại của Google
  • Cung cấp nền tảng minh bạch và đáng tin cậy để doanh nghiệp và cơ quan công có thể sử dụng
  • Đáp ứng tiêu chuẩn bảo mật·độ tin cậy ở mức cao nhất đồng thời cung cấp các tính năng AI mới nhất

Tải xuống và chạy

  • Tải trọng số mô hình

    • Cung cấp trọng số mô hình Gemma 4 trên Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
  • Hỗ trợ huấn luyện và triển khai

    • Hỗ trợ tích hợp với nhiều nền tảng như Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
    • Có thể cấu hình môi trường huấn luyện·triển khai·suy luận thông qua tài liệu chính thức và API

Cộng đồng Gemmaverse

  • Thông qua Gemmaverse, có thể khám phá các dự án mà các nhà phát triển trên toàn thế giới đã xây dựng bằng Gemma
  • Google DeepMind cung cấp các cập nhật mới nhất qua các kênh X, Instagram, YouTube, LinkedIn, GitHub
  • Có thể đăng ký để nhận tin tức mới nhất về các đổi mới AI

2 bình luận

 
Ý kiến trên Hacker News
  • Đã công bố phiên bản Gemma 4 tích hợp khả năng reasoning, đa phương thức và gọi công cụ
    Có thể tải các mô hình đã lượng tử hóa từ bộ sưu tập Hugging Face, đồng thời có cả hướng dẫn của Unsloth
    Tham số được khuyến nghị là temperature=1.0, top_p=0.95, top_k=64, EOS là " và thinking trace dùng <|channel>thought\n

    • Công việc của Daniel đang thay đổi thế giới
      Tôi đã xây dựng một pipeline OCR·embedding·tóm tắt để giúp tra cứu được hồ sơ đất đai từ những năm 1800
      Nhờ GGUF và llama.cpp, việc tìm kiếm đa ngôn ngữ đã trở nên khả thi, và thời gian chờ xử lý 1 phút không còn là vấn đề gì lớn
    • Tôi đã cố tắt “thinking” trong llama.cpp nhưng --reasoning-budget 0 hoặc --chat-template-kwargs '{"enable_thinking":false}' đều không hoạt động
      Sau đó phát hiện phải dùng cờ mới --reasoning off
      Tôi đã thử unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL trên MacBook Air M4(32GB) và thấy ấn tượng hơn nhiều so với qwen3.5-35b-a3b
    • Ảnh chụp màn hình ở bước “Search and download Gemma 4” trong hướng dẫn lại là của qwen3.5, còn trong Unsloth Studio thì chỉ thấy các mô hình Gemma 3
    • Câu hỏi của người mới bắt đầu: tại sao nên dùng phiên bản này thay vì mô hình gốc?
    • Khi cài Gemma 4 bằng Unsloth trên Windows 11, đã gặp lỗi ở bước đặt mật khẩu
      PowerShell cài hàng loạt thành phần rồi yêu cầu mở URL localhost, nhưng ngay sau đó bị lỗi
      Tôi không phải lập trình viên nên không quen dùng PowerShell, và sẽ rất tốt nếu được phát hành dưới dạng một tệp thực thi duy nhất (.exe)
  • Đã thử các mô hình Gemma 4 trong LM Studio
    Mô hình 2B·4B tạo ra hình chim bồ nông kỳ quặc, còn mô hình 26B-A4B cho kết quả tốt nhất tôi từng thấy
    Chia sẻ kết quả thử nghiệm
    Mô hình 31B ở local chỉ in ra "---\n", nhưng qua AI Studio API thì hoạt động bình thường

    • Nhờ benchmark chim bồ nông mà mỗi lần có model mới ra tôi đều vào xem bình luận trên Hacker News
    • Không biết có phải chim bồ nông giờ đã trở thành một phần của dữ liệu huấn luyện hay không
    • Sẽ rất hay nếu có một trang gallery để xem toàn bộ ảnh chim bồ nông trong một chỗ
      Ví dụ: clocks.brianmoore.com
    • Nếu dùng bản instruction-tuned thì chất lượng chim bồ nông có lẽ sẽ tốt hơn nhiều
    • Tôi tò mò không biết đã chạy trên cấu hình laptop nào
  • Có người đã tổng hợp bảng so sánh benchmark giữa Gemma 4 và Qwen 3.5
    Bao gồm nhiều chỉ số như MMLU-Pro, GPQA, Codeforces ELO

    • Điểm ELO khác khá xa so với biểu đồ của tfa
      Khi so sánh Qwen 3.5-27B với Gemma 4 26B/31B có những chỗ kết quả bị đảo ngược
      Việc đội Unsloth phát hành GGUF rất nhanh là điều đáng ấn tượng, và nếu ngang tầm Qwen 3.5 thì đây là tín hiệu rất đáng khích lệ
    • Người dùng có GPU 24GB không rõ nên chọn mô hình nào từ bảng này
    • So sánh bằng cách đảo trục và loại bớt một số mô hình lại có thể gây hiểu nhầm
      Các mô hình Gemma nhỏ yếu hơn nhiều so với các mô hình nhỏ của Qwen
      Xem Qwen3.5-4Bthread Reddit về Gemma 4
  • Tôi là một thành viên của đội Gemma và đã cùng tham gia đợt phát hành lớn lần này
    Nếu có câu hỏi thì tôi có thể trả lời

    • Tôi muốn biết liệu có kế hoạch phát hành bản quantization-aware training (QAT) như Gemma 3 hay không
      Xem blog liên quan
    • Tôi thắc mắc vì sao lần này không có bản 12B
      Tôi đã kỳ vọng một mô hình tầm trung để cạnh tranh với Qwen3.5 9B
    • Tôi muốn biết liệu “major number release” có thực sự đồng nghĩa với tăng quy mô tài nguyên tính toán, hay là chỉ việc chuyển sang kiến trúc mới
    • Có người hỏi vì sao hiệu năng lại thấp trên các benchmark ngoài ELO
      Liệu có phải chính benchmark đang làm méo việc so sánh hay không
    • Trong thử nghiệm cá nhân, nó cho hiệu năng gần như Gemini 3 Pro nhưng rẻ hơn 10 lần
      Liên kết so sánh
  • Có người đã so sánh Gemma 4 và Qwen 3.5 bằng prompt tính Unix timestamp
    Qwen suy nghĩ hơn 8 phút rồi đưa ra đáp án đúng, còn Gemma trả kết quả sai chỉ sau 30 giây
    Gemma đã viết script Python nhưng không thể chạy nó, nên cho ra đáp án sai

    • Để mô hình thật sự chạy được code thì cần môi trường agentic harness với sandbox và đặc tả rõ ràng
      Nếu không thì nó chỉ có thể đoán mò
    • Lệnh date hoạt động đúng trong môi trường GNU
      Trên macOS thì cần cài gdate (brew install coreutils)
    • Trong môi trường RX 9070 XT(24GB VRAM), kể cả chạy không có công cụ vẫn nhận được kết quả đúng
      liên kết gist
    • Tác giả bình luận gốc thực ra không cấp cho mô hình quyền chạy lệnh thật
      Kết quả đó chỉ là do mô hình “tưởng tượng” ra mình đã chạy
    • Câu cuối cùng thật buồn cười
  • MAX nightly của Modular là bản triển khai mã nguồn mở nhanh nhất trên Blackwell và AMD MI355
    Blog của Modular cho biết có thể cài ngay bằng pip

    • Có người hỏi liệu nó có nhanh hơn TensorRT-LLM không, hoặc vì sao TensorRT-LLM lại không được xem là mã nguồn mở
    • Tôi tò mò mức tăng tốc so với PyTorch là bao nhiêu
  • Benchmark của Gemma 4 quá tập trung vào ELO nên dễ gây hiểu nhầm
    Nó thấp hơn Qwen 3.5 27B ở hầu hết các chỉ số
    Tuy vậy, các mô hình 2B·4B lại khá thú vị cho ASR hoặc OCR

    • Benchmark công khai rất dễ bị thao túng
      Tôi tin điểm Lmarena (dựa trên đánh giá của con người) hơn
    • Trong thử nghiệm cá nhân, ngoài mảng coding thì nó cho kết quả khá tốt
      Liên kết so sánh
    • Các mô hình Trung Quốc có hiệu năng thấp ở những bài test kín như arc-agi 2
    • Benchmark chỉ mang tính tham khảo, chính xác nhất vẫn là tự thử trên use case thực tế của mình
    • Không rõ “ELO Score” ở đây chính xác là đang chỉ chỉ số nào
  • Cuối cùng thì bản phát hành được chờ đợi đã ra mắt
    Chỉ cần thêm một hai vòng lặp nữa là có lẽ ngay cả trong môi trường tự host cũng sẽ đáp ứng được hầu hết nhu cầu

    • Tôi cũng đồng ý, nhưng “nhu cầu hằng ngày” của tôi mỗi năm lại càng phức tạp hơn
      Trước đây chỉ cần hỏi đáp đơn giản, còn giờ thì tôi đã kỳ vọng đến mức coding agent
      Mô hình mở vẫn chưa tới mức đó, nhưng bản phát hành này rất đáng mong đợi
    • Gemma3:27b và Qwen3-vl:30b-a3b là các LLM local tôi dùng thường xuyên nhất
      Chúng xử lý phần lớn công việc dịch thuật·phân loại·phân mục của tôi
    • Tôi muốn biết mọi người đang dùng self-hosting cho những loại tác vụ nào
  • Điểm tuyệt vời nhất của bản phát hành lần này là giấy phép Apache 2.0
    Có các mô hình E2B·E4B(dành cho di động), 26B-A4B(MoE), 31B(large dense)
    Bản di động hỗ trợ đầu vào âm thanh, còn 31B mạnh ở các tác vụ agent
    26B-A4B có hiệu quả VRAM tương đương nhưng tốc độ suy luận nhanh hơn nhiều

  • Có người cho Gemma 4 26B và Qwen 3.5 27B làm một dự án Rust nhỏ để so sánh
    Qwen bỏ cuộc sau hơn 1 tiếng, còn Gemma bỏ cuộc sau 20 phút
    Theo phần tổng kết của Codex, Qwen có mức độ hoàn chỉnh về cấu trúc cao hơn còn Gemma nhanh hơn nhưng chưa hoàn thiện
    Tôi cũng đồng ý với đánh giá đó

    • Hiện tại có lỗi chat template khiến việc gọi công cụ không ổn định
      Xem PR liên quanissue
      Không nên vội kết luận quá sớm ở giai đoạn mới ra mắt
    • Qwen 3.5 27B là mô hình dense nên so với Gemma 4 31B sẽ hợp lý hơn
      26B-A4B nên được so với Qwen 3.5 35B-A3B
    • Qwen là dense, còn Gemma là kiến trúc MoE nên khó so sánh trực tiếp
 

Tin đồn về bản 120b tiếc là không đúng rồi.