- Gemma 4 12B là mô hình cỡ trung được thiết kế để chạy trí tuệ đa phương thức dạng agent trên laptop, lấp khoảng trống giữa E4B thân thiện với edge và 26B MoE cao cấp hơn
- Với kiến trúc tích hợp không bộ mã hóa, mô hình đưa trực tiếp đầu vào hình ảnh và âm thanh vào backbone LLM mà không cần bộ mã hóa đa phương thức riêng, theo hướng giảm độ trễ và mức sử dụng bộ nhớ
- Hiệu năng benchmark tiêu chuẩn tiệm cận mô hình 26B MoE lớn hơn, trong khi tổng mức dùng bộ nhớ chưa đến một nửa, và có thể chạy cục bộ trên laptop người dùng với 16GB RAM hoặc VRAM/bộ nhớ hợp nhất
- Gemma 4 12B là mô hình cỡ trung đầu tiên trong dòng Gemma hỗ trợ đầu vào âm thanh gốc, đồng thời hướng tới giảm độ trễ bằng các drafter Multi-Token Prediction
- Các mô hình Gemma 4 đã vượt mốc 150 triệu lượt tải xuống, và Gemma 4 12B mở rộng phạm vi phát triển agent đa phương thức cục bộ nhờ giấy phép Apache 2.0 cùng hỗ trợ cho các công cụ phát triển và lộ trình triển khai chính
Tính năng cốt lõi
- Gemma 4 12B được thiết kế để mang trí tuệ đa phương thức hiệu năng cao trực tiếp lên laptop, kết hợp hiệu quả ưu tiên di động với suy luận nâng cao
- Nằm giữa E4B thân thiện với edge và Mixture of Experts (MoE) 26B cao cấp hơn, mô hình đóng gói năng lực mạnh trong dấu chân bộ nhớ nhỏ hơn
- Các đặc điểm chính gồm:
- Kiến trúc tích hợp đưa trực tiếp đầu vào thị giác và âm thanh vào backbone LLM mà không cần bộ mã hóa đa phương thức
- Hiệu năng benchmark tiệm cận mô hình 26B cùng hỗ trợ suy luận nhiều bước và quy trình làm việc của agent
- Sẵn sàng cho laptop với khả năng chạy cục bộ chỉ bằng 16GB VRAM hoặc bộ nhớ hợp nhất
- Giấy phép Apache 2.0 và hỗ trợ từ hệ sinh thái nhà phát triển
- Giảm độ trễ thông qua các drafter Multi-Token Prediction (MTP)
Cách xử lý đa phương thức không cần bộ mã hóa
- Các mô hình đa phương thức truyền thống thường chuyển đổi hình ảnh và âm thanh bằng các bộ mã hóa riêng, rồi đưa biểu diễn đó vào mô hình ngôn ngữ
- Gemma 4 12B được huấn luyện để tích hợp trực tiếp đầu vào âm thanh và thị giác nhằm tránh việc các bộ mã hóa tách rời làm tăng độ trễ và mức dùng bộ nhớ
- Trong xử lý thị giác, bộ mã hóa thị giác của Gemma 4 được thay bằng một mô-đun embedding nhẹ gồm một phép nhân ma trận duy nhất, positional embedding và chuẩn hóa, để backbone LLM đảm nhiệm xử lý hình ảnh
- Trong xử lý âm thanh, bộ mã hóa âm thanh bị loại bỏ hoàn toàn và tín hiệu âm thanh thô được chiếu vào cùng không gian chiều với token văn bản
- Mô tả kiến trúc chi tiết hơn dành cho nhà phát triển có trong Gemma 4 12B Developer Guide
Cách bắt đầu sử dụng
- Có thể thử nghiệm chỉ sau vài cú nhấp chuột trên LM Studio, Ollama, Google AI Edge Gallery App, ứng dụng Google AI Edge Eloquent, và LiteRT-LM CLI
- Các checkpoint pretrained và instruction-tuned có thể tải từ Hugging Face và Kaggle
- Có thể dùng developer documentation và quick start notebook cho tích hợp và huấn luyện
- Pipeline suy luận cục bộ có thể được triển khai bằng Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, và có thể fine-tune hiệu quả với Unsloth
- Skills Repository chính thức là thư viện kỹ năng được thiết kế để agent có thể xây dựng với các khả năng Gemma mới nhất
- Endpoint production có thể được triển khai trên Google Cloud thông qua Gemini Enterprise Agent Platform Model Garden, Cloud Run, và GKE
3 bình luận
Không phải là thứ vừa mới ra mắt, vậy tại sao giờ lại được nhắc đến?
Trước đây chỉ có mẫu e và 26b, 31b, còn mô hình gemma 4 12b thì lần này mới được ra mắt.
Ý kiến trên Hacker News
Kết quả khá ổn, nhưng phải sửa tay vài lỗi cú pháp kỳ lạ và nhỏ nhặt, như tự thêm một dấu ngoặc đóng hoặc cố tách định nghĩa hàm bằng dấu phẩy
Nếu tính đến những dấu hiệu đó thì đây là một mô hình local coding khá ổn, và nhìn riêng đầu ra thì gần tương đương GPT-4.1 ra mắt khoảng 14 tháng trước: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
Trên card đồ họa dân dụng 12GB VRAM, bản 4-bit GGUF cho tốc độ 5 token/giây; hơi chậm cho coding tương tác nhưng vẫn khá dùng được
Điều thú vị là chỉ trong hơn 1 năm, một mô hình 12 tỷ tham số đã gần bắt kịp năng lực coding từng được xem là cỡ GPT-4.1 trên một benchmark cụ thể
Danh sách nhiều mô hình đã thử nghiệm: https://senko.net/vibecode-bench/
Hiệu năng coding tổng quát có thể thấp hơn các mô hình nhỏ khác như Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B, hay gpt-oss-20b
Trên laptop 16GB thì Qwen 3.5 9B rõ ràng là lựa chọn mạnh nhất, còn đứng đầu nhóm mô hình coding nhỏ là Gemma 4 31B, nhưng do là dense nên cần khoảng 48GB bộ nhớ hợp nhất để dùng toàn bộ ngữ cảnh
Tốc độ đó gần với mức khi chạy mô hình cỡ này ở 4-bit bằng băng thông RAM DDR4; nếu là GPU Nvidia dân dụng 12GB như RTX 2080 hay RTX 3060 thì với backend CUDA của llama.cpp đáng ra phải vượt 20 token/giây
Mô tả rằng “đã thay bộ mã hóa thị giác của Gemma 4 bằng một mô-đun embedding nhẹ gồm một phép nhân ma trận đơn, embedding vị trí và chuẩn hóa” thì về mặt kỹ thuật vẫn là một kiểu mã hóa, có lẽ ý là không dùng mô hình chuyên dụng như SigLIP
Hướng dẫn cho nhà phát triển giải thích thêm là lớp 35M, nhưng tôi vẫn tự hỏi liệu nó có đủ vững chắc không: https://developers.googleblog.com/gemma-4-12b-the-developer-...
Câu “có thể chạy local trên laptop dân dụng 16GB RAM” có vẻ mặc định là đã lượng tử hóa, và nếu xét đến tổn thất chất lượng thì cách nói này hơi dễ gây hiểu nhầm
FAIR đã làm việc này từ 2 năm trước: https://arxiv.org/abs/2405.09818
Tôi đã chờ một mô hình như vậy được công khai từ khi đó, nhưng điểm khó chịu là Chameleon theo cùng nguyên lý còn hỗ trợ cả đầu ra đa phương thức, trong khi mô hình này chỉ có đầu vào
Tôi tò mò họ đã pretrain nó như thế nào nếu không có đầu ra đa phương thức, và cũng không rõ có phải họ đã cắt bỏ hỗ trợ xuất hình ảnh hay không
Có khá nhiều người, nhất là nhà báo, sở hữu máy Mac 16GB; ai cũng có thể tải ứng dụng, cài mô hình và dùng thử ngay
Có lẽ giờ các nhà báo nên bắt đầu đặt câu hỏi về triển vọng doanh thu tiêu dùng của OpenAI
Tôi khá hoài nghi về AI, nhưng để trở thành người hoài nghi có hiểu biết, tôi đã thử làm một chút công việc agent và tạo CAD-to-image bằng mô hình local, và tôi khá thích mô hình Gemma 26B
Tôi dùng nó để học nền tảng và làm quen với OpenCode mà không tạo ra sự phụ thuộc vào đám mây; nó cũng viết code khá ổn và giúp tôi học theo đúng tốc độ mình muốn
Nếu mô hình 12B này chỉ cần đạt được một nửa những gì quảng bá, thì ít nhất trong ngắn hạn nó cũng đặt dấu hỏi lên mô hình kinh doanh đám mây hướng đến người tiêu dùng
Chưa rõ ứng dụng này có dùng MTP drafter hay không; tôi vẫn chưa chạy được nó trực tiếp trên Gemma, nhưng hỗ trợ MTP tích hợp của Qwen 3.6 trong LM Studio hoạt động rất tốt
Trước khi quá bận tâm đến lượng tử hóa, có lẽ nên xem hiệu năng của mô hình gốc trước đã
Việc họ tiếp tục phát triển các tối ưu hóa kiểu này vừa đáng ngạc nhiên vừa không quá ngạc nhiên. Giống như sự tiến bộ của silicon và kiến trúc CPU, mọi thứ liên tục được thu nhỏ và trở nên mạnh hơn; AI rồi theo thời gian có lẽ cũng sẽ hiệu quả hơn gấp 100 lần
Rồi sẽ có lúc chạm giới hạn, nhưng 30 năm tới có thể còn tiến bộ hơn 30 năm vừa qua, và chúng ta có thể sống trong một thế giới kiểu Blade Runner của tương lai, nơi chỉnh sửa gene sửa chữa tế bào lão hóa và các cơ quan, đồng thời chữa khỏi ung thư
Sau giai đoạn hiện tại của chúng ta, có lẽ con người sẽ sống mà vẫn duy trì khả năng vận động ổn định tới 125 tuổi, và rồi cuối cùng sẽ phải nghĩ tới tuổi thọ 1000 năm
Nhìn lại 30 năm trước và nhìn tới 30 năm sau, có lẽ mọi thứ sẽ thay đổi đến mức khó tin. Mong Chúa phù hộ chúng ta
Đây rõ ràng là một thời kỳ thú vị, nhưng xét từ góc độ tiến bộ tiên phong thì vẫn còn rất nhiều quả thấp dễ hái
Chỉ là có một giới hạn đáy đối với lượng “tri thức” có thể chứa trong số lượng tham số nhỏ
Có lẽ thời kỳ đầu của radio, hàng không, hay thậm chí máy vi tính siêu nhỏ cũng có cảm giác như thế này
Tôi đã chọn ưu tiên tối ưu hóa tuổi thọ hơn sự nghiệp hay sở thích. Tôi muốn nhìn thấy tương lai, và làn sóng AI này thực sự rất hấp dẫn
Không hẳn vậy
Các mô hình lớn vẫn vượt trội hơn hẳn, và ngay cả Gemma 31B nhìn chung cũng tốt hơn 12B, nhưng không nên tự đánh lừa mình rằng nó đã tiệm cận mô hình lớn
Chắc chắn vẫn còn dư địa tối ưu hóa, nhưng với các tác vụ phức tạp thì để có độ chính xác, cần những gradient nhỏ nhưng rõ ràng có thể được nắm bắt trong lúc huấn luyện và lần theo trong lúc suy luận
Ví dụ, nếu bảo đừng viết code rồi đặt câu hỏi lập trình, Gemma vẫn sẽ tiếp tục viết code, còn Gemini hay Claude thì bắt được sắc thái đó và làm theo chỉ dẫn tốt hơn
Tôi tò mò về lý do kinh doanh khiến Google công bố mô hình mở. Dù rất biết ơn những công bố như vậy, tôi vẫn muốn hiểu nó khớp với bức tranh lớn của một công ty vì lợi nhuận như thế nào
Có cảm giác như họ đang giúp đối thủ xây dựng trên chính công nghệ mới mà họ phát triển
Không rõ đây chỉ là thiện chí hay marketing, hay có chiến lược nào đó mà tôi đang bỏ sót
Nếu suy luận trở nên đủ phổ biến và đủ giá trị để các công ty đó kiếm lợi nhuận hàng tỷ đô la, họ có thể dùng khoản lợi nhuận đó để xây dựng sản phẩm và nền tảng thay thế, cắt đứt Google khỏi khách hàng
Google đã sở hữu một trong những mảng kinh doanh biên lợi nhuận gộp 80% lớn nhất thế giới, và ai cũng muốn một phần trong đó
Nếu cung cấp suy luận frontier gần với giá vốn, đồng thời phát hành mã nguồn mở các mô hình dưới frontier để hàng hóa hóa mô hình, thì các phòng thí nghiệm frontier sẽ khó duy trì mức biên lợi nhuận gộp cao trong suy luận
Đây là một nước cờ chiến lược
Hiện tại công ty tôi cũng đang all-in vào nhiều sản phẩm nền tảng, và Microsoft hôm qua cũng nói mục tiêu là “Unmetered intelligence”
Có rất nhiều việc mà mô hình nhỏ chạy cục bộ có thể làm được, và những việc đó trở thành một phần của stack tạo doanh thu ở các tầng khác
Dù sao thì cũng sẽ có ai đó trích xuất được trọng số, nên công khai mã nguồn và chính thức hóa nó còn dễ hơn
Càng có nhiều người áp dụng AI thì họ càng được hưởng lợi, và càng có lợi hơn nếu người ta chọn giải pháp của Google
Mọi token được gửi tới mô hình của Google, dù miễn phí hay trả phí, đều tạo áp lực buộc đối thủ phải chi số tiền khổng lồ để duy trì vị trí dẫn đầu
Vấn đề là có nên công bố mô hình hay chỉ dùng cho R&D thuần túy
Các nơi khác đã công bố các mô hình có chất lượng tương tự, nên khó mà xem việc tham gia xu hướng đó là tự bắn vào chân mình
Mức tự ăn mòn bổ sung thực tế gần như bằng 0, còn lợi ích về danh tiếng có lẽ đủ đáng giá
Khả năng xử lý hình ảnh rất tệ. Tôi đã thử nhiều bài test với Qwen 3.5 0.8B, và Qwen chỉ bằng 7% kích thước nhưng lần nào cũng thắng, còn Gemma thường sai hoàn toàn
Tôi đưa cho nó một hình đơn giản chỉ có dòng chữ “This is a test”, vậy mà nó ngẫm nghĩ phân tích suốt 6 phút rồi thất bại, trong khi Qwen 3.5 0.8B trả lời đúng đầy tự tin chưa tới 1 giây
Có thể bản lượng tử hóa Q6 tôi nhận được bị lỗi, hoặc có vấn đề với LM Studio, nhưng dù là trường hợp nào thì hiệu năng của 0.8B khi so sánh vẫn rất đáng kinh ngạc
Với các mô hình Gemma3 tôi cũng thường gặp trường hợp nó từ chối mô tả ảnh vì cho rằng có cảnh hở hang hoặc tình dục, và tôi không hiểu ý nghĩa của cách hành xử đó
Tách khỏi thay đổi kiến trúc, điều này có vẻ như là câu trả lời cho việc vì sao trong dòng mô hình tiền huấn luyện Gemma4 lại trống một cách lạ thường giữa 4B và 26B
Một mô hình có thể nằm gọn thoải mái trong 16GB VRAM mà vẫn chừa dư ngữ cảnh là một nâng cấp đáng hoan nghênh
Bỏ qua phần đa phương tiện, tôi tò mò không biết nó tốt hơn bao nhiêu so với mô hình 1.5 bit dựa trên qwen2.5 của prismml
Tôi tò mò về các trường hợp sử dụng của mô hình nhỏ như thế này. Có ai dùng hằng ngày ở quy mô này có thể chia sẻ trải nghiệm thực tế không?
Ví dụ như chuyển tài liệu quét sang văn bản có định dạng, tạo chú thích/mô tả ảnh và phân loại mức độ phù hợp của nội dung mục tiêu (bao gồm chống spam), hay ghép tài liệu với các trang Wikipedia liên quan để gắn thẻ
Tôi không dùng chúng kiểu như mô hình frontier, mà chia nhỏ thành các vi tác vụ để mỗi prompt có một mục tiêu rõ ràng
Tôi cũng viết khá nhiều code keo dán để toàn bộ luồng chạy trơn tru, và những việc này vốn là thứ tôi đã làm từ trước khi có LLM
Nhờ LLM, tôi có thể giảm bớt code phức tạp và thêm mô hình để có kết quả tốt hơn
Lý do tôi dùng mô hình cục bộ là chi phí và quyền kiểm soát. Tôi vốn đã có workstation và GPU, nên chi phí vận hành chỉ là tiền điện
Tôi cũng đã dùng các mô hình độc quyền của OpenAI và Google, nhưng từng bị chao đảo khi mô hình mà công cụ phụ thuộc vào bị khai tử. Nếu lưu trọng số cục bộ thì không phải lo chuyện đó
Gần đây tôi còn thấy một ứng dụng nhỏ xem ảnh chụp màn hình rồi đổi tên tệp dựa trên nội dung tệp
Có rất nhiều ví dụ nhỏ như vậy, và với nhiều trường hợp sử dụng thì hoàn toàn không cần đến mô hình frontier
Tôi đã dùng Gemma để rà soát và phân loại vài năm bài viết trên mạng. Đối tượng là khoảng 5 triệu từ tôi viết trên diễn đàn dự án mã nguồn mở mà tôi tham gia, HN, Reddit, v.v., và vì đó là bài của tôi nên tôi cũng thử huấn luyện LoRA mà không phải lo ngại về mặt đạo đức nguồn dữ liệu
Hiện giờ tôi đang dùng nó cho tìm kiếm web và trích xuất dữ liệu trong một ngành cụ thể
Nó đủ thông minh để tìm doanh nghiệp trong ngành đó ở một thành phố nhất định, đọc website, trích xuất địa chỉ và số điện thoại, rồi còn khử trùng lặp và đối chiếu chéo với các nguồn khác
Gemma 4 đưa ra đánh giá tốt hơn hoặc ít nhất là tinh tế hơn Gemini 2.5 Flash, còn Gemini 3.5 Flash mới thì rất tốt nhưng đắt một cách phi thực tế
Nếu không cần hiệu năng cực nhanh, Gemma 4 tự host thắng ở nhiều tác vụ
Qwen 3.6 27B cũng giỏi tìm lỗi bảo mật một cách đáng ngạc nhiên so với kích thước của nó. Nó đánh bại nhiều mô hình lớn hơn và tiệm cận Gemini Pro 3.1, nhưng Gemini 3.5 Flash lại bất ngờ là tốt hơn rõ rệt
Chỉ tốn tiền điện, mà điện của tôi rẻ và 100% tái tạo, nên tôi có thể dùng rộng rãi hơn mô hình host sẵn
Dù vậy, khoản tiền khôn ngoan lúc này vẫn là mua token mà các nhà cung cấp đang bán rẻ như trợ giá
Thay vì mua phần cứng để chạy mô hình trên 30GB, hiện tại có lợi hơn nếu trả gói thuê bao 100 USD của Claude hoặc Codex để dùng các mô hình hàng đầu với mức giá giảm mạnh
Nếu cần API cho tự động hóa, DeepSeek/MiMo rẻ hơn các mô hình tốt nhất của Anthropic hay OpenAI từ một đến hai bậc độ lớn
Tôi đã chi khoảng 4000 USD cho hai máy suy luận, mà số tiền đó đủ mua token cho những mô hình nhỏ kiểu này dùng trong vài năm
Nhưng tôi thích vọc phần cứng nên bản thân việc đó đã là phần thưởng, thu hồi được chút nào thì coi như tiền thưởng thêm
Nếu các nhà cung cấp lớn ngừng đốt tiền bằng token trợ giá và bắt đầu tính phí thật sự, phép tính này có thể thay đổi, và biết đâu sẽ may vì đã mua thiết bị trước khi giá RAM tăng gấp 2~3 lần
Nếu bạn không định học công nghệ này hoặc tự thử nghiệm huấn luyện, thì trong đa số trường hợp có lẽ không nên cố chạy cục bộ
Nếu có ý tưởng rất cụ thể về cách dùng mô hình cục bộ, bạn có thể làm cho nó chạy tốt ngay cả khi không có GPU hay NPU
Nhưng phải giới hạn cách dùng cực kỳ chặt. Nó không phù hợp làm chatbot đa dụng, và dù tôi thuộc phe thích local LLM, trong trường hợp đó tôi vẫn sẽ dùng mô hình host sẵn mới nhất
Việc nào dễ đến mức có thể giao cho Sonnet thì tôi cũng giao cho Gemma 4, và nó làm rất tốt
Số lần tôi ngạc nhiên theo hướng tích cực nhiều hơn hẳn số lần thất vọng
Cũng không hiếm gặp tình huống Gemma 4 thất bại, tôi chuyển sang Opus 4.7 thì Opus cũng thất bại
Đây là một bản cập nhật khá tốt. Chỉ là video demo hơi buồn cười
Người thử nghiệm bảo mô hình chuyển bản phát hành thành các gạch đầu dòng, và mô hình làm rất ổn
Sau đó lại yêu cầu nó soạn nháp email từ nội dung đó, thì dù không hề được yêu cầu, nó lại tự chuyển các gạch đầu dòng thành đoạn văn, hoàn tác luôn việc vừa làm tốt
Không biết có quy tắc lịch sự nào là không dùng gạch đầu dòng trong email hay sao
Tôi đã nhanh chóng triển khai và kiểm tra benchmark liên quan đến tiếng Đức. Ở kết quả riêng cho tiếng Đức của CohereLabs/include-base-44, Gemma 4 12B đạt khoảng 0.618
Gemma 4 26B (A4B MoE) là 0.647, Qwen 3 14B là 0.621, Gemma 4 12B là 0.618, Ministral 14B 2512 là 0.604, còn Gemma 3 12B là 0.547
Chênh lệch giữa Qwen 3 14B và Gemma 4 12B nằm trong phạm vi dao động ngẫu nhiên, và trong các lần chạy lặp lại thậm chí đã có lần ra đúng cùng một điểm số
Bậc tiếp theo là Gemma 4 31B đạt 0.676 trên benchmark này, và Qwen 3 14B khi cho phép suy luận cũng đạt 0.676
Ngày mai tôi sẽ chạy thêm benchmark chống gian lận để xem Qwen có còn dẫn trước hay không