Gemma 4 12B: Mô hình đa phương thức không có bộ mã hóa tích hợp

(blog.google)

10 điểm bởi GN⁺ 2026-06-04 | 5 bình luận | Chia sẻ qua WhatsApp

Gemma 4 12B là mô hình cỡ trung được thiết kế để chạy trí tuệ đa phương thức dạng agent trên laptop, lấp khoảng trống giữa E4B thân thiện với edge và 26B MoE cao cấp hơn
Với kiến trúc tích hợp không bộ mã hóa, mô hình đưa trực tiếp đầu vào hình ảnh và âm thanh vào backbone LLM mà không cần bộ mã hóa đa phương thức riêng, theo hướng giảm độ trễ và mức sử dụng bộ nhớ
Hiệu năng benchmark tiêu chuẩn tiệm cận mô hình 26B MoE lớn hơn, trong khi tổng mức dùng bộ nhớ chưa đến một nửa, và có thể chạy cục bộ trên laptop người dùng với 16GB RAM hoặc VRAM/bộ nhớ hợp nhất
Gemma 4 12B là mô hình cỡ trung đầu tiên trong dòng Gemma hỗ trợ đầu vào âm thanh gốc, đồng thời hướng tới giảm độ trễ bằng các drafter Multi-Token Prediction
Các mô hình Gemma 4 đã vượt mốc 150 triệu lượt tải xuống, và Gemma 4 12B mở rộng phạm vi phát triển agent đa phương thức cục bộ nhờ giấy phép Apache 2.0 cùng hỗ trợ cho các công cụ phát triển và lộ trình triển khai chính

Tính năng cốt lõi

Gemma 4 12B được thiết kế để mang trí tuệ đa phương thức hiệu năng cao trực tiếp lên laptop, kết hợp hiệu quả ưu tiên di động với suy luận nâng cao
Nằm giữa E4B thân thiện với edge và Mixture of Experts (MoE) 26B cao cấp hơn, mô hình đóng gói năng lực mạnh trong dấu chân bộ nhớ nhỏ hơn
Các đặc điểm chính gồm:
- Kiến trúc tích hợp đưa trực tiếp đầu vào thị giác và âm thanh vào backbone LLM mà không cần bộ mã hóa đa phương thức
- Hiệu năng benchmark tiệm cận mô hình 26B cùng hỗ trợ suy luận nhiều bước và quy trình làm việc của agent
- Sẵn sàng cho laptop với khả năng chạy cục bộ chỉ bằng 16GB VRAM hoặc bộ nhớ hợp nhất
- Giấy phép Apache 2.0 và hỗ trợ từ hệ sinh thái nhà phát triển
- Giảm độ trễ thông qua các drafter Multi-Token Prediction (MTP)

Cách xử lý đa phương thức không cần bộ mã hóa

Các mô hình đa phương thức truyền thống thường chuyển đổi hình ảnh và âm thanh bằng các bộ mã hóa riêng, rồi đưa biểu diễn đó vào mô hình ngôn ngữ
Gemma 4 12B được huấn luyện để tích hợp trực tiếp đầu vào âm thanh và thị giác nhằm tránh việc các bộ mã hóa tách rời làm tăng độ trễ và mức dùng bộ nhớ
Trong xử lý thị giác, bộ mã hóa thị giác của Gemma 4 được thay bằng một mô-đun embedding nhẹ gồm một phép nhân ma trận duy nhất, positional embedding và chuẩn hóa, để backbone LLM đảm nhiệm xử lý hình ảnh
Trong xử lý âm thanh, bộ mã hóa âm thanh bị loại bỏ hoàn toàn và tín hiệu âm thanh thô được chiếu vào cùng không gian chiều với token văn bản
Mô tả kiến trúc chi tiết hơn dành cho nhà phát triển có trong Gemma 4 12B Developer Guide

Cách bắt đầu sử dụng

Có thể thử nghiệm chỉ sau vài cú nhấp chuột trên LM Studio, Ollama, Google AI Edge Gallery App, ứng dụng Google AI Edge Eloquent, và LiteRT-LM CLI
Các checkpoint pretrained và instruction-tuned có thể tải từ Hugging Face và Kaggle
Có thể dùng developer documentation và quick start notebook cho tích hợp và huấn luyện
Pipeline suy luận cục bộ có thể được triển khai bằng Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, và có thể fine-tune hiệu quả với Unsloth
Skills Repository chính thức là thư viện kỹ năng được thiết kế để agent có thể xây dựng với các khả năng Gemma mới nhất
Endpoint production có thể được triển khai trên Google Cloud thông qua Gemini Enterprise Agent Platform Model Garden, Cloud Run, và GKE

5 bình luận

hmmhmmhm 29 ngày trước

So với gemma4 26b a4b thì tốc độ có hơi đáng tiếc nhỉ, cái này nữa.... liệu a4b có thể ra mắt không?

loblue 2026-06-04

Chắc phải thử chạy trên chiếc MacBook M1 RAM 32GB của mình thôi. Nếu là 12B thì có vẻ ổn đấy.

kaydash 2026-06-04

Không phải là thứ vừa mới ra mắt, vậy tại sao giờ lại được nhắc đến?

winterjung 2026-06-04

Trước đây chỉ có mẫu e và 26b, 31b, còn mô hình gemma 4 12b thì lần này mới được ra mắt.

GN⁺ 2026-06-04

Ý kiến trên Hacker News

Đã chạy mô hình lượng tử hóa Q4 bằng llama.cpp và đưa vào benchmark vibe coding Minesweeper tự làm: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
Kết quả khá ổn, nhưng phải sửa tay vài lỗi cú pháp kỳ lạ và nhỏ nhặt, như tự thêm một dấu ngoặc đóng hoặc cố tách định nghĩa hàm bằng dấu phẩy
Nếu tính đến những dấu hiệu đó thì đây là một mô hình local coding khá ổn, và nhìn riêng đầu ra thì gần tương đương GPT-4.1 ra mắt khoảng 14 tháng trước: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
Trên card đồ họa dân dụng 12GB VRAM, bản 4-bit GGUF cho tốc độ 5 token/giây; hơi chậm cho coding tương tác nhưng vẫn khá dùng được
Điều thú vị là chỉ trong hơn 1 năm, một mô hình 12 tỷ tham số đã gần bắt kịp năng lực coding từng được xem là cỡ GPT-4.1 trên một benchmark cụ thể
Danh sách nhiều mô hình đã thử nghiệm: https://senko.net/vibecode-bench/
- Có lẽ đây không phải mô hình được huấn luyện cho coding. Nó có đầu vào âm thanh và thị giác, chỉ 12B, và trong phần công bố cũng không nhắc gì đến coding
  Hiệu năng coding tổng quát có thể thấp hơn các mô hình nhỏ khác như Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B, hay gpt-oss-20b
  Trên laptop 16GB thì Qwen 3.5 9B rõ ràng là lựa chọn mạnh nhất, còn đứng đầu nhóm mô hình coding nhỏ là Gemma 4 31B, nhưng do là dense nên cần khoảng 48GB bộ nhớ hợp nhất để dùng toàn bộ ngữ cảnh
- Nếu chỉ ra được 5 token/giây trên card 12GB VRAM thì có vẻ đang dùng chế độ hybrid, trộn CPU và RAM hệ thống
  Tốc độ đó gần với mức khi chạy mô hình cỡ này ở 4-bit bằng băng thông RAM DDR4; nếu là GPU Nvidia dân dụng 12GB như RTX 2080 hay RTX 3060 thì với backend CUDA của llama.cpp đáng ra phải vượt 20 token/giây
- Có vẻ chiến thắng lớn nhất trong coding là năng lực suy luận. Vì vậy mô hình nhỏ có thể bắt kịp hiệu năng coding của GPT-4.1, nhưng ở tri thức thế giới tổng quát thì GPT-4.1 lớn hơn vẫn có khả năng thắng
- Không rõ các vấn đề cú pháp có thể được giải quyết bằng fine-tuning hay điều chỉnh tham số khác hay không. Những lỗi kiểu đó khá gây bực bội
Câu chuyện lớn ở đây là kiến trúc không có encoder, nhưng tôi vẫn chưa hiểu hoàn toàn
Mô tả rằng “đã thay bộ mã hóa thị giác của Gemma 4 bằng một mô-đun embedding nhẹ gồm một phép nhân ma trận đơn, embedding vị trí và chuẩn hóa” thì về mặt kỹ thuật vẫn là một kiểu mã hóa, có lẽ ý là không dùng mô hình chuyên dụng như SigLIP
Hướng dẫn cho nhà phát triển giải thích thêm là lớp 35M, nhưng tôi vẫn tự hỏi liệu nó có đủ vững chắc không: https://developers.googleblog.com/gemma-4-12b-the-developer-...
Câu “có thể chạy local trên laptop dân dụng 16GB RAM” có vẻ mặc định là đã lượng tử hóa, và nếu xét đến tổn thất chất lượng thì cách nói này hơi dễ gây hiểu nhầm
- Trong trang dành cho nhà phát triển có một bài giải thích rất hay về kiến trúc không encoder: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- Về cơ bản đây là early fusion
  FAIR đã làm việc này từ 2 năm trước: https://arxiv.org/abs/2405.09818
  Tôi đã chờ một mô hình như vậy được công khai từ khi đó, nhưng điểm khó chịu là Chameleon theo cùng nguyên lý còn hỗ trợ cả đầu ra đa phương thức, trong khi mô hình này chỉ có đầu vào
  Tôi tò mò họ đã pretrain nó như thế nào nếu không có đầu ra đa phương thức, và cũng không rõ có phải họ đã cắt bỏ hỗ trợ xuất hình ảnh hay không
- Theo nghĩa thông thường thì đây vẫn là “mã hóa”, nhưng trong ngữ cảnh này có lẽ họ muốn nói là không có mạng nơ-ron encoder
- Theo tôi, câu chuyện lớn thực sự là ứng dụng Gallery: https://developers.google.com/edge/gallery
  Có khá nhiều người, nhất là nhà báo, sở hữu máy Mac 16GB; ai cũng có thể tải ứng dụng, cài mô hình và dùng thử ngay
  Có lẽ giờ các nhà báo nên bắt đầu đặt câu hỏi về triển vọng doanh thu tiêu dùng của OpenAI
  Tôi khá hoài nghi về AI, nhưng để trở thành người hoài nghi có hiểu biết, tôi đã thử làm một chút công việc agent và tạo CAD-to-image bằng mô hình local, và tôi khá thích mô hình Gemma 26B
  Tôi dùng nó để học nền tảng và làm quen với OpenCode mà không tạo ra sự phụ thuộc vào đám mây; nó cũng viết code khá ổn và giúp tôi học theo đúng tốc độ mình muốn
  Nếu mô hình 12B này chỉ cần đạt được một nửa những gì quảng bá, thì ít nhất trong ngắn hạn nó cũng đặt dấu hỏi lên mô hình kinh doanh đám mây hướng đến người tiêu dùng
  Chưa rõ ứng dụng này có dùng MTP drafter hay không; tôi vẫn chưa chạy được nó trực tiếp trên Gemma, nhưng hỗ trợ MTP tích hợp của Qwen 3.6 trong LM Studio hoạt động rất tốt
- Với 12B thì ở mức 8 bit/tham số sẽ là 12GB, gần như không mất mát; còn 4 bit/tham số là 6GB, thường được xem là mức “khá sát”
  Trước khi quá bận tâm đến lượng tử hóa, có lẽ nên xem hiệu năng của mô hình gốc trước đã
Giờ chúng ta đang bước vào một trò chơi vòng lặp khép kín. Google không cần người khác để tăng tốc mô hình của mình, và điều đó gần như đúng với hoạt động cốt lõi của họ
Việc họ tiếp tục phát triển các tối ưu hóa kiểu này vừa đáng ngạc nhiên vừa không quá ngạc nhiên. Giống như sự tiến bộ của silicon và kiến trúc CPU, mọi thứ liên tục được thu nhỏ và trở nên mạnh hơn; AI rồi theo thời gian có lẽ cũng sẽ hiệu quả hơn gấp 100 lần
Rồi sẽ có lúc chạm giới hạn, nhưng 30 năm tới có thể còn tiến bộ hơn 30 năm vừa qua, và chúng ta có thể sống trong một thế giới kiểu Blade Runner của tương lai, nơi chỉnh sửa gene sửa chữa tế bào lão hóa và các cơ quan, đồng thời chữa khỏi ung thư

Sau giai đoạn hiện tại của chúng ta, có lẽ con người sẽ sống mà vẫn duy trì khả năng vận động ổn định tới 125 tuổi, và rồi cuối cùng sẽ phải nghĩ tới tuổi thọ 1000 năm
Nhìn lại 30 năm trước và nhìn tới 30 năm sau, có lẽ mọi thứ sẽ thay đổi đến mức khó tin. Mong Chúa phù hộ chúng ta

Đây rõ ràng là một thời kỳ thú vị, nhưng xét từ góc độ tiến bộ tiên phong thì vẫn còn rất nhiều quả thấp dễ hái
Chỉ là có một giới hạn đáy đối với lượng “tri thức” có thể chứa trong số lượng tham số nhỏ
Có lẽ thời kỳ đầu của radio, hàng không, hay thậm chí máy vi tính siêu nhỏ cũng có cảm giác như thế này
Tôi đã chọn ưu tiên tối ưu hóa tuổi thọ hơn sự nghiệp hay sở thích. Tôi muốn nhìn thấy tương lai, và làn sóng AI này thực sự rất hấp dẫn
Không hẳn vậy
Các mô hình lớn vẫn vượt trội hơn hẳn, và ngay cả Gemma 31B nhìn chung cũng tốt hơn 12B, nhưng không nên tự đánh lừa mình rằng nó đã tiệm cận mô hình lớn
Chắc chắn vẫn còn dư địa tối ưu hóa, nhưng với các tác vụ phức tạp thì để có độ chính xác, cần những gradient nhỏ nhưng rõ ràng có thể được nắm bắt trong lúc huấn luyện và lần theo trong lúc suy luận
Ví dụ, nếu bảo đừng viết code rồi đặt câu hỏi lập trình, Gemma vẫn sẽ tiếp tục viết code, còn Gemini hay Claude thì bắt được sắc thái đó và làm theo chỉ dẫn tốt hơn
Tôi tò mò về lý do kinh doanh khiến Google công bố mô hình mở. Dù rất biết ơn những công bố như vậy, tôi vẫn muốn hiểu nó khớp với bức tranh lớn của một công ty vì lợi nhuận như thế nào
Có cảm giác như họ đang giúp đối thủ xây dựng trên chính công nghệ mới mà họ phát triển
Không rõ đây chỉ là thiện chí hay marketing, hay có chiến lược nào đó mà tôi đang bỏ sót
- Một lý do lớn khiến các phòng thí nghiệm frontier có thể thu biên lợi nhuận gộp 80% từ suy luận là vì họ nắm trong tay nguồn lực khan hiếm là các mô hình frontier
  Nếu suy luận trở nên đủ phổ biến và đủ giá trị để các công ty đó kiếm lợi nhuận hàng tỷ đô la, họ có thể dùng khoản lợi nhuận đó để xây dựng sản phẩm và nền tảng thay thế, cắt đứt Google khỏi khách hàng
  Google đã sở hữu một trong những mảng kinh doanh biên lợi nhuận gộp 80% lớn nhất thế giới, và ai cũng muốn một phần trong đó
  Nếu cung cấp suy luận frontier gần với giá vốn, đồng thời phát hành mã nguồn mở các mô hình dưới frontier để hàng hóa hóa mô hình, thì các phòng thí nghiệm frontier sẽ khó duy trì mức biên lợi nhuận gộp cao trong suy luận
  Đây là một nước cờ chiến lược
- Mô hình này không thay thế sản phẩm thương mại tạo doanh thu trực tiếp của họ, nhưng nó cho phép hoạt động phát triển và mở ra đối thoại với các doanh nghiệp bắt đầu bằng mô hình này rồi sau đó muốn nhiều hơn một chút
  Hiện tại công ty tôi cũng đang all-in vào nhiều sản phẩm nền tảng, và Microsoft hôm qua cũng nói mục tiêu là “Unmetered intelligence”
  Có rất nhiều việc mà mô hình nhỏ chạy cục bộ có thể làm được, và những việc đó trở thành một phần của stack tạo doanh thu ở các tầng khác
- Android và Chrome cần các tính năng AI trên thiết bị. Google không thể khóa chặt các trọng số này như cách họ làm với machine learning phía máy chủ
  Dù sao thì cũng sẽ có ai đó trích xuất được trọng số, nên công khai mã nguồn và chính thức hóa nó còn dễ hơn
- Google là một trong số ít lựa chọn tích hợp theo chiều dọc trong AI. Họ có dữ liệu, mô hình, dịch vụ đám mây, silicon cấp thấp (TPU), ứng dụng nội bộ, ứng dụng cho người tiêu dùng, ứng dụng B2B, và mạng lưới phân phối (trình duyệt và di động)
  Càng có nhiều người áp dụng AI thì họ càng được hưởng lợi, và càng có lợi hơn nếu người ta chọn giải pháp của Google
  Mọi token được gửi tới mô hình của Google, dù miễn phí hay trả phí, đều tạo áp lực buộc đối thủ phải chi số tiền khổng lồ để duy trì vị trí dẫn đầu
- Nếu là một phòng thí nghiệm AI, gần như chắc chắn bạn sẽ muốn có đội nghiên cứu trong lĩnh vực này. Đây là nơi dễ nhất để lặp lại thí nghiệm và tạo ra cải tiến, rồi sau này phản ánh chúng vào các mô hình frontier lớn hơn
  Vấn đề là có nên công bố mô hình hay chỉ dùng cho R&D thuần túy
  Các nơi khác đã công bố các mô hình có chất lượng tương tự, nên khó mà xem việc tham gia xu hướng đó là tự bắn vào chân mình
  Mức tự ăn mòn bổ sung thực tế gần như bằng 0, còn lợi ích về danh tiếng có lẽ đủ đáng giá
Khả năng xử lý hình ảnh rất tệ. Tôi đã thử nhiều bài test với Qwen 3.5 0.8B, và Qwen chỉ bằng 7% kích thước nhưng lần nào cũng thắng, còn Gemma thường sai hoàn toàn
Tôi đưa cho nó một hình đơn giản chỉ có dòng chữ “This is a test”, vậy mà nó ngẫm nghĩ phân tích suốt 6 phút rồi thất bại, trong khi Qwen 3.5 0.8B trả lời đúng đầy tự tin chưa tới 1 giây
Có thể bản lượng tử hóa Q6 tôi nhận được bị lỗi, hoặc có vấn đề với LM Studio, nhưng dù là trường hợp nào thì hiệu năng của 0.8B khi so sánh vẫn rất đáng kinh ngạc
- Có vẻ Google đã thêm guardrail nhiều hơn hoặc mạnh hơn Alibaba, và điều đó làm mô hình nhỏ bị rối
  Với các mô hình Gemma3 tôi cũng thường gặp trường hợp nó từ chối mô tả ảnh vì cho rằng có cảnh hở hang hoặc tình dục, và tôi không hiểu ý nghĩa của cách hành xử đó
- Tôi luôn cảm thấy các mô hình Gemma kém xa Qwen ở các tác vụ thị giác, nên đây cũng không phải chuyện gì mới
Tách khỏi thay đổi kiến trúc, điều này có vẻ như là câu trả lời cho việc vì sao trong dòng mô hình tiền huấn luyện Gemma4 lại trống một cách lạ thường giữa 4B và 26B
Một mô hình có thể nằm gọn thoải mái trong 16GB VRAM mà vẫn chừa dư ngữ cảnh là một nâng cấp đáng hoan nghênh
Bỏ qua phần đa phương tiện, tôi tò mò không biết nó tốt hơn bao nhiêu so với mô hình 1.5 bit dựa trên qwen2.5 của prismml
Tôi tò mò về các trường hợp sử dụng của mô hình nhỏ như thế này. Có ai dùng hằng ngày ở quy mô này có thể chia sẻ trải nghiệm thực tế không?
- Tôi chạy vLLM trên một máy Linux ở tầng hầm và kết nối qua Tailscale để dùng mô hình nhỏ cho nhiều việc
  Ví dụ như chuyển tài liệu quét sang văn bản có định dạng, tạo chú thích/mô tả ảnh và phân loại mức độ phù hợp của nội dung mục tiêu (bao gồm chống spam), hay ghép tài liệu với các trang Wikipedia liên quan để gắn thẻ
  Tôi không dùng chúng kiểu như mô hình frontier, mà chia nhỏ thành các vi tác vụ để mỗi prompt có một mục tiêu rõ ràng
  Tôi cũng viết khá nhiều code keo dán để toàn bộ luồng chạy trơn tru, và những việc này vốn là thứ tôi đã làm từ trước khi có LLM
  Nhờ LLM, tôi có thể giảm bớt code phức tạp và thêm mô hình để có kết quả tốt hơn
  Lý do tôi dùng mô hình cục bộ là chi phí và quyền kiểm soát. Tôi vốn đã có workstation và GPU, nên chi phí vận hành chỉ là tiền điện
  Tôi cũng đã dùng các mô hình độc quyền của OpenAI và Google, nhưng từng bị chao đảo khi mô hình mà công cụ phụ thuộc vào bị khai tử. Nếu lưu trọng số cục bộ thì không phải lo chuyện đó
- Tôi dùng mô hình cục bộ trong ứng dụng chép lời tự làm để gọt lại văn bản và sửa ngữ pháp. Việc xây dựng rất dễ, và giờ tôi đang mở rộng nó sang chụp biên bản họp và tóm tắt, tất cả đều xử lý trên thiết bị
  Gần đây tôi còn thấy một ứng dụng nhỏ xem ảnh chụp màn hình rồi đổi tên tệp dựa trên nội dung tệp
  Có rất nhiều ví dụ nhỏ như vậy, và với nhiều trường hợp sử dụng thì hoàn toàn không cần đến mô hình frontier
Tôi đã dùng Gemma để rà soát và phân loại vài năm bài viết trên mạng. Đối tượng là khoảng 5 triệu từ tôi viết trên diễn đàn dự án mã nguồn mở mà tôi tham gia, HN, Reddit, v.v., và vì đó là bài của tôi nên tôi cũng thử huấn luyện LoRA mà không phải lo ngại về mặt đạo đức nguồn dữ liệu
Hiện giờ tôi đang dùng nó cho tìm kiếm web và trích xuất dữ liệu trong một ngành cụ thể
Nó đủ thông minh để tìm doanh nghiệp trong ngành đó ở một thành phố nhất định, đọc website, trích xuất địa chỉ và số điện thoại, rồi còn khử trùng lặp và đối chiếu chéo với các nguồn khác
Gemma 4 đưa ra đánh giá tốt hơn hoặc ít nhất là tinh tế hơn Gemini 2.5 Flash, còn Gemini 3.5 Flash mới thì rất tốt nhưng đắt một cách phi thực tế
Nếu không cần hiệu năng cực nhanh, Gemma 4 tự host thắng ở nhiều tác vụ
Qwen 3.6 27B cũng giỏi tìm lỗi bảo mật một cách đáng ngạc nhiên so với kích thước của nó. Nó đánh bại nhiều mô hình lớn hơn và tiệm cận Gemini Pro 3.1, nhưng Gemini 3.5 Flash lại bất ngờ là tốt hơn rõ rệt
Chỉ tốn tiền điện, mà điện của tôi rẻ và 100% tái tạo, nên tôi có thể dùng rộng rãi hơn mô hình host sẵn
Dù vậy, khoản tiền khôn ngoan lúc này vẫn là mua token mà các nhà cung cấp đang bán rẻ như trợ giá
Thay vì mua phần cứng để chạy mô hình trên 30GB, hiện tại có lợi hơn nếu trả gói thuê bao 100 USD của Claude hoặc Codex để dùng các mô hình hàng đầu với mức giá giảm mạnh
Nếu cần API cho tự động hóa, DeepSeek/MiMo rẻ hơn các mô hình tốt nhất của Anthropic hay OpenAI từ một đến hai bậc độ lớn
Tôi đã chi khoảng 4000 USD cho hai máy suy luận, mà số tiền đó đủ mua token cho những mô hình nhỏ kiểu này dùng trong vài năm
Nhưng tôi thích vọc phần cứng nên bản thân việc đó đã là phần thưởng, thu hồi được chút nào thì coi như tiền thưởng thêm
Nếu các nhà cung cấp lớn ngừng đốt tiền bằng token trợ giá và bắt đầu tính phí thật sự, phép tính này có thể thay đổi, và biết đâu sẽ may vì đã mua thiết bị trước khi giá RAM tăng gấp 2~3 lần
Nếu bạn không định học công nghệ này hoặc tự thử nghiệm huấn luyện, thì trong đa số trường hợp có lẽ không nên cố chạy cục bộ
- Mô hình nhỏ có một ngách rất tốt cho tác vụ cụ thể. Ở phần xử lý tài liệu của ứng dụng desktop tôi đang phát triển, tôi dùng một mô hình Phi-4 đã fine-tune; nó còn nhỏ hơn thế này và chỉ chiếm khoảng 3.5GB RAM chứ không phải VRAM
  Nếu có ý tưởng rất cụ thể về cách dùng mô hình cục bộ, bạn có thể làm cho nó chạy tốt ngay cả khi không có GPU hay NPU
  Nhưng phải giới hạn cách dùng cực kỳ chặt. Nó không phù hợp làm chatbot đa dụng, và dù tôi thuộc phe thích local LLM, trong trường hợp đó tôi vẫn sẽ dùng mô hình host sẵn mới nhất
- Tôi không rõ mô hình này, nhưng bản 31B ngay phía trên thì tôi đang dùng trong OpenCode như một trợ lý lập trình dạng agent
  Việc nào dễ đến mức có thể giao cho Sonnet thì tôi cũng giao cho Gemma 4, và nó làm rất tốt
  Số lần tôi ngạc nhiên theo hướng tích cực nhiều hơn hẳn số lần thất vọng
  Cũng không hiếm gặp tình huống Gemma 4 thất bại, tôi chuyển sang Opus 4.7 thì Opus cũng thất bại
Đây là một bản cập nhật khá tốt. Chỉ là video demo hơi buồn cười
Người thử nghiệm bảo mô hình chuyển bản phát hành thành các gạch đầu dòng, và mô hình làm rất ổn
Sau đó lại yêu cầu nó soạn nháp email từ nội dung đó, thì dù không hề được yêu cầu, nó lại tự chuyển các gạch đầu dòng thành đoạn văn, hoàn tác luôn việc vừa làm tốt
Không biết có quy tắc lịch sự nào là không dùng gạch đầu dòng trong email hay sao
Tôi đã nhanh chóng triển khai và kiểm tra benchmark liên quan đến tiếng Đức. Ở kết quả riêng cho tiếng Đức của CohereLabs/include-base-44, Gemma 4 12B đạt khoảng 0.618
Gemma 4 26B (A4B MoE) là 0.647, Qwen 3 14B là 0.621, Gemma 4 12B là 0.618, Ministral 14B 2512 là 0.604, còn Gemma 3 12B là 0.547
Chênh lệch giữa Qwen 3 14B và Gemma 4 12B nằm trong phạm vi dao động ngẫu nhiên, và trong các lần chạy lặp lại thậm chí đã có lần ra đúng cùng một điểm số
Bậc tiếp theo là Gemma 4 31B đạt 0.676 trên benchmark này, và Qwen 3 14B khi cho phép suy luận cũng đạt 0.676
Ngày mai tôi sẽ chạy thêm benchmark chống gian lận để xem Qwen có còn dẫn trước hay không