Mô hình Gemma 3 QAT: Đưa AI tiên tiến hàng đầu lên GPU tiêu dùng
(developers.googleblog.com)- Gemma 3 được công bố vào tháng trước là một mô hình AI mở mang lại hiệu năng hàng đầu và có thể chạy trên một GPU hiệu năng cao duy nhất như NVIDIA H100
- Đã phát hành phiên bản nhẹ hóa áp dụng kỹ thuật QAT (Quantization-Aware Training), giúp giờ đây mô hình có thể chạy trên GPU tiêu dùng
- Nhờ lượng tử hóa int4, mức sử dụng bộ nhớ giảm mạnh trong khi suy giảm hiệu năng được giữ ở mức tối thiểu
- Mô hình QAT có thể chạy trên các GPU phổ thông như RTX 3090, RTX 4060 và có thể dùng ngay trên Hugging Face, Ollama, LM Studio
- Nhiều mô hình PTQ từ cộng đồng cũng được cung cấp kèm theo, cho phép lựa chọn linh hoạt
Giới thiệu Gemma 3 và tổng quan hiệu năng
- Gemma 3, mô hình mở mới nhất do Google công bố, là một mô hình ngôn ngữ lớn có hiệu năng nổi bật
- Với độ chính xác BF16 (số thực dấu chấm động 16 bit), mô hình có thể chạy trên GPU NVIDIA H100 và đạt điểm Chatbot Arena Elo rất cao
- Lý do dùng BF16 là để so sánh hiệu năng giữa các mô hình một cách công bằng, cho phép đánh giá năng lực vốn có của mô hình trong trạng thái không có các phương thức tối ưu hóa khác nhau
Lượng tử hóa dựa trên QAT để tăng khả năng tiếp cận
- Các mô hình lớn trước đây cần môi trường đám mây cấu hình cao, nhưng lần này kỹ thuật QAT được áp dụng để có thể chạy trên cả phần cứng tiêu dùng
- Lượng tử hóa (Quantization) làm giảm độ chính xác số bên trong mô hình để giảm dùng bộ nhớ và tăng tốc thực thi
- Ví dụ: khi dùng định dạng int4 thay cho BF16 sẽ tạo ra hiệu quả nén hơn 4 lần
Duy trì chất lượng bằng QAT
- Thay vì lượng tử hóa hậu xử lý đơn thuần, phương pháp QAT (Quantization-Aware Training) được sử dụng để phản ánh lượng tử hóa ngay trong quá trình huấn luyện
- Trong quá trình huấn luyện, xác suất dự đoán của checkpoint chưa lượng tử hóa được dùng làm giá trị mục tiêu trong khoảng 5.000 bước
- Với cách này, khi lượng tử hóa Q4_0 đã giảm 54% mức suy giảm Perplexity
Mức giảm VRAM đột phá
-
Mức tiết kiệm VRAM nhờ lượng tử hóa int4 là rất lớn, và mức giảm theo từng mô hình như sau:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
Các con số này chỉ bao gồm VRAM cần để nạp trọng số mô hình; KV cache cần trong lúc chạy sẽ yêu cầu thêm VRAM riêng
Có thể chạy trên nhiều thiết bị khác nhau
- Gemma 3 27B (int4): có thể chạy cục bộ trên RTX 3090 (24GB VRAM)
- Gemma 3 12B (int4): cũng chạy ổn trên RTX 4060 Laptop (8GB VRAM)
- Gemma 3 4B, 1B: có thể chạy trên điện thoại thông minh và các thiết bị cấu hình thấp
Tích hợp và sử dụng dễ dàng
-
Mô hình QAT có thể dùng ngay trên nhiều nền tảng và công cụ khác nhau:
- Ollama: chạy bằng một dòng lệnh
- LM Studio: tải về và chạy trong môi trường GUI
- MLX: hỗ trợ suy luận hiệu quả cao trên nền tảng Apple Silicon
- Gemma.cpp: chạy hiệu năng cao trong môi trường CPU
- llama.cpp: tích hợp dễ dàng với định dạng GGUF
Các mô hình cộng đồng trong Gemmaverse
- Ngoài mô hình QAT chính thức, còn có nhiều mô hình PTQ từ cộng đồng
- Những bên đóng góp chính: Bartowski, Unsloth, GGML
- Có thể chọn giữa nhiều mô hình khác nhau để cân bằng tốc độ, dung lượng và chất lượng
Có thể bắt đầu ngay bây giờ
- Đây là một bước tiến quan trọng cho việc phổ cập AI, khi phiên bản QAT của Gemma 3 cho phép bất kỳ ai cũng có thể chạy cục bộ
- Cách chạy:
- PC: Ollama
- Tải mô hình: Hugging Face, Kaggle
- Chạy trên di động: dùng Google AI Edge
1 bình luận
Ý kiến trên Hacker News
Mô hình
gemma-3-27b-it-qat-4bithiện là mô hình được ưa thích mới cùng với Mistral Small 3.1 24BVới các câu hỏi cá nhân kiểu "kiểm tra cảm nhận", mô hình 4bit QAT 27B đưa ra câu trả lời chính xác
Biểu đồ đầu tiên so sánh "Elo Score" ở độ chính xác BF16, còn biểu đồ thứ hai so sánh mức sử dụng VRAM
Đang dùng
gemma3:27b-it-qatthay choqwen2.5để xử lý công việc hằng ngày trên máy Mac 32G bộ nhớĐang chạy trên CPU AMD 3950x 16 nhân và rất ấn tượng trong tác vụ dịch thuật cũng như mô tả hình ảnh
Sau khi tải bản QAT
gemma3:27bmới nhất, hiệu năng tăng 1,47 lầnCần để các LLM cục bộ được các công ty đối xử như công dân hạng nhất
Microsoft và Apple đã quảng bá AI PC và Apple Intelligence, nhưng trên thực tế các mô hình dùng được trên GPU tiêu dùng chỉ khả thi với GPU cao cấp
Gemma 3 vượt trội hơn Llama 4 rất nhiều
Có sẵn trên Ollama