Mô hình Gemma 3 QAT: Đưa AI tiên tiến hàng đầu lên GPU tiêu dùng

(developers.googleblog.com)

12 điểm bởi GN⁺ 2025-04-21 | 1 bình luận | Chia sẻ qua WhatsApp

Gemma 3 được công bố vào tháng trước là một mô hình AI mở mang lại hiệu năng hàng đầu và có thể chạy trên một GPU hiệu năng cao duy nhất như NVIDIA H100
Đã phát hành phiên bản nhẹ hóa áp dụng kỹ thuật QAT (Quantization-Aware Training), giúp giờ đây mô hình có thể chạy trên GPU tiêu dùng
Nhờ lượng tử hóa int4, mức sử dụng bộ nhớ giảm mạnh trong khi suy giảm hiệu năng được giữ ở mức tối thiểu
Mô hình QAT có thể chạy trên các GPU phổ thông như RTX 3090, RTX 4060 và có thể dùng ngay trên Hugging Face, Ollama, LM Studio
Nhiều mô hình PTQ từ cộng đồng cũng được cung cấp kèm theo, cho phép lựa chọn linh hoạt

Giới thiệu Gemma 3 và tổng quan hiệu năng

Gemma 3, mô hình mở mới nhất do Google công bố, là một mô hình ngôn ngữ lớn có hiệu năng nổi bật
Với độ chính xác BF16 (số thực dấu chấm động 16 bit), mô hình có thể chạy trên GPU NVIDIA H100 và đạt điểm Chatbot Arena Elo rất cao
Lý do dùng BF16 là để so sánh hiệu năng giữa các mô hình một cách công bằng, cho phép đánh giá năng lực vốn có của mô hình trong trạng thái không có các phương thức tối ưu hóa khác nhau

Lượng tử hóa dựa trên QAT để tăng khả năng tiếp cận

Các mô hình lớn trước đây cần môi trường đám mây cấu hình cao, nhưng lần này kỹ thuật QAT được áp dụng để có thể chạy trên cả phần cứng tiêu dùng
Lượng tử hóa (Quantization) làm giảm độ chính xác số bên trong mô hình để giảm dùng bộ nhớ và tăng tốc thực thi
Ví dụ: khi dùng định dạng int4 thay cho BF16 sẽ tạo ra hiệu quả nén hơn 4 lần

Duy trì chất lượng bằng QAT

Thay vì lượng tử hóa hậu xử lý đơn thuần, phương pháp QAT (Quantization-Aware Training) được sử dụng để phản ánh lượng tử hóa ngay trong quá trình huấn luyện
Trong quá trình huấn luyện, xác suất dự đoán của checkpoint chưa lượng tử hóa được dùng làm giá trị mục tiêu trong khoảng 5.000 bước
Với cách này, khi lượng tử hóa Q4_0 đã giảm 54% mức suy giảm Perplexity

Mức giảm VRAM đột phá

Mức tiết kiệm VRAM nhờ lượng tử hóa int4 là rất lớn, và mức giảm theo từng mô hình như sau:
Quảng cáo
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
Các con số này chỉ bao gồm VRAM cần để nạp trọng số mô hình; KV cache cần trong lúc chạy sẽ yêu cầu thêm VRAM riêng

Có thể chạy trên nhiều thiết bị khác nhau

Gemma 3 27B (int4): có thể chạy cục bộ trên RTX 3090 (24GB VRAM)
Gemma 3 12B (int4): cũng chạy ổn trên RTX 4060 Laptop (8GB VRAM)
Gemma 3 4B, 1B: có thể chạy trên điện thoại thông minh và các thiết bị cấu hình thấp

Tích hợp và sử dụng dễ dàng

Mô hình QAT có thể dùng ngay trên nhiều nền tảng và công cụ khác nhau:
Quảng cáo
- Ollama: chạy bằng một dòng lệnh
- LM Studio: tải về và chạy trong môi trường GUI
- MLX: hỗ trợ suy luận hiệu quả cao trên nền tảng Apple Silicon
- Gemma.cpp: chạy hiệu năng cao trong môi trường CPU
- llama.cpp: tích hợp dễ dàng với định dạng GGUF

Các mô hình cộng đồng trong Gemmaverse

Ngoài mô hình QAT chính thức, còn có nhiều mô hình PTQ từ cộng đồng
Những bên đóng góp chính: Bartowski, Unsloth, GGML
Có thể chọn giữa nhiều mô hình khác nhau để cân bằng tốc độ, dung lượng và chất lượng

Có thể bắt đầu ngay bây giờ

Đây là một bước tiến quan trọng cho việc phổ cập AI, khi phiên bản QAT của Gemma 3 cho phép bất kỳ ai cũng có thể chạy cục bộ
Cách chạy:
- PC: Ollama
- Tải mô hình: Hugging Face, Kaggle
- Chạy trên di động: dùng Google AI Edge

1 bình luận

GN⁺ 2025-04-21

Ý kiến trên Hacker News

Mô hình gemma-3-27b-it-qat-4bit hiện là mô hình được ưa thích mới cùng với Mistral Small 3.1 24B
- Đang dùng trên M2 64GB qua Ollama và MLX, mức dùng bộ nhớ thấp nên vẫn còn dư dả để chạy các ứng dụng khác
- Đã đạt kết quả tốt khi viết plugin cho các công cụ LLM
Với các câu hỏi cá nhân kiểu "kiểm tra cảm nhận", mô hình 4bit QAT 27B đưa ra câu trả lời chính xác
- Cảm thấy ngạc nhiên trước mật độ thông tin được chứa trong 13GB trọng số
- Mô hình Gemma 3 27B của Deepmind là mô hình mã nguồn mở gây ấn tượng nhất
Biểu đồ đầu tiên so sánh "Elo Score" ở độ chính xác BF16, còn biểu đồ thứ hai so sánh mức sử dụng VRAM
- Khá tiếc vì không có biểu đồ so sánh chất lượng giữa BF16 và QAT
Đang dùng gemma3:27b-it-qat thay cho qwen2.5 để xử lý công việc hằng ngày trên máy Mac 32G bộ nhớ
- Rất hữu ích cho phát triển Python, Haskell và Common Lisp
- Cảm thấy hài lòng khi chạy mô hình mã nguồn mở cục bộ
Đang chạy trên CPU AMD 3950x 16 nhân và rất ấn tượng trong tác vụ dịch thuật cũng như mô tả hình ảnh
- Khi dịch, người dùng điều chỉnh câu lệnh để tránh việc phân tích ngôn ngữ đầu vào
Sau khi tải bản QAT gemma3:27b mới nhất, hiệu năng tăng 1,47 lần
Cần để các LLM cục bộ được các công ty đối xử như công dân hạng nhất
- Biểu đồ đầu tiên có thể gây hiểu nhầm về số lượng H100 cần thiết để chạy DeepSeek r1 ở FP16
Microsoft và Apple đã quảng bá AI PC và Apple Intelligence, nhưng trên thực tế các mô hình dùng được trên GPU tiêu dùng chỉ khả thi với GPU cao cấp
Gemma 3 vượt trội hơn Llama 4 rất nhiều
- Meta có thể đánh mất vị thế của mình trên thị trường LLM
- Kích thước mô hình của Llama 4 quá lớn nên làm hạn chế người dùng
- Gemma 3 có thể được sử dụng rộng rãi trên mọi quy mô phần cứng
Có sẵn trên Ollama

Mô hình Gemma 3 QAT: Đưa AI tiên tiến hàng đầu lên GPU tiêu dùng

Giới thiệu Gemma 3 và tổng quan hiệu năng

Lượng tử hóa dựa trên QAT để tăng khả năng tiếp cận

Duy trì chất lượng bằng QAT

Mức giảm VRAM đột phá

Có thể chạy trên nhiều thiết bị khác nhau

Tích hợp và sử dụng dễ dàng

Các mô hình cộng đồng trong Gemmaverse

Có thể bắt đầu ngay bây giờ

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News