12 điểm bởi GN⁺ 2025-04-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gemma 3 được công bố vào tháng trước là một mô hình AI mở mang lại hiệu năng hàng đầu và có thể chạy trên một GPU hiệu năng cao duy nhất như NVIDIA H100
  • Đã phát hành phiên bản nhẹ hóa áp dụng kỹ thuật QAT (Quantization-Aware Training), giúp giờ đây mô hình có thể chạy trên GPU tiêu dùng
  • Nhờ lượng tử hóa int4, mức sử dụng bộ nhớ giảm mạnh trong khi suy giảm hiệu năng được giữ ở mức tối thiểu
  • Mô hình QAT có thể chạy trên các GPU phổ thông như RTX 3090, RTX 4060 và có thể dùng ngay trên Hugging Face, Ollama, LM Studio
  • Nhiều mô hình PTQ từ cộng đồng cũng được cung cấp kèm theo, cho phép lựa chọn linh hoạt

Giới thiệu Gemma 3 và tổng quan hiệu năng

  • Gemma 3, mô hình mở mới nhất do Google công bố, là một mô hình ngôn ngữ lớn có hiệu năng nổi bật
  • Với độ chính xác BF16 (số thực dấu chấm động 16 bit), mô hình có thể chạy trên GPU NVIDIA H100 và đạt điểm Chatbot Arena Elo rất cao
  • Lý do dùng BF16 là để so sánh hiệu năng giữa các mô hình một cách công bằng, cho phép đánh giá năng lực vốn có của mô hình trong trạng thái không có các phương thức tối ưu hóa khác nhau

Lượng tử hóa dựa trên QAT để tăng khả năng tiếp cận

  • Các mô hình lớn trước đây cần môi trường đám mây cấu hình cao, nhưng lần này kỹ thuật QAT được áp dụng để có thể chạy trên cả phần cứng tiêu dùng
  • Lượng tử hóa (Quantization) làm giảm độ chính xác số bên trong mô hình để giảm dùng bộ nhớ và tăng tốc thực thi
  • Ví dụ: khi dùng định dạng int4 thay cho BF16 sẽ tạo ra hiệu quả nén hơn 4 lần

Duy trì chất lượng bằng QAT

  • Thay vì lượng tử hóa hậu xử lý đơn thuần, phương pháp QAT (Quantization-Aware Training) được sử dụng để phản ánh lượng tử hóa ngay trong quá trình huấn luyện
  • Trong quá trình huấn luyện, xác suất dự đoán của checkpoint chưa lượng tử hóa được dùng làm giá trị mục tiêu trong khoảng 5.000 bước
  • Với cách này, khi lượng tử hóa Q4_0 đã giảm 54% mức suy giảm Perplexity

Mức giảm VRAM đột phá

  • Mức tiết kiệm VRAM nhờ lượng tử hóa int4 là rất lớn, và mức giảm theo từng mô hình như sau:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • Các con số này chỉ bao gồm VRAM cần để nạp trọng số mô hình; KV cache cần trong lúc chạy sẽ yêu cầu thêm VRAM riêng

Có thể chạy trên nhiều thiết bị khác nhau

  • Gemma 3 27B (int4): có thể chạy cục bộ trên RTX 3090 (24GB VRAM)
  • Gemma 3 12B (int4): cũng chạy ổn trên RTX 4060 Laptop (8GB VRAM)
  • Gemma 3 4B, 1B: có thể chạy trên điện thoại thông minh và các thiết bị cấu hình thấp

Tích hợp và sử dụng dễ dàng

  • Mô hình QAT có thể dùng ngay trên nhiều nền tảng và công cụ khác nhau:

    • Ollama: chạy bằng một dòng lệnh
    • LM Studio: tải về và chạy trong môi trường GUI
    • MLX: hỗ trợ suy luận hiệu quả cao trên nền tảng Apple Silicon
    • Gemma.cpp: chạy hiệu năng cao trong môi trường CPU
    • llama.cpp: tích hợp dễ dàng với định dạng GGUF

Các mô hình cộng đồng trong Gemmaverse

  • Ngoài mô hình QAT chính thức, còn có nhiều mô hình PTQ từ cộng đồng
  • Những bên đóng góp chính: Bartowski, Unsloth, GGML
  • Có thể chọn giữa nhiều mô hình khác nhau để cân bằng tốc độ, dung lượng và chất lượng

Có thể bắt đầu ngay bây giờ

  • Đây là một bước tiến quan trọng cho việc phổ cập AI, khi phiên bản QAT của Gemma 3 cho phép bất kỳ ai cũng có thể chạy cục bộ
  • Cách chạy:

1 bình luận

 
GN⁺ 2025-04-21
Ý kiến trên Hacker News
  • Mô hình gemma-3-27b-it-qat-4bit hiện là mô hình được ưa thích mới cùng với Mistral Small 3.1 24B

    • Đang dùng trên M2 64GB qua Ollama và MLX, mức dùng bộ nhớ thấp nên vẫn còn dư dả để chạy các ứng dụng khác
    • Đã đạt kết quả tốt khi viết plugin cho các công cụ LLM
  • Với các câu hỏi cá nhân kiểu "kiểm tra cảm nhận", mô hình 4bit QAT 27B đưa ra câu trả lời chính xác

    • Cảm thấy ngạc nhiên trước mật độ thông tin được chứa trong 13GB trọng số
    • Mô hình Gemma 3 27B của Deepmind là mô hình mã nguồn mở gây ấn tượng nhất
  • Biểu đồ đầu tiên so sánh "Elo Score" ở độ chính xác BF16, còn biểu đồ thứ hai so sánh mức sử dụng VRAM

    • Khá tiếc vì không có biểu đồ so sánh chất lượng giữa BF16 và QAT
  • Đang dùng gemma3:27b-it-qat thay cho qwen2.5 để xử lý công việc hằng ngày trên máy Mac 32G bộ nhớ

    • Rất hữu ích cho phát triển Python, Haskell và Common Lisp
    • Cảm thấy hài lòng khi chạy mô hình mã nguồn mở cục bộ
  • Đang chạy trên CPU AMD 3950x 16 nhân và rất ấn tượng trong tác vụ dịch thuật cũng như mô tả hình ảnh

    • Khi dịch, người dùng điều chỉnh câu lệnh để tránh việc phân tích ngôn ngữ đầu vào
  • Sau khi tải bản QAT gemma3:27b mới nhất, hiệu năng tăng 1,47 lần

  • Cần để các LLM cục bộ được các công ty đối xử như công dân hạng nhất

    • Biểu đồ đầu tiên có thể gây hiểu nhầm về số lượng H100 cần thiết để chạy DeepSeek r1 ở FP16
  • Microsoft và Apple đã quảng bá AI PC và Apple Intelligence, nhưng trên thực tế các mô hình dùng được trên GPU tiêu dùng chỉ khả thi với GPU cao cấp

  • Gemma 3 vượt trội hơn Llama 4 rất nhiều

    • Meta có thể đánh mất vị thế của mình trên thị trường LLM
    • Kích thước mô hình của Llama 4 quá lớn nên làm hạn chế người dùng
    • Gemma 3 có thể được sử dụng rộng rãi trên mọi quy mô phần cứng
  • Có sẵn trên Ollama