- Gemma 3 là họ mô hình mở, gọn nhẹ mới của Google DeepMind, với quy mô tham số đa dạng từ 1B đến 27B
- Các cải tiến chính:
- Bổ sung khả năng đa phương thức → bao gồm năng lực hiểu thị giác
- Xử lý ngữ cảnh dài → có thể xử lý tối đa 128K token
- Tăng cường hỗ trợ đa ngôn ngữ → cải thiện hiệu năng trên nhiều ngôn ngữ
- Tối ưu mức sử dụng bộ nhớ → giảm mức dùng bộ nhớ KV-cache bằng cách điều chỉnh tỷ lệ lớp attention cục bộ và toàn cục (5:1)
- Được huấn luyện bằng phương pháp knowledge distillation → hiệu năng cải thiện so với phiên bản trước
# Kiến trúc mô hình
- Duy trì kiến trúc Transformer chỉ giải mã
- Áp dụng Grouped-Query Attention (GQA) → cơ chế attention hiệu quả hơn
- Thiết lập tỷ lệ attention cục bộ/toàn cục là 5:1 → giữ kích thước cửa sổ cục bộ ở mức 1024 token
- Mở rộng tần số cơ bản của RoPE (Rotary Position Embedding) từ 10K lên 1M → tăng cường hỗ trợ ngữ cảnh dài
- Bộ mã hóa thị giác: dùng encoder dựa trên SigLIP (400M tham số)
# Phương thức thị giác
- Bộ mã hóa thị giác: hoạt động ở độ phân giải 896 x 896
- Áp dụng kỹ thuật Pan & Scan (P&S) → có thể xử lý ảnh có tỷ lệ không chuẩn
- Bộ mã hóa thị giác được dùng chung cho các mô hình 4B, 12B, 27B → được giữ cố định trong quá trình huấn luyện
# Tiền huấn luyện (Pre-training)
- Huấn luyện bằng phương pháp knowledge distillation
- Số token dùng trong huấn luyện:
- 1B → 2T token
- 4B → 4T token
- 12B → 12T token
- 27B → 14T token
- Cải thiện hiệu năng đa ngôn ngữ → bao gồm dữ liệu đơn ngữ và song song
- Quy trình tinh lọc → loại bỏ thông tin cá nhân và dữ liệu nhạy cảm
# Huấn luyện nhận biết lượng tử hóa (Quantization Aware Training)
- Thực hiện lượng tử hóa sau huấn luyện → cung cấp ở nhiều định dạng như int4, fp8
- Hiệu quả tiết kiệm bộ nhớ:
- Với mô hình 27B:
- Bản gốc: 54GB → sau lượng tử hóa: tối thiểu 14.1GB
# Tinh chỉnh chỉ dẫn (Instruction Tuning)
- Áp dụng song song học tăng cường và knowledge distillation
- Tăng cường tính hữu ích, toán học, lập trình, suy luận và năng lực đa ngôn ngữ
- Các kỹ thuật chính dùng trong học tăng cường:
- BOND, WARM, WARP → áp dụng kỹ thuật học tăng cường dựa trên phần thưởng
- Tinh lọc dữ liệu → loại bỏ dữ liệu không cần thiết và thông tin nhạy cảm
# Đánh giá hiệu năng
Kết quả đánh giá LMSYS Chatbot Arena
- Mô hình Gemma 3 27B IT có điểm Elo: 1338 → hiệu năng thuộc top 10
- Ghi nhận hiệu năng tiệm cận GPT-4.5 và Grok-3-Preview
- Tăng 118 điểm so với phiên bản trước là Gemma 2 27B
Hiệu năng trên benchmark tiêu chuẩn
- MMLU-Pro: 67.5 (tăng khoảng 10 điểm so với Gemma 2)
- MATH: 89.0 (tăng khoảng 34 điểm so với Gemma 2)
- LiveCodeBench: 29.7 (tăng khoảng 9 điểm so với Gemma 2)
# Phân tích hiệu năng theo thay đổi cấu trúc
- Tỷ lệ attention cục bộ:toàn cục → 5:1 là tối ưu về hiệu năng và mức sử dụng bộ nhớ
- Kích thước cửa sổ trượt → 1024 token duy trì hiệu quả bộ nhớ mà không làm giảm hiệu năng
- Giảm bộ nhớ KV cache → giảm 15% so với attention chỉ toàn cục
# Tăng cường hỗ trợ ngữ cảnh dài
- Khi huấn luyện bắt đầu từ 32K token → sau đó mở rộng lên 128K token
- Điều chỉnh tần số RoPE → mở rộng ngữ cảnh mà không suy giảm hiệu năng
# Đánh giá hiệu năng bộ mã hóa thị giác
- Hiệu năng tăng khi tăng độ phân giải đầu vào:
- Từ 256 → 896 độ phân giải thì hiệu năng tăng tối đa 20%
- Hiệu năng tăng khi áp dụng kỹ thuật Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# Bộ nhớ và bảo vệ quyền riêng tư
- Tỷ lệ ghi nhớ (Memorization Rate) giảm:
- Gemma 3 giảm mức sử dụng bộ nhớ so với Gemma 2
- Rủi ro rò rỉ thông tin cá nhân thấp
# Trách nhiệm, an toàn và bảo mật
- Ngăn chặn nội dung độc hại theo chính sách an toàn của Google:
- Ngăn chặn lạm dụng trẻ em, phát ngôn thù ghét, rò rỉ thông tin cá nhân, v.v.
- Áp dụng học tăng cường nâng cao và RLHF → giảm thiểu việc tạo ra nội dung độc hại
# Kết luận
- Gemma 3 cải thiện lớn về đa phương thức, đa ngôn ngữ, ngữ cảnh dài so với mô hình Gemma 2 trước đó
- Tăng cường khả năng hiểu thị giác, hiệu năng toán học và lập trình
- Tối ưu sử dụng bộ nhớ giúp cải thiện cả hiệu năng lẫn hiệu quả
Chưa có bình luận nào.