Báo cáo kỹ thuật Gemma 3 của Google DeepMind [pdf]

(storage.googleapis.com)

2 điểm bởi GN⁺ 2025-03-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Gemma 3 là họ mô hình mở, gọn nhẹ mới của Google DeepMind, với quy mô tham số đa dạng từ 1B đến 27B
Các cải tiến chính:
- Bổ sung khả năng đa phương thức → bao gồm năng lực hiểu thị giác
- Xử lý ngữ cảnh dài → có thể xử lý tối đa 128K token
- Tăng cường hỗ trợ đa ngôn ngữ → cải thiện hiệu năng trên nhiều ngôn ngữ
- Tối ưu mức sử dụng bộ nhớ → giảm mức dùng bộ nhớ KV-cache bằng cách điều chỉnh tỷ lệ lớp attention cục bộ và toàn cục (5:1)
Được huấn luyện bằng phương pháp knowledge distillation → hiệu năng cải thiện so với phiên bản trước

Duy trì kiến trúc Transformer chỉ giải mã
Áp dụng Grouped-Query Attention (GQA) → cơ chế attention hiệu quả hơn
Thiết lập tỷ lệ attention cục bộ/toàn cục là 5:1 → giữ kích thước cửa sổ cục bộ ở mức 1024 token
Mở rộng tần số cơ bản của RoPE (Rotary Position Embedding) từ 10K lên 1M → tăng cường hỗ trợ ngữ cảnh dài
Bộ mã hóa thị giác: dùng encoder dựa trên SigLIP (400M tham số)

Bộ mã hóa thị giác: hoạt động ở độ phân giải 896 x 896
Áp dụng kỹ thuật Pan & Scan (P&S) → có thể xử lý ảnh có tỷ lệ không chuẩn
Bộ mã hóa thị giác được dùng chung cho các mô hình 4B, 12B, 27B → được giữ cố định trong quá trình huấn luyện

Huấn luyện bằng phương pháp knowledge distillation
Số token dùng trong huấn luyện:
- 1B → 2T token
- 4B → 4T token
- 12B → 12T token
- 27B → 14T token
Cải thiện hiệu năng đa ngôn ngữ → bao gồm dữ liệu đơn ngữ và song song
Quy trình tinh lọc → loại bỏ thông tin cá nhân và dữ liệu nhạy cảm

Thực hiện lượng tử hóa sau huấn luyện → cung cấp ở nhiều định dạng như int4, fp8
Hiệu quả tiết kiệm bộ nhớ:
- Với mô hình 27B:
  - Bản gốc: 54GB → sau lượng tử hóa: tối thiểu 14.1GB

Áp dụng song song học tăng cường và knowledge distillation
Tăng cường tính hữu ích, toán học, lập trình, suy luận và năng lực đa ngôn ngữ
Các kỹ thuật chính dùng trong học tăng cường:
- BOND, WARM, WARP → áp dụng kỹ thuật học tăng cường dựa trên phần thưởng
Tinh lọc dữ liệu → loại bỏ dữ liệu không cần thiết và thông tin nhạy cảm

Tỷ lệ attention cục bộ:toàn cục → 5:1 là tối ưu về hiệu năng và mức sử dụng bộ nhớ
Kích thước cửa sổ trượt → 1024 token duy trì hiệu quả bộ nhớ mà không làm giảm hiệu năng
Giảm bộ nhớ KV cache → giảm 15% so với attention chỉ toàn cục

Hiệu năng tăng khi tăng độ phân giải đầu vào:
- Từ 256 → 896 độ phân giải thì hiệu năng tăng tối đa 20%
Hiệu năng tăng khi áp dụng kỹ thuật Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%

Tỷ lệ ghi nhớ (Memorization Rate) giảm:
- Gemma 3 giảm mức sử dụng bộ nhớ so với Gemma 2
- Rủi ro rò rỉ thông tin cá nhân thấp

Ngăn chặn nội dung độc hại theo chính sách an toàn của Google:
- Ngăn chặn lạm dụng trẻ em, phát ngôn thù ghét, rò rỉ thông tin cá nhân, v.v.
Áp dụng học tăng cường nâng cao và RLHF → giảm thiểu việc tạo ra nội dung độc hại

Gemma 3 cải thiện lớn về đa phương thức, đa ngôn ngữ, ngữ cảnh dài so với mô hình Gemma 2 trước đó
Tăng cường khả năng hiểu thị giác, hiệu năng toán học và lập trình
Tối ưu sử dụng bộ nhớ giúp cải thiện cả hiệu năng lẫn hiệu quả

Bài viết liên quan