2 điểm bởi GN⁺ 2025-03-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Gemma 3 là họ mô hình mở, gọn nhẹ mới của Google DeepMind, với quy mô tham số đa dạng từ 1B đến 27B
  • Các cải tiến chính:
    • Bổ sung khả năng đa phương thức → bao gồm năng lực hiểu thị giác
    • Xử lý ngữ cảnh dài → có thể xử lý tối đa 128K token
    • Tăng cường hỗ trợ đa ngôn ngữ → cải thiện hiệu năng trên nhiều ngôn ngữ
    • Tối ưu mức sử dụng bộ nhớ → giảm mức dùng bộ nhớ KV-cache bằng cách điều chỉnh tỷ lệ lớp attention cục bộ và toàn cục (5:1)
  • Được huấn luyện bằng phương pháp knowledge distillation → hiệu năng cải thiện so với phiên bản trước

# Kiến trúc mô hình

  • Duy trì kiến trúc Transformer chỉ giải mã
  • Áp dụng Grouped-Query Attention (GQA) → cơ chế attention hiệu quả hơn
  • Thiết lập tỷ lệ attention cục bộ/toàn cục là 5:1 → giữ kích thước cửa sổ cục bộ ở mức 1024 token
  • Mở rộng tần số cơ bản của RoPE (Rotary Position Embedding) từ 10K lên 1M → tăng cường hỗ trợ ngữ cảnh dài
  • Bộ mã hóa thị giác: dùng encoder dựa trên SigLIP (400M tham số)

# Phương thức thị giác

  • Bộ mã hóa thị giác: hoạt động ở độ phân giải 896 x 896
  • Áp dụng kỹ thuật Pan & Scan (P&S) → có thể xử lý ảnh có tỷ lệ không chuẩn
  • Bộ mã hóa thị giác được dùng chung cho các mô hình 4B, 12B, 27B → được giữ cố định trong quá trình huấn luyện

# Tiền huấn luyện (Pre-training)

  • Huấn luyện bằng phương pháp knowledge distillation
  • Số token dùng trong huấn luyện:
    • 1B → 2T token
    • 4B → 4T token
    • 12B → 12T token
    • 27B → 14T token
  • Cải thiện hiệu năng đa ngôn ngữ → bao gồm dữ liệu đơn ngữ và song song
  • Quy trình tinh lọc → loại bỏ thông tin cá nhân và dữ liệu nhạy cảm

# Huấn luyện nhận biết lượng tử hóa (Quantization Aware Training)

  • Thực hiện lượng tử hóa sau huấn luyện → cung cấp ở nhiều định dạng như int4, fp8
  • Hiệu quả tiết kiệm bộ nhớ:
    • Với mô hình 27B:
      • Bản gốc: 54GB → sau lượng tử hóa: tối thiểu 14.1GB

# Tinh chỉnh chỉ dẫn (Instruction Tuning)

  • Áp dụng song song học tăng cường và knowledge distillation
  • Tăng cường tính hữu ích, toán học, lập trình, suy luận và năng lực đa ngôn ngữ
  • Các kỹ thuật chính dùng trong học tăng cường:
    • BOND, WARM, WARP → áp dụng kỹ thuật học tăng cường dựa trên phần thưởng
  • Tinh lọc dữ liệu → loại bỏ dữ liệu không cần thiết và thông tin nhạy cảm

# Đánh giá hiệu năng

Kết quả đánh giá LMSYS Chatbot Arena

  • Mô hình Gemma 3 27B IT có điểm Elo: 1338 → hiệu năng thuộc top 10
  • Ghi nhận hiệu năng tiệm cận GPT-4.5 và Grok-3-Preview
  • Tăng 118 điểm so với phiên bản trước là Gemma 2 27B

Hiệu năng trên benchmark tiêu chuẩn

  • MMLU-Pro: 67.5 (tăng khoảng 10 điểm so với Gemma 2)
  • MATH: 89.0 (tăng khoảng 34 điểm so với Gemma 2)
  • LiveCodeBench: 29.7 (tăng khoảng 9 điểm so với Gemma 2)

# Phân tích hiệu năng theo thay đổi cấu trúc

  • Tỷ lệ attention cục bộ:toàn cục → 5:1 là tối ưu về hiệu năng và mức sử dụng bộ nhớ
  • Kích thước cửa sổ trượt → 1024 token duy trì hiệu quả bộ nhớ mà không làm giảm hiệu năng
  • Giảm bộ nhớ KV cache → giảm 15% so với attention chỉ toàn cục

# Tăng cường hỗ trợ ngữ cảnh dài

  • Khi huấn luyện bắt đầu từ 32K token → sau đó mở rộng lên 128K token
  • Điều chỉnh tần số RoPE → mở rộng ngữ cảnh mà không suy giảm hiệu năng

# Đánh giá hiệu năng bộ mã hóa thị giác

  • Hiệu năng tăng khi tăng độ phân giải đầu vào:
    • Từ 256 → 896 độ phân giải thì hiệu năng tăng tối đa 20%
  • Hiệu năng tăng khi áp dụng kỹ thuật Pan & Scan:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# Bộ nhớ và bảo vệ quyền riêng tư

  • Tỷ lệ ghi nhớ (Memorization Rate) giảm:
    • Gemma 3 giảm mức sử dụng bộ nhớ so với Gemma 2
    • Rủi ro rò rỉ thông tin cá nhân thấp

# Trách nhiệm, an toàn và bảo mật

  • Ngăn chặn nội dung độc hại theo chính sách an toàn của Google:
    • Ngăn chặn lạm dụng trẻ em, phát ngôn thù ghét, rò rỉ thông tin cá nhân, v.v.
  • Áp dụng học tăng cường nâng cao và RLHF → giảm thiểu việc tạo ra nội dung độc hại

# Kết luận

  • Gemma 3 cải thiện lớn về đa phương thức, đa ngôn ngữ, ngữ cảnh dài so với mô hình Gemma 2 trước đó
  • Tăng cường khả năng hiểu thị giác, hiệu năng toán học và lập trình
  • Tối ưu sử dụng bộ nhớ giúp cải thiện cả hiệu năng lẫn hiệu quả

Chưa có bình luận nào.

Chưa có bình luận nào.