17 điểm bởi GN⁺ 18 ngày trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Gemma 4 do Google DeepMind phát hành là một họ LLM đa phương thức gồm 4 mô hình: E2B, E4B, 31B và 26B A4B, trong đó mọi biến thể đều hỗ trợ đầu vào hình ảnh
  • Tất cả các mô hình đều dùng chung kiến trúc xen kẽ attention cục bộ (sliding window) và các lớp attention toàn cục, với lớp cuối cùng luôn được cố định là attention toàn cục
  • Ở các lớp attention toàn cục, ba kỹ thuật tối ưu hóa gồm GQA (grouped query attention), kỹ thuật K=V và p-RoPE được áp dụng đồng thời để giảm bộ nhớ và chi phí tính toán
  • Các mô hình nhỏ (E2B, E4B) dùng Per-Layer Embeddings (PLE) để lưu các bảng embedding lớn trong bộ nhớ flash, từ đó giảm thiểu mức sử dụng VRAM; đồng thời cũng được trang bị thêm bộ mã hóa âm thanh
  • Gemma 4 hỗ trợ nhiều kịch bản sử dụng, từ on-device đến suy luận quy mô lớn, thông qua bộ mã hóa thị giác (dựa trên ViT) hỗ trợ tỉ lệ khung hình và độ phân giải biến thiên, cùng kiến trúc MoE (26B A4B)

Cấu hình họ Gemma 4

  • Gồm 4 mô hình, sử dụng hai loại kiến trúc là dense và MoE
    • Gemma 4 - E2B: áp dụng Per-Layer Embeddings, 2 tỷ tham số hiệu dụng
    • Gemma 4 - E4B: áp dụng Per-Layer Embeddings, 4 tỷ tham số hiệu dụng
    • Gemma 4 - 31B: mô hình dense 31 tỷ tham số
    • Gemma 4 - 26B A4B: mô hình MoE với tổng cộng 26 tỷ tham số, nhưng khi suy luận chỉ kích hoạt 4 tỷ tham số
  • Tất cả các mô hình đều là đa phương thức, có thể xử lý đầu vào hình ảnh với nhiều kích thước và độ phân giải khác nhau
  • Các mô hình nhỏ (E2B, E4B) ngoài hình ảnh và văn bản còn hỗ trợ thêm đầu vào âm thanh

Kiến trúc chung của Gemma 4

Xen kẽ các lớp attention (Interleaving Layers)

  • Tương tự Gemma 3, mô hình xen kẽ attention cục bộ (sliding window)attention toàn cục
    • Sliding window attention: chỉ tham chiếu các token trong một phạm vi nhất định → giảm lượng tính toán
    • Attention toàn cục: tham chiếu toàn bộ chuỗi → có thể nắm được cấu trúc ngữ cảnh tổng thể
  • Kích thước sliding window
    • Mô hình nhỏ (E2B, E4B): 512 token
    • Mô hình lớn (26B A4B, 31B): 1024 token
  • Trong Gemma 3, đôi khi lớp cuối là attention cục bộ, nhưng ở Gemma 4 thì lớp cuối luôn được cố định là attention toàn cục
  • Tỉ lệ xen kẽ
    • E2B: mẫu 4:1 gồm 4 lớp attention cục bộ + 1 lớp attention toàn cục
    • Các mô hình còn lại: mẫu 5:1 (5 lớp cục bộ + 1 lớp toàn cục)

Tối ưu hiệu quả cho attention toàn cục

GQA (Grouped Query Attention)

  • Trong các lớp attention toàn cục, 8 head truy vấn cùng chia sẻ 1 head KV, giúp giảm mạnh dung lượng lưu KV cache
  • Để bù cho sự suy giảm hiệu năng khi giảm số lượng head KV, kích thước chiều của Key được tăng gấp đôi

Kỹ thuật K=V

  • Trong các lớp attention toàn cục, Keys và Values được đặt giống nhau, giúp tiếp tục giảm nhu cầu bộ nhớ cho KV cache
  • Đây là kỹ thuật giúp tăng hiệu quả bộ nhớ mà không làm suy giảm hiệu năng quá nhiều

p-RoPE

  • RoPE (rotary positional encoding) không được áp dụng cho toàn bộ số chiều mà chỉ cho một phần số chiều (ví dụ p=0.25 nghĩa là chỉ áp dụng cho 25% cặp trên cùng)
  • Các cặp tần số thấp được dùng để bảo toàn thông tin ngữ nghĩa (semantic) thay vì thông tin vị trí
  • Cách này đặc biệt hiệu quả trong attention toàn cục để giảm hiện tượng méo khoảng cách giữa các token do ngữ cảnh dài gây ra
  • Tóm tắt các cải tiến được áp dụng cho lớp attention toàn cục:
    • Lớp cuối luôn là attention toàn cục
    • Mỗi 8 query dùng chung 1 Key
    • Chiều Key tăng gấp đôi
    • Keys = Values
    • Áp dụng p-RoPE với p=0.25

Bộ mã hóa thị giác

  • Dựa trên Vision Transformer (ViT) để biến đổi hình ảnh thành chuỗi patch và tạo embedding
    • Mỗi patch có kích thước 16×16 pixel
  • Các mô hình nhỏ (E2B, E4B) dùng bộ mã hóa thị giác 150 triệu tham số, còn các mô hình còn lại dùng bộ mã hóa thị giác 550 triệu tham số

Hỗ trợ tỉ lệ khung hình biến thiên

  • ViT truyền thống cố định đầu vào hình vuông → dẫn đến vấn đề positional encoding thay đổi theo tỉ lệ khung hình
  • Gemma 4 đưa vào 2D RoPE: chia patch embedding thành hai phần để mã hóa độc lập thông tin vị trí theo chiều ngang (w) và chiều dọc (h)
  • Ảnh đầu vào được resize thích ứng theo patch 16×16 pixel, phần không khớp hoàn toàn sẽ được padding
  • Các patch có kích thước biến thiên được pooling dựa trên vị trí không gian để rút gọn thành một số lượng cố định patch embedding

Hỗ trợ độ phân giải biến thiên (soft token budget)

  • Giới thiệu khái niệm soft token budget: giới hạn số patch embedding tối đa được truyền vào LLM
    • Người dùng có thể chọn budget: 70, 140, 280, 560, 1120 token
  • Budget càng cao (ví dụ 1120) thì càng giữ được độ phân giải cao; budget càng thấp (ví dụ 70) thì ảnh càng bị downscale
  • Ví dụ: với budget 280, số patch tối đa = 9 × 280 = 2.520 (áp dụng average pooling theo khối 3×3)

Chiếu tuyến tính (Linear Projection)

  • Embedding đầu ra từ bộ mã hóa thị giác khác với token embedding của LLM về chiều và phân phối, nên được chiếu qua một mạng thần kinh nhỏ
  • Sau phép chiếu, RMSNorm được áp dụng để khớp với kỳ vọng về thang đo của các khối Transformer phía sau
  • Lớp linear projection được huấn luyện cùng Gemma 4 để tối ưu sao cho patch embedding phù hợp với không gian embedding mà LLM mong đợi

Gemma 4 - 31B (Dense)

  • Đây là mô hình kiến trúc dense với 31 tỷ tham số, có cấu trúc gần với dạng cơ bản nhất trong các biến thể Gemma 4
  • Về mặt cấu trúc, nó tương tự mô hình 27B của Gemma 3, nhưng áp dụng các cải tiến chung của Gemma 4 như K=V và p-RoPE
  • Số lớp giảm từ 62 xuống 60 lớp, nhưng bề rộng mỗi lớp được tăng lên

Gemma 4 - 26B A4B (Mixture of Experts)

  • Tổng cộng có 26 tỷ tham số, nhưng khi suy luận chỉ dùng 4 tỷ tham số (tham số hoạt động) nên có thể chạy với tốc độ tương đương mô hình 4B
  • Cấu trúc MoE (Mixture of Experts): thay vì một FFNN lớn thông thường, mô hình dùng nhiều FFNN nhỏ (Expert) và chỉ kích hoạt một phần tùy theo đầu vào
    • Trong tổng số 128 Expert, khi suy luận sẽ chọn và kích hoạt 8 Expert
    • 1 Shared Expert luôn được kích hoạt: phụ trách xử lý tri thức chung và có kích thước lớn gấp 3 lần các Expert khác
  • Router tạo xác suất chọn Expert cho từng token đầu vào để định tuyến, sau đó áp trọng số xác suất lên kết quả xử lý của các Expert được chọn
  • Toàn bộ tham số đều được nạp vào bộ nhớ, nhưng trong tính toán thực tế chỉ dùng 8 Expert + 1 Shared Expert → 119 Expert còn lại ở trạng thái chờ

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

  • Thay vì nằm trong lõi mô hình, mỗi lớp có thêm một bảng tra embedding riêng, giúp giảm tối đa mức dùng VRAM trên thiết bị nhỏ
  • Với E2B: bảng PLE gồm 262.144 token × 35 lớp × 256 chiều → được lưu trong bộ nhớ flash
  • Khi bắt đầu suy luận, embedding theo từng lớp của token đầu vào chỉ được tra cứu một lần → các lớp sau không cần tra lại
  • Giữa các decoder block, hàm gating quyết định trọng số embedding, sau đó chiếu lên kích thước embedding gốc (E2B: 256→1536, E4B: 256→2560)
  • Embedding sau khi chiếu được chuẩn hóa rồi cộng với đầu ra của decoder block trước đó → giúp mô hình tiếp tục tham chiếu ý nghĩa của token trong suốt quá trình xử lý
  • Chữ "E" mang nghĩa tham số hiệu dụng (effective parameters), không tính phần PLE

Bộ mã hóa âm thanh

  • Chỉ được trang bị trên các mô hình nhỏ (E2B, E4B), dùng cho các tác vụ như nhận dạng giọng nói tự động và dịch thuật
  • Quy trình xử lý âm thanh gồm 3 bước:
    1. Trích xuất đặc trưng: âm thanh thô → mel-spectrogram (biểu diễn 2D theo thời gian × tần số)
    2. Nhóm theo chunk: gom các đặc trưng mel theo từng chunk để tạo điểm bắt đầu cho chuỗi token
    3. Downsampling: rút ngắn độ dài chuỗi bằng 2 lớp tích chập 2D, tạo ra soft token
  • Bộ mã hóa âm thanh dùng Conformer: một kiến trúc bổ sung mô-đun tích chập vào bộ mã hóa Transformer tiêu chuẩn
  • Tương tự bộ mã hóa thị giác, embedding đầu ra từ Conformer cũng được chiếu tuyến tính để phù hợp với không gian embedding của Gemma 4

Chưa có bình luận nào.

Chưa có bình luận nào.