6 điểm bởi GN⁺ 5 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Khi các LLM open-weight được công bố gần đây tập trung vào hiệu quả ngữ cảnh dài, số lượng mẹo kiến trúc nhằm giảm kích thước KV cache, lưu lượng bộ nhớ và chi phí attention đang tăng rất nhanh
  • Gemma 4 đồng thời cải thiện hiệu quả KV cache và tham số bằng chia sẻ KV giữa các tầng (cross-layer attention)per-layer embeddings (PLE)
  • Laguna XS.2 giới thiệu layer-wise attention budgeting, tức phân bổ số lượng query head khác nhau theo từng layer
  • ZAYA1-8B với Compressed Convolutional Attention (CCA) thực hiện trực tiếp phép toán attention trong không gian latent đã nén, giúp giảm không chỉ KV cache mà cả attention FLOPs
  • DeepSeek V4 mở rộng đường residual bằng mHC (Manifold-Constrained Hyper-Connections), đồng thời dùng CSA/HCA để nén độ dài chuỗi, từ đó cắt giảm mạnh FLOPs và KV cache ở ngữ cảnh 1M token so với V3.2

Tổng quan: các kiến trúc mới nhất đang tập trung vào hiệu quả ngữ cảnh dài

  • Khi các mô hình reasoning và workflow agent phải giữ nhiều token hơn trong thời gian dài hơn, kích thước KV cache, lưu lượng bộ nhớ và chi phí attention nổi lên như các ràng buộc chính
  • Các điểm thiết kế mới xuất hiện trong những mô hình open-weight quan trọng được công bố từ tháng 4 đến tháng 5
    • Gemma 4: KV sharingper-layer embeddings
    • Laguna XS.2: layer-wise attention budgeting
    • ZAYA1-8B: compressed convolutional attention
    • DeepSeek V4: mHC + compressed attention
  • Bài viết này không bàn về data mix, lịch huấn luyện, post-training, công thức RL hay benchmark, mà tập trung vào những thay đổi bên trong transformer block, residual stream, KV cache và phép toán attention

1. Gemma 4: thu gọn cache bằng chia sẻ KV giữa các tầng

  • Dòng sản phẩm Gemma 4 do Google công bố đầu tháng 4 gồm 3 nhóm
    • Gemma 4 E2B/E4B: mô hình nhỏ cho thiết bị di động và thiết bị nhúng (IoT)
    • Gemma 4 26B MoE: mô hình MoE tối ưu cho suy luận cục bộ hiệu quả
    • Gemma 4 31B dense: mô hình dense hướng tới chất lượng cao nhất và thuận tiện cho post-training
  • Bổ sung chia sẻ KV (cross-layer attention)

    • Các layer ở nửa sau không tự tính K/V projection nữa, mà tái sử dụng tensor KV của layer không chia sẻ gần nhất trước đó có cùng loại attention
    • Layer sliding window sẽ chia sẻ KV với layer sliding window trước đó, còn layer full-attention sẽ chia sẻ với layer full-attention trước đó
    • Vì query projection vẫn do từng layer tự tính nên mô hình vẫn giữ được các mẫu attention riêng theo từng layer
    • Ở Gemma 4 E2B, trong 35 transformer layer chỉ 15 layer đầu tự tính KV, 20 layer cuối tái sử dụng
    • Ở Gemma 4 E4B, trong 42 layer chỉ 24 layer tự tính KV, 18 layer cuối tái sử dụng
  • Hiệu quả cắt giảm

    • Chia sẻ khoảng một nửa KV, giúp giảm khoảng một nửa kích thước KV cache
    • Với ngữ cảnh dài 128K (bfloat16), E2B giảm 2.7 GB, còn E4B giảm khoảng 6 GB
  • Hạn chế

    • Chia sẻ KV là một dạng xấp xỉ nên làm giảm capacity của mô hình
    • Theo bài báo về cross-layer attention, tác động này là rất nhỏ (ít nhất trên các mô hình nhỏ đã được kiểm thử)
  • Về mặt ý tưởng, cách này dựa trên Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024), và Gemma 4 là trường hợp đầu tiên áp dụng nó trong một kiến trúc được biết đến rộng rãi

2. Per-Layer Embeddings (PLE) và kích thước "Effective" của Gemma 4 E2B/E4B

  • PLE là một thiết kế hiệu quả tách biệt với chia sẻ KV, tập trung vào hiệu quả tham số
  • "E" mang nghĩa effective

    • Gemma 4 E2B: 2.3B effective parameters, và 5.1B nếu tính cả embedding
    • Gemma 4 E4B: 4.5B effective parameters, và 8B nếu tính cả embedding
    • Phần tính toán của transformer stack chính gần với các con số nhỏ hơn, còn con số lớn hơn bao gồm thêm các layer bảng embedding bổ sung
  • Cấu trúc PLE

    • Các vector PLE được chuẩn bị ở bên ngoài các transformer block lặp lại
    • Token ID đi qua bước tra cứu per-layer embedding, còn token embedding thông thường được chiếu tuyến tính vào cùng không gian PLE
    • Hai kết quả này được cộng lại rồi scale và reshape để tạo thành một tensor có một lát cắt riêng cho từng layer
    • Mỗi layer l chỉ nhận lát cắt của riêng mình (ple_l)
  • Cách hoạt động bên trong transformer block

    • Attention và cập nhật residual của feedforward diễn ra như thông thường
    • Sau phép cộng residual thứ hai, hidden state z sẽ gate vector PLE theo từng layer
    • Vector PLE sau khi được gate sẽ được chiếu lại về hidden size của mô hình, chuẩn hóa rồi được cộng thêm như một cập nhật residual bổ sung
  • Mục tiêu của PLE

    • Giữ cho các transformer block đắt đỏ gần với kích thước "effective" nhỏ hơn
    • Phần capacity bổ sung được lưu trong các bảng per-layer embedding, và vì dựa trên lookup nên rẻ hơn nhiều so với việc thêm trọng số attention hoặc FFN
    • Khác với phương án đơn giản là chỉ thu nhỏ mô hình dense, cách này không hy sinh capacity của phần tính toán chính
  • Về nguyên tắc, PLE không chỉ giới hạn ở các mô hình nhỏ, nhưng ở mô hình lớn thì capacity vốn đã đủ và còn có thể mở rộng thêm bằng MoE

3. Laguna XS.2: Layer-Wise Attention Budgeting

  • Laguna là mô hình open-weight đầu tiên của Poolside, một công ty châu Âu tập trung vào LLM cho ứng dụng lập trình
  • Cấu hình cơ bản

    • Tổng cộng 40 layer, trong đó 30 layer dùng sliding window attention10 layer dùng global/full attention
    • Kích thước window của các layer sliding window: 512 token
    • Bản thân mô hình pha trộn sliding window + global cũng đã được dùng ở những kiến trúc khác như Gemma 4
  • Điểm mới: phân biệt số lượng query head theo layer

    • Với thiết lập num_attention_heads_per_layer trong config.json của Hugging Face, có thể chỉ định số lượng query head khác nhau cho từng layer mà vẫn giữ tương thích về hình dạng KV cache
    • Layer sliding window: 8 query head trên mỗi KV head
    • Layer full attention: 6 query head trên mỗi KV head
    • Số lượng KV head được cố định ở mức 8
  • Ý đồ thiết kế

    • Thay vì cấp cùng một ngân sách attention cho mọi layer, mô hình dồn capacity attention vào nơi hữu ích hơn
    • Vì các layer full-attention nhìn toàn bộ ngữ cảnh nên đắt hơn, chúng được phân ít query head hơn
  • Bản thân ý tưởng phân biệt capacity theo layer có thể truy về ít nhất là OpenELM năm 2024 của Apple, và Laguna XS.2 là ví dụ gần đây nổi bật nhất trong các mô hình open-weight cấp độ production
  • Ngoài ra, Laguna còn áp dụng per-head attention-output gating (tương tự Qwen3-Next, v.v.)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

  • Đây là mô hình open-weight do Zyphra phát triển, nổi bật ở chỗ được huấn luyện trên AMD GPU thay vì NVIDIA GPU hay Google TPU
  • Cấu trúc

    • Trong config.json có 80 mục layer xen kẽ, với attention kiểu CCA/GQA và feedforward kiểu MoE xuất hiện luân phiên (về trực quan có thể xem như 40 cặp attention+MoE)
    • Dùng CCA cùng với bố cục GQA 4:1
    • MoE được thiết lập rất sparse, mỗi token chỉ kích hoạt 1 expert được route tới
  • Cốt lõi của CCA

    • Tương tự MLA, nó đưa vào biểu diễn latent nén trong khối attention
    • Khác biệt là MLA chủ yếu dùng biểu diễn latent để thu gọn KV cache, rồi vẫn chiếu ngược về không gian attention head để thực hiện attention thực tế
    • CCA nén cả Q, K và V rồi thực hiện phép toán attention trực tiếp trong không gian latent đã nén, sau đó vector attention kết quả mới được up-projection trở lại
    • Nhờ đó, mô hình không chỉ giảm KV cache mà còn giảm attention FLOPs trong giai đoạn prefill và huấn luyện
  • Convolutional Mixing

    • Chữ "Convolutional" đến từ việc bổ sung convolutional mixing cho các biểu diễn K và Q đã nén
    • Việc nén làm Q, K và V hẹp hơn để tiết kiệm tính toán và cache, nhưng có thể làm giảm sức biểu đạt của attention
    • Convolution là cách bổ sung ngữ cảnh cục bộ với chi phí thấp cho Q và K đã nén
    • Nó không được áp dụng cho V — vì Q và K quyết định điểm attention, còn V là nội dung được lấy trung bình theo các điểm đó
    • Ngoài sequence mixing còn có cả thành phần channel mixing
  • Hiệu năng

    • CCA được giới thiệu trước báo cáo kỹ thuật ZAYA1-8B trong một bài báo riêng có tên "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (tháng 10 năm 2025)
    • Theo thực nghiệm trong bài báo CCA, với cùng cấu hình nén, CCA cho kết quả tốt hơn MLA

5. DeepSeek V4: CSA/HCA, mHC và attention cache nén

  • DeepSeek V4 là bản phát hành gây tiếng vang lớn nhất năm nay cả về mức độ chú ý lẫn quy mô mô hình, và DeepSeek V4-Pro là MoE sparse nhất nếu xét theo tỷ lệ active parameter

  • Bài viết tập trung vào hai điểm mới chính so với các kiến trúc trước đó

    • mHC: đường residual rộng hơn
    • CSA/HCA: nén và làm sparse attention cho ngữ cảnh dài
  • 5.1 Manifold-Constrained Hyper-Connections (mHC)

    • Dựa trên bài báo ngày 31/12/2025 của nhóm DeepSeek, "mHC: Manifold-Constrained Hyper-Connections"; thời điểm đó mới chỉ được thử ở quy mô 27B nhưng lần này đã được đưa vào flagship một cách đầy đủ
    • Mục tiêu là hiện đại hóa thiết kế residual connection bên trong transformer block — khác với phần lớn thay đổi trước đây vốn tập trung vào attention, normalization hay MoE
    • Bối cảnh Hyper-Connections (HC)

      • Dựa trên Zhu et al. (2024), "Hyper-connections"
      • Thay thế residual stream đơn bằng nhiều residual stream song song cùng với ánh xạ được học
      • Để attention và layer MoE vẫn hoạt động với hidden size thông thường, hệ thống thêm Pre Mapping (từ các stream song song về một hidden vector) và Post Mapping (phân phối đầu ra của layer trở lại các stream song song)
      • Cách này làm đường residual giàu sức biểu đạt hơn mà không cần mở rộng chính attention hay MoE
      • Trong thực nghiệm với 7B OLMo MoE, FLOPs trên mỗi token gần như không đổi, từ 13.36G → 13.38G, nhưng mô hình đạt hiệu năng baseline chỉ với khoảng một nửa số token huấn luyện
    • Thay đổi từ HC sang mHC

      • Trong HC thông thường, Res Mapping là ma trận có thể học, nên khi đi qua nhiều tầng mức khuếch đại hay suy giảm tín hiệu trở nên khó dự đoán
      • mHC chiếu ánh xạ residual lên manifold của doubly stochastic matrices — mọi phần tử đều không âm, và tổng từng hàng cũng như từng cột đều bằng 1
      • Nhờ đó, việc trộn residual hoạt động giống tái phân phối thông tin ổn định giữa các stream
      • Pre Mapping và Post Mapping cũng bị ràng buộc không âm và có giới hạn, để tránh triệt tiêu khi đọc/ghi trạng thái residual đã được mở rộng
      • Điều này mang lại độ ổn định khi scale lên, vốn càng quan trọng ở các mô hình sâu hơn
    • Chi phí

      • Trong thực nghiệm với mô hình 27B, nhờ triển khai tối ưu của nhóm DeepSeek (fusion, recomputation, pipeline scheduling), việc dùng n=4 residual stream chỉ gây overhead thời gian huấn luyện 6.7%
  • 5.2 Attention nén bằng CSA và HCA

    • Mục tiêu là giải quyết việc không chỉ phép tính attention score mà cả KV cache cũng tăng tỷ lệ thuận theo độ dài chuỗi trong ngữ cảnh cực dài
    • DeepSeek V4 dùng lai hai kiểu attention nén: Compressed Sparse Attention (CSA)Heavily Compressed Attention (HCA)
    • Khác với MLA như thế nào

      • MLA của DeepSeek V2/V3 nén biểu diễn KV theo từng token, nhưng vẫn giữ một mục KV latent cho mỗi token
      • CSA/HCA thì nén dọc theo chiều chuỗi, gom nhiều nhóm token thành ít mục KV nén hơn → bản thân cache cũng ngắn đi
      • Đổi lại bằng việc từ bỏ một phần thông tin ở mức token, mô hình cắt giảm mạnh chi phí ngữ cảnh dài
    • CSA so với HCA

      • CSA: tỷ lệ nén nhẹ (m=4) + chọn top-k theo kiểu DeepSeek Sparse Attention (DSA)
      • HCA: tỷ lệ nén mạnh (m'=128, tức 128 token được nén thành 1 mục KV nén) + dense attention trên cache đã rút ngắn
      • Cả hai cách đều giữ lại nhánh sliding window 128 token cho các token gần đây chưa nén
      • CSA giữ được nhiều chi tiết hơn nhưng dùng chọn lọc sparse, còn HCA giảm mạnh số mục để có thể dùng dense attention — vì hai cách này bổ trợ cho nhau, DeepSeek V4 bố trí xen kẽ các layer của chúng
    • Kết quả hiệu quả (ngữ cảnh 1M token, so với DeepSeek V3.2)

      • DeepSeek V4-Pro: FLOPs suy luận cho một token còn 27%, kích thước KV cache còn 10%
      • DeepSeek V4-Flash: FLOPs còn 10%, kích thước KV cache còn 7%
    • Lưu ý khi đánh giá

      • Khó thể kết luận CSA/HCA nói chung là "tốt hơn" MLA, vì đây là thiết kế ngữ cảnh dài quyết liệt hơn và cũng phức tạp hơn
      • Bài báo không có ablation study
      • Dù DeepSeek V4-Flash-Base vượt V3.2-Base ở nhiều benchmark nền tảng và cho kết quả mạnh trong retrieval 1M token, đây là kết quả của toàn bộ công thức, bao gồm dữ liệu tốt hơn, tối ưu hóa dựa trên Muon, mHC, tối ưu hóa độ chính xác/lưu trữ, cùng các thay đổi ở hệ thống huấn luyện và suy luận

6. Kết luận

  • Mẫu số chung của các mô hình open-weight mới năm nay là giảm chi phí suy luận ngữ cảnh dài mà không làm giảm tổng số tham số
    • Gemma 4: thu nhỏ KV cache bằng cross-layer KV sharing, tăng capacity bằng per-layer embeddings
    • Laguna XS.2: phân biệt capacity attention theo từng layer
    • ZAYA1-8B: chuyển attention sang không gian latent nén
    • DeepSeek V4: trộn residual stream có ràng buộc + attention nén cho ngữ cảnh dài
  • Transformer block vẫn đang tiếp tục thay đổi, nhưng là những chỉnh sửa có mục tiêu rất rõ ràng, trong khi bộ khung cơ bản vẫn giữ kiến trúc GPT decoder-only
  • Hiệu năng mô hình về mặt định tính chủ yếu vẫn được dẫn dắt bởi chất lượng/số lượng dữ liệu và công thức huấn luyện
  • Cho đến hiện tại, transformer vẫn giữ nguyên hiện trạng là kiến trúc SOTA chủ đạo, dù vẫn có các lựa chọn thay thế như diffusion model
  • Transformer block cơ bản trước đây có thể được hiện thực chỉ trong khoảng 50~100 dòng PyTorch, nhưng với các biến thể attention gần đây, độ phức tạp mã nguồn đã tăng khoảng 10 lần
  • Bản thân việc tăng độ phức tạp không hẳn là tiêu cực vì nó giúp giảm chi phí runtime, nhưng cũng khiến việc hiểu rõ từng thành phần riêng lẻ và tương tác giữa chúng ngày càng khó hơn
  • Cách học được khuyến nghị là: bắt đầu từ decoder-style LLM nguyên bản (GPT/GPT-2), rồi thêm dần từng thành phần mới vào để hiểu

Chưa có bình luận nào.

Chưa có bình luận nào.