- Kiến trúc LLM trong 7 năm gần đây đã tiến hóa từ GPT-2 (2019) đến DeepSeek-V3, Llama 4 (2024-2025) mà không có thay đổi lớn về mặt cấu trúc, duy trì sự tương đồng đáng kinh ngạc
- Các mô hình mới nhất như DeepSeek V3/R1, Llama 4 đã áp dụng các cách tối ưu hóa mới như Mixture-of-Experts(MoE), MLA, Sliding Window Attention để cải thiện hiệu quả bộ nhớ và hiệu năng suy luận
- Một số mô hình mã nguồn mở như OLMo 2, Gemma 3 được chú ý như những ví dụ thiết kế tốt cho nghiên cứu và phát triển nhờ công bố dữ liệu minh bạch và cách bố trí normalization layer độc đáo
- Nhiều mô hình với quy mô và cấu trúc đa dạng như Qwen3, SmolLM3, Kimi 2 đã xuất hiện, mở rộng lựa chọn theo ưu nhược điểm và mục đích sử dụng của kiến trúc MoE và Dense
- Xu hướng chung của LLM gần đây là song song với việc mở rộng quy mô và tăng độ tinh vi, còn có cải tiến cấu trúc theo hướng hiệu quả và thích ứng với nhiều môi trường phần cứng khác nhau
Giới thiệu
- Nếu nhìn từ GPT nguyên mẫu năm 2017, rồi GPT-2 (2019) đến DeepSeek-V3 và Llama 4 (2024-2025), có thể thấy kiến trúc LLM về tổng thể vẫn khá giống nhau (cấu trúc transformer cơ bản gần như không thay đổi nhiều)
- Positional embedding đã chuyển từ dạng tuyệt đối sang các phương thức như RoPE, và Multi-Head Attention cũng đang dịch chuyển sang GQA (grouped query attention) có hiệu quả bộ nhớ/tính toán cao hơn, nhưng cấu trúc nền tảng vẫn được giữ nguyên
- Việc so sánh hiệu năng phụ thuộc vào dataset và cách huấn luyện, nên khó đối chiếu trực tiếp chỉ dựa trên kiến trúc
- Bài viết này tập trung phân tích những thay đổi trong cấu trúc kiến trúc của các open LLM gần đây
1. DeepSeek V3/R1
- DeepSeek R1 (tháng 1/2025) được xây dựng dựa trên kiến trúc DeepSeek V3 (tháng 12/2024), thu hút chú ý nhờ khả năng suy luận nâng cao và quy mô tham số lớn (671 tỷ)
- Kiến trúc cốt lõi: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
- MLA: nén Key/Value xuống không gian chiều thấp để giảm bộ nhớ KV cache, cho hiệu năng tốt hơn so với GQA
- MoE: phân tán mô-đun FeedForward thành nhiều expert, với cấu trúc sparse chỉ kích hoạt một phần expert theo từng token
- DeepSeek V3: 256 expert, tổng cộng 671B tham số, nhưng khi suy luận chỉ dùng 9 expert (37B tham số)
- Có shared expert luôn hoạt động để tăng hiệu quả học các mẫu phổ quát
- Đặc điểm: quy mô lớn (671B) nhưng vẫn hiệu quả khi suy luận; MLA cho lợi thế hiệu năng so với GQA; MoE giúp bảo đảm năng lực huấn luyện quy mô lớn
2. OLMo 2
- Mô hình công khai hoàn toàn của Allen Institute for AI
- Điểm mạnh không chỉ là hiệu năng mà còn ở thiết kế minh bạch và công khai mã nguồn
- Các điểm kiến trúc đáng chú ý: vị trí RMSNorm (áp dụng Post-Norm), QK-Norm
- Các mô hình kiểu GPT truyền thống dùng Pre-Norm, còn OLMo 2 áp dụng normalization sau Attention/FeedForward (một biến thể Post-Norm)
- QK-Norm: thêm RMSNorm vào query/key của Attention để cải thiện độ ổn định khi huấn luyện
- Vẫn giữ cấu trúc Multi-Head Attention(MHA) truyền thống
- Tương tự Llama 3, nhưng khác biệt ở chiến lược normalization
3. Gemma 3
- LLM mở tiêu biểu của Google, nổi bật ở việc tập trung vào vocabulary lớn để hỗ trợ đa ngôn ngữ và mô hình kích thước 27B
- Sliding Window Attention (cửa sổ cục bộ) giúp giảm mạnh bộ nhớ KV cache
- Gemma 2: tỷ lệ Global/Local 1:1, cửa sổ 4k; Gemma 3: tỷ lệ 5:1, cửa sổ giảm còn 1024
- Gần như không ảnh hưởng đến hiệu năng (Perplexity)
- Normalization: áp dụng cả Pre-Norm và Post-Norm RMSNorm quanh mô-đun GQA
- Gemma 3n: hướng tới thiết bị nhỏ, được tối ưu nhẹ hơn với Per-Layer Embedding (chỉ tham số theo từng tầng thường trú trên GPU) và MatFormer (chia tách để dùng từng phần mô hình)
4. Mistral Small 3.1
- Mistral Small 3.1 24B, nhanh hơn Gemma 3 27B và nằm trong nhóm đầu trên benchmark
- Dùng tokenizer tùy biến, giảm KV cache và số layer để tối thiểu hóa độ trễ suy luận
- Bỏ Sliding window attention, thay vào đó dùng GQA tối ưu hóa + FlashAttention để tập trung vào tốc độ suy luận và hiệu quả mã nguồn
5. Llama 4
- Áp dụng mạnh kiến trúc MoE để đồng thời đạt hiệu quả suy luận và dung lượng mô hình, có cấu trúc tương tự DeepSeek-V3
- Dùng GQA, nhưng số expert MoE và hidden size khác nhau
- DeepSeek-V3: 9 expert (2,048), Llama 4: 2 expert (8,192), tham số active là 17B (DeepSeek là 37B)
- Thiết kế MoE cổ điển với việc xen kẽ các khối MoE và Dense
- Cho thấy MoE đang trở nên phổ biến trong các LLM gần đây
6. Qwen3
- Cung cấp cả phiên bản Dense với nhiều kích cỡ (0.6B~32B) và MoE (30B-A3B, 235B-A22B)
- Bản nhỏ (0.6B) có hiệu quả huấn luyện, suy luận và token throughput rất tốt. Đạt hiệu năng nổi bật trong nhóm LLM siêu nhẹ, đồng thời rất hiệu quả về bộ nhớ và thuận tiện cho huấn luyện
- Dense: nhiều layer hơn, dùng ít bộ nhớ hơn, nhưng chậm hơn (so với Llama 3 1B)
- MoE: Qwen3 235B-A22B có 22B active param, không dùng shared expert (Qwen2.5-MoE trước đó có shared expert), nên hiệu quả tăng lên
- Qwen3 235B-A22B và DeepSeek-V3 rất giống nhau về cấu trúc tổng thể
- Việc cung cấp cả Dense lẫn MoE giúp đáp ứng nhiều mục đích sử dụng khác nhau
7. SmolLM3
- Mô hình nhỏ cỡ 3B tham số, cạnh tranh với Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
- Kiến trúc nhìn chung tiêu chuẩn nhưng áp dụng NoPE (No Positional Embedding)
- Không dùng positional encoding như RoPE mà chỉ tận dụng causal mask
- Cải thiện khả năng khái quát theo độ dài (Length Generalization) trên chuỗi dài
- Cấu trúc mang tính thử nghiệm, chỉ áp dụng ở một số layer
8. Kimi 2
- Mô hình mở quy mô lớn 1 nghìn tỷ tham số, hiện là mô hình mở có quy mô lớn nhất
- Dựa trên cấu trúc của DeepSeek-V3, mở rộng số layer MoE và điều chỉnh số head của MLA
- Dùng Muon optimizer thay cho AdamW trong huấn luyện để tăng hiệu quả, với loss decay tốt hơn
- Có nhiều expert MoE hơn DeepSeek-V3, nhưng số head MLA ít hơn
- Kế thừa kinh nghiệm từ Kimi 1.5, Kimi 2 đã công bố open-weight và đạt hiệu năng hàng đầu
Kết luận và xu hướng
- Các LLM gần đây vẫn giữ nguyên cấu trúc nền tảng, nhưng nổi bật ở mở rộng quy mô kiến trúc, áp dụng MoE và nhiều cơ chế tối ưu hiệu quả khác
- Với các mô hình mở, việc công khai dữ liệu, thiết kế và mã nguồn giúp gia tăng giá trị cho nghiên cứu cũng như ứng dụng công nghiệp
- Dense và MoE, MLA·GQA·Sliding Window Attention, cùng nhiều chiến lược normalization khác nhau cho thấy mỗi mô hình có một định hướng tối ưu riêng
- Đây là giai đoạn mà lựa chọn kiến trúc trở nên đa dạng hơn tùy theo môi trường phần cứng, mục đích sử dụng, cũng như hiệu quả huấn luyện và suy luận
2 bình luận
Có vẻ như qwen xử lý tiếng Hàn khá tốt.
Ý kiến trên Hacker News
Liên kết tới kết quả của Claude
Nhưng tôi cũng không rõ kết quả đó có thực sự dùng được hay không