So sánh kiến trúc của các LLM lớn

(magazine.sebastianraschka.com)

26 điểm bởi GN⁺ 2025-07-21 | 2 bình luận | Chia sẻ qua WhatsApp

Kiến trúc LLM trong 7 năm gần đây đã tiến hóa từ GPT-2 (2019) đến DeepSeek-V3, Llama 4 (2024-2025) mà không có thay đổi lớn về mặt cấu trúc, duy trì sự tương đồng đáng kinh ngạc
Các mô hình mới nhất như DeepSeek V3/R1, Llama 4 đã áp dụng các cách tối ưu hóa mới như Mixture-of-Experts(MoE), MLA, Sliding Window Attention để cải thiện hiệu quả bộ nhớ và hiệu năng suy luận
Một số mô hình mã nguồn mở như OLMo 2, Gemma 3 được chú ý như những ví dụ thiết kế tốt cho nghiên cứu và phát triển nhờ công bố dữ liệu minh bạch và cách bố trí normalization layer độc đáo
Nhiều mô hình với quy mô và cấu trúc đa dạng như Qwen3, SmolLM3, Kimi 2 đã xuất hiện, mở rộng lựa chọn theo ưu nhược điểm và mục đích sử dụng của kiến trúc MoE và Dense
Xu hướng chung của LLM gần đây là song song với việc mở rộng quy mô và tăng độ tinh vi, còn có cải tiến cấu trúc theo hướng hiệu quả và thích ứng với nhiều môi trường phần cứng khác nhau

Giới thiệu

Nếu nhìn từ GPT nguyên mẫu năm 2017, rồi GPT-2 (2019) đến DeepSeek-V3 và Llama 4 (2024-2025), có thể thấy kiến trúc LLM về tổng thể vẫn khá giống nhau (cấu trúc transformer cơ bản gần như không thay đổi nhiều)
Positional embedding đã chuyển từ dạng tuyệt đối sang các phương thức như RoPE, và Multi-Head Attention cũng đang dịch chuyển sang GQA (grouped query attention) có hiệu quả bộ nhớ/tính toán cao hơn, nhưng cấu trúc nền tảng vẫn được giữ nguyên
Việc so sánh hiệu năng phụ thuộc vào dataset và cách huấn luyện, nên khó đối chiếu trực tiếp chỉ dựa trên kiến trúc
Bài viết này tập trung phân tích những thay đổi trong cấu trúc kiến trúc của các open LLM gần đây

1. DeepSeek V3/R1

DeepSeek R1 (tháng 1/2025) được xây dựng dựa trên kiến trúc DeepSeek V3 (tháng 12/2024), thu hút chú ý nhờ khả năng suy luận nâng cao và quy mô tham số lớn (671 tỷ)
Kiến trúc cốt lõi: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
MLA: nén Key/Value xuống không gian chiều thấp để giảm bộ nhớ KV cache, cho hiệu năng tốt hơn so với GQA
MoE: phân tán mô-đun FeedForward thành nhiều expert, với cấu trúc sparse chỉ kích hoạt một phần expert theo từng token
- DeepSeek V3: 256 expert, tổng cộng 671B tham số, nhưng khi suy luận chỉ dùng 9 expert (37B tham số)
- Có shared expert luôn hoạt động để tăng hiệu quả học các mẫu phổ quát
Đặc điểm: quy mô lớn (671B) nhưng vẫn hiệu quả khi suy luận; MLA cho lợi thế hiệu năng so với GQA; MoE giúp bảo đảm năng lực huấn luyện quy mô lớn

2. OLMo 2

Mô hình công khai hoàn toàn của Allen Institute for AI
Điểm mạnh không chỉ là hiệu năng mà còn ở thiết kế minh bạch và công khai mã nguồn
Các điểm kiến trúc đáng chú ý: vị trí RMSNorm (áp dụng Post-Norm), QK-Norm
- Các mô hình kiểu GPT truyền thống dùng Pre-Norm, còn OLMo 2 áp dụng normalization sau Attention/FeedForward (một biến thể Post-Norm)
- QK-Norm: thêm RMSNorm vào query/key của Attention để cải thiện độ ổn định khi huấn luyện
Vẫn giữ cấu trúc Multi-Head Attention(MHA) truyền thống
Tương tự Llama 3, nhưng khác biệt ở chiến lược normalization

3. Gemma 3

LLM mở tiêu biểu của Google, nổi bật ở việc tập trung vào vocabulary lớn để hỗ trợ đa ngôn ngữ và mô hình kích thước 27B
Sliding Window Attention (cửa sổ cục bộ) giúp giảm mạnh bộ nhớ KV cache
- Gemma 2: tỷ lệ Global/Local 1:1, cửa sổ 4k; Gemma 3: tỷ lệ 5:1, cửa sổ giảm còn 1024
- Gần như không ảnh hưởng đến hiệu năng (Perplexity)
Normalization: áp dụng cả Pre-Norm và Post-Norm RMSNorm quanh mô-đun GQA
Gemma 3n: hướng tới thiết bị nhỏ, được tối ưu nhẹ hơn với Per-Layer Embedding (chỉ tham số theo từng tầng thường trú trên GPU) và MatFormer (chia tách để dùng từng phần mô hình)

4. Mistral Small 3.1

Mistral Small 3.1 24B, nhanh hơn Gemma 3 27B và nằm trong nhóm đầu trên benchmark
Dùng tokenizer tùy biến, giảm KV cache và số layer để tối thiểu hóa độ trễ suy luận
Bỏ Sliding window attention, thay vào đó dùng GQA tối ưu hóa + FlashAttention để tập trung vào tốc độ suy luận và hiệu quả mã nguồn

5. Llama 4

Áp dụng mạnh kiến trúc MoE để đồng thời đạt hiệu quả suy luận và dung lượng mô hình, có cấu trúc tương tự DeepSeek-V3
Dùng GQA, nhưng số expert MoE và hidden size khác nhau
- DeepSeek-V3: 9 expert (2,048), Llama 4: 2 expert (8,192), tham số active là 17B (DeepSeek là 37B)
Thiết kế MoE cổ điển với việc xen kẽ các khối MoE và Dense
Cho thấy MoE đang trở nên phổ biến trong các LLM gần đây

6. Qwen3

Cung cấp cả phiên bản Dense với nhiều kích cỡ (0.6B~32B) và MoE (30B-A3B, 235B-A22B)
Bản nhỏ (0.6B) có hiệu quả huấn luyện, suy luận và token throughput rất tốt. Đạt hiệu năng nổi bật trong nhóm LLM siêu nhẹ, đồng thời rất hiệu quả về bộ nhớ và thuận tiện cho huấn luyện
Dense: nhiều layer hơn, dùng ít bộ nhớ hơn, nhưng chậm hơn (so với Llama 3 1B)
MoE: Qwen3 235B-A22B có 22B active param, không dùng shared expert (Qwen2.5-MoE trước đó có shared expert), nên hiệu quả tăng lên
Qwen3 235B-A22B và DeepSeek-V3 rất giống nhau về cấu trúc tổng thể
Việc cung cấp cả Dense lẫn MoE giúp đáp ứng nhiều mục đích sử dụng khác nhau

7. SmolLM3

Mô hình nhỏ cỡ 3B tham số, cạnh tranh với Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
Kiến trúc nhìn chung tiêu chuẩn nhưng áp dụng NoPE (No Positional Embedding)
- Không dùng positional encoding như RoPE mà chỉ tận dụng causal mask
- Cải thiện khả năng khái quát theo độ dài (Length Generalization) trên chuỗi dài
- Cấu trúc mang tính thử nghiệm, chỉ áp dụng ở một số layer

8. Kimi 2

Mô hình mở quy mô lớn 1 nghìn tỷ tham số, hiện là mô hình mở có quy mô lớn nhất
Dựa trên cấu trúc của DeepSeek-V3, mở rộng số layer MoE và điều chỉnh số head của MLA
Dùng Muon optimizer thay cho AdamW trong huấn luyện để tăng hiệu quả, với loss decay tốt hơn
Có nhiều expert MoE hơn DeepSeek-V3, nhưng số head MLA ít hơn
Kế thừa kinh nghiệm từ Kimi 1.5, Kimi 2 đã công bố open-weight và đạt hiệu năng hàng đầu

Kết luận và xu hướng

Các LLM gần đây vẫn giữ nguyên cấu trúc nền tảng, nhưng nổi bật ở mở rộng quy mô kiến trúc, áp dụng MoE và nhiều cơ chế tối ưu hiệu quả khác
Với các mô hình mở, việc công khai dữ liệu, thiết kế và mã nguồn giúp gia tăng giá trị cho nghiên cứu cũng như ứng dụng công nghiệp
Dense và MoE, MLA·GQA·Sliding Window Attention, cùng nhiều chiến lược normalization khác nhau cho thấy mỗi mô hình có một định hướng tối ưu riêng
Đây là giai đoạn mà lựa chọn kiến trúc trở nên đa dạng hơn tùy theo môi trường phần cứng, mục đích sử dụng, cũng như hiệu quả huấn luyện và suy luận

2 bình luận

tensun 2025-07-22

Có vẻ như qwen xử lý tiếng Hàn khá tốt.

GN⁺ 2025-07-21

Ý kiến trên Hacker News

Bài viết này có mức độ trừu tượng và phần giải thích chi tiết rất lý tưởng để học về kiến trúc LLM, nên tôi đã tiếp thu được nhiều thông tin dễ dàng hơn rất nhiều so với việc đọc trực tiếp các bài báo gốc
Với những người đang ở khoảng giữa người mới bắt đầu và chuyên gia, các sơ đồ trong bài này tạo ấn tượng rất mạnh; việc các mô hình mới nhất được tổng hợp trong một cái nhìn duy nhất thực sự rất hữu ích
Liên quan đến chủ đề này, cũng đáng tham khảo bài viết giải thích DeepSeek đã cải tiến kiến trúc transformer như thế nào, cùng với một số phần trong bài phân tích về siêu trí tuệ của Meta
Với những người như tôi không theo kịp xu hướng mới nhất, các bài tổng hợp kiểu này thực sự là một cách catch-up rất đáng mừng
Sau này tôi hy vọng sẽ có phần 2, bao gồm cả những tin đồn về các mô hình frontier mã nguồn đóng như o5, o3 Pro, o4 hoặc 4.5, Gemini 2.5 Pro, Grok 4, Claude Opus 4
Cảm ơn vì đã tổng hợp chi tiết sự khác biệt giữa các kiến trúc LLM khác nhau; nhờ vậy nội dung vừa dễ hiểu vừa mang tính giáo dục
Thành thật mà nói, so với thời GPT-2 (2019), tốc độ phát triển hiện nay gần như khó tin; giờ đây ngay cả việc so sánh hiệu năng LLM một cách chuẩn xác cũng đã khó, vì cứ mỗi 2 tuần lại có một mô hình mới lập kỷ lục benchmark. Tôi cũng vui vì DeepSeek được nhắc đến; đổi mới kiến trúc được đưa vào V3 đã cải thiện đáng kể hiệu quả tính toán, và đó là điểm mang tính quyết định khiến nó không còn thua kém các mô hình khác vào thời điểm đó
Dù nhiều kiến trúc mới đã tạo ra không ít đổi mới về độ chính xác hoặc tốc độ, vấn đề cốt lõi là đảm bảo tạo ra thông tin chính xác vẫn chưa được giải quyết. Các cách tiếp cận như Retrieval Augmented Generation (RAG) hay agent có cải thiện vấn đề này, nhưng tôi cũng tự hỏi liệu các kiến trúc trong tương lai cuối cùng có thể thay thế những cách làm đó hay không
- Về bản chất, transformer được huấn luyện với mục tiêu dự đoán văn bản, và cách này có giới hạn trong việc nhúng tính logic. Nếu muốn tiếp tục giảm hiện tượng hallucination, tôi nghĩ cần một mục tiêu huấn luyện hoàn toàn khác
- Mô hình không thể phân biệt khi nào có thể khái quát hóa và khi nào cần thêm thông tin. Ví dụ, nó khó phân biệt vì sao một method tồn tại còn một hàm tương tự khác thì không. Hồi nhỏ tôi từng gọi mẹ mình là một cooker rất giỏi, vì khi đó tôi không biết rằng con người và máy móc dùng các từ khác nhau. Tôi cảm thấy kiểu khái quát hóa giữa các từ tương tự này cũng đang xảy ra với mô hình
- Các kiến trúc gần đây như DeepSeek-V2 và Llama 3.1 cho thấy chỉ riêng các cải tiến trong thiết kế cũng có thể nâng cao factuality khá rõ rệt. Đặc biệt, nền tảng của điều này là cơ chế attention và các mục tiêu huấn luyện chuyên để kiềm chế hallucination
- RAG (trả lời dựa trên truy xuất) có cấu trúc đơn giản và cũng dễ triển khai, nhưng tôi luôn thắc mắc vì sao đến giờ nó vẫn chưa được tích hợp sẵn vào LLM cơ bản. Việc nó không thể được tích hợp trực tiếp vào bên trong mô hình dường như là một bằng chứng phản ánh những giới hạn căn bản của RAG và các biến thể của nó. Nếu đó thực sự là một cách làm hiệu quả, tôi nghĩ nó đã được đưa vào như một tính năng cốt lõi của kiến trúc chứ không phải phần bổ sung bên ngoài
Tôi đã bảo Claude đọc nguyên văn bài viết rồi thử đề xuất một kiến trúc mới
Liên kết tới kết quả của Claude
Nhưng tôi cũng không rõ kết quả đó có thực sự dùng được hay không

So sánh kiến trúc của các LLM lớn

Giới thiệu

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

Kết luận và xu hướng

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News