Thư viện kiến trúc LLM

(sebastianraschka.com)

50 điểm bởi GN⁺ 2026-03-16 | 2 bình luận | Chia sẻ qua WhatsApp

Một thư viện trực tuyến tổng hợp sơ đồ kiến trúc và thông số cốt lõi của các mô hình ngôn ngữ lớn (LLM) mới nhất, bao gồm các mô hình tiêu biểu được công bố trong giai đoạn 2024~2026
Mỗi mô hình được trình bày dưới dạng bảng tóm tắt quy mô tham số, loại decoder, cơ chế attention, các điểm thiết kế chính
Tài liệu được trích từ hai bài phân tích so sánh của Sebastian Raschka là ‘The Big LLM Architecture Comparison’ và ‘A Dream of Spring for Open-Weight LLMs’
Người dùng có thể nhấp vào tên mô hình để chuyển tới phần giải thích chi tiết tương ứng, hoặc nhấp vào hình ảnh để phóng to sơ đồ kiến trúc độ phân giải cao (182 megapixel)
Đây là cơ sở dữ liệu kiến trúc dùng để tham khảo dành cho các nhà nghiên cứu và nhà phát triển LLM open-weight, cho phép theo dõi quá trình tiến hóa của các kiến trúc MoE·Hybrid·Dense mới nhất tại một nơi duy nhất

Tổng quan

Trang này là một thư viện tập hợp sơ đồ kiến trúc LLM và bảng thông tin, được biên soạn bằng cách trích riêng các biểu đồ từ hai bài so sánh quan trọng của Raschka
- Nguồn bài gốc: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Mỗi mục mô hình gồm tên mô hình, số lượng tham số, ngày công bố, loại decoder, cơ chế attention, đặc điểm thiết kế chính, liên kết tới các khái niệm liên quan
Nếu phát hiện thông tin sai hoặc lỗi liên kết, có thể báo qua GitHub issue tracker
Do có nhiều yêu cầu, trang cũng cung cấp phiên bản poster (PNG 56MB) với độ phân giải 14570×12490 thông qua Zazzle

Ví dụ các mô hình tiêu biểu

Llama 3 8B

Mô hình dựa trên Dense decoder với 8 tỷ tham số, là stack tham chiếu để so sánh các lựa chọn chuẩn hóa và attention của OLMo 2
Sử dụng attention GQA + RoPE, duy trì kiến trúc Pre-norm
Công bố ngày 18 tháng 4 năm 2024

OLMo 2 7B

Mô hình Dense với 7 tỷ tham số, sử dụng attention MHA + QK-Norm
Kiến trúc Inside-residual post-norm giúp cải thiện độ ổn định khi huấn luyện
Công bố ngày 25 tháng 11 năm 2024

DeepSeek V3

Mô hình Sparse MoE với tổng cộng 671 tỷ tham số, trong đó 37 tỷ được kích hoạt
Kết hợp attention MLA với kiến trúc shared expert
Là mẫu kiến trúc tiêu biểu đã châm ngòi cho làn sóng bùng nổ của các mô hình open MoE quy mô lớn

DeepSeek R1

Phiên bản chuyên cho suy luận (reasoning) dựa trên DeepSeek V3, giữ nguyên cùng kiến trúc
Công bố ngày 20 tháng 1 năm 2025, sử dụng kiến trúc Sparse MoE dựa trên MLA

Gemma 3 27B

Mô hình Dense với 27 tỷ tham số, sử dụng GQA + QK-Norm và sliding-window/global attention tỉ lệ 5:1
Nổi bật với việc mở rộng từ vựng đa ngôn ngữ và tăng cường local attention
Công bố ngày 11 tháng 3 năm 2025

Mở rộng kiến trúc MoE và Hybrid

Llama 4 Maverick

Mô hình Sparse MoE của Meta, dựa trên kiến trúc DeepSeek V3 nhưng áp dụng attention GQA truyền thống
Trong tổng số 400 tỷ tham số, có 17 tỷ được kích hoạt
Bố trí xen kẽ các khối Dense và MoE, giảm số lượng expert và mở rộng quy mô

Qwen3 235B-A22B

Kiến trúc Sparse MoE tương tự DeepSeek V3 nhưng loại bỏ shared expert
Trong tổng số 235 tỷ tham số, có 22 tỷ được kích hoạt, sử dụng GQA + QK-Norm
Công bố ngày 28 tháng 4 năm 2025

Kimi K2

Mô hình Sparse MoE quy mô 1 nghìn tỷ tham số, mở rộng từ DeepSeek V3
Sử dụng attention MLA, tăng số lượng expert và giảm số lượng head MLA
Công bố ngày 10 tháng 7 năm 2025

GLM-4.5 355B

Mô hình Sparse MoE hướng tác tử (agent-oriented), áp dụng kiến trúc Dense-prefix MoE của DeepSeek
Trong tổng số 355 tỷ tham số, có 32 tỷ được kích hoạt, sử dụng GQA + QK-Norm
Công bố ngày 28 tháng 7 năm 2025

GPT-OSS 20B / 120B

Dòng MoE open-weight của OpenAI, sử dụng cross-attention sliding-window/global dựa trên GQA
Mô hình 20B có cấu trúc nông và rộng, mô hình 120B mở rộng cùng thiết kế đó
Công bố ngày 4 tháng 8 năm 2025

Kiến trúc Hybrid và thế hệ tiếp theo

Qwen3 Next 80B-A3B

Mô hình Sparse Hybrid dùng attention lai Gated DeltaNet + Gated Attention
Trong tổng số 80 tỷ tham số, có 3 tỷ được kích hoạt, hỗ trợ ngữ cảnh 262k
Công bố ngày 9 tháng 9 năm 2025

Kimi Linear 48B-A3B

Kiến trúc lai kết hợp Linear Attention + MLA
Áp dụng NoPE và gating theo từng kênh để tăng hiệu quả với ngữ cảnh dài
Công bố ngày 30 tháng 10 năm 2025

Nemotron 3 Nano / Super

Mô hình Transformer-State-Space Hybrid của NVIDIA
Nano (30B) dùng Mamba-2 + MoE, Super (120B) bổ sung LatentMoE + MTP
Lần lượt công bố vào ngày 4 tháng 12 năm 2025 và 11 tháng 3 năm 2026

Ling 2.5 1T

Mô hình Sparse Hybrid với 1 nghìn tỷ tham số, kết hợp Lightning Attention + MLA
Có 63 tỷ tham số hoạt động, với cấu hình attention tuyến tính/MLA theo tỉ lệ 7:1
Công bố ngày 15 tháng 2 năm 2026

Các mô hình open-weight mới nhất

Qwen3.5 397B

Mô hình chủ lực kế thừa attention lai của Qwen3 Next
Trong tổng số 397 tỷ tham số, có 17 tỷ được kích hoạt, cấu hình 512 expert
Công bố ngày 16 tháng 2 năm 2026

Sarvam 30B / 105B

Mô hình Sparse MoE tập trung hỗ trợ các ngôn ngữ Ấn Độ
30B dùng GQA + QK-Norm, 105B dùng MLA + NoPE + RoPE
Công bố ngày 3 tháng 3 năm 2026

Bài viết tham khảo

The Big LLM Architecture Comparison: giải thích các khác biệt trong thiết kế của kiến trúc decoder Dense, MoE, MLA, Hybrid
A Dream of Spring for Open-Weight LLMs: phân tích bổ sung các mô hình open-weight như MiniMax, Qwen, Ling, Sarvam được công bố vào đầu năm 2026

2 bình luận

orange 2026-03-17

Thú vị đấy.

GN⁺ 2026-03-16

Bình luận trên Hacker News

Thật thú vị khi thấy sau nhiều năm thử nghiệm, các mô hình open-weight cuối cùng đã hội tụ về một hình dạng khá giống nhau
Đã từng có nhiều hướng thử nghiệm như MoE routing, state-space model, linear attention, nhưng hiện tại đã ổn định quanh cấu trúc dense decoder-only transformer kết hợp RMSNorm, rotary position embedding, SwiGLU và grouped-query attention
Giờ đây, điểm khác biệt cốt lõi đã chuyển sang công thức huấn luyện và pipeline dữ liệu
Đổi mới thực sự của DeepSeek-R1 không nằm ở kiến trúc mà là reinforcement learning cho chuỗi suy luận, còn Llama 3 thì kiến trúc hầu như giữ nguyên nhưng dữ liệu và quy trình hậu xử lý đã được làm mới hoàn toàn
Điều này giống với xu hướng trong thiết kế chip, nơi quy trình sản xuất bán dẫn và vi kiến trúc trở nên quan trọng hơn ISA
Bài của Sebastian lúc nào cũng đáng đọc
Rất khuyến nghị cuốn Build an LLM From Scratch của anh ấy. Nhờ cuốn sách đó tôi mới thực sự hiểu rõ cơ chế Transformer
Nhìn vào LLM Architecture Gallery thì khác biệt giữa các mô hình quả thật rất thú vị, nhưng trong 7 năm qua kể từ GPT-2, gần như không có đột phá nền tảng nào
Các mô hình open-weight ngày nay, nếu nhìn từ xa, vẫn là cấu trúc lặp của attention + feed-forward layer tương tự GPT-2
Những bước tiến nhảy vọt gần đây đến từ scaling và các kỹ thuật huấn luyện mới (RLVR, v.v.), và điều này có vẻ là thêm một ví dụ nữa của Bitter Lesson
Hình trực quan hóa này thật sự rất đẹp. Nó làm tôi nhớ đến Neural Network Zoo mà tôi từng xem trước đây
Cũng như dự án đó từng cho phép nhìn toàn cảnh nhiều kiến trúc mạng nơ-ron, lần này cũng thể hiện rất tốt sự đa dạng của các kiến trúc
Công việc rất xuất sắc
Tôi hơi tò mò không biết có tiêu chí sắp xếp nào không. Sẽ còn hay hơn nếu có thể xem dòng tiến hóa hay phả hệ đổi mới dưới dạng cây gia phả
Ngoài ra, nếu trực quan hóa sự thay đổi về kích thước mô hình theo tỷ lệ, có lẽ sẽ cảm nhận được tốc độ phát triển một cách trực quan hơn
- Có thể tham khảo bài viết này như một tài liệu cho thấy quá trình tiến hóa của dòng DeepSeek
Thật sự rất tuyệt. Cảm ơn vì đã chia sẻ
Có thể xem bản có thể phóng to tại đây
Với tư cách là một nhà thống kê, tôi luôn mong muốn có một cách hiểu mang tính mô-đun, nối từ khái niệm “mạng nơ-ron xấp xỉ hàm số” đến kỹ thuật xây dựng mô hình machine learning thực tế
Tài liệu này cho tôi cảm giác đang lấp đầy khoảng trống đó
Tôi tò mò không biết sơ đồ này được vẽ bằng công cụ nào
Một bộ sưu tập thú vị
Khi thực sự so sánh các mẫu prompt, khác biệt về kiến trúc đôi khi bộc lộ theo những cách bất ngờ
Ví dụ, cửa sổ ngữ cảnh dài không chỉ đơn thuần là xử lý được nhiều văn bản hơn mà còn khiến cách thiết kế cấu trúc đầu vào thay đổi hẳn
Tôi tò mò mô hình nào là đơn giản nhất về mặt cấu trúc mà vẫn còn đủ sức cạnh tranh
- Tính cạnh tranh đến từ quy mô, dữ liệu và dữ liệu fine-tuning nhiều hơn là từ kiến trúc
  Trong vài năm gần đây hầu như không có đổi mới kiến trúc đáng kể nào; phần lớn thay đổi là để cải thiện hiệu quả huấn luyện
- Nếu định nghĩa “cạnh tranh” theo nghĩa rộng hơn, thì thậm chí Markov chain cũng có thể tự triển khai được
  Mô hình Transformer là kết quả của quá trình phát triển dần dần dựa trên sự tích lũy của vô số nghiên cứu đi trước
Tôi đã bấm vào vì tưởng đây sẽ là câu chuyện về việc LLM thiết kế nhà chọc trời, đập nước hay cầu
Tôi còn chuẩn bị cả bỏng ngô rồi, hơi tiếc một chút

Thư viện kiến trúc LLM

Tổng quan

Ví dụ các mô hình tiêu biểu

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

Mở rộng kiến trúc MoE và Hybrid

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Kiến trúc Hybrid và thế hệ tiếp theo

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

Các mô hình open-weight mới nhất

Qwen3.5 397B

Sarvam 30B / 105B

Bài viết tham khảo

Bài viết liên quan

2 bình luận

Bình luận trên Hacker News