- Một thư viện trực tuyến tổng hợp sơ đồ kiến trúc và thông số cốt lõi của các mô hình ngôn ngữ lớn (LLM) mới nhất, bao gồm các mô hình tiêu biểu được công bố trong giai đoạn 2024~2026
- Mỗi mô hình được trình bày dưới dạng bảng tóm tắt quy mô tham số, loại decoder, cơ chế attention, các điểm thiết kế chính
- Tài liệu được trích từ hai bài phân tích so sánh của Sebastian Raschka là ‘The Big LLM Architecture Comparison’ và ‘A Dream of Spring for Open-Weight LLMs’
- Người dùng có thể nhấp vào tên mô hình để chuyển tới phần giải thích chi tiết tương ứng, hoặc nhấp vào hình ảnh để phóng to sơ đồ kiến trúc độ phân giải cao (182 megapixel)
- Đây là cơ sở dữ liệu kiến trúc dùng để tham khảo dành cho các nhà nghiên cứu và nhà phát triển LLM open-weight, cho phép theo dõi quá trình tiến hóa của các kiến trúc MoE·Hybrid·Dense mới nhất tại một nơi duy nhất
Tổng quan
- Trang này là một thư viện tập hợp sơ đồ kiến trúc LLM và bảng thông tin, được biên soạn bằng cách trích riêng các biểu đồ từ hai bài so sánh quan trọng của Raschka
- Nguồn bài gốc: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- Mỗi mục mô hình gồm tên mô hình, số lượng tham số, ngày công bố, loại decoder, cơ chế attention, đặc điểm thiết kế chính, liên kết tới các khái niệm liên quan
- Nếu phát hiện thông tin sai hoặc lỗi liên kết, có thể báo qua GitHub issue tracker
- Do có nhiều yêu cầu, trang cũng cung cấp phiên bản poster (PNG 56MB) với độ phân giải 14570×12490 thông qua Zazzle
Ví dụ các mô hình tiêu biểu
Llama 3 8B
- Mô hình dựa trên Dense decoder với 8 tỷ tham số, là stack tham chiếu để so sánh các lựa chọn chuẩn hóa và attention của OLMo 2
- Sử dụng attention GQA + RoPE, duy trì kiến trúc Pre-norm
- Công bố ngày 18 tháng 4 năm 2024
OLMo 2 7B
- Mô hình Dense với 7 tỷ tham số, sử dụng attention MHA + QK-Norm
- Kiến trúc Inside-residual post-norm giúp cải thiện độ ổn định khi huấn luyện
- Công bố ngày 25 tháng 11 năm 2024
DeepSeek V3
- Mô hình Sparse MoE với tổng cộng 671 tỷ tham số, trong đó 37 tỷ được kích hoạt
- Kết hợp attention MLA với kiến trúc shared expert
- Là mẫu kiến trúc tiêu biểu đã châm ngòi cho làn sóng bùng nổ của các mô hình open MoE quy mô lớn
DeepSeek R1
- Phiên bản chuyên cho suy luận (reasoning) dựa trên DeepSeek V3, giữ nguyên cùng kiến trúc
- Công bố ngày 20 tháng 1 năm 2025, sử dụng kiến trúc Sparse MoE dựa trên MLA
Gemma 3 27B
- Mô hình Dense với 27 tỷ tham số, sử dụng GQA + QK-Norm và sliding-window/global attention tỉ lệ 5:1
- Nổi bật với việc mở rộng từ vựng đa ngôn ngữ và tăng cường local attention
- Công bố ngày 11 tháng 3 năm 2025
Mở rộng kiến trúc MoE và Hybrid
Llama 4 Maverick
- Mô hình Sparse MoE của Meta, dựa trên kiến trúc DeepSeek V3 nhưng áp dụng attention GQA truyền thống
- Trong tổng số 400 tỷ tham số, có 17 tỷ được kích hoạt
- Bố trí xen kẽ các khối Dense và MoE, giảm số lượng expert và mở rộng quy mô
Qwen3 235B-A22B
- Kiến trúc Sparse MoE tương tự DeepSeek V3 nhưng loại bỏ shared expert
- Trong tổng số 235 tỷ tham số, có 22 tỷ được kích hoạt, sử dụng GQA + QK-Norm
- Công bố ngày 28 tháng 4 năm 2025
Kimi K2
- Mô hình Sparse MoE quy mô 1 nghìn tỷ tham số, mở rộng từ DeepSeek V3
- Sử dụng attention MLA, tăng số lượng expert và giảm số lượng head MLA
- Công bố ngày 10 tháng 7 năm 2025
GLM-4.5 355B
- Mô hình Sparse MoE hướng tác tử (agent-oriented), áp dụng kiến trúc Dense-prefix MoE của DeepSeek
- Trong tổng số 355 tỷ tham số, có 32 tỷ được kích hoạt, sử dụng GQA + QK-Norm
- Công bố ngày 28 tháng 7 năm 2025
GPT-OSS 20B / 120B
- Dòng MoE open-weight của OpenAI, sử dụng cross-attention sliding-window/global dựa trên GQA
- Mô hình 20B có cấu trúc nông và rộng, mô hình 120B mở rộng cùng thiết kế đó
- Công bố ngày 4 tháng 8 năm 2025
Kiến trúc Hybrid và thế hệ tiếp theo
Qwen3 Next 80B-A3B
- Mô hình Sparse Hybrid dùng attention lai Gated DeltaNet + Gated Attention
- Trong tổng số 80 tỷ tham số, có 3 tỷ được kích hoạt, hỗ trợ ngữ cảnh 262k
- Công bố ngày 9 tháng 9 năm 2025
Kimi Linear 48B-A3B
- Kiến trúc lai kết hợp Linear Attention + MLA
- Áp dụng NoPE và gating theo từng kênh để tăng hiệu quả với ngữ cảnh dài
- Công bố ngày 30 tháng 10 năm 2025
Nemotron 3 Nano / Super
- Mô hình Transformer-State-Space Hybrid của NVIDIA
- Nano (30B) dùng Mamba-2 + MoE, Super (120B) bổ sung LatentMoE + MTP
- Lần lượt công bố vào ngày 4 tháng 12 năm 2025 và 11 tháng 3 năm 2026
Ling 2.5 1T
- Mô hình Sparse Hybrid với 1 nghìn tỷ tham số, kết hợp Lightning Attention + MLA
- Có 63 tỷ tham số hoạt động, với cấu hình attention tuyến tính/MLA theo tỉ lệ 7:1
- Công bố ngày 15 tháng 2 năm 2026
Các mô hình open-weight mới nhất
Qwen3.5 397B
- Mô hình chủ lực kế thừa attention lai của Qwen3 Next
- Trong tổng số 397 tỷ tham số, có 17 tỷ được kích hoạt, cấu hình 512 expert
- Công bố ngày 16 tháng 2 năm 2026
Sarvam 30B / 105B
- Mô hình Sparse MoE tập trung hỗ trợ các ngôn ngữ Ấn Độ
- 30B dùng GQA + QK-Norm, 105B dùng MLA + NoPE + RoPE
- Công bố ngày 3 tháng 3 năm 2026
Bài viết tham khảo
- The Big LLM Architecture Comparison: giải thích các khác biệt trong thiết kế của kiến trúc decoder Dense, MoE, MLA, Hybrid
- A Dream of Spring for Open-Weight LLMs: phân tích bổ sung các mô hình open-weight như MiniMax, Qwen, Ling, Sarvam được công bố vào đầu năm 2026
2 bình luận
Thú vị đấy.
Bình luận trên Hacker News
Thật thú vị khi thấy sau nhiều năm thử nghiệm, các mô hình open-weight cuối cùng đã hội tụ về một hình dạng khá giống nhau
Đã từng có nhiều hướng thử nghiệm như MoE routing, state-space model, linear attention, nhưng hiện tại đã ổn định quanh cấu trúc dense decoder-only transformer kết hợp RMSNorm, rotary position embedding, SwiGLU và grouped-query attention
Giờ đây, điểm khác biệt cốt lõi đã chuyển sang công thức huấn luyện và pipeline dữ liệu
Đổi mới thực sự của DeepSeek-R1 không nằm ở kiến trúc mà là reinforcement learning cho chuỗi suy luận, còn Llama 3 thì kiến trúc hầu như giữ nguyên nhưng dữ liệu và quy trình hậu xử lý đã được làm mới hoàn toàn
Điều này giống với xu hướng trong thiết kế chip, nơi quy trình sản xuất bán dẫn và vi kiến trúc trở nên quan trọng hơn ISA
Bài của Sebastian lúc nào cũng đáng đọc
Rất khuyến nghị cuốn Build an LLM From Scratch của anh ấy. Nhờ cuốn sách đó tôi mới thực sự hiểu rõ cơ chế Transformer
Nhìn vào LLM Architecture Gallery thì khác biệt giữa các mô hình quả thật rất thú vị, nhưng trong 7 năm qua kể từ GPT-2, gần như không có đột phá nền tảng nào
Các mô hình open-weight ngày nay, nếu nhìn từ xa, vẫn là cấu trúc lặp của attention + feed-forward layer tương tự GPT-2
Những bước tiến nhảy vọt gần đây đến từ scaling và các kỹ thuật huấn luyện mới (RLVR, v.v.), và điều này có vẻ là thêm một ví dụ nữa của Bitter Lesson
Hình trực quan hóa này thật sự rất đẹp. Nó làm tôi nhớ đến Neural Network Zoo mà tôi từng xem trước đây
Cũng như dự án đó từng cho phép nhìn toàn cảnh nhiều kiến trúc mạng nơ-ron, lần này cũng thể hiện rất tốt sự đa dạng của các kiến trúc
Công việc rất xuất sắc
Tôi hơi tò mò không biết có tiêu chí sắp xếp nào không. Sẽ còn hay hơn nếu có thể xem dòng tiến hóa hay phả hệ đổi mới dưới dạng cây gia phả
Ngoài ra, nếu trực quan hóa sự thay đổi về kích thước mô hình theo tỷ lệ, có lẽ sẽ cảm nhận được tốc độ phát triển một cách trực quan hơn
Thật sự rất tuyệt. Cảm ơn vì đã chia sẻ
Có thể xem bản có thể phóng to tại đây
Với tư cách là một nhà thống kê, tôi luôn mong muốn có một cách hiểu mang tính mô-đun, nối từ khái niệm “mạng nơ-ron xấp xỉ hàm số” đến kỹ thuật xây dựng mô hình machine learning thực tế
Tài liệu này cho tôi cảm giác đang lấp đầy khoảng trống đó
Tôi tò mò không biết sơ đồ này được vẽ bằng công cụ nào
Một bộ sưu tập thú vị
Khi thực sự so sánh các mẫu prompt, khác biệt về kiến trúc đôi khi bộc lộ theo những cách bất ngờ
Ví dụ, cửa sổ ngữ cảnh dài không chỉ đơn thuần là xử lý được nhiều văn bản hơn mà còn khiến cách thiết kế cấu trúc đầu vào thay đổi hẳn
Tôi tò mò mô hình nào là đơn giản nhất về mặt cấu trúc mà vẫn còn đủ sức cạnh tranh
Trong vài năm gần đây hầu như không có đổi mới kiến trúc đáng kể nào; phần lớn thay đổi là để cải thiện hiệu quả huấn luyện
Mô hình Transformer là kết quả của quá trình phát triển dần dần dựa trên sự tích lũy của vô số nghiên cứu đi trước
Tôi đã bấm vào vì tưởng đây sẽ là câu chuyện về việc LLM thiết kế nhà chọc trời, đập nước hay cầu
Tôi còn chuẩn bị cả bỏng ngô rồi, hơi tiếc một chút