50 điểm bởi GN⁺ 2026-03-16 | 2 bình luận | Chia sẻ qua WhatsApp
  • Một thư viện trực tuyến tổng hợp sơ đồ kiến trúc và thông số cốt lõi của các mô hình ngôn ngữ lớn (LLM) mới nhất, bao gồm các mô hình tiêu biểu được công bố trong giai đoạn 2024~2026
  • Mỗi mô hình được trình bày dưới dạng bảng tóm tắt quy mô tham số, loại decoder, cơ chế attention, các điểm thiết kế chính
  • Tài liệu được trích từ hai bài phân tích so sánh của Sebastian Raschka là ‘The Big LLM Architecture Comparison’‘A Dream of Spring for Open-Weight LLMs’
  • Người dùng có thể nhấp vào tên mô hình để chuyển tới phần giải thích chi tiết tương ứng, hoặc nhấp vào hình ảnh để phóng to sơ đồ kiến trúc độ phân giải cao (182 megapixel)
  • Đây là cơ sở dữ liệu kiến trúc dùng để tham khảo dành cho các nhà nghiên cứu và nhà phát triển LLM open-weight, cho phép theo dõi quá trình tiến hóa của các kiến trúc MoE·Hybrid·Dense mới nhất tại một nơi duy nhất

Tổng quan

  • Trang này là một thư viện tập hợp sơ đồ kiến trúc LLM và bảng thông tin, được biên soạn bằng cách trích riêng các biểu đồ từ hai bài so sánh quan trọng của Raschka
    • Nguồn bài gốc: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • Mỗi mục mô hình gồm tên mô hình, số lượng tham số, ngày công bố, loại decoder, cơ chế attention, đặc điểm thiết kế chính, liên kết tới các khái niệm liên quan
  • Nếu phát hiện thông tin sai hoặc lỗi liên kết, có thể báo qua GitHub issue tracker
  • Do có nhiều yêu cầu, trang cũng cung cấp phiên bản poster (PNG 56MB) với độ phân giải 14570×12490 thông qua Zazzle

Ví dụ các mô hình tiêu biểu

Llama 3 8B

  • Mô hình dựa trên Dense decoder với 8 tỷ tham số, là stack tham chiếu để so sánh các lựa chọn chuẩn hóa và attention của OLMo 2
  • Sử dụng attention GQA + RoPE, duy trì kiến trúc Pre-norm
  • Công bố ngày 18 tháng 4 năm 2024

OLMo 2 7B

  • Mô hình Dense với 7 tỷ tham số, sử dụng attention MHA + QK-Norm
  • Kiến trúc Inside-residual post-norm giúp cải thiện độ ổn định khi huấn luyện
  • Công bố ngày 25 tháng 11 năm 2024

DeepSeek V3

  • Mô hình Sparse MoE với tổng cộng 671 tỷ tham số, trong đó 37 tỷ được kích hoạt
  • Kết hợp attention MLA với kiến trúc shared expert
  • Là mẫu kiến trúc tiêu biểu đã châm ngòi cho làn sóng bùng nổ của các mô hình open MoE quy mô lớn

DeepSeek R1

  • Phiên bản chuyên cho suy luận (reasoning) dựa trên DeepSeek V3, giữ nguyên cùng kiến trúc
  • Công bố ngày 20 tháng 1 năm 2025, sử dụng kiến trúc Sparse MoE dựa trên MLA

Gemma 3 27B

  • Mô hình Dense với 27 tỷ tham số, sử dụng GQA + QK-Normsliding-window/global attention tỉ lệ 5:1
  • Nổi bật với việc mở rộng từ vựng đa ngôn ngữ và tăng cường local attention
  • Công bố ngày 11 tháng 3 năm 2025

Mở rộng kiến trúc MoE và Hybrid

Llama 4 Maverick

  • Mô hình Sparse MoE của Meta, dựa trên kiến trúc DeepSeek V3 nhưng áp dụng attention GQA truyền thống
  • Trong tổng số 400 tỷ tham số, có 17 tỷ được kích hoạt
  • Bố trí xen kẽ các khối Dense và MoE, giảm số lượng expert và mở rộng quy mô

Qwen3 235B-A22B

  • Kiến trúc Sparse MoE tương tự DeepSeek V3 nhưng loại bỏ shared expert
  • Trong tổng số 235 tỷ tham số, có 22 tỷ được kích hoạt, sử dụng GQA + QK-Norm
  • Công bố ngày 28 tháng 4 năm 2025

Kimi K2

  • Mô hình Sparse MoE quy mô 1 nghìn tỷ tham số, mở rộng từ DeepSeek V3
  • Sử dụng attention MLA, tăng số lượng expert và giảm số lượng head MLA
  • Công bố ngày 10 tháng 7 năm 2025

GLM-4.5 355B

  • Mô hình Sparse MoE hướng tác tử (agent-oriented), áp dụng kiến trúc Dense-prefix MoE của DeepSeek
  • Trong tổng số 355 tỷ tham số, có 32 tỷ được kích hoạt, sử dụng GQA + QK-Norm
  • Công bố ngày 28 tháng 7 năm 2025

GPT-OSS 20B / 120B

  • Dòng MoE open-weight của OpenAI, sử dụng cross-attention sliding-window/global dựa trên GQA
  • Mô hình 20B có cấu trúc nông và rộng, mô hình 120B mở rộng cùng thiết kế đó
  • Công bố ngày 4 tháng 8 năm 2025

Kiến trúc Hybrid và thế hệ tiếp theo

Qwen3 Next 80B-A3B

  • Mô hình Sparse Hybrid dùng attention lai Gated DeltaNet + Gated Attention
  • Trong tổng số 80 tỷ tham số, có 3 tỷ được kích hoạt, hỗ trợ ngữ cảnh 262k
  • Công bố ngày 9 tháng 9 năm 2025

Kimi Linear 48B-A3B

  • Kiến trúc lai kết hợp Linear Attention + MLA
  • Áp dụng NoPEgating theo từng kênh để tăng hiệu quả với ngữ cảnh dài
  • Công bố ngày 30 tháng 10 năm 2025

Nemotron 3 Nano / Super

  • Mô hình Transformer-State-Space Hybrid của NVIDIA
  • Nano (30B) dùng Mamba-2 + MoE, Super (120B) bổ sung LatentMoE + MTP
  • Lần lượt công bố vào ngày 4 tháng 12 năm 2025 và 11 tháng 3 năm 2026

Ling 2.5 1T

  • Mô hình Sparse Hybrid với 1 nghìn tỷ tham số, kết hợp Lightning Attention + MLA
  • Có 63 tỷ tham số hoạt động, với cấu hình attention tuyến tính/MLA theo tỉ lệ 7:1
  • Công bố ngày 15 tháng 2 năm 2026

Các mô hình open-weight mới nhất

Qwen3.5 397B

  • Mô hình chủ lực kế thừa attention lai của Qwen3 Next
  • Trong tổng số 397 tỷ tham số, có 17 tỷ được kích hoạt, cấu hình 512 expert
  • Công bố ngày 16 tháng 2 năm 2026

Sarvam 30B / 105B

  • Mô hình Sparse MoE tập trung hỗ trợ các ngôn ngữ Ấn Độ
  • 30B dùng GQA + QK-Norm, 105B dùng MLA + NoPE + RoPE
  • Công bố ngày 3 tháng 3 năm 2026

Bài viết tham khảo

  • The Big LLM Architecture Comparison: giải thích các khác biệt trong thiết kế của kiến trúc decoder Dense, MoE, MLA, Hybrid
  • A Dream of Spring for Open-Weight LLMs: phân tích bổ sung các mô hình open-weight như MiniMax, Qwen, Ling, Sarvam được công bố vào đầu năm 2026

2 bình luận

 
orange 2026-03-17

Thú vị đấy.

 
GN⁺ 2026-03-16
Bình luận trên Hacker News
  • Thật thú vị khi thấy sau nhiều năm thử nghiệm, các mô hình open-weight cuối cùng đã hội tụ về một hình dạng khá giống nhau
    Đã từng có nhiều hướng thử nghiệm như MoE routing, state-space model, linear attention, nhưng hiện tại đã ổn định quanh cấu trúc dense decoder-only transformer kết hợp RMSNorm, rotary position embedding, SwiGLU và grouped-query attention
    Giờ đây, điểm khác biệt cốt lõi đã chuyển sang công thức huấn luyện và pipeline dữ liệu
    Đổi mới thực sự của DeepSeek-R1 không nằm ở kiến trúc mà là reinforcement learning cho chuỗi suy luận, còn Llama 3 thì kiến trúc hầu như giữ nguyên nhưng dữ liệu và quy trình hậu xử lý đã được làm mới hoàn toàn
    Điều này giống với xu hướng trong thiết kế chip, nơi quy trình sản xuất bán dẫn và vi kiến trúc trở nên quan trọng hơn ISA

  • Bài của Sebastian lúc nào cũng đáng đọc
    Rất khuyến nghị cuốn Build an LLM From Scratch của anh ấy. Nhờ cuốn sách đó tôi mới thực sự hiểu rõ cơ chế Transformer
    Nhìn vào LLM Architecture Gallery thì khác biệt giữa các mô hình quả thật rất thú vị, nhưng trong 7 năm qua kể từ GPT-2, gần như không có đột phá nền tảng nào
    Các mô hình open-weight ngày nay, nếu nhìn từ xa, vẫn là cấu trúc lặp của attention + feed-forward layer tương tự GPT-2
    Những bước tiến nhảy vọt gần đây đến từ scaling và các kỹ thuật huấn luyện mới (RLVR, v.v.), và điều này có vẻ là thêm một ví dụ nữa của Bitter Lesson

  • Hình trực quan hóa này thật sự rất đẹp. Nó làm tôi nhớ đến Neural Network Zoo mà tôi từng xem trước đây
    Cũng như dự án đó từng cho phép nhìn toàn cảnh nhiều kiến trúc mạng nơ-ron, lần này cũng thể hiện rất tốt sự đa dạng của các kiến trúc

  • Công việc rất xuất sắc
    Tôi hơi tò mò không biết có tiêu chí sắp xếp nào không. Sẽ còn hay hơn nếu có thể xem dòng tiến hóa hay phả hệ đổi mới dưới dạng cây gia phả
    Ngoài ra, nếu trực quan hóa sự thay đổi về kích thước mô hình theo tỷ lệ, có lẽ sẽ cảm nhận được tốc độ phát triển một cách trực quan hơn

    • Có thể tham khảo bài viết này như một tài liệu cho thấy quá trình tiến hóa của dòng DeepSeek
  • Thật sự rất tuyệt. Cảm ơn vì đã chia sẻ
    Có thể xem bản có thể phóng to tại đây

  • Với tư cách là một nhà thống kê, tôi luôn mong muốn có một cách hiểu mang tính mô-đun, nối từ khái niệm “mạng nơ-ron xấp xỉ hàm số” đến kỹ thuật xây dựng mô hình machine learning thực tế
    Tài liệu này cho tôi cảm giác đang lấp đầy khoảng trống đó

  • Tôi tò mò không biết sơ đồ này được vẽ bằng công cụ nào

  • Một bộ sưu tập thú vị
    Khi thực sự so sánh các mẫu prompt, khác biệt về kiến trúc đôi khi bộc lộ theo những cách bất ngờ
    Ví dụ, cửa sổ ngữ cảnh dài không chỉ đơn thuần là xử lý được nhiều văn bản hơn mà còn khiến cách thiết kế cấu trúc đầu vào thay đổi hẳn

  • Tôi tò mò mô hình nào là đơn giản nhất về mặt cấu trúc mà vẫn còn đủ sức cạnh tranh

    • Tính cạnh tranh đến từ quy mô, dữ liệu và dữ liệu fine-tuning nhiều hơn là từ kiến trúc
      Trong vài năm gần đây hầu như không có đổi mới kiến trúc đáng kể nào; phần lớn thay đổi là để cải thiện hiệu quả huấn luyện
    • Nếu định nghĩa “cạnh tranh” theo nghĩa rộng hơn, thì thậm chí Markov chain cũng có thể tự triển khai được
      Mô hình Transformer là kết quả của quá trình phát triển dần dần dựa trên sự tích lũy của vô số nghiên cứu đi trước
  • Tôi đã bấm vào vì tưởng đây sẽ là câu chuyện về việc LLM thiết kế nhà chọc trời, đập nước hay cầu
    Tôi còn chuẩn bị cả bỏng ngô rồi, hơi tiếc một chút