4 điểm bởi nextvine 2 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mixture of Experts (MoE) là gì — Vì sao DeepSeek có 1,6 nghìn tỷ tham số nhưng vẫn vận hành với chi phí thấp

Bài viết giải thích bằng kiến trúc MoE vì sao DeepSeek V4, dù có 1,6 nghìn tỷ tham số, vẫn có thể được cung cấp với mức giá chỉ bằng 1/10 GPT-5.5.

MoE gồm nhiều mô hình con chuyên gia (Expert) và một bộ định tuyến (gating network) quyết định sẽ dùng chuyên gia nào. Điểm cốt lõi là ở mỗi token, chỉ một phần tham số trong toàn bộ mô hình được kích hoạt có chọn lọc. Với mô hình dày đặc truyền thống (Dense Model), bất kể đầu vào là gì thì mọi tham số đều tham gia tính toán, còn với MoE, bộ định tuyến chỉ chọn ra vài chuyên gia phù hợp nhất để xử lý.

Theo DeepSeek V4-Pro, trong tổng số 1,6 nghìn tỷ tham số thì mỗi token chỉ kích hoạt 49 tỷ tham số (khoảng 3%). Điều đó có nghĩa là mô hình vẫn chứa lượng tri thức ở quy mô 1,6 nghìn tỷ tham số, nhưng chi phí suy luận thực tế lại tương đương một mô hình cỡ 49 tỷ tham số. Thông thường, MoE cải thiện hiệu năng trên chi phí từ 3 đến 5 lần so với mô hình dày đặc cùng quy mô.

Tuy nhiên cũng có nhược điểm. Dù việc tính toán diễn ra theo kiểu thưa, toàn bộ tham số của mọi chuyên gia vẫn phải được nạp trong bộ nhớ, nên yêu cầu VRAM cao; ngoài ra, khi huấn luyện còn phải quản lý riêng bài toán mất cân bằng khi tải bị dồn vào một số chuyên gia nhất định.

Tính đến năm 2026, phần lớn các mô hình frontier chủ chốt như GPT-4, Gemini 1.5, Mixtral, DeepSeek series đều dựa trên MoE. Đây là kết quả của việc trọng tâm cạnh tranh giữa các mô hình AI đã chuyển từ kích thước đơn thuần sang hiệu năng trên chi phí, khiến MoE gần như trở thành kiến trúc tiêu chuẩn trên thực tế.

Chưa có bình luận nào.

Chưa có bình luận nào.