Tóm tắt bài đọc luận văn DeepSeek-V4 - Noh Jeong-seok
(youtube.com)DeepSeek-V4 được công bố là sự kiện đáng chú ý nhất giữa hàng loạt thông báo lớn như các đổi mới kiến trúc mà DeepSeek-V4 thể hiện, tọa độ mới của các frontier lab, tuần thứ tư của tháng 4 năm 2026, GPT-5.5 và Google Cloud Next. Xuất hiện sau khoảng 1 năm 4 tháng kể từ R1, mô hình lần này đã tăng quy mô từ 600B của V3 lên 1.6T, và số tham số được kích hoạt cũng tăng nhẹ. Quan trọng hơn cả, ba thay đổi thuật toán gồm Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) và optimizer Muon đã được áp dụng đồng thời, và kết quả được trình bày dày đặc trong một bài báo khoảng 40 trang. Ông Noh Seong-hoon và ông Noh Jeong-seok đánh giá báo cáo này không đơn thuần là khoe thành tích hiệu năng, mà là bản ghi chép về một năm thử-sai đầy đau đớn.
Các thay đổi kiến trúc cốt lõi
- Áp dụng Sparse Attention một cách toàn diện: Thay vì cách cũ tham chiếu mọi token trước đó, mô hình được đổi sang chỉ chọn tham chiếu một phần token có ý nghĩa. Cấu trúc này kết hợp ba thành phần: sliding window attention, full attention trên các token được nén xuống còn 1/100, và Compressed Sparse Attention nén xuống 1/4 rồi dùng Lightning Indexer để chọn top-k.
- Áp dụng mHC: Đây là cấu trúc ổn định hóa Hyper-Connections trên manifold, nhằm nới lỏng ràng buộc bằng cách mở rộng đường truyền của residual connection, vốn là cốt lõi của deep learning.
- Chọn optimizer Muon: Đây là optimizer mà các mô hình Trung Quốc sử dụng gần như như một tiêu chuẩn kể từ sau Adam, giúp đồng thời tăng tốc độ huấn luyện và hiệu quả dữ liệu.
- Loại bỏ MLA: DeepSeek đã từ bỏ MLA, vốn gần như là biểu tượng của hãng, và chuyển sang Multi-Query Attention đơn giản hơn.
Ưu điểm và điểm nổi bật
- Chi phí long-context giảm mạnh: Dù mô hình lớn hơn V3 khoảng 2.5~3 lần, compute cho phép toán token chỉ còn khoảng 27%, còn bộ nhớ KV cache giảm xuống mức khoảng 10%.
- Huấn luyện long-context ngay từ giai đoạn pretraining: 1T token đầu tiên được huấn luyện ở 4K~16K, còn hơn 30T token sau đó được huấn luyện ở 64K trở lên. Cách này khác với thông lệ chỉ kéo dài context ở bước hậu xử lý.
- Mức độ tối ưu hạ tầng rất sâu: Báo cáo cho thấy hàng loạt tối ưu được triển khai dày đặc như chồng lấp giao tiếp-tính toán của MoE cải tiến từ Comet của ByteDance, mega-kernel được đẩy tới mức chạm ngưỡng power throttling, đóng góp cho TileLang, tối ưu mạnh batch invariance kernel, và nén trọng số expert bằng MXFP4 (4-bit).
- Vị thế dẫn dắt thuật toán: Trong bối cảnh Big Tech Mỹ không công khai kiến trúc, có đánh giá cho rằng riêng ở mảng pretraining, DeepSeek đã đạt mức ngang bằng hoặc ở vài điểm còn nhỉnh hơn.
Nhược điểm và giới hạn
- Huấn luyện thiếu ổn định: Trái với xu hướng gần đây khi các nhà phát triển LLM nói rằng việc huấn luyện đã rất ổn định, DeepSeek-V4 thẳng thắn cho thấy họ gặp nhiều vấn đề mất ổn định trong quá trình huấn luyện. Họ phải dùng tới các biện pháp khó như sửa MoE gating, clamping, và cả Anticipatory Routing — cơ chế định tuyến bằng trọng số ở các thời điểm trước đó.
- Khó tái hiện: Nhiều nhóm khác ở Trung Quốc có chung kết luận rằng việc huấn luyện Sparse Attention gần như từ đầu là cực kỳ khó. Ngay cả khi DeepSeek đã thành công, các đội khác có thể cũng không dễ dàng bắt kịp.
- Post-training còn chưa thỏa đáng: So với bước nhảy ở pretraining, phần post-training bị đánh giá là vẫn còn nhiều dư địa để cải thiện. Đây là mảng có thể được tăng cường đáng kể ở các giai đoạn 4.1 và 4.2.
- Ít nói về dữ liệu: Báo cáo chỉ nhắc rằng đã chuẩn bị 32T token, nhưng gần như không nói chi tiết về cấu trúc dữ liệu, chẳng hạn có dùng synthetic data hay không.
Điểm khác biệt
- Công bố minh bạch: Khác với nhiều frontier lab khác che giấu kiến trúc, DeepSeek tương đối thẳng thắn chia sẻ cấu trúc và các lần thử-sai.
- Thiết kế tích hợp ngay từ giai đoạn pretraining: DeepSeek nổi bật ở chỗ đưa long-context, Sparse Attention và lượng tử hóa FP4 vào ngay quá trình pretraining, thay vì xử lý ở bước hậu kỳ.
- Đa dạng hóa phần cứng: Họ cho biết sử dụng song song chip NVIDIA và chip Huawei, gợi ý rằng các lựa chọn bán dẫn thay thế trong nội địa Trung Quốc đang dần định hình.
Ý nghĩa nhìn từ góc độ ngành
- Biến chuyển trong bản đồ frontier lab Trung Quốc: DeepSeek, Kimi, Z.ai (GLM), Tencent Hunyuan 3 và Xiaomi MiMo — gần như 5 đội — đang đồng thời vươn lên tuyến đầu, và có quan điểm cho rằng ở khía cạnh pretraining, đã xuất hiện những mảng ngang bằng hoặc thậm chí vượt Mỹ.
- Post-training là chiến trường tiếp theo: Có khả năng rất sớm sẽ tới thời điểm lượng compute đổ vào post-training tương đương với pretraining, và khoảng cách ở mặt trận này sẽ quyết định cục diện của thế hệ tiếp theo.
- Cập nhật mô hình trở thành chuyện thường nhật: Khi GPT-5.5, Claude Mythos, Spud và DeepSeek-V4 cùng thay mới base model trong thời gian gần nhau, có dấu hiệu cho thấy việc cập nhật mô hình đang trở nên vô cảm như cập nhật trình duyệt Chrome.
DeepSeek-V4 lần này gần với một tư liệu ghi lại việc một đội đã đột phá trực diện các bài toán khó trong suốt một năm như thế nào, hơn là chỉ là tập hợp các chỉ số hiệu năng của một mô hình đơn lẻ. Nỗ lực đưa Sparse Attention vào ngay từ giai đoạn pretraining, công việc hạ tầng để kéo chi phí long-context ở quy mô 1.6T xuống mức tỷ lệ một chữ số, cùng những cơ chế phi chuẩn được đưa vào trong lúc vật lộn với sự mất ổn định khi huấn luyện, đều có khả năng trở thành nền tảng mới cho các mô hình frontier xuất phát từ Trung Quốc sau này. Đồng thời, các bài toán còn lại ở post-training và dữ liệu vẫn rất rõ ràng, nên việc 4.1 và 4.2 có thể thu hẹp khoảng cách này đến đâu nhiều khả năng sẽ là điểm đáng theo dõi trong quý tới.
3 bình luận
Ông Noh Seong-hun → là ông Kim Seong-hyeon.
Tôi đã chỉnh sửa rồi
Cảm ơn. Có vẻ cần được chỉnh sửa.