Tóm tắt bài đọc luận văn DeepSeek-V4 - Noh Jeong-seok
(youtube.com)DeepSeek-V4 được công bố là sự kiện đáng chú ý nhất giữa loạt thông báo lớn trong tuần thứ tư của tháng 4 năm 2026 như GPT-5.5 và Google Cloud Next, đồng thời cho thấy đổi mới kiến trúc và một tọa độ mới cho các frontier lab. Xuất hiện khoảng 1 năm 4 tháng sau R1, mô hình lần này đã mở rộng từ quy mô 600B của V3 lên 1.6T, với số tham số kích hoạt cũng tăng nhẹ. Trên hết, ba thay đổi thuật toán gồm Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) và bộ tối ưu Muon được áp dụng đồng thời, và kết quả được ghi chép dày đặc trong một bài báo khoảng 40 trang. Ông Kim Seong-hyeon và ông Noh Jeong-seok đánh giá báo cáo này không đơn thuần là khoe thành tích hiệu năng, mà là bản ghi chép về những thử sai đau đớn kéo dài suốt một năm.
Những thay đổi kiến trúc cốt lõi
- Áp dụng Sparse Attention một cách bài bản: Thay vì tham chiếu mọi token trước đó như cách truyền thống, mô hình được đổi sang chỉ chọn một số token có ý nghĩa để tham chiếu. Cấu trúc này kết hợp ba thành phần: sliding window attention, full attention trên các token đã được nén xuống còn 1/100, và Compressed Sparse Attention với token được nén xuống 1/4 rồi dùng Lightning Indexer để chọn top-k.
- Áp dụng mHC: Đây là cấu trúc ổn định hóa Hyper-Connections trên một manifold, giúp nới lỏng ràng buộc bằng cách mở rộng đường đi của residual connection, vốn là cốt lõi của deep learning.
- Chọn bộ tối ưu Muon: Sau Adam, đây là bộ tối ưu gần như được các mô hình Trung Quốc dùng như tiêu chuẩn thực tế, đồng thời nâng cả tốc độ huấn luyện lẫn hiệu quả dữ liệu.
- Loại bỏ MLA: DeepSeek từ bỏ MLA, thứ từng gần như là biểu tượng của họ, và chuyển sang Multi-Query Attention đơn giản hơn.
Ưu điểm và điểm nổi bật
- Chi phí long-context giảm mạnh: Dù mô hình lớn hơn V3 khoảng 2,5~3 lần, chi phí tính toán theo token chỉ còn khoảng 27%, còn bộ nhớ KV cache giảm xuống khoảng 10%.
- Huấn luyện long-context ngay từ giai đoạn pretraining: 1T token đầu tiên được huấn luyện ở mức 4K~16K, còn hơn 30T token sau đó được huấn luyện ở mức từ 64K trở lên. Cách làm này khác với thông lệ chỉ mở rộng context ở khâu hậu xử lý.
- Tối ưu hạ tầng ở mức rất sâu: Bên trong có nhiều tối ưu dày đặc như chồng lấp giao tiếp-tính toán MoE cải tiến từ Comet của ByteDance, megakernel được đẩy mạnh tới mức bị power throttling, đóng góp cho TileLang, tối ưu mạnh batch invariance kernel, và nén trọng số chuyên gia bằng MXFP4 (4-bit).
- Vị thế dẫn dắt về thuật toán: Trong bối cảnh Big Tech Mỹ không công khai kiến trúc, đã có đánh giá rằng xét riêng mảng pretraining thì DeepSeek đạt mức ngang bằng hoặc thậm chí nhỉnh hơn ở một số khía cạnh.
Nhược điểm và giới hạn
- Độ bất ổn khi huấn luyện: Trái với xu hướng gần đây khi các nhà phát triển LLM nói rằng việc huấn luyện đã rất ổn định, DeepSeek-V4 thẳng thắn cho thấy họ gặp nhiều vấn đề bất ổn trong quá trình huấn luyện. Họ phải dùng cả chỉnh sửa MoE gating, clamping và những cơ chế khó như Anticipatory Routing, tức định tuyến bằng trọng số của các mốc trước đó.
- Độ khó tái lập cao: Kết luận chung của các nhóm khác tại Trung Quốc là việc huấn luyện Sparse Attention gần như từ đầu là cực kỳ khó. Dù DeepSeek đã thành công, khả năng cao là các nhóm khác sẽ không dễ bắt kịp.
- Post-training còn để lại tiếc nuối: So với bước nhảy ở pretraining, post-training dường như vẫn còn nhiều dư địa. Đây là mảng có thể được tăng cường đáng kể ở các giai đoạn 4.1 và 4.2.
- Im lặng về dữ liệu: Họ chỉ nhắc rằng đã chuẩn bị 32T token, nhưng hầu như không nói cụ thể về cấu thành dữ liệu, chẳng hạn có dùng dữ liệu tổng hợp hay không.
Điểm khác biệt
- Công bố minh bạch: Khác với nhiều frontier lab khác giấu kín kiến trúc, DeepSeek trình bày tương đối thẳng thắn về cấu trúc và các thử sai.
- Thiết kế tích hợp ngay từ giai đoạn pretraining: Việc đưa long-context, Sparse Attention và lượng tử hóa FP4 vào ngay trong pretraining thay vì xử lý hậu kỳ là điểm rất nổi bật.
- Đa dạng hóa phần cứng: Họ cho biết dùng song song chip NVIDIA và chip Huawei, qua đó cho thấy các phương án bán dẫn thay thế tại Trung Quốc đang dần định hình.
Ý nghĩa nhìn từ góc độ ngành
- Thay đổi địa hình của các frontier lab Trung Quốc: DeepSeek, Kimi, Z.ai (GLM), Tencent Hunyuan 3 và Xiaomi MiMo, tức gần năm đội ngũ, đã đồng thời bước lên tuyến đầu; đồng thời xuất hiện quan điểm rằng ở mặt pretraining, Trung Quốc đã có những vùng ngang bằng hoặc nhỉnh hơn Mỹ.
- Post-training là chiến trường kế tiếp: Thời điểm mà lượng compute tương đương pretraining được đổ vào post-training có vẻ sắp tới, và khoảng cách ở giai đoạn này rất có thể sẽ là điểm quyết định của thế hệ tiếp theo.
- Việc cập nhật mô hình trở thành chuyện thường ngày: Khi GPT-5.5, Claude Mythos, Spud và DeepSeek-V4 cùng thay mới base model trong khoảng thời gian gần nhau, có thể cảm nhận xu hướng cập nhật mô hình dần trở nên vô cảm như cập nhật trình duyệt Chrome.
DeepSeek-V4 lần này gần với một bản ghi chép cho thấy một đội ngũ đã trực diện đột phá các bài toán khó suốt một năm như thế nào, hơn là chỉ là bảng chỉ số hiệu năng của một mô hình đơn lẻ. Những nỗ lực đưa Sparse Attention vào ngay từ pretraining, công việc hạ tầng để kéo chi phí long-context ở quy mô 1.6T xuống mức một chữ số, và các cơ chế phi chuẩn được đưa vào trong lúc vật lộn với bất ổn huấn luyện, đều có khả năng trở thành nền tảng mới cho các mô hình frontier xuất phát từ Trung Quốc trong tương lai. Đồng thời, các bài toán còn bỏ ngỏ ở post-training và dữ liệu vẫn rất rõ ràng, nên mức độ mà 4.1 và 4.2 có thể thu hẹp khoảng cách này sẽ là điểm đáng theo dõi trong quý tới.
4 bình luận
Người ta vẫn nói kiểu như không thể tin vì là hàng Trung Quốc, nhưng cá nhân tôi thật sự biết ơn DeepSeek ít nhất ở chỗ họ nghiên cứu và công khai, đồng thời còn công bố cả những lần thử sai trong quá trình đó.
Ông Noh Seong-hun → là ông Kim Seong-hyeon.
Tôi đã chỉnh sửa rồi
Cảm ơn. Có vẻ cần được chỉnh sửa.