- I-DLM là trường hợp đầu tiên mà mô hình ngôn ngữ dựa trên khuếch tán đồng thời đạt được chất lượng ngang mức mô hình AR (Autoregressive) và tốc độ sinh song song
- Thông qua Introspective Strided Decoding (ISD), mô hình vừa sinh token mới vừa kiểm chứng token trước đó trong một lượt forward duy nhất
- I-DLM-8B với chỉ bằng một nửa số tham số so với LLaDA-2.1-mini(16B) đã cao hơn +26 điểm trên AIME-24 và +15 điểm trên LiveCodeBench-v6
- Sử dụng Gated LoRA để hiện thực tăng tốc lossless ở mức bit, và tương thích hoàn toàn với hạ tầng SGLang
- Mô hình ngôn ngữ khuếch tán đã chứng minh khả năng triển khai thực tế ở quy mô lớn thông qua học tự nhất quán và tối ưu giải mã song song
Tổng quan
- I-DLM (Introspective Diffusion Language Model) là mô hình đạt chất lượng ở mức AR bằng cách giải quyết vấn đề tự nhất quán (introspective consistency), đồng thời vẫn giữ được khả năng sinh token song song của mô hình ngôn ngữ khuếch tán (DLM) truyền thống
- Thông qua Introspective Strided Decoding (ISD), mô hình vừa sinh token mới vừa kiểm chứng token trước đó trong một lượt forward
- I-DLM-8B là DLM đầu tiên đạt chất lượng tương đương mô hình AR cùng quy mô; với chỉ bằng một nửa số tham số so với LLaDA-2.1-mini(16B), mô hình này cao hơn +26 điểm trên AIME-24 và +15 điểm trên LiveCodeBench-v6
- Trong môi trường đồng thời cao (C=64), mô hình đạt throughput cao hơn 2.9~4.1 lần và hỗ trợ tăng tốc lossless ở mức bit thông qua Gated LoRA
Sự cần thiết của Introspective Consistency
- Mô hình AR thực hiện đồng thời sinh và tự kiểm chứng trong một lượt forward, còn DLM truyền thống chỉ học khử nhiễu (denoising) nên thiếu tính tự nhất quán
- Ba nút thắt của DLM truyền thống
- Tự nhất quán thấp: SDAR 0.699 vs I-DLM 0.984
- Tính toán kém hiệu quả: TiDAR overhead khoảng 7.8 lần vs I-DLM khoảng 2.5 lần
- Không khớp hạ tầng: SDAR slope=84 vs I-DLM=549
Phương pháp I-DLM
-
Huấn luyện Introspective-Consistency
- Chuyển đổi mô hình AR đã được tiền huấn luyện thông qua causal attention, logit shift, và hàm mục tiêu all-masked
-
Introspective Strided Decoding (ISD)
- Trong một lượt forward, mô hình đồng thời sinh N token và kiểm chứng token trước đó
- Dùng tiêu chí chấp nhận p/q (acceptance criterion) để kiểm chứng kết quả sinh
-
Serving tương thích AR
- Có thể tích hợp trực tiếp vào hạ tầng SGLang nhờ cấu trúc causal attention nghiêm ngặt
- Hoạt động trong cùng môi trường serving như mô hình AR mà không cần hạ tầng tùy biến riêng
Kết quả hiệu năng
- I-DLM là DLM đầu tiên có chất lượng tương đương mô hình AR cùng quy mô, đồng thời vượt qua các DLM trước đây trên 15 benchmark
-
Kết quả benchmark chính
- Kiến thức & suy luận: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Toán học: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Thực thi chỉ thị: IFEval 84.7
- I-DLM-32B ghi nhận hiệu năng cao hơn LLaDA-2.1-flash(100B)
Throughput
- Ở batch size 1~64, mô hình đạt throughput cao hơn 2.9~4.1 lần so với LLaDA-2.1-mini và SDAR
- Trong môi trường memory-bound, TPF (Token Per Forward) xấp xỉ trực tiếp mức tăng tốc thực tế
- I-DLM(N=4, p=0.9): TPF≈2.9, hiệu quả 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, hiệu quả 0.31
- Hiệu quả lớn hơn 1 có nghĩa là giải mã song song giúp giảm tổng lượng tính toán so với AR
Speedup Factor Explorer
- Tỷ lệ chấp nhận p=0.9, R-ISD LoRA overhead α=1.12
-
Công thức xấp xỉ tăng tốc:
- Memory-bound:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (lossless):
Speedup ≈ TPF/α
- Gated LoRA chỉ được kích hoạt tại vị trí MASK, bảo đảm đầu ra giống hệt ở mức bit với đầu ra AR
Tài liệu và tài nguyên
- Cung cấp tài liệu web cho toàn bộ quy trình gồm cài đặt, huấn luyện, suy luận, serving, R-ISD lossless, model, benchmark
-
Installation
- Clone kho GitHub rồi chạy
install.sh
-
Quick Start
- Có thể khởi chạy server SGLang rồi gửi yêu cầu hoàn tất hội thoại qua REST API
-
Training
- Huấn luyện bằng cách kết hợp chuỗi được mask hoàn toàn và chuỗi sạch
- 4.5B token, 8×H100 GPU, 2 epoch, curriculum stride (N=2→3)
-
Inference & ISD
- Đề xuất token mới (q) tại vị trí MASK, kiểm chứng (p) tại vị trí clean
- Bảo đảm phân phối AR bằng tiêu chí chấp nhận
min(1, p(x)/q(x))
- Với stride N=4, TPF=2.96, tăng tốc khoảng 3 lần
-
Serving (SGLang)
-
Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
- Toàn hệ thống đạt throughput cao hơn 2.1~2.5 lần so với mặc định
-
Lossless R-ISD
- Áp dụng Gated LoRA(rank=128) chỉ tại vị trí MASK
- Đầu ra hoàn toàn giống với mô hình AR gốc
- Overhead khoảng 1.12 lần
-
Model Zoo
- I-DLM-8B: dựa trên Qwen3-8B, chất lượng tương đương AR
- I-DLM-32B: dựa trên Qwen3-32B, vượt LLaDA-2.1-flash(100B)
- I-DLM-8B-LoRA: áp dụng Gated LoRA(rank=128)
-
Benchmarks
- Đánh giá trên 15 benchmark (kiến thức, toán, code, thực thi chỉ thị)
- Cung cấp script để tái lập
Thông tin trích dẫn
- Bài báo: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- Tổ chức nghiên cứu: Together AI, UIUC, Princeton, Stanford, UT Austin
- Tác giả: Yifan Yu cùng 14 người khác
Kết luận
- I-DLM là trường hợp đầu tiên mà mô hình ngôn ngữ dựa trên khuếch tán đồng thời đạt chất lượng và tốc độ của mô hình AR
- Vượt qua giới hạn của sinh song song nhờ học tự nhất quán và giải mã ISD
- Chứng minh khả năng triển khai thực tế nhờ tương thích SGLang, tăng tốc lossless, và khả năng mở rộng throughput cao
1 bình luận
Ý kiến trên Hacker News
Nếu tôi hiểu đúng, đây là một cách tiếp cận khá đáng kinh ngạc
Họ đã biến đổi autoregressor Qwen bằng nhiều kỹ thuật để nó hoạt động như một diffuser, và cho thấy hiệu năng vượt xa diffuser truyền thống
Thông qua adapter LoRA, có thể căn chỉnh đầu ra theo phân phối của mô hình base, nhờ đó vừa đạt được kết quả giống hệt nhau ở mức byte với cùng seed, vừa nhanh gần gấp đôi
Tôi không phải chuyên gia mà chỉ là một người thích thử nghiệm, nhưng đây thực sự có vẻ là một bước tiến rất thú vị
Không có quá trình denoising, và vẫn giữ cấu trúc causal
Cụ thể hơn, nó được huấn luyện để dự đoán nhiều token cùng lúc bằng cách dùng nhiều token MASK, rồi khi suy luận thì sinh chúng song song để tăng tốc
Ví dụ, thêm 5 MASK sau “what is 2+2” rồi dự đoán 5 token tiếp theo trong một lần
Làm như vậy sẽ thực hiện phép toán ma trận-ma trận thay vì ma trận-vector nên hiệu quả bộ nhớ cao hơn
Tuy nhiên, khi tăng k (số token dự đoán), chất lượng giảm rất nhanh; ngay trong bài báo, ở k=8 đã thấy suy giảm
Rốt cuộc đây là self-speculative decoding dựa trên dự đoán 4 token, không xóa bỏ hoàn toàn các giới hạn hiện có nhưng vẫn là một phương thức huấn luyện thú vị
Có giải thích liên quan trong bài viết trước
Tôi tò mò không biết nó khác gì khi so với DFlash hay DDTree
Năm ngoái tôi từng thấy phản hồi của Gemini trong chốc lát xuất hiện dần dần theo kiểu diffusion
Không rõ đó là thử nghiệm hay chỉ là hiệu ứng hình ảnh đơn thuần, nhưng là một hiện tượng khá thú vị
Không biết ở đây có ai đang nghiêm túc thử nghiệm Diffusion cho sinh văn bản không
Tốc độ rất ấn tượng, nhưng độ trễ token đầu tiên và chất lượng đầu ra vẫn là các bài toán còn lại
Chỉ cần tốc độ và độ chính xác tăng thêm đến một mức nhất định, có lẽ nó sẽ đủ thực dụng cho các mô hình chi phí thấp hoặc tác vụ bất đồng bộ
Ngoài ra, thử nghiệm khuếch tán cả văn bản dài hơn trong một lần để cưỡng ép nâng cao năng lực suy luận cũng có vẻ thú vị
Xem thêm bài viết của Emergent Mind
Nó vận hành mượt hơn nhiều so với Gemini Flash Lite trước đây, nên phù hợp cho các tác vụ như tự động gắn thẻ hoặc tạo liên kết
Tuy vậy, hiệu năng gọi công cụ vẫn chưa đạt mức Haiku 3.5
Với những tác vụ có đầu vào đủ nhiều và đầu ra ngắn, dLLM khá phù hợp, và cũng có tiềm năng ở các mảng như tự động hoàn tất tab
Nó sinh từ trái sang phải nhưng chỉ khuếch tán trong cửa sổ trượt. Cửa sổ chỉ khoảng 16 token nên khác biệt không lớn
Tôi không ở mức chuyên gia, nhưng nếu là Diffusion thì chẳng phải nó nên sinh toàn bộ đầu ra cùng một lúc sao?
Trong khi đó, mô hình I-LDM có vẻ như đang dùng ngữ cảnh trước đó để sinh khối tiếp theo
Ví dụ, nếu sinh hai token mỗi lần thì tốc độ có thể tăng gần gấp 2
Khi kích thước khối tăng lên, tốc độ sinh tổng thể sẽ đủ nhanh để không còn khác biệt nhiều so với sinh tất cả trong một lần
Cuối cùng điều quan trọng là giảm suy giảm chất lượng được bao nhiêu, và bài báo này có vẻ đã xử lý tốt phần đó
Tôi tò mò không biết để dùng các mô hình kiểu này thì có phải chuyển sang sglang không, hay vLLM đã hỗ trợ rồi
Từ trước tôi đã nghĩ kiến trúc diffusion theo khối là tương lai của LLM
Một cấu trúc có thể điều chỉnh động tốc độ sinh token và tự sửa trong lúc sinh — có vẻ như nó có thể trở thành một hệ thống giống trí nhớ ngắn hạn của con người
Tôi không hiểu rõ nguyên lý toán học, nhưng hy vọng nó sẽ phát triển theo hướng đó
Nhìn ghi chú phát hành thì thấy
Tôi tò mò không biết có thể dùng mô hình này ngay bây giờ không
Tôi tự hỏi liệu mô hình diffusion có thể sinh một khối, sau đó tự xem xét nội bộ (introspection) kết quả đó rồi sinh lại theo kiểu suy luận lặp hay không