I-DLM - Mô hình ngôn ngữ khuếch tán tự phản tư (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 điểm bởi GN⁺ 6 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

I-DLM là trường hợp đầu tiên mà mô hình ngôn ngữ dựa trên khuếch tán đồng thời đạt được chất lượng ngang mức mô hình AR (Autoregressive) và tốc độ sinh song song
Thông qua Introspective Strided Decoding (ISD), mô hình vừa sinh token mới vừa kiểm chứng token trước đó trong một lượt forward duy nhất
I-DLM-8B với chỉ bằng một nửa số tham số so với LLaDA-2.1-mini(16B) đã cao hơn +26 điểm trên AIME-24 và +15 điểm trên LiveCodeBench-v6
Sử dụng Gated LoRA để hiện thực tăng tốc lossless ở mức bit, và tương thích hoàn toàn với hạ tầng SGLang
Mô hình ngôn ngữ khuếch tán đã chứng minh khả năng triển khai thực tế ở quy mô lớn thông qua học tự nhất quán và tối ưu giải mã song song

Tổng quan

I-DLM (Introspective Diffusion Language Model) là mô hình đạt chất lượng ở mức AR bằng cách giải quyết vấn đề tự nhất quán (introspective consistency), đồng thời vẫn giữ được khả năng sinh token song song của mô hình ngôn ngữ khuếch tán (DLM) truyền thống
Thông qua Introspective Strided Decoding (ISD), mô hình vừa sinh token mới vừa kiểm chứng token trước đó trong một lượt forward
I-DLM-8B là DLM đầu tiên đạt chất lượng tương đương mô hình AR cùng quy mô; với chỉ bằng một nửa số tham số so với LLaDA-2.1-mini(16B), mô hình này cao hơn +26 điểm trên AIME-24 và +15 điểm trên LiveCodeBench-v6
Trong môi trường đồng thời cao (C=64), mô hình đạt throughput cao hơn 2.9~4.1 lần và hỗ trợ tăng tốc lossless ở mức bit thông qua Gated LoRA

Sự cần thiết của Introspective Consistency

Mô hình AR thực hiện đồng thời sinh và tự kiểm chứng trong một lượt forward, còn DLM truyền thống chỉ học khử nhiễu (denoising) nên thiếu tính tự nhất quán
Ba nút thắt của DLM truyền thống
- Tự nhất quán thấp: SDAR 0.699 vs I-DLM 0.984
- Tính toán kém hiệu quả: TiDAR overhead khoảng 7.8 lần vs I-DLM khoảng 2.5 lần
- Không khớp hạ tầng: SDAR slope=84 vs I-DLM=549

Phương pháp I-DLM

Huấn luyện Introspective-Consistency
- Chuyển đổi mô hình AR đã được tiền huấn luyện thông qua causal attention, logit shift, và hàm mục tiêu all-masked
Introspective Strided Decoding (ISD)
- Trong một lượt forward, mô hình đồng thời sinh N token và kiểm chứng token trước đó
- Dùng tiêu chí chấp nhận p/q (acceptance criterion) để kiểm chứng kết quả sinh
Serving tương thích AR
- Có thể tích hợp trực tiếp vào hạ tầng SGLang nhờ cấu trúc causal attention nghiêm ngặt
- Hoạt động trong cùng môi trường serving như mô hình AR mà không cần hạ tầng tùy biến riêng

Kết quả hiệu năng

I-DLM là DLM đầu tiên có chất lượng tương đương mô hình AR cùng quy mô, đồng thời vượt qua các DLM trước đây trên 15 benchmark
Kết quả benchmark chính
- Kiến thức & suy luận: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Toán học: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Thực thi chỉ thị: IFEval 84.7
- I-DLM-32B ghi nhận hiệu năng cao hơn LLaDA-2.1-flash(100B)

Throughput

Ở batch size 1~64, mô hình đạt throughput cao hơn 2.9~4.1 lần so với LLaDA-2.1-mini và SDAR
Trong môi trường memory-bound, TPF (Token Per Forward) xấp xỉ trực tiếp mức tăng tốc thực tế
- I-DLM(N=4, p=0.9): TPF≈2.9, hiệu quả 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, hiệu quả 0.31
Hiệu quả lớn hơn 1 có nghĩa là giải mã song song giúp giảm tổng lượng tính toán so với AR

Speedup Factor Explorer

Tỷ lệ chấp nhận p=0.9, R-ISD LoRA overhead α=1.12
Công thức xấp xỉ tăng tốc:
- Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (lossless): Speedup ≈ TPF/α
- Gated LoRA chỉ được kích hoạt tại vị trí MASK, bảo đảm đầu ra giống hệt ở mức bit với đầu ra AR

Tài liệu và tài nguyên

Cung cấp tài liệu web cho toàn bộ quy trình gồm cài đặt, huấn luyện, suy luận, serving, R-ISD lossless, model, benchmark
Installation
- Clone kho GitHub rồi chạy install.sh
Quick Start
- Có thể khởi chạy server SGLang rồi gửi yêu cầu hoàn tất hội thoại qua REST API
Training
- Huấn luyện bằng cách kết hợp chuỗi được mask hoàn toàn và chuỗi sạch
- 4.5B token, 8×H100 GPU, 2 epoch, curriculum stride (N=2→3)
Inference & ISD
- Đề xuất token mới (q) tại vị trí MASK, kiểm chứng (p) tại vị trí clean
- Bảo đảm phân phối AR bằng tiêu chí chấp nhận min(1, p(x)/q(x))
- Với stride N=4, TPF=2.96, tăng tốc khoảng 3 lần
Serving (SGLang)
- Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
  - Toàn hệ thống đạt throughput cao hơn 2.1~2.5 lần so với mặc định
Lossless R-ISD
- Áp dụng Gated LoRA(rank=128) chỉ tại vị trí MASK
- Đầu ra hoàn toàn giống với mô hình AR gốc
- Overhead khoảng 1.12 lần
Model Zoo
- I-DLM-8B: dựa trên Qwen3-8B, chất lượng tương đương AR
- I-DLM-32B: dựa trên Qwen3-32B, vượt LLaDA-2.1-flash(100B)
- I-DLM-8B-LoRA: áp dụng Gated LoRA(rank=128)
Benchmarks
- Đánh giá trên 15 benchmark (kiến thức, toán, code, thực thi chỉ thị)
- Cung cấp script để tái lập

Thông tin trích dẫn

Bài báo: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
Tổ chức nghiên cứu: Together AI, UIUC, Princeton, Stanford, UT Austin
Tác giả: Yifan Yu cùng 14 người khác

Kết luận

I-DLM là trường hợp đầu tiên mà mô hình ngôn ngữ dựa trên khuếch tán đồng thời đạt chất lượng và tốc độ của mô hình AR
Vượt qua giới hạn của sinh song song nhờ học tự nhất quán và giải mã ISD
Chứng minh khả năng triển khai thực tế nhờ tương thích SGLang, tăng tốc lossless, và khả năng mở rộng throughput cao

1 bình luận

GN⁺ 6 ngày trước

Ý kiến trên Hacker News

Nếu tôi hiểu đúng, đây là một cách tiếp cận khá đáng kinh ngạc
Họ đã biến đổi autoregressor Qwen bằng nhiều kỹ thuật để nó hoạt động như một diffuser, và cho thấy hiệu năng vượt xa diffuser truyền thống
Thông qua adapter LoRA, có thể căn chỉnh đầu ra theo phân phối của mô hình base, nhờ đó vừa đạt được kết quả giống hệt nhau ở mức byte với cùng seed, vừa nhanh gần gấp đôi
Tôi không phải chuyên gia mà chỉ là một người thích thử nghiệm, nhưng đây thực sự có vẻ là một bước tiến rất thú vị
- Đáng để phấn khích. Bài báo này tuyên bố đã bắc cầu giữa chất lượng AR và giải mã song song. Đặc biệt, chế độ phụ trợ LoRA không mất mát là điểm ấn tượng nhất
- Tôi không hiểu làm sao có thể so sánh mà không trực tiếp tạo ra đầu ra của mô hình base. Nếu vậy thì ý nghĩa của phép so sánh đó là gì, tôi khá tò mò
- Thực ra đây giống một biến thể của multi-token prediction và speculative decoding hơn là diffusion
  Không có quá trình denoising, và vẫn giữ cấu trúc causal
  Cụ thể hơn, nó được huấn luyện để dự đoán nhiều token cùng lúc bằng cách dùng nhiều token MASK, rồi khi suy luận thì sinh chúng song song để tăng tốc
  Ví dụ, thêm 5 MASK sau “what is 2+2” rồi dự đoán 5 token tiếp theo trong một lần
  Làm như vậy sẽ thực hiện phép toán ma trận-ma trận thay vì ma trận-vector nên hiệu quả bộ nhớ cao hơn
  Tuy nhiên, khi tăng k (số token dự đoán), chất lượng giảm rất nhanh; ngay trong bài báo, ở k=8 đã thấy suy giảm
  Rốt cuộc đây là self-speculative decoding dựa trên dự đoán 4 token, không xóa bỏ hoàn toàn các giới hạn hiện có nhưng vẫn là một phương thức huấn luyện thú vị
  Có giải thích liên quan trong bài viết trước
Tôi tò mò không biết nó khác gì khi so với DFlash hay DDTree
Năm ngoái tôi từng thấy phản hồi của Gemini trong chốc lát xuất hiện dần dần theo kiểu diffusion
Không rõ đó là thử nghiệm hay chỉ là hiệu ứng hình ảnh đơn thuần, nhưng là một hiện tượng khá thú vị
Không biết ở đây có ai đang nghiêm túc thử nghiệm Diffusion cho sinh văn bản không
- Inception Labs dường như đã nghiên cứu lĩnh vực này khá lâu
  Tốc độ rất ấn tượng, nhưng độ trễ token đầu tiên và chất lượng đầu ra vẫn là các bài toán còn lại
  Chỉ cần tốc độ và độ chính xác tăng thêm đến một mức nhất định, có lẽ nó sẽ đủ thực dụng cho các mô hình chi phí thấp hoặc tác vụ bất đồng bộ
  Ngoài ra, thử nghiệm khuếch tán cả văn bản dài hơn trong một lần để cưỡng ép nâng cao năng lực suy luận cũng có vẻ thú vị
- Hiện tại nó đang được khám phá trong mảng local LLM để dùng cho speculative decoding
  Xem thêm bài viết của Emergent Mind
- Mercury 2 rất hấp dẫn cho các thử nghiệm UX về mặt độ trễ và giá cả
  Nó vận hành mượt hơn nhiều so với Gemini Flash Lite trước đây, nên phù hợp cho các tác vụ như tự động gắn thẻ hoặc tạo liên kết
  Tuy vậy, hiệu năng gọi công cụ vẫn chưa đạt mức Haiku 3.5
  Với những tác vụ có đầu vào đủ nhiều và đầu ra ngắn, dLLM khá phù hợp, và cũng có tiềm năng ở các mảng như tự động hoàn tất tab
- Tôi cũng đã thử rồi, và nó đòi hỏi một cách tiếp cận trực giác khác với LLM thông thường. Với một số bài toán nhất định thì nó rất hợp
- Tôi đang triển khai WeDLM bằng Swift, nhưng hiệu năng vẫn còn thiếu
  Nó sinh từ trái sang phải nhưng chỉ khuếch tán trong cửa sổ trượt. Cửa sổ chỉ khoảng 16 token nên khác biệt không lớn
Tôi không ở mức chuyên gia, nhưng nếu là Diffusion thì chẳng phải nó nên sinh toàn bộ đầu ra cùng một lúc sao?
Trong khi đó, mô hình I-LDM có vẻ như đang dùng ngữ cảnh trước đó để sinh khối tiếp theo
- Sinh theo khối mang lại mức tăng tốc rất lớn
  Ví dụ, nếu sinh hai token mỗi lần thì tốc độ có thể tăng gần gấp 2
  Khi kích thước khối tăng lên, tốc độ sinh tổng thể sẽ đủ nhanh để không còn khác biệt nhiều so với sinh tất cả trong một lần
  Cuối cùng điều quan trọng là giảm suy giảm chất lượng được bao nhiêu, và bài báo này có vẻ đã xử lý tốt phần đó
Tôi tò mò không biết để dùng các mô hình kiểu này thì có phải chuyển sang sglang không, hay vLLM đã hỗ trợ rồi
Từ trước tôi đã nghĩ kiến trúc diffusion theo khối là tương lai của LLM
Một cấu trúc có thể điều chỉnh động tốc độ sinh token và tự sửa trong lúc sinh — có vẻ như nó có thể trở thành một hệ thống giống trí nhớ ngắn hạn của con người
Tôi không hiểu rõ nguyên lý toán học, nhưng hy vọng nó sẽ phát triển theo hướng đó
Nhìn ghi chú phát hành thì thấy

2025-04-12: Công khai mã nguồn và phát hành I-DLM-8B, 32B, 8B-LoRA
Ngày này trông có vẻ đã cũ, nên tôi tự hỏi không biết đây có phải bản cũ không
- Chỉ là lỗi gõ năm thôi. Tôi đã xác nhận nó thực sự được tải lên HuggingFace vài ngày trước
Tôi tò mò không biết có thể dùng mô hình này ngay bây giờ không
Tôi tự hỏi liệu mô hình diffusion có thể sinh một khối, sau đó tự xem xét nội bộ (introspection) kết quả đó rồi sinh lại theo kiểu suy luận lặp hay không
- Có thể. Có thể triển khai bằng cách đưa đầu ra đầu tiên trở lại mô hình để đánh giá lại như một mô hình suy luận AR

I-DLM - Mô hình ngôn ngữ khuếch tán tự phản tư (Introspective Diffusion Language Models)

Tổng quan

Sự cần thiết của Introspective Consistency

Phương pháp I-DLM

Huấn luyện Introspective-Consistency

Introspective Strided Decoding (ISD)

Serving tương thích AR

Kết quả hiệu năng

Kết quả benchmark chính

Throughput

Speedup Factor Explorer

Công thức xấp xỉ tăng tốc:

Tài liệu và tài nguyên

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

Thông tin trích dẫn

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News

Paged KV cache, CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)