1 điểm bởi GN⁺ 6 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • I-DLM là trường hợp đầu tiên mà mô hình ngôn ngữ dựa trên khuếch tán đồng thời đạt được chất lượng ngang mức mô hình AR (Autoregressive)tốc độ sinh song song
  • Thông qua Introspective Strided Decoding (ISD), mô hình vừa sinh token mới vừa kiểm chứng token trước đó trong một lượt forward duy nhất
  • I-DLM-8B với chỉ bằng một nửa số tham số so với LLaDA-2.1-mini(16B) đã cao hơn +26 điểm trên AIME-24+15 điểm trên LiveCodeBench-v6
  • Sử dụng Gated LoRA để hiện thực tăng tốc lossless ở mức bit, và tương thích hoàn toàn với hạ tầng SGLang
  • Mô hình ngôn ngữ khuếch tán đã chứng minh khả năng triển khai thực tế ở quy mô lớn thông qua học tự nhất quántối ưu giải mã song song

Tổng quan

  • I-DLM (Introspective Diffusion Language Model) là mô hình đạt chất lượng ở mức AR bằng cách giải quyết vấn đề tự nhất quán (introspective consistency), đồng thời vẫn giữ được khả năng sinh token song song của mô hình ngôn ngữ khuếch tán (DLM) truyền thống
  • Thông qua Introspective Strided Decoding (ISD), mô hình vừa sinh token mới vừa kiểm chứng token trước đó trong một lượt forward
  • I-DLM-8B là DLM đầu tiên đạt chất lượng tương đương mô hình AR cùng quy mô; với chỉ bằng một nửa số tham số so với LLaDA-2.1-mini(16B), mô hình này cao hơn +26 điểm trên AIME-24+15 điểm trên LiveCodeBench-v6
  • Trong môi trường đồng thời cao (C=64), mô hình đạt throughput cao hơn 2.9~4.1 lần và hỗ trợ tăng tốc lossless ở mức bit thông qua Gated LoRA

Sự cần thiết của Introspective Consistency

  • Mô hình AR thực hiện đồng thời sinhtự kiểm chứng trong một lượt forward, còn DLM truyền thống chỉ học khử nhiễu (denoising) nên thiếu tính tự nhất quán
  • Ba nút thắt của DLM truyền thống
    • Tự nhất quán thấp: SDAR 0.699 vs I-DLM 0.984
    • Tính toán kém hiệu quả: TiDAR overhead khoảng 7.8 lần vs I-DLM khoảng 2.5 lần
    • Không khớp hạ tầng: SDAR slope=84 vs I-DLM=549

Phương pháp I-DLM

  • Huấn luyện Introspective-Consistency

    • Chuyển đổi mô hình AR đã được tiền huấn luyện thông qua causal attention, logit shift, và hàm mục tiêu all-masked
  • Introspective Strided Decoding (ISD)

    • Trong một lượt forward, mô hình đồng thời sinh N tokenkiểm chứng token trước đó
    • Dùng tiêu chí chấp nhận p/q (acceptance criterion) để kiểm chứng kết quả sinh
  • Serving tương thích AR

    • Có thể tích hợp trực tiếp vào hạ tầng SGLang nhờ cấu trúc causal attention nghiêm ngặt
    • Hoạt động trong cùng môi trường serving như mô hình AR mà không cần hạ tầng tùy biến riêng

Kết quả hiệu năng

  • I-DLM là DLM đầu tiên có chất lượng tương đương mô hình AR cùng quy mô, đồng thời vượt qua các DLM trước đây trên 15 benchmark
  • Kết quả benchmark chính

    • Kiến thức & suy luận: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • Toán học: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • Code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • Thực thi chỉ thị: IFEval 84.7
    • I-DLM-32B ghi nhận hiệu năng cao hơn LLaDA-2.1-flash(100B)

Throughput

  • Ở batch size 1~64, mô hình đạt throughput cao hơn 2.9~4.1 lần so với LLaDA-2.1-mini và SDAR
  • Trong môi trường memory-bound, TPF (Token Per Forward) xấp xỉ trực tiếp mức tăng tốc thực tế
    • I-DLM(N=4, p=0.9): TPF≈2.9, hiệu quả 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, hiệu quả 0.31
  • Hiệu quả lớn hơn 1 có nghĩa là giải mã song song giúp giảm tổng lượng tính toán so với AR

Speedup Factor Explorer

  • Tỷ lệ chấp nhận p=0.9, R-ISD LoRA overhead α=1.12
  • Công thức xấp xỉ tăng tốc:

    • Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD (lossless): Speedup ≈ TPF/α
    • Gated LoRA chỉ được kích hoạt tại vị trí MASK, bảo đảm đầu ra giống hệt ở mức bit với đầu ra AR

Tài liệu và tài nguyên

  • Cung cấp tài liệu web cho toàn bộ quy trình gồm cài đặt, huấn luyện, suy luận, serving, R-ISD lossless, model, benchmark
  • Installation

    • Clone kho GitHub rồi chạy install.sh
  • Quick Start

    • Có thể khởi chạy server SGLang rồi gửi yêu cầu hoàn tất hội thoại qua REST API
  • Training

    • Huấn luyện bằng cách kết hợp chuỗi được mask hoàn toàn và chuỗi sạch
    • 4.5B token, 8×H100 GPU, 2 epoch, curriculum stride (N=2→3)
  • Inference & ISD

    • Đề xuất token mới (q) tại vị trí MASK, kiểm chứng (p) tại vị trí clean
    • Bảo đảm phân phối AR bằng tiêu chí chấp nhận min(1, p(x)/q(x))
    • Với stride N=4, TPF=2.96, tăng tốc khoảng 3 lần
  • Serving (SGLang)

    • Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

      • Toàn hệ thống đạt throughput cao hơn 2.1~2.5 lần so với mặc định
  • Lossless R-ISD

    • Áp dụng Gated LoRA(rank=128) chỉ tại vị trí MASK
    • Đầu ra hoàn toàn giống với mô hình AR gốc
    • Overhead khoảng 1.12 lần
  • Model Zoo

    • I-DLM-8B: dựa trên Qwen3-8B, chất lượng tương đương AR
    • I-DLM-32B: dựa trên Qwen3-32B, vượt LLaDA-2.1-flash(100B)
    • I-DLM-8B-LoRA: áp dụng Gated LoRA(rank=128)
  • Benchmarks

    • Đánh giá trên 15 benchmark (kiến thức, toán, code, thực thi chỉ thị)
    • Cung cấp script để tái lập

Thông tin trích dẫn

  • Bài báo: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • Tổ chức nghiên cứu: Together AI, UIUC, Princeton, Stanford, UT Austin
  • Tác giả: Yifan Yu cùng 14 người khác

Kết luận

  • I-DLMtrường hợp đầu tiên mà mô hình ngôn ngữ dựa trên khuếch tán đồng thời đạt chất lượng và tốc độ của mô hình AR
  • Vượt qua giới hạn của sinh song song nhờ học tự nhất quángiải mã ISD
  • Chứng minh khả năng triển khai thực tế nhờ tương thích SGLang, tăng tốc lossless, và khả năng mở rộng throughput cao

1 bình luận

 
Ý kiến trên Hacker News
  • Nếu tôi hiểu đúng, đây là một cách tiếp cận khá đáng kinh ngạc
    Họ đã biến đổi autoregressor Qwen bằng nhiều kỹ thuật để nó hoạt động như một diffuser, và cho thấy hiệu năng vượt xa diffuser truyền thống
    Thông qua adapter LoRA, có thể căn chỉnh đầu ra theo phân phối của mô hình base, nhờ đó vừa đạt được kết quả giống hệt nhau ở mức byte với cùng seed, vừa nhanh gần gấp đôi
    Tôi không phải chuyên gia mà chỉ là một người thích thử nghiệm, nhưng đây thực sự có vẻ là một bước tiến rất thú vị

    • Đáng để phấn khích. Bài báo này tuyên bố đã bắc cầu giữa chất lượng AR và giải mã song song. Đặc biệt, chế độ phụ trợ LoRA không mất mát là điểm ấn tượng nhất
    • Tôi không hiểu làm sao có thể so sánh mà không trực tiếp tạo ra đầu ra của mô hình base. Nếu vậy thì ý nghĩa của phép so sánh đó là gì, tôi khá tò mò
    • Thực ra đây giống một biến thể của multi-token predictionspeculative decoding hơn là diffusion
      Không có quá trình denoising, và vẫn giữ cấu trúc causal
      Cụ thể hơn, nó được huấn luyện để dự đoán nhiều token cùng lúc bằng cách dùng nhiều token MASK, rồi khi suy luận thì sinh chúng song song để tăng tốc
      Ví dụ, thêm 5 MASK sau “what is 2+2” rồi dự đoán 5 token tiếp theo trong một lần
      Làm như vậy sẽ thực hiện phép toán ma trận-ma trận thay vì ma trận-vector nên hiệu quả bộ nhớ cao hơn
      Tuy nhiên, khi tăng k (số token dự đoán), chất lượng giảm rất nhanh; ngay trong bài báo, ở k=8 đã thấy suy giảm
      Rốt cuộc đây là self-speculative decoding dựa trên dự đoán 4 token, không xóa bỏ hoàn toàn các giới hạn hiện có nhưng vẫn là một phương thức huấn luyện thú vị
      Có giải thích liên quan trong bài viết trước
  • Tôi tò mò không biết nó khác gì khi so với DFlash hay DDTree

  • Năm ngoái tôi từng thấy phản hồi của Gemini trong chốc lát xuất hiện dần dần theo kiểu diffusion
    Không rõ đó là thử nghiệm hay chỉ là hiệu ứng hình ảnh đơn thuần, nhưng là một hiện tượng khá thú vị

  • Không biết ở đây có ai đang nghiêm túc thử nghiệm Diffusion cho sinh văn bản không

    • Inception Labs dường như đã nghiên cứu lĩnh vực này khá lâu
      Tốc độ rất ấn tượng, nhưng độ trễ token đầu tiênchất lượng đầu ra vẫn là các bài toán còn lại
      Chỉ cần tốc độ và độ chính xác tăng thêm đến một mức nhất định, có lẽ nó sẽ đủ thực dụng cho các mô hình chi phí thấp hoặc tác vụ bất đồng bộ
      Ngoài ra, thử nghiệm khuếch tán cả văn bản dài hơn trong một lần để cưỡng ép nâng cao năng lực suy luận cũng có vẻ thú vị
    • Hiện tại nó đang được khám phá trong mảng local LLM để dùng cho speculative decoding
      Xem thêm bài viết của Emergent Mind
    • Mercury 2 rất hấp dẫn cho các thử nghiệm UX về mặt độ trễ và giá cả
      Nó vận hành mượt hơn nhiều so với Gemini Flash Lite trước đây, nên phù hợp cho các tác vụ như tự động gắn thẻ hoặc tạo liên kết
      Tuy vậy, hiệu năng gọi công cụ vẫn chưa đạt mức Haiku 3.5
      Với những tác vụ có đầu vào đủ nhiều và đầu ra ngắn, dLLM khá phù hợp, và cũng có tiềm năng ở các mảng như tự động hoàn tất tab
    • Tôi cũng đã thử rồi, và nó đòi hỏi một cách tiếp cận trực giác khác với LLM thông thường. Với một số bài toán nhất định thì nó rất hợp
    • Tôi đang triển khai WeDLM bằng Swift, nhưng hiệu năng vẫn còn thiếu
      Nó sinh từ trái sang phải nhưng chỉ khuếch tán trong cửa sổ trượt. Cửa sổ chỉ khoảng 16 token nên khác biệt không lớn
  • Tôi không ở mức chuyên gia, nhưng nếu là Diffusion thì chẳng phải nó nên sinh toàn bộ đầu ra cùng một lúc sao?
    Trong khi đó, mô hình I-LDM có vẻ như đang dùng ngữ cảnh trước đó để sinh khối tiếp theo

    • Sinh theo khối mang lại mức tăng tốc rất lớn
      Ví dụ, nếu sinh hai token mỗi lần thì tốc độ có thể tăng gần gấp 2
      Khi kích thước khối tăng lên, tốc độ sinh tổng thể sẽ đủ nhanh để không còn khác biệt nhiều so với sinh tất cả trong một lần
      Cuối cùng điều quan trọng là giảm suy giảm chất lượng được bao nhiêu, và bài báo này có vẻ đã xử lý tốt phần đó
  • Tôi tò mò không biết để dùng các mô hình kiểu này thì có phải chuyển sang sglang không, hay vLLM đã hỗ trợ rồi

  • Từ trước tôi đã nghĩ kiến trúc diffusion theo khối là tương lai của LLM
    Một cấu trúc có thể điều chỉnh động tốc độ sinh token và tự sửa trong lúc sinh — có vẻ như nó có thể trở thành một hệ thống giống trí nhớ ngắn hạn của con người
    Tôi không hiểu rõ nguyên lý toán học, nhưng hy vọng nó sẽ phát triển theo hướng đó

  • Nhìn ghi chú phát hành thì thấy

    2025-04-12: Công khai mã nguồn và phát hành I-DLM-8B, 32B, 8B-LoRA
    Ngày này trông có vẻ đã cũ, nên tôi tự hỏi không biết đây có phải bản cũ không

    • Chỉ là lỗi gõ năm thôi. Tôi đã xác nhận nó thực sự được tải lên HuggingFace vài ngày trước
  • Tôi tò mò không biết có thể dùng mô hình này ngay bây giờ không

  • Tôi tự hỏi liệu mô hình diffusion có thể sinh một khối, sau đó tự xem xét nội bộ (introspection) kết quả đó rồi sinh lại theo kiểu suy luận lặp hay không

    • Có thể. Có thể triển khai bằng cách đưa đầu ra đầu tiên trở lại mô hình để đánh giá lại như một mô hình suy luận AR