9 điểm bởi jake630 2026-04-02 | 4 bình luận | Chia sẻ qua WhatsApp

Xin chào, chúng tôi xin giới thiệu Dynin-Omni (https://dynin.ai/omni/), mô hình foundation omnimoal do phòng thí nghiệm AIDAS của Đại học Quốc gia Seoul (https://aidas.snu.ac.kr/) công bố. Đây là một kiến trúc hợp nhất có thể vừa hiểu vừa sinh văn bản, hình ảnh, âm thanh và video trong cùng một mô hình.

Gần đây, nếu nhìn vào các mô hình tích hợp đa phương thức, có rất nhiều kiến trúc gắn bộ sinh ảnh hoặc mô hình TTS vào LLM. Nhưng khi sử dụng thực tế, pipeline thường phức tạp nên có thể chậm, và đôi khi việc điều phối cũng bị rối.

Ngoài ra, ngay cả khi mô hình có thể hỗ trợ hiểu và sinh một cách native mà không cần bộ sinh bên ngoài, phần lớn vẫn dựa trên Autoregressive (AR), tức là phải sinh token theo thứ tự. Trong khi đó, hình ảnh hay video thực ra không phải dữ liệu tuần tự, nên cách này tạo cảm giác hơi gượng ép.

Vì vậy, chúng tôi đã thử thay đổi hẳn cách tiếp cận.

Thay vì sinh từng token một, mô hình áp dụng phương thức masked diffusion: che trước rồi khôi phục toàn bộ trong một lần. Nhờ vậy, mọi tác vụ đều được thống nhất thành bài toán “sẽ che token nào và khôi phục chúng ra sao”.

Ví dụ:

  • Xem ảnh rồi mô tả → chỉ điền văn bản
  • Sinh ảnh từ văn bản → điền các token hình ảnh
  • Sinh giọng nói → điền các token âm thanh

Theo cách đó.

Vì thế, không cần gắn riêng mô hình sinh ảnh hay mô hình TTS, mà một mô hình duy nhất có thể xử lý đồng thời cả hiểu lẫn sinh. Hiệu năng cũng khá tốt nếu xét trên tiêu chí mô hình đơn lẻ.

Khả năng suy luận văn bản ở mức có thể so sánh với các LLM gần đây, còn hiểu hình ảnh và video thì cạnh tranh được với các mô hình thị giác như InternVL và Qwen2.5-VL. Về sinh ảnh, mô hình đạt mức tiệm cận các mô hình chuyên biệt như FLUX; về âm thanh, cũng tiến gần các mô hình chuyên biệt thuộc dòng như Qwen-TTS.

Ở khía cạnh tốc độ, mô hình cũng đảm bảo hiệu quả. Tốc độ sinh văn bản nhanh hơn khoảng 4–5 lần so với Qwen2.5-Omni và MiniCPM-o4.5, và ngay cả khi so với Qwen3-8B, mô hình ngôn ngữ đã được tối ưu trên vLLM, vẫn cho thấy tốc độ nhanh hơn khoảng 2,5 lần. Với sinh ảnh, mô hình cũng đạt chất lượng tương tự các mô hình sinh chuyên biệt hiện có nhưng chỉ cần số bước ít hơn khoảng 2 lần.

Trong khi các mô hình omnimoal thiên về nhận thức dựa trên AR mới xuất hiện gần đây như Qwen3.5-Omni chủ yếu tập trung vào hiểu, thì Dynin-Omni hợp nhất cả hiểu và sinh trong một kiến trúc duy nhất. Thay vì sinh token tuần tự, mô hình khôi phục toàn bộ cùng lúc, nên có thể phản ứng nhanh và tự nhiên hơn với dữ liệu phi tuần tự như hình ảnh hay video.

Kiến trúc này càng quan trọng hơn trong các lĩnh vực như agent hay robotics, nơi cần đồng thời hiểu nhiều loại đầu vào và tạo ra hành động hoặc kết quả thực tế. Khác với cách kết hợp nhiều mô hình, một mô hình duy nhất xử lý trực tiếp sẽ giúp giảm độ phức tạp hệ thống và mang lại lợi thế về chi phí cũng như tốc độ.

Ngoài ra, vì đây là kiến trúc hợp nhất hiểu và sinh trong cùng một framework, nên ngay cả khi bổ sung modality hoặc tác vụ mới, vẫn có thể mở rộng tự nhiên sang nhiều miền khác nhau trong cùng kiến trúc mà không cần ghép thêm mô hình riêng.

Để có thể ứng dụng kiến trúc này trong môi trường dịch vụ thực tế, chúng tôi hiện đang tích hợp nó vào hạ tầng serving dựa trên vLLM, dInfer và SGLang. Vì một mô hình duy nhất xử lý cả đầu vào đa phương thức lẫn sinh đầu ra, nên hạ tầng suy luận hiệu quả cũng được xem là một yếu tố quan trọng.

Tiến xa hơn, chúng tôi cũng đang nghiên cứu Dynin-Robotics, mở rộng từ mô hình này sang mô hình physical AI bao gồm cả môi trường robotics và agent. Mục tiêu là một kiến trúc end-to-end có thể hiểu tổng hợp nhiều đầu vào cảm biến khác nhau và dẫn đến hành động thực tế.

Trong thời gian tới, chúng tôi dự định sẽ tiếp tục phát triển thông qua nghiên cứu và phát triển liên tục, tương tự như dòng GLM của Đại học Thanh Hoa Trung Quốc hay InternLM của Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải. Nếu bạn có ý tưởng cải thiện sau khi xem qua, hãy cứ thoải mái chia sẻ 👍

4 bình luận

 
runableapp 2026-04-03

Cảm ơn bạn. Đương nhiên là tiếng Hàn sẽ hoạt động tốt, đúng không?

Có vẻ là do vấn đề của huggingface.co, nên đã phát sinh lỗi. Chắc tôi sẽ phải thử chạy cục bộ.

 
jake630 2026-04-05

Tính năng tiếng Hàn hiện chưa được hỗ trợ trong phiên bản hiện tại. Chúng tôi dự định sẽ sớm phát hành một phiên bản được huấn luyện có bao gồm tiếng Hàn. Xin cảm ơn!

 
neolith 2026-04-02

Có kế hoạch mở rộng quy mô đến mức nào?

 
jake630 2026-04-05

Kế hoạch mở rộng quy mô cụ thể hiện đang được cả nhóm xây dựng. Chúng tôi dự định sẽ tiếp tục phát triển mô hình. Xin cảm ơn.