问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DiT(Diffusion Transformer)及其研究进展简述

创作时间:
作者:
@小白创作中心

DiT(Diffusion Transformer)及其研究进展简述

引用
CSDN
1.
https://blog.csdn.net/agito_cheung/article/details/145610761

DiT(Diffusion Transformer)是近年来在AI生成领域备受关注的创新模型,它巧妙地结合了扩散模型和Transformer架构的优势,为图像和视频生成任务带来了突破性进展。本文将为您详细介绍DiT的架构设计、核心组件,并回顾其近三年的研究进展与应用实例。

一、DiT(Diffusion Transformer)的定义与架构

1.定义

DiT(Diffusion Transformer)是一种结合了扩散模型(Diffusion Models)和Transformer架构的生成模型,主要用于图像和视频生成任务。其核心思想是用Transformer替代传统扩散模型中的U-Net架构,利用Transformer的全局建模能力提升生成质量与扩展性。DiT在潜空间(Latent Space)中操作,通过变分自编码器(VAE)将高维图像压缩为低维特征,从而降低计算复杂度。

2.架构与核心组件

DiT的架构可分为以下几个关键模块:

  • 输入处理

输入图像经过VAE编码为低维潜变量(如32×32×4的Latent),随后通过Patchify将潜变量划分为多个图像块(Patch),每个Patch通过线性投影转换为Token序列,并加入位置编码(固定正弦-余弦编码)。

  • 条件注入

DiT通过时间步(Timestep)和标签(Label)等条件信息指导生成过程,条件信息被编码为向量后,通过以下方式融入模型:

  • 自适应层归一化(AdaLN-Zero):动态调整归一化参数(缩放因子和偏移量),根据条件信息调制特征分布,替代传统交叉注意力机制,显著降低计算复杂度。

  • 交叉注意力(Cross-Attention):将条件信息作为Key/Value,与图像Token交互,但计算开销较高。

  • DiT Block

由多头自注意力(Self-Attention)和前馈网络(FFN)构成,结合AdaLN-Zero实现条件控制。每个Block的残差连接中引入门控机制(Gate),通过条件向量动态调节信息流。

  • 输出解码

最终通过线性层和Reshape操作将Token序列还原为潜空间表示,再经VAE解码器生成图像。

二、近三年DiT的研究进展与应用实例(2023-2025)

1.架构优化与扩展性

  • 模型扩展性:DiT-XL/2模型在ImageNet 256×256生成任务中达到SOTA性能(FID=2.27),验证了Transformer架构在扩散模型中的强扩展能力。

  • 多模态统一框架:如2024年提出的Flag-DiT,支持图像、视频、音频和3D生成,通过流式大模型(Flow-based Large Diffusion Transformers)实现跨模态生成。

2.应用实例

  • 视频生成(Sora)

OpenAI的Sora模型采用DiT架构,通过逐步去噪生成高动态范围视频,支持复杂场景的长程依赖建模,例如动态光影和物体交互。

  • 中文原生模型(腾讯混元DiT)

腾讯2024年开源的混元DiT,支持中英文双语输入,针对中文语境优化,在古诗、传统建筑等元素的生成上表现突出。其创新点包括:

  • 融合CLIP和T5文本编码器,提升长文本理解能力(支持256字符输入)。

  • 引入多模态大语言模型(MLLM)优化图像-文本对齐。

  • 高效生成与部署

AdaLN-Zero机制在减少计算量的同时保持生成质量,被广泛应用于开源模型(如Stable Diffusion 3)。

3.技术融合与创新

  • 多分辨率支持:Hunyuan-DiT引入集中式插值位置编码,解决不同分辨率图像的位置对齐问题,提升训练稳定性。

  • 训练稳定性优化:采用QK-Norm(Attention前添加LayerNorm)和混合精度训练,避免梯度爆炸。

三、总结与展望

DiT通过Transformer的全局建模能力与扩散模型的渐进生成特性,显著提升了生成任务的性能与灵活性。未来研究方向可能包括:

  1. 多模态融合:进一步统一图像、视频、3D等生成任务(如Flag-DiT的探索)。

  2. 轻量化部署:通过模型压缩和量化技术降低DiT的推理成本。

  3. 可控生成:结合强化学习优化条件控制,实现细粒度编辑(如腾讯混元DiT的多轮对话生成)。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号