Georgeqi's Blog

Diffusion学习7-DiT

2024-03-10

Scalable Diffusion Models with Transformers 【主页】【论文】【代码】 DiT Block架构当前主流的Diffusion模型大都采用U-Net模型作为主干网络，U-Net网络的输入和输出具有同样的尺寸，自然也很在适合Diffusion中用于预测与输入noisy latent相同尺寸的noise。但是自ViT后，Transformer结构也已经在多个视觉任务上被验证了其有效性，且相比较于CNN结构的U-Net可能还具有更好的效果。今天这篇论文则成功将transformer结构应用在Diffusion模型上，并且探究了其scalability能力，最终的实验也表明其最大的模型DiT-XL/2在ImageNet 256x256的类别条件生成上达到了SOTA（FI..

Georgeqi's Blog

Archives · 2024

Home

About

Archives

Diffusion学习7-DiT