Transformer基的可扩展扩散模型

需积分: 5 0 下载量 89 浏览量 更新于2024-06-14 收藏 41.8MB PDF 举报
"Scalable Diffusion Models with Transformers" 本文探讨了一种基于Transformer架构的新一类扩散模型。传统的图像扩散模型通常采用U-Net作为基础结构,而作者则将这一结构替换为处理潜在补丁的Transformer,从而构建了所谓的Diffusion Transformers(DiTs)。他们通过分析前向传递的复杂性(以Gflops为衡量标准)来研究DiTs的可扩展性。研究发现,具有更高Gflops的DiT(通过增加Transformer的深度、宽度或输入令牌的数量)在FID(Fréchet Inception Distance)指标上持续表现更优。 1. 引言 机器学习领域正在经历快速发展,尤其是在生成模型方面。扩散模型作为一种生成式模型,已经在图像生成任务中取得了显著的成果。然而,如何实现这些模型的高效和可扩展性是当前面临的挑战。Transformer自其在自然语言处理领域的成功应用以来,逐渐被引入到计算机视觉任务中,因其并行计算能力和对全局信息的捕捉能力而受到关注。 2. 方法 本文提出的Diffusion Transformers(DiTs)利用Transformer的特性,能够在潜在空间中对图像进行建模。与U-Net相比,Transformer可以在更大的输入尺寸上进行操作,并且可以更有效地处理全局依赖关系。通过将图像分割成小块(补丁),Transformer能够并行处理这些局部信息,从而提高了计算效率。 3. 实验与结果 实验部分,作者训练了不同规模的DiT模型,包括在ImageNet数据集上训练的DiT-XL/2模型,分别在512x512和256x256分辨率下进行。结果显示,随着模型复杂度的增加,即Gflops的增加,DiT的FID分数(评估生成图像质量的指标)显著降低。其中,最大的DiT-XL/2模型在类条件的ImageNet 512x512和256x256基准测试中,达到了最先进的FID成绩,256x256分辨率下的FID仅为2.27,这表明了模型的出色性能。 4. 讨论与未来工作 尽管DiTs展示了出色的性能和可扩展性,但其仍然存在计算资源的需求较高和训练时间较长的问题。未来的研究方向可能包括优化Transformer的结构以减少计算需求,或者探索更有效的训练策略以缩短训练时间。此外,将DiTs应用于其他领域,如视频生成或3D对象建模,也可能成为研究的焦点。 “Scalable Diffusion Models with Transformers”通过将Transformer引入扩散模型,实现了模型在生成图像质量上的新高度,并提供了良好的可扩展性,为未来高效率、高质量的生成模型设计提供了新的思路。