没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文DynaST:用于样本引导图像生成的Songhua Liu,Jingwen Ye,Sucheng Ren,and Xinchao WangXiaomi新加坡国立大学{songhua.liu,suchengren} @ u.nus.edu,{ jingweny,xinchao} @ nus.edu.sg抽象的。样本引导图像生成的一个关键挑战在于在输入图像和引导图像之间建立细粒度的对应关系。先前的方法,尽管有希望的结果,依赖于估计密集的注意力来计算每点匹配,这是有限的,由于二次存储器成本,只有粗略的尺度,或固定的对应关系的数量,以实现线性复杂度,这缺乏灵活性。在本文中,我们提出了一个动态稀疏注意力的基础上Transformer模型,称为动态S解析Ttransformer(Dy- naST),以实现良好的效率与精细级匹配我们的方法的核心是一个新的动态注意力单元,专门用于覆盖一个位置应该关注的最佳标记数量的变化。具体来说,DynaST利用了trans-former结构的多层性质,并以cas- caded方式执行动态注意力方案,以优化匹配结果并合成视觉上令人愉悦的输出。此外,我们为Dy-naST引入了一个统一的训练目标,使其成为一个通用的基于参考的图像翻译框架,适用于监督和无监督场景。在姿态引导的人物图像生成、基于边缘的人脸合成和不失真的图像风格转移三个应用上的大量实验表明,DynaST在局部细节方面具有优异的性能,在显著降低计算成本的同时优于最先进的技术。我们的代码在这里可用。关键词:动态稀疏注意,Transformer,样例引导图像生成1介绍基于语义的条件图像生成是指合成具有对齐语义信息的照片级逼真图像,并且在包括标签到场景[16,54,37,70,48,55,10,44]、草图到照片[24,11,25]和地标到面部[42,61,47]的广泛场景中找到其应用。示例引导图像生成作为这条路线上的主流方法,为用户提供了指定图像作为参考以控制输出图像的外观、风格或身份的灵活性,并且最近在学术界和工业界受到广泛关注。*Correspondent author.arXiv:2207.06124v2 [cs.CV] 2022年7+v:mala2255获取更多论文2Liu等人Fig. 1. 左图:在样本引导的图像生成任务中,不同的查询位置需要不同数量的匹配。这一事实在很大程度上被先前的方法所忽视,这些方法只施加静态的匹配数量。相比之下 , 所 提 出 的 DynaST 专 用 于 处 理 此 类 变 化 。 右 图 : 面 和 边 中 的 细 节 可 以 通 过Transformer多层结构中的传播进行细化。这里显示了使用每层中的注意力地图的示例图像的变形结果范例引导图像生成的核心问题在于引导输入语义关注范例中的适当上下文。早期的方法主要依赖于整体卷积、归一化和非线性变换[36,37,52,1,71,67,46,44]。 尽管这些方法在全局偏移方面取得了令人鼓舞的结果,并且具有良好的效率,但这些方法忽略了细粒度的局部细节,从而导致粗糙的结果。为了在样本引导的图像生成中考虑局部上下文,最近的作品[45,64,62]采用每点注意机制来对输入和参考图像之间的空间对应进行然而,由于二次时间和存储器复杂度的限制,这种密集匹配操作不幸地再次将其自身限制在粗尺度上,使得它们难以捕获参考图像中的细粒度细节为了缓解这个问题,[69,63]的工作提出固定每个查询位置关注的特征点的数量,从而实现线性复杂度模型。这种设计背后的原因在于,目标图像中的每个查询位置实际上与参考中的这种逻辑反过来又意味着,目标和参考图像本质上是稀疏的。不幸的是,在许多情况下,这种静态的对应数量无法捕捉匹配的动态本质。如图1所示,不同的查询可能最终具有不同数量的必要匹配:在图1左侧(a)和(b)中,由于比例变化,所述目标图像对应于所述参考中的不同数量的位置;然而,在图1左侧(c)中,查询根本没有对应性,这意味着样本中的所有点都是负样本。这些事实促使我们探索一种更复杂的技术来考虑样本引导图像生成所固有的动态匹配(一)(b)第(1)款(c)第(1)款构成一对多一对一匹配匹配没有匹配示例层1层2层3示例性+v:mala2255获取更多论文×动态稀疏Transformer 3计算,同时保持稀疏性以确保计算效率。为此,我们提出了一种新的基 于 transformer 的 模 型 , 称 为 DynamicSparseTtransformer(DynaST)。DynaST的核心是动态稀疏注意力模块,与以前的密集和静态模块形成对比具体地,由于所采用的注意力策略是稀疏的,所以大量 的潜在匹配 候选被排 除。为了缓 解这个问 题,我们受 到Transformer[51]架构的启发,并使用多层结构支持所提出的注意力策略,这使得DynaST能够以级联方式探索和发展匹配结果。如图1右,我们通过在每一层中使用注意力地图扭曲样本图像来可视化匹配结果,并观察到随着Transformer多层结构中的特征传播,该模型产生更精细的匹配结果,特别是在面部和边缘等局部细节中。为了逐步细化匹配结果,每个当前匹配可以通过每层中的可区分且可学习的注意力链接修剪单元,以预测它是否是不相关的对应。因此,(1)这种动态修剪方式鼓励更精确和更干净的匹配结果;(2)由于Transformer有效的高阶依赖建模能力,DynaST能够聚合相关特征并合成高质量的输出;(3)DynaST中的稀疏注意力保证了即使是全分辨率匹配的效率。此外,我们引入了一个统一的训练目标,使DynaST很容易适用于监督和无监督设置下的通用样本引导的图像生成。我们对三个具有挑战性的任务进行了广泛的评估:姿势引导的人物图像生成,基于边缘的人脸合成和不失真的图像风格转移。在所有实验中,DynaST的性能显著优于最先进的样本引导图像生成模型,在定量指标方面高达36.7%,并实现了近实时的推理效率,与之前最先进的全分辨率匹配解决方案相比,加速比超过22相关作品2.1示例引导的图像生成示例引导的图像生成最近已经成为计算机视觉社区中的一个流行任务。 Park等人[37]提出了基于给定语义信息生成规范化参数的空间自适应规范化(SPADE)模块。在他们的工作中,样本图像被馈送到VAE以编码整体风格和外观,这指导了下面的生成过程。然而,由于这种全局变换,很难迁移示例图像中的局部细节。类似的缺点也存在于[36,52,1,71,67,46,20]等作品中。为了增强局部纹理的生成,Ren等人。[40]引入了神经纹理提取和分布模块。最近的尝试也已经取得了引入逐点注意到范例引导的图像生成,并取得了优异的结果。比如说,+v:mala2255获取更多论文4 Liu et al.Zhang等人。[64]提出CoCosNet来学习内部和外部之间的对应关系。把语义和参考图像。Zhan等人[62]使用不平衡的最优运输来实现相同的目标。然而,如果没有任何稀疏机制,二次增加的存储器成本阻止了这些方法学习对于合成高质量图像很重要的细粒度对应。虽然Zhou等人。[69]提出了能够学习全分辨率对应关系的CoCosNet-v2,但GRU的迭代全局搜索过程对效率产生了负面影响。本文中的DynaST带来了两个世界的最佳效果:它基于动态稀疏机制建立了精细尺度的匹配,可以生成具有高质量局部细节的图像,同时保持高效率。2.2图像匹配给定一对图像,图像匹配(如[19,27,31,41,49,17,43])旨在利用局部特征找到像素级对应关系,这是计算机视觉中的一个关键的区别是,跨域匹配建立,语义映射到样本图像,需要在图像合成问题,不像两个高度相关的图像之间的匹配。这也是一般跨域样本引导图像生成和基于参考的图像超分辨率之间的一个主要区别[34,66,18,56]。2.3高效Transformer标准Transformer[51,9]中的完全令牌式注意力操作对内存提出了很因此,大量的工作致力于为trans-former或通过扩展,基于图形的方法[58,57]设计有效的注意力机制。一方面,一些作品依赖于启发式策略,导致当前令牌只关注特定局部上下文中的令牌[4,6,26,3]。最近,探索了更多基于图像属性的策略,以提高视觉Transformer的效率[60,39]。 另一方面,基于随机采样的Informer [68],基于局部敏感散列的Reformer [22]和基于近似Softmax的Performer [5]实现了较低的复杂度,具有良好的理论保证。 Wang等人[53]仅涉及具有用于特征聚合的前K个注意力分数的令牌。类似的策略也在[69,63,44]中采用。虽然有效,但它不够灵活,不能固定注意令牌的数量,这无法在实践中模拟复杂和可变的匹配模式。与这些方法不同的是,本文的注意力模块中的稀疏机制是基于先验知识的图像匹配,针对样本引导的图像生成。3动态稀疏Transformer在本节中,我们将详细介绍用于样本引导图像生成的DynaST模型DynaST的概述如图2所示。王朝+v:mala2255获取更多论文TGTrefTGTTGTref动态稀疏Transformer 5图二. DynaST概述。实线箭头表示特征流,虚线箭头表示注意力图的中间的黄色、绿色和蓝色块分别采用密集注意、尺度间稀疏注意和尺度内稀疏注意取三个图像作为输入:参考图像Iref、I ref的对应语义映射Sref(例如,姿态图像或边缘图)和目标语义图St gt。它的目的是将图像Itgt与St gt中指定的目标语义信息以及Iref中的外观和风格进行合成。拟议的DynaST由三个部分组成。第一个是嵌入模块(Sec. 3.1),它是由一组多尺度层建立的,并在不同级别上聚合特征。第二个是Transformer模块(第3.2),该方法利用语义特征恢复目标图像的特征,地图作为目标,参考信息的特征作为记忆。 最后一个是一个轻量级的解码器模块,用于合成最终图像,其中多个由Transformer模块生成的比例要素是输入。管道的训练目标和监督信号在第2.1节中描述三 点三3.1嵌入模块给定输入语义图像Stgt和参考图像Iref以及其对应的语义Sref,嵌入模块产生特征嵌入集合Ftgt和Fref。DynaST采用分层补丁嵌入模块作为多尺度生成模型,以实现尺度级联匹配过程。所提出的嵌入模块被用来获得丰富的功能和上下文表示。此外,还包括位置嵌入,使网络知道的位置信息,在随后的匹配过程中。具体来说,我们使用两组独立的线性变换:和Ei,以获得目标语义图Stgt以及参考信息Iref和Sref,其中i表示嵌入第i个尺度的斑块大小为2i×2i。 第i个尺度的特征,F i和i参考 ,则可以写成:我tgt =X([E] j(Stgt)′|0<[0,动态稀疏Transformer 7i,第j个DynaST块采用第j-1个块产生的特征图Fitgt,j−1,参考特征地图Fi,以及之前DynaST块作为输入来计算注意力分数。注意,F i定义为F i从多尺度补丁嵌入层。 在粗略级别i = M1,具有普通注意力的密集注意力块用于导出注意力分数:AM−1= softmax(τα(FM−1,pos)β(FM−1,pos)<$),(2)jtgt,j−1ref其中,α和β被实现为两个11卷积核,τ是控制注意力分布的平滑度的超参数,并且X表示与通道无关的实例归一化[50]。然后,在更精细的级别i M1,对于第一个DynaST块(j= 1),提出尺度间稀疏注意力来计算该层的注意力图:Ai=softmax(τα(Fi,pos)β(TopKi+1(Fi,pos))β), (3)1tgt,0A−1refi,pos其中TopKAi+1−1 表示Ftgt,0中的点的匹配候选者从那些在最后一个块的注意力图中具有前k个大分数的人中,以前的规模。请注意,以前的量表中的一个点在当前量表中将被分为因此,在这一层有k对于以下块(j>1),基于局部区域中的匹配偏移可能相同的先验知识,执行尺度内稀疏注意以细化当前尺度下的注意匹配[2]:Ai= softmax(τα(Fi,pos)β(N(TopKi(Fi,pos)(4)jtgt,j−1Aj−1ref其中符号是导出具有与一个目标点的相邻点相同的匹配偏移的点的操作。例如,对于一个目标点,在当前层,首先找到其右邻居的匹配结果,然后将这些点的左邻居作为候选点。本文定义了一个位置的上、下、左、右点加上当前点本身作为相邻点。以这种方式,内部尺度稀疏关注层中的每个目标点的匹配候选的数量是k5。 帧间/内尺度稀疏注意层的直观性如图3左图所示。动态注意力修剪。考虑到并不是所有的注意力模块中的匹配候选都是特征聚合所必需的,我们提出了动态注意力修剪来决定一个点之间的注意力是否链接在目标地图和参考地图中的信息是有用的。为此,我们使用两个MLPΦ和Φ以将Ftgt和Fref变换到公共特征空间中。 然后,对变换结果的内积应用符号函数为了获得每个注意力链接的决策DPi=(Fi)Φ(Fi)JDi=tgt,j−1Ijref(五)0,否则+v:mala2255获取更多论文JJ JJtgt,j×tgt,jtgt,jLJJJJtgt,jJref8 Liu et al.请注意,在上述函数中,sign函数为训练中的基于梯度的优化引入了障碍。为了解决这个问题,我们在反向传播过程中从sigmoiddDij=dPiexp(−Pi)(1+exp(−Pi))2.(六)因此,动态修剪操作之后的注意力图由下式导出Ai=DiAi,(7)其中,n表示逐元素乘法。功能聚合。进行要素聚合的一种简单方法是使用修剪的注意矩阵A直接进行加权求和超过参考特征。然而,由于修剪操作,at-一个目标点对所有参考特征点的张力权重不再保证为1,这将导致特征聚合中的不平衡幅度。例如,在最极端的情况下,目标点在参考图像中将是不可追踪的,并且对于该点,注意力决策将全部为0然后,该点的聚合特征也将全部为0,这阻碍了合成合理图像。为了缓解这个问题,我们使用由SPADE块SP[37]恢复的特征来通过动态注意力修剪来补偿掩蔽部分:Fout=(1−<$A<$i)<$SP(Fi −1,Stgt)+A<$iη(Fi)的情况下,i′= Norm(F+Fitgt,jout−1),其中求和是沿着参考特征点的维度,η是另一个11卷积核,并且Norm表示层归一化。DynaST块中特征聚合的关键步骤如图3所示。非线性变换最后,遵循标准的Transformer架构,在DynaST块的末尾添加残差块以进行非线性变换:itgt,j =范数(Fi′+ Conv(ReLU(Conv(Fi’)。(九)3.3培养目标DynaST是一个用于样本引导图像生成的通用框架,它兼容监督和无监督任务的目标。默认情况下,总体训练目标由两部分组成:任务特定损失Lt和匹配损失Lm。特定任务的损失。首先,任务特定损失不针对任务本身,并且在我们的模型中对于不同形式的损失函数是灵活的。通常,对于像姿势引导的人物图像生成这样的监督任务,目标被定义为FF(八)+v:mala2255获取更多论文2LJJ翘曲,j222SI 1CSI 1S2I 1CSS2JJJJ动态稀疏Transformer 9MSE由原始图像空间和感知特征空间中的生成图像Itgt和组事实Itgt之间Lt=<$Itgt−It gt<$2+<$λi<$i(Itgt)−<$i(Itgt)<$2+我(十)λadvmax{logDis(Stgt,Itgt)+logg(1− Dis(Stgt,Itgt))},其中,f表示预训练的特征提取器(例如,,VGG-19),下标i指定来自哪个层特征,λi控制每个层的权重,Dis表示要与生成器交替训练的项,λadv是对抗项的权重[1]。再举一个例子,样式转换是一个无监督的任务,其损失函数可以写为:Lt=lc+λsls,lc=<$$>41(Ics)−<$41(Ic)<$24l=(µ((I))− µ((I)))<$2+<$σ(<$(I))− σ(i=1(I))第2、(11)段其中,Rax1旨在提取在ImageNet上预训练的VGG-19网络的ReLU x-1层的特征[7],µ和σ分别表示每个特征通道的均值和标准差[21,13]。在DynaST中,内容图像Ic和风格图像Is分别输入到嵌入模块Etgt和Eref,风格转移图像Ic是帧图像输出I_t g_t。匹配损失。为了给匹配模块和动态修剪模块提供更直接的监督信号,以产生适当的注意力图,我们引入了匹配损失m,它使用输出注意力图来扭曲参考图像,并测量扭曲图像产生的特定于任务的损失。具体地说,我们表示相关图,方程的结果。2、3和4在softmax之前,由Ci.导出翘曲矩阵Wi时注意J考虑到第Di号我JDi经验值(Ci)Wj={Diexp(Ci)}+,(12)其中,求和是在参考特征点上进行的,并且对于数值稳定性,k是小常数。然后,通过下式导出变形的参考图像:Ii=WiI′、(十三)warp,jj ref其中Ir′ef表示参考图像的调整大小后的版本,以保持Wi和Iref的维度尺度相同。匹配损耗由MSE定义:Lm=Ii-It′gt 2002年。(十四)I j最后,总目标由Lt和Lm的加权和给出:L=Lt+λ mL m,(15)其中λm控制项Lm的权重。I 1+v:mala2255获取更多论文××10 Liu et al.DeepFashion CelebA-HQ输入UNITE CoCosNet CoCosNet-v2我们的输入UNITE CoCosNet CoCosNet-v2我们的见图4。与DeepFashion和CelebA-HQ数据集上最先进的样本引导图像生成方法进行比较。4实验实施细节。 对于所有的实验,DynaST都是在256 256分辨率。4个不同的尺度被设置为32、64、128和256,其中对应的特征通道的尺寸为512、256、128和64 received。每个级别的转换模块由2个块构建,其中在粗尺度上有2个密集Attn块,在每个上层有1个跨尺度DynaST块和1个内尺度DynaST块。 对于监督任务,超参数λm和λadv分别设置为100和10。为风格转换时,λm和λs分别被设置为1和3。匹配损耗定义由方程式第14章这里不接受平滑度参数τ被设置为100,当选择关注候选时,默认使用k = 4。训练结束了在8个Tesla V100 GPU上,批量大小为32。数据集。对于姿势引导的人物图像生成和边缘引导的面部生成任务,使用DeepFashion[32]和CelebA-HQ[33]数据集训练集和验证集的分割以及输入样本图像对的检索策略与[64]中的一致。对于风格转换,遵循常见设置,MS-COCO[29]和WikiArt[38]分别作为内容和风格图像集进行训练。在训练过程中,所有图像都被调整为512× 512,然后随机裁剪为256× 256。本文报道了在512×4.1监督任务与其他方法比较 在姿势引导的人物图像生成和边缘引导的人脸生成问题上,我们主要将我们的方法与三种最先进的基于注意力的样本引导的图像生成方法进行比较,包括UNITE [62],CoCosNet [64]和CoCosNet-v2[69]。在UNITE和CoCosNet的注意力匹配是有限的,在一个相对粗糙的规模(64 - 64)的密集注意力操作的二次内存成本。 因此,如图4所示,一些细节纹理不够好,例如,、衣服和脸部细节在DeepFashion上的第一行比较,胡子在CelebA-HQ上的第二行比较。CoCosNet-v2利用了+v:mala2255获取更多论文动态稀疏Transformer 11构成地面实况图五. 涉及(a)尺度不相似匹配、(b)尺度相似匹配和(c)部分不匹配的混合场景,其中静态匹配方案不可避免地失败。建议DynaST,由于其专用的计划,用于处理动态匹配数,可以很好地处理所有这些情况下,并产生视觉上合理的结果。Conv-GRU模块用于预测精细尺度下的对应关系,其中由于高分辨率下的大搜索空间,容易添加噪声对应关系。在CoCosNet-v2中没有修剪来屏蔽不相关的匹配,这可能会导致一些伪像,例如。,表带在DeepFashion上的第二排比较。如每个示例的最后一列所示,我们的方法使用所提出的基于动态稀疏注意力的Transformer模型成功地解决了这些问题,该模型生成了更高质量的结果。值得注意的是,我们的DynaST和CoCosNet-v2之间的一个主要区别是,DynaST使用动态数量的匹配点进行特征聚合,而CoCosNet-v2只考虑固定数量的候选者,这无法考虑不同情况下匹配的动态属性。图5中示出了一个说明性示例,其中CoCosNet-v2的结果对于输入和样本的尺度不同的情况不太鲁棒,因为一个位置必须选择固定数量的匹配点。当存在较少信息对应时,不可避免地引入噪声。相比之下,DynaST中涉及的动态修剪更有能力鲁棒地处理这种规模变化为了进一步说明我们的方法在匹配构造上的优势,我们使用由每种方法导出的注意矩阵来扭曲样本图像并报告扭曲结果。如图6所示 , UNITE 和 Co-CosNet 的 结 果 由 于 低 分 辨 率 匹 配 而 模 糊 , 并 且CoCosNet-v2的结果包含太多噪声。与上述方法相比,该方法可以在全分辨率下产生最佳质量的匹配。量化,利用DeepFashion数据集中的配对样本,我们将扭曲的结果与地面实况图像进行比较,并在Tab中显示平均L1损失,PSNR和SSIM分数1左,我们的方法表现最好。的CoCosNet-v2我们的动力示例性(b)尺度相似(a)尺度不相似匹配(c)部分不匹配匹配+v:mala2255获取更多论文12 Liu等人。方法DeepFashion DeepFashion CelebA-HQL1 ↓PSNR↑ SSIM↑时间↓FID↓ SWD↓FID↓SWD↓[54]第五十四话----25.216.462.743.3SPADE[37]----36.227.831.526.9MUNIT[14]----74.046.256.840.8EGSC-IT[35]----29.039.129.523.8UNITE[62]13.116.713.214.913.116.713.214.9[64]第六十四话0.06718.480.8011.514.417.214.315.2[69]第六十九话0.06418.240.8021.713.016.713.214.0我们的-320.07718.120.735.538.5515.416.017.8我们的-640.06318.220.787.248.5012.813.113.1我们的-1280.06119.130.828.438.4112.912.312.7我们的内心0.06418.300.829.458.8812.014.717.2Ours wo Dyna0.06319.040.819.269.3221.815.319.0我们0.054 19.250.839.638.3611.812.012.4表 1. 左 : 匹 配 建 立 的 质 量 和 效 率 的 定 量 指 标 。 结 果 是 通 过 将 变 形 结 果 与DeepFashion数据集上的地面实况进行比较来衡量的一个样品的运行时间(×10−2秒)显示在这里。右:两个数据集上图像质量的定量指标构成示例GT修剪内尺度修剪...修剪...修剪内尺度修剪跨尺度修剪64-块1 64-块2 128-块2 256-块2最终输出最终输出64-块1 64-块2 128-块2 256-块2图第六章 动态修剪与内尺度稀疏注意的消融研究。使用注意力地图的中间变形结果被可视化,以展示输入样本匹配的演变。放大以获得更好的可视化效果。还包括为一个样本生成匹配和合成结果所需的时间,该时间在单个Nvidia3090GPU上通过平均1000个样本来测量CoCosNet和UNITE中的密集注意机制和最优运输问题的迭代求解分别留下了很高的计算负担。CoCosNet-v2中全分辨率下的回流预测进一步增加了延迟。与以往的方法不同,DynaST中高效的动态稀疏注意操作使其在获得最佳匹配结果的同时,也获得了最令人满意的计算速度。我们报告了广泛使用的FID [12]和SWD [23]指标,以反映生成的样本和真实图像之间的特征分布距离,遵循Zhang等人的方法。[64]第六十四话1正确。我们的方法在这两个数据集下的表现都明显优于以前的另一方面,我们显示的语义,颜色和纹理的一致性,在标签。[2]与[64]相同。结果在Tab。2表明我们的方法实现了称职的语义恢复和风格迁移性能。完整模型不带内部不含Dyna。+v:mala2255获取更多论文联系我们动态稀疏Transformer 13方法DeepFashionCelebA-HQSem.↑↑德州↑Sem.↑↑德州↑Pix2PixHD0.943NANA0.914NANA黑桃0.9360.9430.9040.9220.9550.927MUNIT0.9100.8930.8610.8480.9390.884EGSC-IT0.9420.9450.9160.9150.9650.942团结0.9570.9730.9300.9520.9660.950CoCosNet0.9680.9820.9580.9490.9770.958CoCosNet-v20.9590.9740.9250.9480.9750.954我们0.9750.9740.9370.9520.9800.959表2. 语义的定量度量(Sem.),颜色(Col.),和纹理(Tex.)与最先进的图像合成方法相比,两个数据集的一致性Content/Style LST MST WCT2MCCNetAdaAttN桅杆我们图第七章 与最先进的不失真风格转换方法的比较。消融研究。我们在本文中的两个核心思想:动态修剪和稀疏注意进行消融研究。基于完整模型,我们(1)去除动态修剪机制,相应的结果表示为OurswoDyna;(2)用尺度间的DynaST块替换所有尺度内的DynaST块,表示为Ourswo Inner;(3)去除不同尺度下的尺度间稀疏注意层,只使用粗尺度的注意表示为Ours-x,其中x32、 64、 128表示用于匹配的最高分辨率。使用所得到的模型重复对上述变形结果和最终结果的评估。表中的定量结果1表明,不完整的模型会导致较差的结果。定性地,我们使用图6中的注意力图可视化中间扭曲结果,以展示匹配结果如何通过多层动态修剪和尺度间/尺度内注意力而演变。首先,动态修剪能够抑制噪声匹配,并有助于生成更清晰的视图。图5中的示例还证明了动态修剪对于处理尺度变化的鲁棒性的重要性。另一方面,替换内部尺度DynaST块可能会导致一些伪像,如棋盘格,如图所示6、由于局部细化的缺失删除它们会对局部细节产生负面影响,如头发和布的区域。4.2不失真的图像风格传输+v:mala2255获取更多论文14 Liu等人。全分辨率匹配机制使DynaST非常适合0.65最佳的我们WCT2WCT2MST7.8%8.3%以生成不失真的样式转换结果。为了证明这样的优势,我们比较我们的Dy-0.600.55AdaAttNMCCNet桅杆LSTMAST9.4%11.0%LST11.8%43.3%我们的Nast与6最先进的风格0.50MST1.41.6一点八2.02.22.42.62.8AdaAttNMCCNet转移方法相同或类似目标,包括LST[28],风格损失用户研究结果MST[65]、WCT2[59]、MCCNet[8]、[30][31][32][33][34] 如图7所示,与真实感风格转移方法WCT 2相比,我们的结果迁移了全局,见图8。左:内容的可视化SSIM不同风格传递方法的风格损失;右:用户偏好分布。局部风格模式更好,而与其他方法相比,我们的结果最好地保留了内容图像的纹理细节,例如。头发在第一排。特别是,我们的方法能够处理复杂的场景,如第二行没有失真,其他方法失败。我们还使用[59]中的测试数据集,将SSIM分数与内容图像和风格损失对风格图像进行可视化,如图8左图所示。实验结果表明,DynaST作为第一个基于全分辨率匹配的风格转换方法,可以实现与真实感风格转换方法相当的内容保持能力,同时显著提高风格化效果。此外,我们使用相同的测试数据集进行用户研究有155名用户参与其中,12个内容样式对被随机地显示给每个。 他们被邀请选择他们最喜欢的一个结果中的每对7种方法。我们总共收到了1860张投票,偏好分布如图8所示,我们的偏好得分明显优于其他人。通过这种方式,定性和定量的比较都证明了DynaST的优越性5结论在本文中,我们介绍了一种新的多尺度Transformer模型,DynaST,占动态稀疏注意力和构造精细级匹配的样本引导的图像生成任务。DynaST具有统一的训练目标,使其成为监督和无监督设置下各种样本引导图像生成任务的通用模型。多个基准测试的广泛评估表明,所提出的DynaST优于以前的国家的最先进的方法,在匹配质量和运行效率。确认该项目得到了新加坡AI的支持(奖项编号:AISG2-RP-2021-023)新加坡国立大学教职研究委员会补助金(WBS:A-0009440-00-00)。SSIM+v:mala2255获取更多论文动态稀疏Transformer 15引用1. Al-Bahar,B.,Huang,J.B.:具有双向特征变换的引导式图像到图像转换。IEEE/CVF计算机视觉国际会议pp. 90162. 巴恩斯角,Shechtman,E.,Finkelstein,A.,戈德曼,D.B.:Patchmatch:一种用于结构图像编辑的随机对应算法. ACM Trans. Graph. 28(3)、24(2009)3. 贝尔塔吉岛彼得斯法医Cohan,A.:Longformer:长文档Transformer。arXiv预印本arXiv:2004.05150(2020)4. 查尔德河,Gray,S.,Radford,A.,Sutskever,I.:用稀疏变换器生成长序列。arXiv预印本arXiv:1904.10509(2019)5. Choromanski,K.,Likhosherstov,V. Dohan,D.,宋,X.,Gane,A.,Sarlos,T.,Hawkins,P.,Davis,J.,Mohiuddin,A.,凯泽湖Belanger,D.,科尔韦尔湖,Weller,A.:与表演者重新思考注意力(2021)6. Dai , Z. , 杨 志 , 杨 , Y. , Carbonell , J.G. , Le , Q. , Salakhutdinov , R. :Transformer-xl:超越固定长度上下文的专注语言模型。在:计算语言学协会第57届年会的主持人。pp. 29787. 邓,J.,Dong,W.,Socher河,Li,L.J.,Li,K.,李菲菲:Imagenet:一个大的-比例分级图像数据库。2009年IEEE计算机视觉与模式识别会议。pp. 248-255 05The Lord(2009)8. 邓,Y.,Tang,F.,Dong,W.,黄,H.,Ma,C.,Xu,C.:通过多通道相关实现任意视频风格传输。arXiv预印本arXiv:2009.08003(2020)9. Dosovitskiy ,A. ,拜 尔湖 ,Kolesnikov ,A. ,Weissenborn , D., Zhai,X. ,Unterthiner,T.,Dehghani,M.,Minderer,M.,Heigold,G., Gelly,S.,等: 一张图片相当于16x16个单词:用于大规模图像识别的变形金刚。arXiv预印本arXiv:2010.11929(2020)10. Esser ,P.,龙巴赫河,Ommer,B.:用于高分辨率图像合成的驯服变压器IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1287311. 高氏C.,刘昆,徐,Q,Wang,L.,美国,刘杰,Zou,C.:Sketchycoco:从手绘场景草图生成图像。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 517412. Heusel,M.,Ramsauer,H.,Unterthiner,T.,Nessler,B.,Hochreiter,S.:用双时标更新规则训练的Gans神经信息处理系统的进展30(2017)13. 黄,X.,Belongie,S.:任意风格的实时传输,具有自适应的实例规范化。在:IEEE计算机视觉国际会议论文集。pp. 150114. 黄,X.,Liu,M.Y.,Belongie,S.,Kautz,J.:多模态无监督图像到图像翻译。在:欧洲计算机视觉会议(ECCV)的会议记录。pp. 17215. 霍,J.,Jin,S.,李伟,吴,J.,黎耀光,施,Y.,Gao,Y.:用于语义对齐的样式转换的流形对齐。IEEE/CVF计算机视觉国际会议论文集。pp. 1486116. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络进行图像到图像的翻译。在:IEEE计算机视觉和模式识别会议论文集。pp. 1125+v:mala2255获取更多论文16 Liu et al.17. Jiang,W.,Trulls,E.,Hosang,J.,Tagliasacchi,A.,Yi,K.M.:Cotr:用于图像间匹配的对应Transformer。IEEE/CVF计算机视觉国际会议pp. 620718. 江,Y.,Chan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功