可逆注意力流生成模型

181 浏览量更新于2023-10-25 收藏 910KB PDF 举报

耦合渗流

生成模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11234耦合渗流可逆注意力流耦合渗流可逆注意力流具有可逆注意的Rhea Sanjay Sukthanker1，Zhiwu Huang1，2，Suryansh Kumar1，Radu Timofte1，Luc VanGool1，31CVL，ETHZuürich，Switzerland2 SAV G，SMU，Singg apore3 PSI，KULeuven，Belgiumsrhea@alumni.ethz.ch{zhiwu.huang，sukumar，radu.timofte，vangool}@ vision.ee.ethz.ch摘要基于流的生成模型已经显示出通过一系列可逆变换显式学习数据的概率密度函数的出色能力。然而，生成流中的学习注意力研究还很薄弱，而在其他领域的研究已经取得了突破性进展.为了填补这一空白，本文介绍了两种类型的可逆张紧机构，基于地图和基于转换器的注意，对于无条件和有条件的一般，高斯耦合渗流耦合渗流耦合渗流...X(a) 辉光高斯专注耦合流专注耦合流...X(b) 流量++高斯...X(c) AttnFlow流动性。其关键思想是利用这两个注意力的掩蔽方案来学习生成流上下文中的长距离数据依赖性。掩蔽方案允许可逆的注意模块与易处理的雅可比行列式，使其无缝集成在任何位置的基于流的模型。所提出的注意力机制导致更有效的生成流，由于其建模的长期数据依赖性的能力。对多个图像合成任务的评估表明，所提出的注意流导致有效的模型，并与最先进的非约束和条件生成流相比较。1. 介绍深度生成模型已经显示出它们能够为各种应用对复杂的真实世界数据集进行建模，例如图像合成[10，15，26，42，45]，图像超分辨率[10，15，26，42，45分辨率[29，53]，面部操作[7，9，19，38]，自动驾驶[50，60]等。广泛研究的现代生成模型包括生成对抗网络（ GAN ） [3 ， 15 ， 23 ， 56] ，变分自编码器（VAE）[26，36，46，55]，自回归模型[47，48]和基于流的模型[10，11，24]。GAN模型隐式地学习数据分布以通过将噪声分布变换到期望的空间中来产生样本，其中生成的数据可以近似真实的数据分布。另一方面，VAE优化数据的对数似然的下限虽然这两个模型都取得了很大的成功，但都没有提供确切的数据可能性。图1.拟议AttnFlow的概念比较针对两个代表性的生成流，即，(a)Glow [24]和（b）Flow++[17]。基于[24]，Flow++引入了传统的注意力机制，以在耦合层的上下文中对每个特征图的一个分割内的短期依赖性进行建模。相比之下，所提出的AttnFlow（如（c）所示）进一步引入了可在任何流位置引入的可逆注意力机制，以学习长期相关性。自回归模型[12，47，48]和基于流量的生成-迭代模型[10，11，24]优化了真实数据的精确尽管自回归模型在密度估计基准上有更好的性能，但其顺序属性导致了非平凡的并行化。相比之下，基于流的生成模型由于易于处理的对数似然、精确的潜变量推断以及训练和合成的并行性而在概念上具有吸引力。值得注意的是，它们允许通过归一化流精确推断实际数据的对数似然性。如图1（a），归一化流模型通过应用一系列可逆的变换函数，将简单分布变换为复杂分布，从而形成了同时进行精确对数似然优化和潜变量推断的优良机制。然而，由于其网络设计中的效率约束，大多数模型需要几个流层来近似非线性长范围数据依赖性以获得全局相干样本。为了克服这个缺点，在规范化流上有效地建模依赖性是关键，并且是目前最受欢迎的问题之一[17，35]。为了在基于流的生成模型中有效地对数据依赖性进行建模，可以选择将多尺度au高斯高斯专注耦合流高斯高斯高斯11235××回归先验[35]。相比之下，利用注意力机制已经成为在深度神经网络中建模这种依赖关系的一种显着方式它模仿人类的大脑行为，选择性地集中在少数相关信息上，而忽略不相关的信息。像[49，52，59]这样的自注意机制在建模范围依赖性的能力与计算和统计效率之间表现出良好的平衡。一般来说，自我注意模块将一点处的响应测量为所有点处的特征的加权和，其中注意权重以小的计算成本计算尽管[17]最近将常规atten- tion直接用作耦合层中的从属组件（图17）1（b）），它对短范围内的依赖性进行建模（即，每个流动特征图的一个分割）。据我们所知，规范化流上的数据依赖关系的有效建模自然的解决方案是利用新的注意力机制来学习基于流的模型的任何位置处的特征图的相关性然而，它通常是不平凡的，以实现利用新的注意力模块作为独立的流层的目标。具体地说，这种注意力应该保持流中易于处理的雅可比行列式在本文中，我们提出了流的可逆注意力（AttnFlow）模型，以可靠和有效地对网络数据依赖性进行建模，这些依赖性可以在基于流的模型的任何位置引入（沿着整个流特征图，见图1）。（c）第1段。其关键思想是利用一个掩蔽的注意学习方案，以允许对基于流的生成模型进行规范化的间歇注意学习。此外，所提出的掩蔽注意力方案有利于易于处理的雅可比行列式，因此可以无缝集成到任何生成流模型。特别地，我们利用两种不同的可逆注意机制分别在流特征图上编码各种类型的相关性。提出的两种注意力机制是（i）基于可逆图（iMap）的注意力，其直接对流特征图的注意力维度中的每个位置的重要性进行建模，（ii）基于可逆变换器（iTrans）的注意力，其明确地对注意力维度中的远距离位置之间的二阶相互作用进行由于所提出的两个可逆注意力模块显式地对流特征图的依赖性进行建模，因此它进一步增强了基于流的模型为了显示我们方法的优越性，我们在无条件和有条件的基于流的生成模型的上下文中评估了引入的注意力模型，多个图像合成任务。2. 相关工作生成流。早期的基于流的生成模型，如[10，11，25]，被引入用于实际的精确推理。数据对数似然它们通常由一系列可逆变换构造，将基分布映射到复分布。最近，出现了几种无条件生成流模型，其将早期流模型扩展到具有分离耦合的多尺度架构，从而允许有效的推断和采样[4，17，24，35]。比如说，[24]引入了可逆的11卷积来编码无条件设置的数据分布中的非线性。 [18]第十八话d可逆con-旋转以扩大感受野。[4]利用流层的剩余块（即，变换的灵活族），其中仅使用Lipschitz条件来强制可逆性。[17]用变分去量子化、连续混合累积分布函数和自关注改进了耦合层。自我注意直接应用于耦合层的内在神经功能。由于仿射耦合层的性质此外，这种直接注意应用程序仅学习通道流向维度的两个分裂之一内的相比之下，我们引入的注意力是独立的流层，其是可逆的，并且可以跨流特征图的不同分割学习更一般和更好的范围依赖性1。换句话说，[17]建模内部分裂依赖性，而我们学习交叉分裂相关性，因此两者是互补的。最近，[35]通过多尺度自回归先验对通道依赖性进行建模。引入的依赖建模是有限的潜在空间，因此，它可以补充我们开发的注意力在中间流维度。同样，针对条件图像合成出现了各种条件流模型[32，33，39，43，44]。例如，[44]利用两个可逆网络作为源和目标，以及一个将潜在空间映射到彼此的关系网络以这种方式，调节信息可以在适当的层次级别处被利用，并且因此可以克服使用原始图像作为输入的限制类似地，[39]利用了一个可逆映射的并行序列，其中源流在每一步都引导目标流。[43]介绍了条件网络，允许目标域流中的所有操作都以源域信息为条件。为了更好地调节，[33]利用条件仿射耦合层，该层接受由一个外部神经网络提取的源域特征图作为条件。据我们所知，这些条件流模型很少学习合适的范围依赖于-深度规范化流网络中的变量。[1]出于类似的目的，并行工作[58]也引入了可逆注意力。主要区别在于[58]在可逆性的模上采用了Lipschitz约束，这与[4]中提出的技术相似。然而，Lipschitz约束通常很难满足，导致使用[58]对可逆模型的结果较差11236θ∼∼◦◦||≡LN|θL层功能层功能Actnormi，j：yi，j=s可逆1 ×1卷积i，j：yi，j=Wxi，j仿射耦合xa，xb=SPLIT（x）（logs，t）= NN（xb）ya= exp（logs）x a+ty=（ya，xb）混合仿射耦合xa，xb=SPLIT（x）（logs，t，π，µ，logs）=NN（xb）ya=σ−1（f（xa，π，µ，logs））exp（logs）+ty=（ya，xb）条件仿射耦合xa，xb=SPLIT（x）（logs，t）= NN（xb，c）ya= exp（logs）x a+ty=（ya，xb）条件仿射注入器（logs，t）=NN（c）y= exp（logs）x+t表1. STEP O FLOW层用于无条件[35]或条件[33]流模型，用作我们的主干。这里x，c，y表示输入、条件和输出。SPLIT、NN表示分裂操作和正则神经流网络操作。xa，xb是tw o分裂，logs，t，π，μ，logs是网络函数NN作用于xb产生的xa的变换参数。F或混合af细耦合，f（xa，π，µ，logs）：=<$iπiσ（（xa−µi）<$exp（−logsi）），σ（·）表示S形函数[17]。注意力模型。为了解决卷积运算中丢失全局信息的问题，出现了它们可以更好地对深层网络层交互进行建模[1，14，30，49，51，52，57，59]。特别地，自我注意通过关注同一序列内的所有位置来计算序列中的位置处的响应，从而允许长距离相互作用而不增加参数的数量例如，[37，52，54]引入了基于地图的注意力来提高卷积网络在图像识别上的性能，其中学习空间注意力地图来缩放卷积层给出的特征。[49]第49话：一个人的幸福一是提出了关注机制。无条件流：在这种设置中，生成流旨在学习可逆变换（即，f θ，g θ，其中z=f θ（x）=g−1（x），模型参数θ）介于简单分布z p θ（z）和复杂分布xp θ（x）之间。函数f θ（同样，g θ）由可逆神经网络参数化，由L个可逆函数f θi组成。因此，网络模型通常称为（归一化）流：f θ= f θ1 f θ2。- 是的- 是的fθL，将潜在变量z上的简单分布密度映射到数据x上的复杂分布密度：产品注意与其多头版本建设xfθ1fθ2fθL（一）现有技术的注意力（即，Transformer），它已经成为自然语言处理任务的事实标准。[14，30]通过进一步将香草变换器应用于图像块序列，在广泛的视觉任务中实现最先进的技术。[5，6，20，22，34，59]在其他生成模型（如GAN）的背景下利用传统的注意力或基于transformer的注意力←→h1←→ h2···←→ z.给定pθ（z）的对数似然，变量变化公式使我们能够计算数据x在变换fθ下的对数似然：logp θ（x）= log p θ（z）+log |det（dz/dx）|=logp（f（x））+log|det（hi/h）|、以捕获长距离相关性，从而更好地生成图像。尽管取得了如此显著的进步，注意力模型θθi=1i−1（二）很少被用于基于流的生成模型，其中每个神经操作被约束以保持逆和雅可比行列式计算的易为了填补这一空白，我们提出的可逆注意力提供了有价值的解决方案，使这种定期的注意力，例如，基于地图的注意力和基于transformer的注意力，在生成流的背景下工作得很好。3. 概述和背景本文介绍了两个可逆的注意机制，nisms，以更好地模拟网络的深度依赖性的无条件和条件流为基础的我们的建模能够产生更有效的流动模型。下面，我们来介绍一下《无妄之灾》。其中，hi/hi−1是i个向量的雅可比矩阵。f θi从hi−1移动到hi，其中h0x。标量值log det J θi是雅可比矩阵3的对数行列式。 p θ（z）的似然性通常被建模为高斯似然性，例如：，p（z）=（zμ，σ）。的确切似然计算允许我们通过最小化负对数似然（NLL）损失来训练网络。条件流：在这种情况下，可逆网络f θ将输入数据-条件对（x，c）映射到潜在变量z = f θ（x; c）。在这里，数据x是从以c为条件的潜在编码z重构的，x =f −1（z; c）。数据x的对数似然计算为：logpθ （ x|c ） =logpθ （ fθ （ x;c ）） +log|det（hi/hi−1）|、有条件和有条件的生成流模型，i=1（三）2我们的论文重点研究可逆流，允许有效的精确推理和采样。3基于流的生成模型选择其雅可比矩阵是三角矩阵的变换，以便于计算log-det。11237×Ⓢ其中，hi=fθi （x;c）.对于无条件和无条件-空间：高宽空间：高宽在流动模型中，流动层的设计通常要求计算所涉及的变换fθi的逆和雅可比行列式应该是易于处理的。在本文中，我们主要使用[35]和[33]作为我们的骨干无条件和条件流模型分别在这些主干中，流网络被组织成L个流级，每个流级以一个分辨率运行(a) 空间掩蔽空间：高宽(b) 声道掩蔽包含K个流动步骤。通常，每个流级fθi由SQUEEZE、STEPO FLOW和SPLIT操作组成. SQUEEZE在空间分辨率与通道尺寸之间进行权衡。STEPOFFLOW通常是一系列仿射耦合层、可逆11卷积和归一化层。SPLIT划分中间层h，分成两半，其中一个被转换，另一个保持不变。表（1）总结了STEP O FLOW的主要层的功能。为了明确地对有效流模型的长程依赖性进行建模，我们研究了两种类型的可逆注意机制：（i）基于可逆地图（iMap）的注意：它旨在为注意维度中的每个位置学习加权因子，并使用学习到的注意权重来缩放流特征地图。注意力模型的重要性，每个位置的注意力维度的流特征图显式。（ii）基于可逆Transformer（iTrans）的注意力：它将位置处的表示响应计算为沿着注意力维度的所有位置的特征的加权和。注意力权重通过所有位置的特征之间的缩放点积来计算。与iMap attention相比，它显式地对沿注意力维度的远距离位置之间的二阶依赖关系进行建模。4. 建议注意力流向所提出的注意流（AttnFlow）旨在将基于可逆映射（iMap）或基于变换器（iTrans）的注意流层插入到传统的基于流的生成模型中（见图 1 ）。（ 1 ）（c）），从而使注意学习能够提高他们的表征学习效率。与传统的注意力机制一样，注意力操作接受形状为（H，W，Cin）的特征图h in作为输入，并输出具有变换hout=G（hin）的形状为（H，W，Cout）的关注特征图h out。在实践中，注意力学习包括三个步骤：（i）重塑输入特征映射h_in，（ii）计算注意力权重W_attn，以及（iii）将学习到的注意力权重应用于输出h_out。为了将引入的注意模块集成到生成流中，我们必须确保注意变换G保持逆和雅可比行列式计算的易处理性。因此，我们引入了一个棋盘掩码方案，用于全局排列的二进制模式（即，两次分裂生成 x1， x2）。受现有分裂技术的启发[11，24]，我们支持-(c) 提出的空间通道掩蔽图2.（a）空间棋盘式掩蔽[11]，（b）通道式掩蔽[11，24]和（c）提出的空间通道棋盘式掩蔽，用于空间和通道维度上的二进制图案生成。提出了一种空间通道棋盘式掩蔽方案。如示于图（2）（c），对输入特征图的整个空间和通道维度与现有的空间棋盘式掩模[11]（图）相比（2）（a））和信道掩蔽[11，24]（图（2）（b）），直接应用于产生空间和通道域上的二进制模式，引入空间通道棋盘格掩蔽（图。（2）（c））可以产生更多的全局置换二进制模式。当我们的方法在分裂过程中学习注意力时，排列和交错程度更高的二进制模式允许更完整的长距离交互。引入的全局掩蔽策略的性质更好地保证了所涉及的注意力可以直接可逆。此外，它使得注意力能够从一个分裂x1转移到另一个分裂x2，这鼓励两个分裂之间沿着一个注意力维度（诸如空间维度和通道维度）的交互。如示于图在（3）（a）-（c）中，总体掩蔽流注意力操作可以粗略地公式化为y1=x1s，（4a）y1=x1，（4b）y2=x2<$f（x1），（4c）其中Eq.（4）Eq.（4b）分别用于iMap和iTrans，以及Eq.（4C）两者都是。表示针对所提出的iMap/iTrans的逐元素/矩阵乘法，并且f（x1）指示针对iMap/iTrans4的注意力权重计算。如图（3）（b）-（d），我们的方法直接如下计算逆传播：x1=y1s，（5a）x1=y1，（5b）x2=y2<$f（x1），（5c）其中Eq.（5a）和Eq.（5b）分别用于iMap和iTrans，以及Eq.（5C）两者都是表示元素-4新的掩蔽计算和面向注意力的转换使我们的注意力操作不同于通道：C通道：C通道：C11238现有的耦合层[11，24]及其相关的注意力，如[17]中的11239（b）（G（G（h），in×××× × ×××=元素级乘积n=元素除法×=矩阵乘积12∗11∗212÷1÷1212=×1×��212×��=×��−112(a) MapAttn正向传播(b) MapAttn反向传播(c) TransAttn正向传播(d) TransAttn逆传播图3.所提出的基于地图（a）（b）和基于变换器（c）（d）的注意力机制的正向和反向传播的计算图由于所引入的基于分裂的策略的简单性质，所涉及的注意力是容易可逆的，并且具有易于处理的雅可比行列式。在（a，b）中，s是可学习的尺度参数，并且沿着通道（/空间）执行平均池化以用于空间（/通道）注意力学习。在（c，d）中，K，Q，V是基于转换器的注意力的三个基本元素它们是通过掩码方案中的常规1×1对于iMap/iTrans，f（x1）表示注意力权重的计算下面我们提供了两个引入的可逆注意力的细节，AttenFlow-iMap模块如图所示。（3）（a）-（b）。所引入的iMap变换的雅可比行列式计算如下：相应的雅可比行列式计算。在“我的天”注意。 [52]第52话，他的一句话，基于注意力（即，对角线注意力），我们利用一个可逆的基于地图的注意力来缩放特征地图，det（出去）= det（Wimap）=Mj，：=1Cin/25J5（七）所学习的注意力权重对沿着注意力维度的各个流维度的重要性进行编码。主要区别在于，我们将在一个分割x1上计算的注意力权重应用于另一个分割x2，这是由于等式中的可逆设计。（4）和等式（五）、具体而言，我们应用[52]中的一系列类似函数来实现流特征图空间域上的iMap。数学上，注意力权重可以计算为：W imap = G5.（ 1− M ） G4. G3 （ G2 （ G1（hin）n+Mbn，（六）其中M是建议的棋盘掩码（图（2）（c）），b是一个可学习变量，G1（hin）= Mhin，G2是一个核尺寸为1的一维卷积层，它将每个通道的特征响应的维数从Cin降到C′，并输出一个形状为（HW，C′）的特征图。在不失一般性的情况下，G3将平均池化5应用于每个通道维度，并输出用于空间注意力学习的（HW）-dim向量。算子G4将（H W）个注意力权重重新组织成（H W）（H W）矩阵，其中形状为（HW）的注意力权重被放置在矩阵的对角线上。导出的注意力权重矩阵Wimap是对角矩阵。函数G5对应于标准激活函数，例如softmax和sigmoid。最后，我们通过矩阵乘法将注意力权重矩阵Wimap应用于输入特征图，以获得关注特征图hout= Wimaphin。的正向和反向传播5在空间域上执行平均池化学习信道其中M是强制掩码，C_in是h_in的通道号，G_5指示相应的激活函数，G'（hin）=G3（G2（G1（hin），G1，G2，G3为掩蔽，一维卷积和平均池化。注意。在[49]中提出了传统的基于变压器的注意力这种注意力机制的成功主要源于对所涉及的特征图之间的二阶相关性的有效学习以及对注意力学习的三种不同表示的利用注意函数被表示为将查询qin和一组键值（kin，vin）对映射到输出hout。查询和关键字通过缩放的点积计算来学习二阶注意力权重，该权重进一步应用于输入值以用于最终的关注输出。为了引入基于变压器的注意流模型，如图所示（3）（c），我们应用两个可逆11对输入特征图进行二维卷积，得到查询键对（qin，kin），并使用输入特征图来扮演值vin的角色。注意力集中在-[14]第十四章：一个人的生活特别地，整个输入被分成N个块，并且iTrans注意力被应用于图像块。主要目标是捕捉与注意力权重的补丁间的相互作用。在实践中，我们同时计算一组查询的注意力函数，这些查询被打包到一个矩阵Q中。键和值也一起打包成矩阵K和V。映射过程公式化如下：QKT注意，假设训练和验证的空间分辨率相同。2016 - 04 - 2501：01：04刘晓波（（d）五、（8）11240∗×其中Q=G2（G1（hin）），K=G3（G1（hin）），V=G1（hin）=Mhin，M是建议的棋盘掩码（图1）。（2）（c））， G2， G3对应于两个规则的1×12 D方法级别步骤通道参数（MB）位/dim（↓）发光3 32 5120.97∗卷积，G4对应于激活函数。在引入的掩码内计算G2、G3，这允许可逆操作。一般来说，点积值经常变大以影响最终的负对数似然标度。因此，受[49]的启发，我们应用d来缩放点积值。为了达到一般规模，我们让d变得可学习。此外，我们遵循香草Transformer [49]来利用缩放点积的多个分支（等式10）。（8）对于多头注意。图（3）（d）示出了AttnFlow-iTrans的逆传播，其可以以简单的方式计算。iTrans 变换的雅可比矩阵（其中关注特征图为h_out=W_itrans_Mh_in）是下块三角矩阵，其中关注权重W_itrans形成（重复的）块对角条目。由于下块三角矩阵的行列式只是对角线上矩阵行列式的乘积，iTrans的雅可比行列式可以计算为：表2.在MNIST上评价样品质量。表示mARFlow论文[35]中报告的结果。由于MNIST是一个小数据集，并且根本不需要非常复杂的模型，因此当我们的模型的复杂性增加时，性能会降低。（粗体：最佳，下划线：次佳）流级、流阶和通道的集合我们使用sigmoid作为激活函数，并根据经验将AttnFlow-iTrans的补丁编号设置为N=4。2）竞争方法：我们比较了四种最先进的方法无条件生成流，即， Glow [24] 、 Flow++ [17] 、Residual Flow [4]和mARFlow [35]。我们的Attn-Flowsdet（在出去2）=（det（Witrans））P/2=（det（G4（QKT√dP/2，（九）最接近辉光的图层。相比之下，Flow++不包括SPLIT操作，并使用不同的uni-form反量化.因此，与Glow的比较，其中，G4、Q、K、d定义在等式2附近。（8），P是斑块大小，即，每个面片内的特征尺寸。5. 实验评价我们评估了分别用于图像生成、图像超分辨率和一般图像翻译任务的所提出的无条件和条件注意流（AttnFlow，cAttnFlow）6模型7。此外，我们在补充材料中提供了更多的实验细节和评价。图像生成。我们使用两个数据集，MNIST [28]和CIFAR10 [27]用于无条件图像生成。1）AttnFlow设置：所提出的AttnFlow可以应用于任何现成的无条件生成流。对于图像生成任务，我们利用mARFlow8 [35]的架构作为AttnFlows的主干，其中可以插入我们提出的iMap和iTrans注意流层。mARFlow的每个级别顺序地堆叠行为规范层、可逆11卷积层和耦合层。在mARFlow主干下，我们将我们提出的注意力模块（iMap或iTrans）插入以下四个位置之一：（i）在actnorm（pos-1）之前，（ii）在actnorm之后（pos-2），（iii）在可逆卷积之后（pos-3），和（iv）在耦合之后（pos-4）。为了研究AttnFlows6AttnFlowhttps://github.com/rheasukthanker/AttnFlow7在[33，35，43]之后，我们在所采用的数据集上进行了一次运行，评估了所提出的方法和所有竞争方法。8mARFlowhttps://github.com/visinf/mar-scf/mARFlow是一种更好的消融术，可用于测量AttnFlows的有效性和效率。此外，我们比较了并发工作[58]及其两个变体（ iResNet-iDP ， iResNet-iCon ），其将Lipschitz约束应用于特定流框架（iResNet）下的点积和级联注意力[4]。作为参考，我们还比较了一个代表性的GAN模型，DCGAN [40].3）比较：表（2）和表（3）总结了我们的AttnFlows和竞争方法在MNIST和CIFAR10上的定量结果。对于评估，我们使用以比特/尺寸为单位的每像素对数似然度量此外，我们还使用了三个标准度量，即。例如，Fre' chetInceptionDistance（FID）[16]、inception scores[41]和Kernel Inception Distance（KID）[2]，用于测量CIFAR 10 上从结果中，我们可以看到，我们的AttnFlow-iMap和AttnFlow-iTrans都明显优于具有相似模型复杂度的主干mARFlow（即，相同的级别和步骤数），我们的At- tnFlows可以实现比其他最先进的流模型更好的结果9。此外，我们更轻的模型（具有更少的步骤或更小的通道）通常可以实现与那些更重的mARFlow模型相当的性能（甚至更好的结果）。特别地，所提出的方法实现了显著的改进（即，0.17bits/dim），参数大小约为mARFlow的5倍，步长/通道数约为mARFlow的2倍（表9Flow++ [17]仅报告了其在CIFAR 10上的性能。在将其实现从CIFAR 10转移到MNIST之后，其位/暗为：0.66也比我们的差（0.39）。残余分流316––mARFlow349646.010.56（0.88）AttnFlow-iMap349646.030.43AttnFlow-iTrans349646.250.44AttnFlow-iMap329623.780.41AttnFlow-iTrans329623.890.42AttnFlow-iMap32488.940.39AttnFlow-iTrans32489.050.4011241∗××××(a)Flow++（3.08 bits/dim）（b）mARFlow（3.24 bits/dim，41.9 FID）（c）AttnFlow-iMap（3.216 bits/dim，33.6 FID）（d）AttnFlow-iTrans（3.217 bits/dim，33.8 FID）图4.CIFAR 10上所提出模型（AttnFlow-iMap、AttnFlow-iTrans）的样本与最新模型的比较方法级步进通道参数（MB）位/dim（↓）FID（↓）Incep（↑） KID（↓）DCGAN发光332512流量++3剩余流量316-iResNet-iCon（5.8*）（0.033*）mARFlow 3 4 256 252.77 3.24（3.222分贝）41.9（33.9分贝）5.7（6.5分贝）（0.026分贝）AttnFlow-iMapAttnFlow-iTrans3344969646.0346.253.2473.24840.540.26.05.90.0310.032AttnFlow-iMap34256252.793.21633.66.60.025AttnFlow-iTrans34256253.013.21733.86.70.025表3.在CIFAR10上评价样品质量。请注意，这表示mARFlow的ICML研讨会版本的结果[35]。（粗体：最佳，下划线：次佳）阳性1POS-2pos-3正43.2213.223.2193.2183.2173.216注意位置头数图5.在CIFAR 10上对AttnFlow-iTrans在流层中的不同位置（pos-1：在actnorm之前，pos-2：在actnorm之后，pos-3：在排列之后，pos-4：在耦合层之后）和不同数量的注意力头（1头、3头、5头、7头）进行的建议注意力消融研究（2）译注。对于CIFAR10，我们的模型（通道=256）明显优于mARFlow（表（3））。图1B中的视觉比较。（4）结果表明，与竞争方法相比，所提出的模型具有更清晰的视觉质量。尽管所提出的空间通道掩蔽相对于现有的空间通道掩蔽具有直观的优越性[11，24]（图11）。（2）），我们在MNIST上用AttnFlow-iMap评估这些掩码和随机二进制掩码。位/暗分别为0.99（空间），0.75（通道），0.50（随机），0.39（我们的），显示了我们消融研究。如图（5）在不同的注意位置和不同的人头数两种情况下，对所提出的注意模型进行了我们观察到，在排列层（pos-3）和耦合层（pos-4）之后的位置插入注意层是最有利的另一方面，AttnFlow-iTrans使用5个以上的注意力头并没有提供明显的改善。图像超分辨率。我们遵循[33]使用CelebA方法水平步长参数（MB）SSIM（↑）PSNR（↑）LR-PSNR（↑）LPIPS（↓）双三ESRGANSRFlow 1 1 6.622 0.6725.57 44.20 0.23SRFlow 2 8 13.250.73 25.47 38.94 0.17cAttnFlow-iMap1 1 6.623 0.7125.5044.750.19cAttnFlow-iTrans1 1 6.6300.73 25.50 44.23 0.18cAttnFlow-iMap2 8 13.300.7425.38 41.88 0.17cAttnFlow-iTrans2 8 13.930.73 25.24 42.490.16表4.结果8SR上CelebA.我们报告了SRFlow和我们在不同温度（0.1-0.9）下的平均SSIM、PSNR、LR-PSNR和LPIPS分数。（粗体：最佳，下划线：次佳）图像超分辨率（SR）任务的数据集分割[31]。1) cAttnFlow设置：我们的条件AttnFlow（cAttnFlow）基于SRFlow模型的架构[33] 10。流量网络被组织成L=4个流量级，每个流量级的分辨率为H/2lW/2l（H W，L分别表示HR图像的分辨率和第l个血流级）。每个流级由K个流级组成。每个流程步骤堆叠四个不同的层：（i）Acnorm，（ii）11可逆卷积，（iii）仿射注入器，以及（iv）条件仿射层。与图像生成类似，我们在SRFlow的每个级别中的前流层之后插入我们提出的注意力。2) 竞争方法：在SRFlow之后，我们将我们的结果与双三次和其他最近的SR方法进行了比较，其中包括ESRGAN [53] 和 SRFlow [33] 。由于 SRFlow 是我们cAttnFlow3) 比较：表（4）报告了我们的cAttnFlow与竞争方法在四个标准指标方面的比较，包括SSIM、PSNR、LR-PSNR和LPIPS。结果表明，与竞争方法相比，我们的模型可以在四个使用的指标中实现最佳平衡。我们的cAttnFlow骨干SRFlow的改进是可见的两个不同层次的模型复杂性，表明我们引入的注意力可以提高流模型的效率。图1B中的视觉比较。（6）表明我们的cAt-tnFlows的输出与其他人的输出相当或更好图像翻译。我们使用 Cityscapes [8] 来评估用于图像转换的cAttnFlows，其中分割标签图像被转换为RGB图像。1) cAttnFlow设置：我们的条件AttnFlow（cAttnFlow）10SRFlowhttps://github.com/andreas128/SRFlow/Bits/dim11242→×××××-|方法级别步骤参数（MB）条件位/dim（↓） C-Glow v.1表5.建议的AttnFlow和Cityscapes数据集上最先进的模型用于标签照片图像翻译的定量结果。（粗体：最佳，下划线：次佳）[33]第五十三章：你是谁？cAttnFlow-iTrans图6.建议的cAttnFlows的超分辨率样本和CelebA数据集上8×face SR的最新模型(a) 输入（b）Pix 2 PixGAN [21]（c）Dual-Glow [44](d)[43]（e）cAttnFlow-iMap（f）cAttnFlow-iTrans图7.在Cityscapes数据集上生成建议的cAttnFlows和最先进的图像转换模型的样本。竞争的方法和我们的条件下的语义分割标签（a）合成的RGB图像的分辨率为256 ×256。基于条件流（Full-Glow）11[43]模型。归一化流网络被组织成L=2个流级，每个流级操作H/2l 的特定分辨率W/2l，其中HW分别表示输入图像的分辨率和第l个流级。每个流级由K = 8个流级组成。请注意，我们的流动模型比全发光模型小得多，全发光模型由4个级别组成L=4，K=16）。每个流程步骤堆叠四个不同的层：1）Acnorm，2）11可逆卷积，3）仿射注入器，和4）条件仿射层。与图像生成一样，我们还在Full-Glow模型的每个级别中的现有流层之后插入我们提出的流注意力。2) 竞争方法：在[43]之后，我们比较了最先进的条件流方法， C-Glow [32] ， Dual-Glow [44] 和 Full-Glow[43]。我们还比较了GAN模型（Pix2Pix）[21]作为参考。由于我们使用Full- Glow作为cAttnFlow11Full-Glowhttps://github.com/MoeinSorkhei/glow23) 比较：对于基于似然的模型，我们遵循[43]来测量每个维度的条件位，log2p（xbxa），作为模型学习的条件分布与真实条件分布匹配程度的度量，当对保持的示例进行测试时表（5）总结了cAttnFlows及其竞争者的结果。比较表明，所提出的cAttnFlows可以实现更好的性能比最先进的条件流模型。特别地，与骨干模型（Full-Glow）相比，所提出的cAttn-Flows实现了更好的比特/dim，具有大约5个更小的参数大小和2个更少的级别/步骤，这表明所提出的注意力可以极大地提高流模型的效率。图1B中的视觉比较（7）表明，与竞争的生成流模型相比，我们的cAttnFlow的合成大小的图像在视觉上更令人愉悦（例如，拥有明显更丰富的纹理细节和更好的照明），并且它们看起来与Pix2PixGAN[21]产生的图像相对相当。6. 结论和未来工作本文介绍了可逆的映射为基础的和基于transformer的注意，无条件和条件生成规范化流。所提出的注意力能够有效地学习网络依赖关系，以增强基于流的生成模型的表示能力。对图像生成、超分辨率和图像翻译的评估表明，我们提出的关注点比使用的无条件和有条件的基于流的主干有明显的改善作为传统的注意力机制，我们的模型作为未来的工作，我们将遵循[13]，在更深层次的可逆流模型的背景下解决这个问题确认或确认。这项工作得到了ETH苏黎世基金（OK）、亚马逊AWS赠款和Nvidia GPU赠款的部分支持SuryanshKumar的项目得到了“ETH Zürich F oundation 2019-HE-323，2020-HS-411”的支持，汇集了最好的这项工作也得到了新加坡教育部（MoE）学术研究基金（AcRF）一级补助金（MSS 21 C002）的支持。作者要感谢AndreasLugmayr进行了宝贵的讨论。C-Glow v.2–––2.363双发光–––2.585全发光416155.332.345cAttnFlow-iMap2834.682.310cAttnFlow-iTrans2834.

下载后可阅读完整内容，剩余1页未读，立即下载