没有合适的资源?快使用搜索试试~ 我知道了~
1图像识别赵恒双香港中文大学VladlenKoltun IntelLabs摘要最近的工作表明,自我注意可以作为图像识别模型的基本构建块。我们探索自我注意的变化,并评估其有效性的图像识别。我们考虑两种形式的自我关注。一种是成对自注意,它是标准点积注意的一般化,基本上是一个集合算子。另一种是局部自我注意,它比卷积更强大。我们的成对自我注意力网络与卷积网络相匹配或优于卷积网络,而补丁模型的性能大大优于卷积基线。我们还进行了实验,探索学习表示的鲁棒性,并得出结论,自我注意网络可能在鲁棒性和泛化方面有显着的好处1. 介绍卷积网络彻底改变了计算机视觉。30年前,它们被成功地应用于识别手写数字[19]。直接建立在这项工作的基础上,卷积网络在2012年扩大规模,在ImageNet数据集上实现了突破性的准确性,大幅超越了所有先前的方法,并开启了计算机视觉的深度学习时代[18,29]。随后的架构改进相继产生了用于图像识别的更大,更准确的卷积网络,包括GoogLeNet [31],VGG[30],ResNet [12],DenseNet [16]和挤压和激励[15]。这些体系结构反过来又可以作为计算机视觉及其他领域应用的模板。所有这些网络,从LeNet [19]开始,基本上都是基于离散卷积。离散卷积算子 *可以定义如下:Σ(Fk)(p)=F(s)k(t)。(一)s+ t= p这里F是离散函数,k是离散滤波器。卷积的一个关键特性是其平移不变性:在图像F上应用相同的滤波器k。而在现代图像识别中,卷积作为基本算子无疑是有效的,但它并非没有缺点。例如,卷积缺少旋转不变性.必须学习的参数的数量随着内核k的占用空间而增长。并且滤波器的平稳性可以被视为缺点:来自邻域的信息的聚集不能适应其内容。基于离散卷积的网络是否可能是图像识别模型设计空间中的局部最优设计空间的其他部分能否产生具有有趣新功能的模型?最近的工作表明,自我注意力可能构成一个可行的替代方案,用于建立图像识别模型[13,27]。自注意算子已从自然语言处理中采用,它作为强大架构的基础,在各种任务中取代了递归和卷积模型[33,7,6,40]。计算机视觉中有效的自我注意架构的发展具有令人兴奋的前景,即发现具有与卷积网络不同甚至互补在这项工作中,我们探讨了变化的自我注意力运营商和评估其有效性的基本构建块的图像识别模型。我们探索两种类型的自我注意。第一个是成对自我注意力,它概括了自然语言处理中使用的标准点积注意力[33]。成对注意是引人注目的,因为与卷积不同,它基本上是一个集合运算符,而不是序列运算符。与卷积不同,它不将固定权重附加到特定位置(等式(1)中的s),并且对于置换和基数。一个结果是可以增加自注意操作者的足迹(例如,从3×3到7×7的贴片),或者甚至不规则,而对参数的数量我们提出了一些变体具有比点积注意更强的表达能力,同时保持这些不变性。特别是,我们的权重计算不折叠的通道尺寸,并允许功能聚合,以适应每个通道。接下来,我们探讨了另一类算子,我们称之为拼凑自注意。这些运算符,如卷积,具有唯一地识别其足迹内他们没有任何的特权,1007610077注意力的不变性或基数不变性,但严格来说比卷积更强大。我们的实验表明,这两种形式的自我注意是有效的图像识别模型的建设。我们构建了可以直接与卷积ResNet模型相结合的自注意力网络[12],并在ImageNet数据集上进行实验[29]。我们的成对自我注意力网络与卷积网络相匹配或优于卷积网络,具有相似或更低的参数和FLOP萌芽。受控实验还表明,我们的矢量运营商优于标准标量注意。此外,我们的补丁模型大大优于卷积基线。例如,我们的中型SAN 15具有补丁式注意力,其性能优于更大的ResNet 50,SAN 15的top-1准确率为78%,ResNet 50为76.9%,参数和FLOP计数低37%。最后,我们进行了实验,探索学习表示的鲁棒性,并得出结论,自我注意力网络在鲁棒性和泛化方面可能有显着的好处。2. 相关工作卷积网络。卷积网络已经开始主导计算机视觉。在他们开创性地应用于识别手写体十位数[19]之后的二十多年里,ConvNets在成功应用于ImageNet数据集上的图像识别之后成为主流[18,29]。随后出现了一系列越来越强大的图像识别卷积架构[31,30,12,16,15]。这些作为为其他计算机视觉任务开发的模型的基础,例如语义分割[22,3,42,44]和对象检测。[10,9,28,21]。自我关注。自我注意力模型已经彻底改变了机器翻译和更广泛的自然语言处理[33,37,7,6,40]。这激发了自我注意力和相关思想在图像识别[5,34,15,14,45,46,13,1,27 ],图像合成[43,26,2],图像识别[10,11,12],图像识别[11,12,13,14,15,15,15,14,45,46,13,1,27],图像合成[11,26,2]等领域的应用。字幕[39,41,4]和视频预测[17,35]。直到最近,自我注意力在计算机视觉中的应用才与卷积互补:自我注意的形式主要用于创建除卷积之外、调制卷积的输出或与卷积组合使用的层。在通道注意力模型[34,15,14]中,注意力权重在不同的频道其他方法[4,36,8]采用了空间和通道注意力。学习了许多方法来重新加权卷积激活或偏移卷积内核的抽头[5,15,34,36,46],从而保留了卷积特征构造的基本原理。其他人在附加到卷积结构的特定模块中应用自我注意力[35,45]。Bello等人[1]结合卷积和自我注意处理流,但发现他们使用的全局自我注意不是足够强大以完全取代卷积。Jia et al. [17]探索了动态滤波器网络,它将卷积一般化,但构造会产生显著的内存和计算成本,并且不能扩展到高分辨率图像和更大的数据集。最密切相关的我们的工作是最近的结果胡等。[13]和Ramachandran et al.[27]第10段。他们的关键创新之一是将自我注意力的范围限制在局部补丁(例如,7×7像素),而不是早期的结构,这种结构将自我注意力全局地应用于一个整个特征图[35,1]。这种局部注意力是限制模型消耗的内存和计算的关键,有助于在整个网络中成功应用自注意力,包括早期的高分辨率层。我们的工作建立在这些结果的基础上,并探索了更广泛的自我注意力的配方。特别地,我们的主要自我注意力机制计算适应不同通道的向量注意力,而不是共享标量权重。我们还探索了一个家族的patchwise注意力算子,其在结构上不同于[13,27]中使用的形式,并构成了卷积的严格概括我们表明,所有提出的形式的自我注意力可以实现规模,有利的参数和FLOP预算。3. 自我注意网络在用于图像识别的卷积网络中,网络的层执行两个功能。第一个是特征聚合,卷积运算通过组合来自内核所点击的所有位置的特征来执行。第二个函数是特征变换,它由连续的线性映射和非线性标量函数执行:这些连续映射和非线性操作破坏了特征空间,并产生复杂的分段映射。一个观察,我们的建设是,这两个功能-如果我们有一个执行特征聚合的机制,那么特征转换可以由分别处理每个特征向量(针对每个像素)的感知器层由线性映射和非线性标量函数组成:这种逐点操作执行特征变换。因此,我们的建设侧重于功能聚合。卷积运算符通过固定内核执行特征聚合,该固定内核应用预训练的权重以线性组合来自附近位置的集合的特征值。权重是固定的,不适应特征的内容。并且由于每个位置必须用专用的权重向量处理,因此参数的数量与聚合特征的数量我们提出了一些替代的聚合方案,并构建了高性能的图像识别架构,该架构将特征聚合(通过自注意力)和特征变换(通过元素感知器)交织在一起。100783.1. 成对自我注意我们探索两种类型的自我注意。第一种,我们称之为成对的,具有以下形式:Σyi=α(xi,xj)<$β(xj),(2)j∈R(i)其中,i是Hadamard乘积,i是特征向量xi的空间索引(即,其在特征图中的位置),并且R(i)是聚合的局部覆盖区足迹R(i)是指定哪些特征向量被聚合以构造新特征yi的索引的集合。函数β产生由自适应权重向量α(xi,xj)聚合的特征向量β(xj)。本节稍后将讨论此函数的可能实例,以及我们架构中围绕自注意操作的特征转换元素。函数α计算用于组合变换特征β(x j)的权重α(xi,xj)。为了简化对不同形式的自我注意力的阐述,我们将α如下:α(xi,xj)= γ(δ(xi,xj)).(三)关系函数δ输出表示特征xi和xj的单个向量。然后,函数γ将该向量映射成可以与β(x,j)组合的向量,如等式(1)所示二、函数γ使我们能够探索关系δ,这些关系δ产生不同维数的向量,这些向量不需要与β(xj)的维数相匹配。它还允许我们将额外的可训练变换引入到权重α(xi,xj)的构造中,使该构造更具表达性。 该函数执行线性映射,然后是非线性,然后是另一个线性映射;即,γ={线性-ReLU-线性}。γ的输出维度不需要匹配β的输出维度,因为注意力权重可以在一组通道之间共享。我们探索关系函数δ的多种形式:求和:δ(xi,xj)= δ(xi)+ δ(xj)减法:δ(xi,xj)=(xi)−(xj)级联:δ(xi,xj)= [(xi),(xj)]Hadamard积:δ(xi,xj)=(xi)(xj)点积:δ(xi,xj)=(xi)(xj)在这里,R1和R2是可训练的变换,例如线性映射,并且具有匹配的输出维度。 通过求和、减法和Hadamard乘积,δ(xi,xj)的维数与变换函数的维数相同。 通过级联,δ(xi,xj)的维数将加倍。 在点积的情况下,δ(xi,xj)的维数为1。位置编码。成对注意力的一个显著特征是特征向量xj是独立处理的,并且权重计算α(xi,xj)不能包含来自除i和j之外的任何位置的信息。为了给模型提供一些空间背景,我们用位置信息来增强特征图。 位置编码如下。首先将沿特征图的水平和垂直坐标归一化为范围[-1,1]在每个维度。这些规范化的二维坐标然后通过可训练的线性层,它可以将它们映射到网络中每个层的适当范围该线性映射针对特征图中的每个位置i输出二维位置特征pi对于每个对(i,j),使得j∈ R(i),我们通过计算差pi−pj。δ(xi,xj)的输出通过在映射γ之前连接[pi−pj]来增加。3.2. Patchwise自我注意我们探索的另一种自我注意力类型被称为拼凑式,具有以下形式:Σyi=α(xR(i))j<$β(xj),(4)j∈R(i)其中xR(i)是足迹R(i)中的特征向量的片。α(xR(i))是与面片xR(i)具有相同空间维度的张量。 α(xR(i))j是这个张量中位置j处的向量,在空间上对应于xR(i)中的向量x j。在零散的自我关注中,我们允许构建应用于β(x,j)的权重向量,以引用并合并来自足迹R(i)中的所有特征向量的信息。注意,与成对自注意不同,分片自注意不再是关于特征xj的集合运算。它不是置换不变或基数不变的:权重计算α(xR(i))可以按位置单独索引特征向量xj,并且可以混合来自足迹内不同位置的特征向量的信息因此,局部自注意严格来说比卷积更强大。我们将α(xR(i))分解如下:α(xR(i))= γ(δ(xR(i)。(五)函数γ将由δ(xR(i))产生的向量映射到适当维数的张量。该张量包括所有位置j的权重向量。 函数δ组合来自补丁xR(i)的特征向量xj。我们探索以下表格适用于此组合:阶积:δ(xR(i))=[n(xi)nn(xj)]n∈R(i)C-乘积:δ(xR(i))=[n(xj)n(xk)]n(xj),k∈R(i)级联:δ(xR(i))=[<$(xi),[<$(xj)]<$j∈R(i)]10079!:直线,C/r2聚集勒卢勒卢关系图y$,:线性,C/r1层输出大小SAN10SAN15SAN19输入224×224×364维线性过渡112×112×64Σ2×2,步幅2最大池→64-d线性Σ Σ Σ ΣΣSA块112×112×643×3,16-DSA 64-D线性×23×3,16-DSA 64-D线性×33×3,16-DSA 64-D线性×3过渡56×56×256Σ2×2,步幅2最大池→256-d线性Σ Σ Σ ΣΣSA块56×56×2567×7,64-DSA 256-D线性×17×7,64-DSA 256-D线性×27×7,64-DSA 256-D线性×3过渡28×28×512Σ2×2,步长2最大池→512-d线性Σ Σ Σ ΣΣSA块28×28×5127×7,128-DSA512-D线性×27×7,128-DSA512-D线性×37×7,128-DSA512-D线性×4过渡14×14×1024Σ2×2,步长2最大池→1024-d线性Σ Σ Σ ΣΣSA块14×14×10247×7,256-DSA1024-D线性×47×7,256-DSA1024-D线性×57×7,256-DSA1024-D线性×6过渡7×7×2048Σ2×2,步幅2最大池→2048-d线性Σ Σ Σ ΣΣSA块7×7×20487×7,512-DSA2048-d线性×17×7,512-DSA2048-d线性×27×7,512-DSA2048-d线性×3分类1×1×1000全局平均池→1000-d线性→softmax表1.图像识别的自我注意网络。“C-d线性”意味着线性层的输出维度是“C”。“C-d sa”代表输出维度“C”的自我注意操作。SAN10、SAN15和SAN19分别与ResNet26、ResNet38和ResNet50大致对应。SANX中的数字X指的是自我注意块的数量我们的建筑完全基于自我关注。3.3. 自我注意阻滞第3.1节和第3.2节中描述的自注意操作可以用于构造执行特征聚合和特征变换的残差块[12]。我们的自我注意力块如图1所示。输入特征张量(通道维度C)通过两个处理流。左侧流通过计算函数δ(经由映射和ψ)和后续映射γ来评估注意权重α。右流应用线性变换β,该线性变换β变换输入特征并降低其维数以进行有效处理。两个流的输出,然后通过阿达玛产品aggre-gated。组合的特征通过标准化和元素级非线性,并由最终的线性层处理,该线性层将其维度扩展回C。3.4. 网络架构我们的网络架构通常遵循剩余网络,我们将其用作基线[12]。表1给出了通过以不同分辨率堆叠自注意块获得的三种架构这些架构-SAN 10、SAN 15和SAN 19-大致对应于ResNet 26、ResNet 38和ResNet 50。SANX中的数字X指的是自我注意块的数量。我们的建筑完全基于自我关注。C图1.我们的自我注意障碍。C是通道维度。左边的流评估注意力权重α,右边的流通过线性映射β变换特征。两个流都降低了信道维度以进行有效处理。流的输出经由Hadamard乘积聚合,并且维度随后扩展回到C。骨干SAN的主干有五个阶段,每个阶段具有不同的空间分辨率,从而产生32的分辨率降低因子。每个阶段包括多个自我注意力块。通过降低空间分辨率和扩展通道维度的过渡层来桥接连续阶段。最后一级的输出由分类层处理,该分类层包括全局平均池化、线性层和softmax。10080过渡过渡层降低了空间分辨率,从而减少了计算负担并扩大了感受野。过渡包括一个批量归一化层,一个ReLU [25],步幅为2的2×2最大池化,以及一个线性扩展通道维度的映射。自我关注的足迹本地足迹R(i)控制由自关注操作者从先前特征层收集的上下文的量。对于SAN的最后四个阶段,我们将占用空间大小设置为7×7将覆盖区在第一阶段设置为3×3,因为它的分辨率很高,阶段和随之而来的内存消耗。 注意增加足迹大小对成对自注意中的参数的数量没有影响。我们将在5.3节中研究占用空间大小对精度、容量和FLOPs的影响。实例化。每一级中自注意块的数目可以调整,以获得具有不同容量的网络。在表1所示的网络中,最后四个阶 段 中 使 用 的 自 注 意 块 的 数 量 分 别 与 ResNet26 、ResNet38和ResNet50中的残差块的数量相同。4. 比较在本节中,我们将第3节中提出的自注意算子家族与其他构造联系起来,包括卷积[19]和标量注意[33,35,27,13]。表2总结了两种配置之间的一些差异。下面将更详细地讨论这些问题操作内容自适应信道自适应卷积[19]✗✓标量注意力[33,35,27,13]✓✗矢量注意力(我们的)✓✓表2.卷积不适应图像的内容标量注意力产生不沿通道维度变化的标量权重我们的算子有效地计算了适应空间维度和通道的注意力权重。卷积常规卷积算子具有与图像内容无关的固定核权重。它不适应输入内容。内核权重可以跨通道变化。标量注意。标量注意力,如在变换器[33]和计算机视觉[35,27,13]中的相关结构中所使用的,通常具有以下形式:所有通道共享的标量。(Hu等人[13]探索了点积的替代方案,但这些替代方案对同样在通道间共享的标量权重进行操作。这种构造不适应不同通道的注意力权重。虽然这可以通过引入多个头[33]在一定程度上缓解,但头的数量是一个小常数,并且标量权重由头内的所有通道共享引导注意力(我们的)。第3节中提出的算子子化了标量注意力,并以重要的方式推广了它首先,在成对注意力家族中,关系函数δ可以产生向量输出。这是求和、减法、阿达玛和连接形式的情况。然后,该向量可以被进一步处理并通过γ映射到正确的维度,γ也可以将位置编码通道作为输入。映射γ产生具有与变换特征β相容的维度的向量。这使得该构造在适应不同的关系函数和辅助输入方面具有显著的灵活性,由于沿着计算图的多个线性映射和非线性而具有表达能力,能够产生沿着空间和信道维度两者变化的注意力权重,以及由于通过映射γ和β降低维度的能力而具有计算效率。patchwise家族的运营商推广卷积-同时保持参数和FLOP效率。这一系列运算符为沿特征图的所有位置生成权重向量,这些权重向量也沿通道维度变化权重向量由操作员的整个足迹来通知5. 实验我们对ImageNet分类进行了实验[29]。该数据集包含128万张训练图像和来自1000个不同类别的50K验证图像。为了将自注意力网络与ResNet等卷积网络进行比较,我们在原始训练集上进行训练,并在原始验证集(称为 对于自我注意网络的对照实验和消融研究,我们通过从每个类别的训练集中随机采样50张图像,从原始训练集中分离出一个单独的验证集:这被称为“val-split”。这确保了架构和超参数的选择不是在用于与外部基线进行比较的同一集合yi= Σj∈R(i).(xi)Σn(xj) β(xj)(6)5.1. 执行我们从头开始训练所有模型100个epoch。我们使用带基本学习率的余弦学习率调度(可以添加softmax和其他形式的归一化与卷积不同,聚合权重可以在不同的位置变化,这取决于图像的内容另一方面,权重(xi)(xj)是一个0.1 [23]。我们在Ima-geNet上应用标准数据增强,包括随机裁剪到224×224块[31],随机水平翻转和归一化。我们在8个GPU上使用小批量大小为256的同步SGD我们10081方法ResNet26与SAN 10ResNet38与SAN15ResNet50与SAN19top-1top-5ParamsFlopstop-1top-5ParamsFlopstop-1top-5ParamsFlops卷积73.691.713.7M2.4G76.093.019.6M3.2G76.993.525.6M4.1GSAN,成对74.992.110.5M2.2G76.693.114.1M3.0G76.993.417.6M3.8GSAN,修补77.193.511.8M1.9G78.093.916.2M2.6G78.293.920.5M3.3G表3.自注意力网络和卷积残差网络在ImageNet分类上的比较在val-original set上进行单一作物测试使用系数为0.1的标签平滑正则化[32]。动量和重量衰减分别设置为0.9和1 e-4 [12,38,11]。我 们 的 卷 积 网 络 基 线 是 ResNet26 , ResNet38 和ResNet50 [12]。ResNet38和ResNet26是通过以ResNet50为起点并分别从每一级中移除一个或两个残余块来构造的。对于自注意块,我们默认使用r1=16和r2=4(符号见图1共享相同关注权重的信道的数量被设置为8。5.2. 卷积网络Convolutional Networks表3报告了所呈现的自注意力网络与卷积对等体的主要比较结果对于成对的自我注意,我们使用减法关系。对于零散的自我注意,我们使用连接。这些决定基于第5.3节中报告的受控实验。成对模型匹配或优于卷积基线,具有相似或更低的参数和FLOP预算。补丁模型的表现甚至更好。例如,patchwise SAN 10不仅优于ResNet26,而且优于ResNet38,与后者相比,参数计数低40%,FLOP计数低41%同样,patchwise SAN 15不仅优于ResNet 38,而且优于ResNet 50(SAN 15的top-1准确率为78%,ResNet 38为76%,ResNet 50为76.9%),与后者相比,参数计数减少37%,FLOP计数减少37%。5.3. 受控实验关系函数表4报告了val-split集上不同关系函数的受控比较结果。对于两两自注意,求和、减法和阿达玛积达到类似的精度。这些关系函数优于级联和点积。特别是,这些实验表明,向量自注意优于标量自注意。对于逐块自注意,级联实现比星积和卷积积略高的准确性。我们还尝试与Ramachandran等人的自我注意配置进行对照比较。[27]第10段。不幸的是,在撰写本文时,它们的实现尚未发布,并且存在许多可能影响结果的细微差异,从输入词干的配置到位置编码,到架构超参数,方法top-1top-5ParamsFlopsConv. ResNet2676.092.813.7M2.4G求和77.493.310.5M2.2G减法77.493.310.5M2.2GSAN 10对。concatenate76.492.610.6M2.5GHad. 产品77.493.410.5M2.2G点积77.093.010.5M1.8G星积78.794.010.9M1.7GSAN 10-补丁。商品79.194.211.5M1.9G级联79.394.211.8M1.9G表4.值分裂集上不同关系函数的受控比较。数据增强和训练计划。我们试图通过使用相同的整体网络架构(SAN10)和训练设置(第5.1节)来尽可能控 制 外 部 差 异 。 在 这 个 框 架 内 , 我 们 复 制 了Ramachandran等人的自我注意力块。越近越好特别地,我们使用了他们的分组点积注意力,添加了位置信息,并将r1和r2(瓶颈降维因子)设置为4。这产生了71.7%的top-1准确度和89.9%的top-5准确度,低于我们 具 有 相 同 设 置 的 自 我 注 意 配 置 , 并 且 低 于 Ra-machandran 等 人 报 告 的 结 果 。 ( 参 数 数 为 13.9M ,FLOP数为2.3G。结合我们的对照实验考虑,这似乎支持这样的结论,即向量自我注意力是计算机视觉中自我注意力网络的有用构建块。我们的研究结果还表明,补丁式自我注意可能是特别强大的,值得进一步研究。最后,复制相关工作报告的结果的困难突出了及时发布参考实施的重要性。我们将以开源的方式发布我们的完整实现和实验设置,以便于比较,并协助未来在这一领域的工作。映射功能。我们对注意映射函数γ中的线性层数进行了消融研究。结果列于表5中。对于成对模型,使用两个线性层产生最高精度。对于分片模型,不同的设置会产生相似的精度.仅使用一个线性层进行注意力映射会在分片设置中产生显著的内存和计算成本多个层可以引入瓶颈,10082减少维数并因此减少存储器和计算成本。考虑到所有因素,我们使用两个线性层(表5中的中间设置)作为所有模型的默认值方法top-1top-5ParamsFlopsConv. ResNet2676.092.813.7M2.4GL75.892.310.5M1.8GSAN 10对。L→R→L77.493.310.5M2.2GL→R→L→R→L77.093.010.6M2.5GL79.394.253.5M9.5GSAN 10-补丁。L→R→L79.394.211.8M1.9GL→R→L→R→L79.594.312.7M2.0G表5. val-split集上不同映射函数的控制比较。L和R分别表示Linear和ReLU层。转换功能。现在我们来评估使用三个不同的转换函数(α,β和β)是否有帮助。结果见表6。使用三个不同的可学习转换通常是最好的选择。另一个优点是,不同的β变换使得能够使用不同的瓶颈降维因子r1和r2,这可以用于降低FLOP消耗。对于α=β,我们设置r1=r2=4,表7.对足迹大小的影响进行受控评估虽然没有,但准确性仍然很低。如3.1节所述,相对位置编码更为有效。产生的精确度与=相当FLOP计数。β,但在较高表8.位置编码在成对自我注意中的重要性。5.4. 稳健性我们现在进行两个实验,与卷积基线相比,探索自注意网络学习的表征表6.对不同转换函数的使用进行受控评估足迹大小。我们现在评估自注意算子的足迹R(i)结果报告于表7中。在卷积网络中,占用空间的大小导致显著的存储器和计算成本。在自注意网络中,准确性最初随着足迹大小而增加,然后饱和。对于成对自注意,增加足迹大小对参数的数量没有影响 考虑到所有因素,我们将封装尺寸设置为7×7作为所有模型的默认值位置编码。最后,我们评估了位置编码在成对自我注意中的重要性。结果报告于表8中。位置编码具有显著的效果。如果没有位置编码,top-1的准确率会下降5个百分点。绝对位置编码[20]更好旋转图像的零镜头泛化。第一个实验在旋转和翻转的图像上测试训练好的网络。在这个实验中,val-original集合中的ImageNet图像以四种方式之一旋转和翻转:顺时针90度,顺时针180度,顺时针270度,以及绕水平轴上下翻转。 这是零发射测试:在训练时不进行此类操作。结果报告于表9中。我们的假设是,成对自注意模型对这种操纵比卷积网络(或补丁自注意)更鲁棒,因为成对自注意基本上是一个集合算子。事实上,我们看到成对的自我注意模型比卷积或补丁的自我注意网络更不容易受到攻击,尽管所有的网络都受到域转移的影响。例如,当图像旋转180度,成对SAN 19的性能下降了18.9个百分点,低于ResNet50的跌幅。两两SAN 10模型在这方面达到了54.7%的top-1准确率方法top-1top-5Params Flops3×376.092.813.7M2.4GConv. ResNet265×577.493.622.7M4.0G7×777.993.736.1M6.5G3×375.392.010.5M1.7G5×576.692.910.5M1.9GSAN 10对。7×777.493.310.5M2.2G9×977.893.510.5M2.5G11×1177.693.310.5M3.0G3×377.493.410.7M1.6G5×578.794.011.2M1.7GSAN 10-补丁。7×779.394.211.8M1.9G9×979.394.112.7M2.1G11×1179.494.113.8M2.3G方法top-1top-5ParamsFlopsConv. ResNet2676.092.813.7M2.4G没有一72.390.310.5M2.1GSAN 10对。 绝对74.791.710.5M2.2G相对77.493.310.5M2.2G方法top-1top-5ParamsFlopsConv. ResNet2676.092.813.7M2.4G=76.592.89.5M3.0GSAN 10对。=76.392.610.0M2.1G/=77.493.310.5M2.2G=78.994.113.4M2.2GSAN 10-补丁。=79.094.011.3M1.8G/=79.394.211.8M1.9G10083方法没有旋转顺时针90度顺时针180度顺时针270度颠倒top-1top-5top-1top-5top-1top-5top-1top-5top-1top-5ResNet2673.691.749.1(24.5)72.7(19.0)50.6(23.0)75.4(16.3)49.2(24.4)72.8(18.9)50.5(23.1)75.4(16.3)SAN 10对。74.992.151.8(23.1)74.6(17.5)54.7(20.2)78.5(13.6)51.7(23.2)74.5(17.6)54.7(20.2)78.5(13.6)SAN 10-补丁。77.193.553.1(24.0)75.7(17.8)54.6(22.5)78.4(15.1)53.3(23.8)76.0(17.5)54.7(22.4)78.3(15.2)ResNet3876.093.051.2(24.8)74.2(18.8)52.2(23.8)76.9(16.1)51.6(24.4)74.6(18.4)52.2(23.8)76.8(16.2)SAN 15对。76.693.154.5(22.1)77.1(16.0)57.9(18.7)80.8(12.3)54.8(21.8)77.0(16.1)58.0(18.6)80.8(12.3)SAN 15-补丁。78.093.953.7(24.5)76.1(17.8)56.0(22.2)79.5(14.4)53.9(24.3)76.2(17.7)56.0(22.2)79.4(14.5)ResNet5076.993.552.6(24.3)75.3(18.2)52.9(24.0)77.4(16.2)52.6(24.3)75.5(18.0)53.0(23.9)77.3(16.2)SAN 19-对。76.993.454.7(22.2)77.1(16.3)58.0(18.9)80.4(13.0)55.0(21.9)77.1(16.3)57.9(19.0)80.4(13.0)SAN 19-补丁。78.293.954.2(24.0)76.3(17.6)56.2(22.0)79.5(14.4)54.1(24.1)76.4(17.5)56.3(21.9)79.5(14.4)表9.训练网络在测试时对图像旋转和翻转的鲁棒性瓣膜原始套件的零发射测试括号中的数字成对自我注意模型比卷积网络或补丁自我注意更不容易受到攻击。这比更大的ResNet50(52.9%)的准确性更高对抗性攻击的鲁棒性。接下来,我们评估训练后的网络对对抗性攻击的鲁棒性。我们将训练的模型置于白盒靶向PGD攻击[24]。攻击的超参数包括每像素最大值扰动φ(在L∞范数下)、攻击步长ρ和攻击迭代次数n。我们测试有两组超参数:{8,4,2}和{8,2,4}。 结果报告见表10.结果表明,自注意模型比卷积网络更鲁棒例如,在4次攻击迭代中,ResNet50的攻击成功率为82.5%,前1名的准确率下降到11.8%。对于相应的成对和补丁SAN模型,攻击成功率要低得多,分别为63.7%和62.0%,而模型的准确率大约高出对于ResNet26基线,4次攻击基本上破坏了模型,前1名的准确率为1%。相比之下,patchwise SAN模型的top-1准确率大约高出10倍,为9.6%。(随机猜测基线将显示0.1%的前1准确度。这两个实验都表明,自注意力网络在鲁棒性和泛化方面可能具有显着的优势。这些可能超过在传统评估程序中观察到的准确性增益,值得进一步研究。6. 结论在本文中,我们探讨了完全基于自我注意的图像识别模型的有效性。我们考虑了两种形式的自我关注:两地和拼凑地。成对形式是一种集合运算,在这方面与卷积有本质的不同。拼接形式是卷积的推广。对于这两种形式,我们引入了有效适应的向量注意力方法清洁发作n=2发作n=4top-1S. 率top-1S. 率top-1ResNet2673.649.026.698.21.0SAN 10对。74.932.835.390.15.3SAN 10-补丁。77.124.546.485.89.6ResNet3876.032.739.294.13.8SAN 15对。76.615.547.367.519.6SAN 15-补丁。78.013.154.865.622.9ResNet5076.919.549.382.511.8SAN 19-对。76.913.149.163.721.8SAN 19-补丁。78.212.155.162.024.8表10.训练好的网络对val-original集合上的对抗性攻击的鲁棒性n是攻击迭代的次数。's.“rate”是攻击的成功率(越低越好),“top-1”是攻击下的准确率(越高越好)。自我注意模型比卷积网络更强大。跨空间维度和通道的权重。我们的实验产生了一些重要的发现。首先,纯粹基于成对自我注意力的网络匹配或优于卷积基线。这表明深度学习在计算机视觉中的成功与卷积网络并没有必然的联系:存在一种可替代的途径来获得相当或更高的辨别能力,其具有不同的和潜在的有益的结构特性,例如排列不变性和基数不变性。我们的第二个主要发现是,补丁式自我注意力模型的性能大大优于卷积基10084线。这表明,推广卷积的逐块自注意力可以在计算机视觉中的应用中产生强大的准确性增益最后,我们的实验表明,矢量自我注意力是特别强大的,大大优于标量(点积)的注意力,这一直是主要的配方。10085引用[1] Irwan Bello , Barret Zoph , Ashish Vaswani , JonathonShlens,and Quoc V Le.注意增强卷积网络。在ICCV,2019年。2[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。2019年,在ICLR。2[3] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。使用深度卷积网络和全连接CRF进行语义图像分割ICLR,2015年。2[4] Long Chen,Hanwang Zhang,Jun Xiao,Ligen Nie,Jian Shao,Wei Liu,and Tat-Seng Chua. SCA-CNN:图像字幕卷积网络中的空间和通道注意力。在CVPR,2017年。2[5] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。InICCV,2017. 2[6] 戴梓航,杨志林,杨一鸣,Jaime Carbonell,Quoc V. Le和Ruslan Salakhutdinov. Transformer-XL:超越固定长度上下文的注意语言模型。在ACL,2019年。一、二[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。在NAACL-HLT,2019年。一、二[8] Jun Fu , Jing Liu , Haijie Tian , Zhiwei Fang , andHanqing Lu.用于场景分割的双注意网络。在CVPR,2019年。2[9] 罗斯·格希克。快速R-CNN。在ICCV,2015年。2[10] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。2[11] PriyaGo yal , PiotrDolla´r, RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch , Yangqing Jia , and Kaiming He. 准 确 的 大 型minibatch SGD : 1 小 时 内 训 练 ImageNetarXiv
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功