没有合适的资源?快使用搜索试试~ 我知道了~
11804具有分组双线性注意变换的卢驰1,2,袁泽焕2,穆亚东1,王长虎21北京大学,北京,中国2,字节跳动人工智能实验室,北京,中国{chilu,myd}@ pku.edu.cn,{yuanzehuan,wangchanghu}@ bytedance.com摘要对空间或时间的长期依赖性进行建模在深度神经网络中起着关键作用。传统的主要解决方案包括对序列数据的递归操作或以小内核大小深度堆叠卷积层最近,一些非局部算子(如基于自注意力的算子[57])被设计出来。它们通常是通用的,可以插入到许多现有的网络管道中,以便在特征映射中的任何两个神经元之间进行全局计算。本文提出了一种新的非局部算子。它受到人类视觉系统注意机制的启发,能够迅速注意到视觉中重要的局部,抑制其他不相关的信息。我们方法的核心是(一)(b)第(1)款花可学习和数据自适应的双线性注意力变换(BA变换),其优点有三个方面:首先,BA-变换是通用的,以模拟广泛的局部或全局注意操作,如强调特定的局部区域。每个BA变换以数据自适应的方式学习;其次,为了解决特征通道之间的差异,我们进一步设计了分组BA变换,本质上是对不同的特征通道组应用不同的注意操作;第三,许多现有的非局部算子是计算密集型的。提出的BA变换是通过简单的矩阵乘法实现的,并承认更好的效果。为了进行实证评估,我们在两个大规模的基准测试ImageNet和Kinetics上进行了全面的实验,分别用于图像/视频分类所实现的精度和各种消融实验一致地证明了大幅度的显著改善。1. 介绍这个时代见证了深度神经网络的蓬勃发展卷积网络的神经架构仍然*通讯作者。图1:(a)具有非局部算子的神经网络的典型架构,其中非局部神经块(以蓝色突出显示)稀疏地添加到原始网络管道中,以立即实现大的感受野。(b)我们提出的双线性注意力变换(BA变换)的插图。 利用变 换 公式Y=P(X)XQ(X)中适当学习的矩阵P(X)、Q(X),BA-T变换可以对关注特征进行各种操作(如该子图所示的选择性缩放和分散到远处位置)。P、Q中的上标强调了它们对X的依赖性。正在经历快速进化。最近的大部分努力都致力于设计更深[48,17]或更宽[61,14]的网络架构,或更有效的原子卷积算子[6,20]。这项工作的主要兴趣是在深度卷积网络中建模长期空间[57]或时间[56]依赖性。为此 , 经 典 的 神 经 网 络 , 如 VGG-Net [48] 或 ResNet[17],大多采用深度堆叠许多具有小感受野的卷积层的方案(例如ResNet中的3×3内核[17]和C3D中的3×3×3时空内核[52])。在现有的网络管道中稀疏地插入非局部算子是当前有效扩大神经感受野的图1(a)中示出了这种架构的图示。非局部算子稀疏插入的主要挑战是它们的NL-块ConvConvConvConvConvConvNL-块ConvConvConvNL-块11805时间复杂度高。例如,在[57]中,Wang et al.提出了一种开创性的基于自注意的非局部神经算子,它需要O(N2)(N计算特征图中的所有位置)向量乘法。可以说,图1(a)中的方案可以在以下方面取得良好的折衷:复杂性和性能。我们的方法受到人类视觉感知的启发。 对于在视网膜处接收到的光学信号,人眼被认为进行用于获得低级别抽象的自下而上的过程,以及从整个视野场景中快速定位最感兴趣的部分的自上而下的注意操作。眼睛会聚焦在参加的区域进行进一步检查。这种注意机制对视觉理解的效果明显优于盲加工。这激发了人们在设计用于视觉分析和生成的各种强大的注意力神经网络[41,16,25]方面的大量努力。图1(b)说明了我们提出的双线性注意变换(BA变换)。它处理输入特征图X以通过以下公式获得新的YY←P(X)XQ(X),其中所有变量都是矩阵,它们的大小可以从上下文推断。 激励我们的BA变换的倡导者认为有两个必要条件:首先,人类非常有能力捕捉复杂的注意模式,即使在一个单一的一瞥。 视野中的关注部分可以是空间或时间上不相交(例如,在拳击动作的视频中,两个拳击手都应该被关注,即使他们可能彼此远离),或者高度复杂。因此,至关重要的是,强制执行,神经注意单位有足够强大的建模能力。我们提出的BA变换支持对所关注的图像或视频部分的各种各样的操作,尽管它很简单,包括许多仿射变换(选择性缩放、移位、旋转、裁剪等),抑制/加强局部结构甚至全局推理,如图1(b)部分所示其次,双线性矩阵乘法适合于高效的微分计算。在实践中,我们可以将实现BA变换的神经块添加到现有网络中,并以端到端的方式联合训练所有神经层。自上而下的监督可以逐渐反向传播到浅层,并加强学习注意力和自上而下的监督之间当插入具有跳跃连接的神经结构时,BA变换倾向于在不同的插入处学习互补注意力,这在我们的实验部分中得到了实证研究的证实。所提出的BA变换自然地继承了其先前作品的几乎所有优点[57,24]:通过直接连接所有位置来捕获远程交互,与许多现有的神经网络无缝结合,并提高性能,即使只插入非常几次除此之外,本文还提出了一种信道分组方案。这就要求在一个群体中共享相同的注意力模式。这明确地使得可以针对神经网络中的相同特征图同时学习多个异构注意力模式。本文的其余部分组织如下:我们首先回顾了第2节中的相关工作,并在第3节和第4节中详细介绍了所提出的块设计。 第5节展示通过在图像识别和视频分类两个任务中进行实验,验证了该全局算子的有效性。2. 相关工作神经注意力已知人类视觉系统在中央凹处具有高分辨率,而在外围具有低分辨率[46]。注意力机制弥补了这一差距,并激发了计算机视觉领域的最新发展注意力在视觉任务中的成功应用包括图像分类[55,59],图像生成[16],分割[4,12],动作识别[57,37]等。在神经网络中,每个像素的注意力可以被软估计(即,软注意力)且几乎不被分类为0或1(即,注意力)。获得硬注意力的一种流行方法是使用预先训练的检测器[58,34]或通过强化学习训练的策略来学习裁剪图像区域我们提出的方法属于软注意力的范畴[25,13,54,57,9],其中注意力单元通常是可区分的,并通过梯度反向传播进行训练。一些经典的方法将注意力视为自下而上的显着性[55,9]。最近的进展越来越强调自上而下的监督。另一种分类法是基于注意力是局部还是全局学习的。可变形卷积[10,64]寻找局部感兴趣的像素。基于自我注意力的注意力方法[57,24]全局连接所有位置。在全局学习的注意力模型中,有些是一次性完成的(例如,[25]和我们提出的方法),和其他人反复加强模型[41,16,27]。网络架构。近年来,人们观察到一种新颖的神经网络。经典网络(例如,VGG [48])支持具有小内核的卷积。得到了所有位置之间的全局相互作用通过深度堆叠许多卷积层并利用跳跃连接(例如,[17]和DenseNet [23])。更复杂的内核和网络可以通过神经架构搜索(NAS)自动找到[1,35,5]。它也被广泛探索使用混合或大的接收领域。例如,Inception[50,51]和SKNet [31]使用不同大小的内核的集合。与我们最在我们提出的BA变换中,分组方式11806CC输入输入k个组X转换预测器(TP)模块1x1转换信道降维信道降维福奥林行P G高x1转换1x1转换HxHxk转型预测Hx1xC高x宽x深高x宽x高HxWxCBA-变换色谱柱合并1xWxC宽x宽xk残留添加BA变换Y1x1转换渠道推广输出高x宽x深高x宽x高图2:我们提出的BAT模块的设计。左侧面板绘制了我们提出的BAT-Block的计算管道。右侧面板显示了更多细节,特别是变换预测器。为了节省空间,这里没有显示批量归一化,ReLU和我们提出的行/列归一化。更多解释见第3.2节。注 意 力被 采 用 ,类 似 于 MobileNet [19, 47 ,18],ShuffleNet [63,39]和IGCNet [49].图像/视频分类。 一大多数的神经网络[17,55,23,10,64,6]被开发用于处理图像识别。基于深度网络的视频分类的早期开发直接借用了预训练的图像模型。首先从基于帧的视频片段中提取特征,并通 过 循 环 聚 合 [60] 或 朴 素 池 化 [56] 进 行 融 合 。Karpathy等人在[26]中首次将3D卷积操作引入到该任务中。I3D [2]的后续工作提出了一种更好的网络初始化方法,将预先训练的2D滤波器扩展到3D。为了加快计算时空卷积,一些最近的方法解耦了3D卷积,并沿空间和时间维度顺序执行[43,53,62]。TSM [32]提出了一种有效的方法,通过时间尺度的移动来建模时间信息。3. 所提出的方法在3.1节中,我们首先介绍了双线性原子变换(BA-变换)的一般定义。在实践中,BA变换被包装成一个神经块,可以放入任何任意的CNN架构中详细信息,包括各种工程考虑,见第3.2节。3.1. 制剂设X∈RH×W×C是具有C通道的特征映射.H、W分别表示沿两个空间维度的尺寸。我们的目标是设计一个算子,将输入X转换为相同大小的输出Y∈RH×W×C。关键是,Y的每个元素都与多个X中的特征(即,捕获长程相关性非局部属性),并包含X的所有关键信息(即,Y学习X的注意力)。不同于现有的基于自注意[54]的非局部算子[57]及其近似加速变体[7,24],我们在这里利用双线性矩阵乘积如下,Y=P(X)·X·Q(X),(1)其中下标c表示沿第c个通道的X或Y的H×WP(X)和Q(X)是要学习的变换矩阵,大小分别为H×H和W×W它们的上标意味着两者都依赖于输入数据X,因此数据自适应。为简洁起见,下文将省略上标让我们给一些直观的解释Eqn。(一). 一旦正确学习,根据初等矩阵理论[40],左乘数P可以表示为三种初等矩阵的乘积,分别是交换行,将行乘以标量,或将行的倍数添加到另一行。同样,学习的右乘数Q定义了一系列对X的基本列运算。P、Q的联合函数使得能够实现X的大范围变换,包括选择性缩放、抑制/增强X的特定子矩阵等。图1(b)中发现了两种特殊情况。以前的工作[25]旨在通过仿射变换学习平移,缩放,旋转和更通用的扭曲的不变性。我们的工作不同地在特征图上支付不同的注意力权重。空间转换器的数量也限制了注意力的数量,而我们的注意力可以在一对P,Q中封装几个注意力操作。此外,我们提出的BA变换不会受到黑边问题的影响[25]。较11807我我J基于自我注意力的算子[57],我们的方法倾向于表现出优越的性能,据推测是由于有效地建模复杂的注意力模式。3.2. 用于图像任务的基本2D BAT块我们将包装并实现BA变换实例的神经块称为BAT块。BAT-Block的架构如图2所示。遵循残差块的常见做法[17,55],我们添加两个1×1 将卷积转换为BAT块。任何输入要素地图一开始会先进行渠道缩减出口渠道推广。还采用了剩余连接。在BAT-块中有两个关键过程,即变换预测器和BA-变换。前者读作X∈RH×W×C(输出第一个1×1卷积),并预测两个参数矩阵P∈RH×H和Q∈RW×W.后者先前在Eqn中描述1.一、经验上,可以观察到,P、Q在梯度反向传播的几个时期之后趋于爆炸。为了数值稳定性的考虑,我们强制P,Q中的所有元素都是非负的,并分别按行或列在L1意义下对它们进行归一化,如下所示:矩阵矩阵X2图3:矩阵图。在该示例中,H/sh=W/sw= 2。该过程直观地显示在图2的右侧面板中。2. 用全卷积估计P,Q。 下一步骤分别从紧凑池化特征Frp、Fcp估计P和Q为此,我们简单地采用可学习的卷积核。重要的是,为了确保在学习P、Q时利用全局信息,使用具有访问所有池化特征的全局感受野的内核例如,H×1核用于获得P,1×W核用于获得Q。与[22]中的压缩和激发(SE)操作不同,我们的方法可以在很大程度上保留对预测P或Q至关重要的空间信息。SE不考虑空间性。P←Pi,j, Q←Qi,j、(二)3.3. 改进2D BAT块i、jHk=1 Pi,ki、jWk=1 Qk,j我们的实际调查还揭示了其中i、j、k协作地构成用于访问P和Q中的单个元素的有效索引。现在我们详细介绍transform中的两个核心操作预测因子:1.通过通道缩减和行/列池化进行特征压缩。简化的特征图X(从某些D通道到C)对于在全局感受野上的计算来说通常仍然太大为了进一步降低时间复杂度,我们通过1×1卷积层进一步减少X中的通道数量,然后进行批处理。标准化层和ReLU。获得的表示记为F∈RH×W×C′,其中C′<$C.我们期望P,Q中的每个单独的元素都是在F的条件下全局估计的。为此,它是两种技术的有效性,在加速或精度提升的意义上。基于块的矩阵估计。从合并的特征预测P、Q的完全分辨率仍然需要大量的参数。 正如我们后面的实验所示过度参数化的BA变换会对泛化性能产生不利受图像分析中广泛使用的超像素思想的启发,我们实现了BA变换的一个变体,它利用了基于块的矩阵形式。具体地,特征图F被均匀地划分为sh×sw块沿其两个空间维度,其中SH、SW是某些整数(例如, 7)通常可被H,W,分别。行或列合并是通过以下更新的公式进行的:需要从F中提取一些全局的、紧凑的表示,特别是当F仍然具有高空间分辨率时。受最近提出的角落池的启发[29],rp=max{FCPk、j|i≤ k 1个组。该想法在图2中示出。对于每个组,将学习唯一的一对(P,Q),并在方程中使用(1),总共k对(P,Q)这可以说增强了处理复杂注意力模式的能力。 我们的实验证明了这种简单的信道分组思想。3.4. 用于视频任务的空间时间3D块BAT-Block可以简单地扩展到高维。在视频任务中,一种流行的处理方法是堆叠来自连续帧的特征。因此,输入变量是4D张量, X ∈ RT×H×W×C,其中T为堆叠数跳转设Xt<,n,n,n>∈R1×H×W×C是一个时间指标X的切片。为了扩展2D BAT块,我们首先根据等式11使用学习到的P、Q单独地处理每个时间片Xt<、Xt、Xt、Xt、Xt1.获得相应的输出表1:复杂性分析。 为了简洁起见,这里我们为BAT-块设置sh=sw=s和C=D/2,这也与第4节中的实验一致。与NL块相比,NL块的重量更轻,并且计算成本的优势更加明显,特别是当输入分辨率增加时4. 实验为了验证所提出的块的有效性和效率,我们对两个标准任务进行了全面的实验:图像分类和视频分类,其中分别使用大规模ImageNet [28]和Kinet-ics [2]基准数据集。除了准确率,我们还报告GFLOPs和每个网络变量的参数(Params#M)数量。除非明确说明,否则将5个BAT块均匀插入Res3和Res4上的特定模型,C=Y< t,>.接下来,沿着时间维度融合来自不同时间片的信息。设T∈RT×T是时间尺度上的可学习变换矩阵,Z∈RT×H×W×C是最终结果.3D BAT-Block具有以下额外功能计算:Zc←T[Y< 1,Z,Z,c>,Y< 2,Z,Z,c>,. . .,Y< T,Y,Y,D/2,C′=k=4,sh=sw=7。我们采用3DBAT-用于视频分类的块,其中基于块的由于输入帧的数量不是那么大,所以不沿时间维度使用矩阵技巧。4.1. 实验设置图像分类所有网络变体都在4个GPU上训练90个epoch,使用相同的策略,使用Py-其中Y< t,n,n,c>E∈R1×高×宽×1(七)是一个切片,索引为火炬[42]。学习率从0.1开始,在30、60和80个epoch之后下降 0.1倍批量大小时间和功能频道。表示序数卷积。Zc∈RT×H×W×1是Z的第c个通道.本质上,T定义了一个1×1时间尺度的卷积,它对来自Y的级联T切片进行操作。在实践中,T可以与变换预测器中的P和Q同时学习。与行池或列池类似,我们设计了一个时间平均池,这也被用于大多数视频理解任务中的帧特征表示[33,3]。为了更好地捕捉时间动态,我们还在时间维度上实现了多头3.5.复杂性分析表1比较了标准NL块[57]和我们提出的BAT块之间的参数和FLOP数量。这里我们仅以2D块为例,3D块应该得出相同的结论。 自1960年以来,shH和swW,这些符号可以忽略不计。可以发现,BAT-Block设置为256。我们在训练过程中采用了随机梯度下降(SGD)优化器。验证精度以与[17,22,61]相同的方式获得,基于 224×224单中心裁剪。视频分类我们对…进行实验Kinetics-400 [2]用于人类动作识别。动力学是一个大规模的修剪视频数据集,总共包含超过30万个视频剪辑。为了进行消融研究,在[62]之后,我们创建了一个名为Mini-Kinetics-200的较小数据集,其中包含200个类别。对于每个类别,我们随机抽取400个样本作为训练集,25个样本作为验证集。我们选择ResNet-50 C2 D和ResNet-50 I3 D [57]作为我们的骨干。模型从ImageNet上的预训练权重初始化,并在4个GPU上进行微调,小批量为64个片段。采用标准交叉熵损失法指导视频分类。所有模型都使用8帧输入剪辑,步幅为8帧(因此在原始视图中覆盖64帧输入的空间大小为#参数2C25C2+1CC′+2C′ks342荷兰语区[57]BAT-模块FLOPs2C2HW +CH2W25C2HW4+1CHW(H+W)2+1CC′HW+2C′ks3211809方法GFLOPs #参数Top-1基线4.1425.5676.3全分辨率5.5031.8677.6下采样5.2230.2378.1基于块5.4430.2378.3表2:基于块的基质的消融研究。固定为224×224。对于Kinetics-400,所有模型都训练了100个epoch,学习率从0.01在40岁和80岁表3:通过改变插入位置和BAT块的计数的性能增益。时代对于Mini-Kinetics-200,总时期为50,在前2个时期中使用线性预热策略[15]。此外,采用余弦时间表[38]来执行学习率衰减。为了减少过度拟合,我们还在全局平均池化层之后使用比率为0.5的dropout。同时,权重衰减设置为0.0001。我们采用与[56]相同的数据扩充,即,随机水平翻转、随机裁剪和缩放抖动。我们通过选择具有中心裁剪的中心剪辑,以及通过在时间维度上使用10个剪辑、3个裁剪空间上完全卷积推理的视频Top-1精度[57,11,32]。更多细节可以在补充材料中找到。4.2. ImageNet上的结果我们默认使用标准ResNet-50 [17]在ImageNet上进行消融研究。基于块的基质的消融研究。 为了减少计算成本和参数的数量,特别是对于高分辨率的输入,我们在3.3节中引入了基于块的矩阵。在这里,我们还探索了表2中称为下采样的替代方法。该方法不是将预测矩阵P/Q降采样到全分辨率,而是对输入特征图X进行对 Xds∈Rsh×sw×C 进 行 BA 变 换 , 得 到 空 间 尺 寸 为sh×sw的Yds。 最后,我们通过双线性插值将Yds上采样到全分辨率Y我们还进行实验,预测P/Q直接使用全分辨率。如表2所示,下采样和基于块的方法都可以减少与全分辨率相比,基于块的GFLOPs和参数数量更少,而基于块的GFLOPs获得更高的性能。我们分析,更多的细节被保存在我们的块,这可能是至关重要的分类。在ResNet-50上的结果表明,基于块的方法也可以减少过拟合。不同的数字和阶段。表3探索了插入到模型的不同位置的不同数量的BAT块。 我们发现即使是一个蝙蝠块插入在Res3或Res4上的BAT块可以带来显著的改善,并且在Res5上的BAT块的改善是微小的,这可能是由于可以表4:多头注意的消融研究。 k表示关注组的数量。 k= 0意味着P/Q被固定为单位矩阵。骨干方法GFLOPs()#Params()Top-1基线--70.2ResNet-18+NL0.230.1770.9+BAT0.030.1371.3基线--76.3ResNet-50+NL3.557.3677.5+BAT1.304.6778.3表5:与ImageNet上NL块的比较。不能提供精确的空间信息。更多的BAT模块继续提高性能。多头关注。我们在表4中探索了具有不同k的多头注意力带来的有效性。为了确认改进是否主要受益于额外的参数,我们通过将P/Q设置为单位矩阵并且不以输入为条件来设计新的基线,在表4中表示为k= 0。可以看出,通过简单地引入额外的参数,有微小的改进与新基线相比,即使是一组注意力也可以带来明显的改善(+1.4%),引入的参数可以忽略不计。这一现象表明,Transformer预测器是提高性能的关键,而且它而更多的注意组可以进一步提高性能,但增益很快就会减少。与NL块比较。 NL块[57]已被证明可以通过对长范围依赖关系进行建模[57,7,24]来显着提高多个任务的性能我们KGFLOPs #ParamsTop-1基线4.1425.5676.305.4330.1776.5Res3Res4Res5Top-1Top-576.392.9+1个77.193.5+1个77.293.7+1个76.793.0+1个+1个77.793.9+2个+3级78.394.015.4430.1877.925.4430.1978.045.4430.2378.3165.4531.0978.411810ResNet-50 + BAT5.430.278.3SE-ResNet-50 + BAT5.533.178.4ResNext-50(32×4d)+BAT5.629.778.6方法3D-Conv GFLOPs #参数Top-1方法GFLOPs #参数Top-1基线-19.55 23.9266.4 71.6NL没有30.6931.2867.772.6NL是的30.6931.2868.874.6表7:Mini-Kinetics-200的结果。预训练意味着新添加的块是否在ImageNet上进行了预训练。 BAT(ks,kt)表示具有ks组空间注意和kt组时间注意的BAT块。所有模型均采用ResNet-50C2 D作为主干。此处报告了Clip Top-1准确度ResNet-101 + BAT9.249.279.1ResNet-152 + BAT12.964.979.4表6:与ImageNet上最先进技术的比较。把这两块砖比较一下,看看我们的砖的优越性。我们在与BAT- Block相同的位置插入NL块显然,我们提出的方法是更轻量级和有效的与NL块相比,仅用13%~31%的GFLOPs和更少的参数实现更高的精度。与最新技术水平的比较。为了验证BAT-Blocks的通用性,我们还在其他一些流行的网络上进行了实验,并对BAT- Blocks进行了更深入的研究。如表6所示,即使对于非常深的模型ResNet-152,也可以通过插入BAT块来获得一致的性能增益。此外,将BAT块添加到较浅的模型中可以胜过几个较深的神经网络。例如,带有BAT块的ResNet-50实现了与原始ResNet-152相同的精度,同时仅使用一半的GFLOP和参数。4.3. 动力学结果与NL块比较。 表7显示了Mini-Kinetics-200上的视频分类结果。我们发现,添加BAT块的模型在视频分类中很容易过拟合,而使用ImageNet上预训练的参数初始化BAT块可以在很大程度上缓解这个问题。为了进行公平的比较,我们还使用预训练的NL块进行实验。我们可以发现,无论NL网络是否在ImageNet上进行了预训练,仅具有空间注意力的BAT块都可以比NL块实现更好的准确性,并且计算成本更低,参数更少。注意时间维度。我们还研究了时间注意力是否适用于视频分类C2d没有19.624.372.0i3D是的28.428.472.7C2D + NL没有30.731.773.8I3D + NL是的39.535.473.5C2D + BAT没有24.829.274.6I3D + BAT是的33.632.975.1C2D +3D-BAT没有24.829.275.5C2D +3D-BAT†没有24.829.275.8表8:动力学-400的结果。第一组是最新的技术水平,第二组是我们重新实现的模型,最后一组是我们的方法。空间注意力的组号为8,时间注意力的组号设置为4。所有模型都使用ResNet-50作为主干,8帧作为输入。“†”表示使用TSN框架进行微调[56]。结果列于表7。通过增加一组空间注意力,可以显著提高(+0.8%)更多的时间注意组可以进一步提高性能。400.第400章. 在这里,我们将我们的方法与完整数据集上的最先进方法进行比较,以证明我们的BAT块的有效性和效率。已被广泛证明,视频分类的性能与输入帧的数量和骨干架构密切相关[57,11,44],因此,为了公平比较,我们只关注使用8帧剪辑作为输入和ResNet-50作为骨干的模型。首先,我们在与我们相同的设置下重新实现了C2D,I3D基线和NL网络所有结果都可以在表8中找到,这表明所提出的2D BAT-块一致地改善了C2 D和I3 D基线的性能,并且时间AT-块的益处也方法预训练GFLOPs #Params Val TrainSE-ResNet-50 [22]4.2 28.176.9[21]-31.176.8SRM-ResNet-50- 二十五点六77.1[7]第七话- -77.0[23]第二十三话4.4 20.077.4ResNeXt-50(32 × 4d)[61]4.3 25.077.8Res2Net-50(14w×8s)[14]4.2-78.1Oct-ResNet-50 [6]25.677.3ResNet-101 [17]7.944.677.4ResNet-152 [17]11.660.278.3[22]第二十二话11.767.278.4ResNeXt-101(32 × 4d)[61]16.588.878.8[55]第五十五话6.331.978.8[7]第七话是的40.8-74.610月-13D [6]是的25.6-74.6[32]第三十二话没有32.8 24.374.1GloRe [8]是的28.9-75.1BAT(4,0)是的24.7628.6069.576.0BAT(4,1)是的24.7728.6070.377.1最佳可得技术(4、2)是的24.7728.6070.577.611811图4:注意力权重的示例。为了研究每个注意力组的BAT块集中在哪里,我们将最后一个BAT块的注意力权重与8个注意力组可视化,因为最后一个块与最终分类最相关。这些样本是从ImageNet的验证集中随机抽取的。从左到右,每组包含一个RGB图像及其对应的八个注意力图。为了清楚地说明,我们将每组的注意力权重图像标记为a-d(顶部4个图像,从左到右)和e-h(底部4个图像,从左到右)。 我们发现,对于所有的例子,e支付更多的关注图像的底部,而f集中在顶部区域,这两个注意力相互合作,通过分裂成两个子区域的完整的图像分类图像。此外,g倾向于观察背景,而h更倾向于关注前景附近的区域。因此,它们可以帮助网络模型丰富上下文信息。可以发现,所有a-d都聚焦于前景,但是仍然存在一些差异,每个差异对应于各种可区分的细节。更多的例子可以在补充材料中找到。骨干8框16框64框ResNet-50 75.5 76.977.7ResNet-101 76.2 77.4表9:具有不同长度的序列或主链的Kinetics-400的结果。所有型号均采用C2 D + 3D-BAT。对于序列长度大于8帧的模型,在时间维上采用基于块的矩阵技巧来减少参数,并将块的个数设置为8 × 8。注意力很明显。此外,我们的方法远远优于NL网络引入3D卷积将C2D + BAT提高了0.5%,而时间注意力提高了0.9%,GFLOP和参数数量几乎为零增长,这表明BAT模块具有强大的3D信息建模能力。与其他先进技术相比,我们可以看到,4.4. 可视化上述实验已经证明了BAT-Block在2D和3D任务上的有效性,在这里我们可视化几个注意力权重图来研究BAT-Block是如何为了可视化块在输入图像上关注的位置,我们采用以下公式将注意力权重重新投影到输入特征图:W =PAQ,(8)其中A∈RH×W是全一矩阵。W是形状为H × W的重投影注意力权重。结果在0和255之间归一化以便于可视化。一些在图4中描述和分析了实施例。5. 结论简单地在基本网络上添加2D BAT块可以实现与其他最近的方法相当的结果,并且具有3D BAT块的模型优于大多数竞争模型。具体而言,据我们所知,在使用TSN框架[56]进行微调后,我们可以在相似复杂度下实现模型之间的新的最新技术水平。更长的序列和更深的网络。最后,我们研究了我们的方法在较长输入视频或更深网络上的通用性。结果见表9。为了比较,基于ResNet-101和128-帧剪辑,C2D基线的准确性为75.3%,I3D+ NL为77.7% [57],这表明我们的方法在更长的序列或更深的网络上工作得很好。我们提出了BA变换,一种新的方法,它可以通过矩阵乘法来模拟各种注意操作。核心操作是学习数据自适应分组双线性注意变换。我们将此操作包装到BAT块中,并仔细设计转换预测器。它可以被丢弃到大多数现有的网络和优化容易。大量的图像分类和视频动作识别实验鸣谢:本工作得到了北京市自然科学基金( Z190001 ) 、 北 京 市 科 学 技 术 委 员 会(Z181100008918005)和国家自然科学基金(61772037)的部分资助。11812引用[1] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。在ICLR,2017。[2] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。在CVPR中,第4724-4733页[3] Jingwen Chen,Yingwei Pan ,Yehao Li ,Ting Yao,Hongyang Chao,and Tao Mei.用于视频字幕的时间可变形卷积编码器-解码器网络。在AAAI,第8167-8174页[4] Liang-Chieh Chen,Yi Yang,Jiang Wang,Wei Xu,and Alan L.尤尔。注意秤:尺度感知语义图像分割。在CVPR,第3640-3649页[5] 辰昕、邪灵犀、君无邪、齐天。渐进式差异化架构搜索:缩小搜索和评价之间的深度差距。在ICCV,2019年。[6] Yunpeng Chen,Haoqi Fan,Bing Xu,Zhicheng Yan,Yannis Kalantidis,Marcus Rohrbach,Shuicheng Yan,and Jiashi Feng.降低八度音:用倍频程卷积减少卷积神经网络中的空间冗余。ICCV,2019。[7] Yunpeng Chen,Yannis Kalatidis,Jianshu Li,ShichengYan,and Jianshi Feng. A 2-nets:双重注意网络。在NIPS,第350-359页[8] Yunpeng Chen , Marcus Rohrbach , Zhicheng Yan ,Shuicheng Yan,Jiashi Feng,and Yannis Kalantidis.基于图的全局推理网络。在CVPR中,第433-442页[9] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在CVPR中,第2219-2228页[10] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在ICCV,第764-773页[11] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,第6202-6211页[12] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在CVPR中,第3146-3154页[13] 傅建龙,郑和良,陶梅。近看才能看得更清楚:用于细粒度图像识别的循环注意力卷积神经网络。在CVPR中,第4476[14] Shang-Hua Gao,Ming-Ming Cheng,Kai Zhao,Xin-YuZhang,Ming-Hsuan Yang,and Philip Torr. Res2net:一种新的多尺度骨干网架构。IEEE TPAMI,2020。[15] PriyaGoyal , PiotrDolla´r , RossB.Girshick ,PieterNoord-huis, Lukasz Wesolowski , Aapo Kyrola ,Andrew Tulloch,Yangqing Jia,and Kaiming He.精确的大 批 量 SGD : 1 小 时 内 训 练 imagenet CoRR ,abs/1706.02677,2017。[16] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。DRAW:用于图像生成的递归神经网络。在ICML,第1462-1471页,2015中。[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[18] Andrew Howard , Mark Sandler , Grace Chu , Liang-Chieh Chen,Bo Chen,Mingxing Tan,Weijun Wang,Yukun Zhu,Ruoming Pang,Vijay Vasudevan,Quoc V.Le和Hartwig Adam。正在搜索mobilenetv3。在ICCV,2019年。[19] Andrew G. Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络CoRR,abs/1704.04861,2017。[20] Han Hu,Zheng Zhang,Zhenda Xie,and Stephen Lin.用 于 图 像 识 别 的 局 部 关 系 网 络 。 CoRR ,abs/1904.11491,2019。[21] Jie Hu , Li Shen , Samuel Albanie , G
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功