没有合适的资源?快使用搜索试试~ 我知道了~
AIM: 适用于图像和网格的自动增强器
7220AIM:一种适用于图像和网格的自动增强器0Vinit Veerendraveer Singh和ChandraKambhamettu视频/图像建模与合成(VIMS)实验室,特拉华大学计算机与信息科学系,美国特拉华州纽瓦克,邮编197160{vinitvs,chandrak}@udel.edu0摘要0数据增强常用于增强深度神经网络的鲁棒性。在大多数当代研究中,网络不决定增强方法;它们是与任务无关的,网格搜索确定它们的幅度。此外,适用于低维数据的增强方法不容易扩展到高维数据,反之亦然。本文提出了一种适用于图像和网格的自动增强器(AIM),它可以轻松地在训练和推理时与神经网络结合使用。它与网络共同优化,产生数据中的约束非刚性变形。AIM预测适合任务的样本感知变形,我们的实验证实了它在各种网络中的有效性。01. 引言0深度神经网络在各种计算机视觉任务中占主导地位。它们在数字图像[15, 16, 38]和3D图形[8,14]的分析中很常见。这些网络试图在计算机化环境中模拟人类认知。然而,尽管深度学习在近年来取得了成功,但它仍然不如人类视觉稳健。基于视觉任务的学习方法需要在对象的外观和其在空间中的位置之间进行区分。为此,常常使用增强方法对神经网络的输入数据进行预处理。一些增强方法使神经网络对数据中的几何变化更加容忍。例如,仿射变换、随机水平翻转和随机裁剪等增强技术在图像处理中是标准的。对于网格分析,还会进行网格元素的抖动和仿射变换。这些增强方法也是其他高级数据增强策略[5, 11, 21, 32,42, 55]和框架[2,54]的基础。上述增强方法不直接参与学习过程,也不依赖于任务的目标。因此,它们是不可学习的和与任务无关的。0图像0分类0网络0AIM增加了像素在0狗所在的图像0目前0AIM0德国0短毛!0AIM增加了空间0在3D网格中,AIM增加了头部、背部和尾部的空间覆盖0恐龙0AIM0网格0分类0网络0恐龙!0图1.AIM在训练和测试期间对输入数据进行非刚性变形。AIM学习检测样本中的关键区域以解决任务并增加其空间覆盖范围。如图所示,它适用于图像和网格。0相反,任务感知的增强方法[5, 12,020, 26,37]与神经网络共同优化。这组方法的共同主题是顺序学习哪些变换适合任务,何时使用它们以及应用程度如何。然而,目前许多可学习的增强方法受限于其底层表示的维度。适用于2D图像的方法要么不适用,要么没有明确的扩展到3D数据的方法,反之亦然。在这项工作中,我们基于这些见解和不足,提出了一种适用于图像和网格的自动增强器(AIM)。7230人类眼动主要分为四类:凝视[39]、扫视[10]、稳定[4]和平滑追踪[24]。通过将眼睛凝视在特定位置,人类视觉系统可以增强其分辨率,以处理细节。AIM紧密模拟人类凝视。它作为数据预处理器与现有的用于图像和网格分析的神经网络共同优化。首先,AIM推断出图像和网格中包含解决任务所需的关键信息的区域。然后,它增加这些区域的空间分辨率,同时减少非关键区域的空间覆盖。这个过程在图1中有一个视觉说明。本文的主要贡献是:0• AIM的新颖且可微分的空间变形器。0• 用于图形数据的注意力模块。0•一种新颖的方向一致性损失,用于约束AIM产生的变形。0• 在多个数据集上进行图像分类、网格分类和网格分割的实验。02. 相关工作0我们将神经网络的现有数据增强方法分为两大类:不可学习的增强和可学习的增强。这两类方法都适用于数字图像或3D几何数据,如网格和点云。不可学习的增强没有可训练参数,它们的理想幅度取决于广泛的网格搜索。另一方面,可学习的方法包含可训练参数,并使用适合任务的增强方法。02.1. 不可学习的增强技术0通过传播随机裁剪的图像区域,训练神经网络以解开纹理特征与位置的关系。图像旋转和翻转增加了神经网络对物体不同姿势的不变性。随机擦除[56]和CutOut[6]用随机值替换图像中的连续区域,以实现对物体遮挡视图的容忍性。颜色抖动在训练过程中随机改变图像的亮度、对比度或饱和度。Dropout[18]通过在训练过程中随机丢弃神经元激活来对神经网络进行正则化。它可以被视为特征图增强。CutMix[55]用其他图像的随机补丁替换图像区域,以保留区域丢弃策略的正则化效果。Cut-Thumbnail[52]类似于CutMix,但不同于CutMix,它用缩略图替换图像区域。Grid-Mask[1]通过在图像中删除不连续区域来平衡区域的删除和保留。与GridMask类似,MeshCut[21]在图像上叠加一个方形网格。0为了去除非连续部分,AugMix[17]增加了对数据分布中的损坏的鲁棒性。所有这些不可学习的增强技术都提高了神经网络的表示能力。然而,大多数技术是通过去除区域来对网络进行正则化,而不是专注于正确的区域。此外,这些技术如何应用于3D数据还不清楚。特别是,光度增强技术在增强纯几何数据时没有用处。网格和点云通常通过缩放、平移和抖动顶点的位置来增强[8,35]。然而,对于3D数据,只有少数几种高级增强技术。PointMixup[3]受到图像领域的启发,插值点云及其对应的标签。Mix3D[32]通过组合两个增强场景创建新场景。这种混合允许超越上下文先验的泛化。PatchAugment [42]增强神经网络[35,50]在点云上操作的特征图。MeshCNN[14]通过执行各向异性缩放和随机边翻转来增强网格。02.2. 可学习的增强技术0空间变换网络(STN)[20]学习并执行各种变换(仿射、投影和薄板样条)在图像上。然而,基于薄板样条的STN可能会发生极端图像变换。当仿射变换矩阵的左2×2子矩阵的行列式的幅度小于1时,STN也可以裁剪图像中的区域。然而,并没有明确强加这样的约束。一些方法通过增加某些图像区域的空间覆盖范围来增强网络的输入图像。SaliencySampler(SS)[37]增加了图像中任务感知显著区域的空间覆盖范围。这些显著区域是通过预训练的卷积神经网络(CNN)[16]推断出来的。在网络反向传播过程中,这个CNN中的数百万个可训练参数进行更新,使得他们的方法在计算上非常昂贵。此外,SS如何扩展到3D数据还不清楚。其他从SS派生出来的作品[7, 22, 44,53]也存在类似的局限性。Marin等人[29]提出了一种内容自适应的下采样方法,该方法在图像下采样之前优先选择靠近类别语义边界的位置。然而,该方法受到将下采样位置选择为手动设计的采样目标的限制。AutoAugment[5]不提供任何新的增强方法。相反,它使用搜索算法确定最佳的训练策略。KeepAugment[12]学习保留重要区域的区域丢弃。对于3D点云,PointAugment[26]使用对抗训练策略增强点云。据我们所知,目前还没有可学习的增强器适用于网格数据。本文介绍了一个具有非常少可训练参数的增强器,并且适用于图像和网格。2,(1)72403. 概述和符号0空间变形器0输入数据0注意力0模块0增强0数据0定向0注意力0任务0网络0定向0一致性损失0定向注意力0AIM的组件0图2.AIM的概述。AIM的组件与任务网络共同优化以增强输入数据。0用于监督学习任务的深度学习方法的设置是标准的。我们可以互换地将任务的神经网络称为任务网络。任务网络(T)首先在训练数据集中的样本上进行学习。我们将训练集表示为Dtrain={(x(i)train,y(i)train)}mi=1,其中x(i)train是第i个样本,m是训练样本的数量。y(i)train是x(i)train的任务标签。训练后,T试图在测试集Dtest上预测任务标签。如图2所示,将AIM与T结合是直接的。在训练阶段开始时,AIM增强Dtrain中的每个样本,并将其传播到T。根据任务网络和定向一致性损失的损失,AIM和T的可训练参数一起进行优化。然后,AIM为下一个小批量精炼增强,这个过程一直持续到T达到收敛。在测试阶段,AIM增强Dtest中的所有样本,产生一个增强的测试集D'test。最后,D'test被发送到T进行评估。注意,AIM在每个样本的基础上学习增强。在本文中,我们将AIM应用于监督学习任务。AIM的一个关键方面是与任务网络共同优化,以有效地增强输入图像和网格。它由三个主要的独立组件组成:空间变形器、注意力模块和定向一致性损失。空间变形器对输入数据进行非刚性变形。它自适应地增加或减少输入中不同区域的覆盖范围。注意力模块决定变形的位置和幅度。最后,定向一致性损失约束了注意力模块的位置。我们将在下一节详细介绍每个组件的细节。04. 方法0首先,在第4.1节中阐述了AIM的空间变形器,并演示了如何将其用于图像和网格数据。然后,第4.2节介绍了AIM的注意力模块,它实现为图卷积网络。接下来,第4.3节中制定了方向一致性损失,并0在第4.4节中,我们介绍了将AIM与任务网络结合的端到端策略。04.1. 空间变形器0最近的研究[19, 20, 37,51]表明,数据中某些区域的信息对神经网络的决策能力的贡献大于其余区域的信息。因此,直观上,假设专注于信息丰富的区域应该能够提高网络进行任务决策的能力。AIM中的空间变形器(SW)通过增加其空间覆盖范围来专注于数据中的不同区域。注意,空间变形器本身不能检测对任务有益的高信息区域。SW在图数据结构上操作。图G的拓扑由其顶点集V = {vi}nv_i=1和边集E ={ei}ne_i=1给出。这里,vi和ei分别表示顶点和边的第i个实例。nv和ne分别表示V和E的基数。每个ei连接两个顶点(v0i和v1i)。SW通过调整其顶点的位置在G中产生非刚性变形。这种调整是通过改变每个ei的边长实现的。局部改变边长的一种简单的蛮力方法可以是将每个边的长度乘以一个唯一的系数。然而,图中的顶点通常连接到多个其他顶点,不受限制的系数乘法可能导致极端变形。此外,在图像或网格等视觉数据的情况下,变形会显得不自然,重要区域会变形到无法识别的程度。因此,有必要在一定程度上保持G的全局形状。因此,SW通过最小化方程1中的能量函数E来最小化G的整体形状的变形:0E = Σ0ei∈E0∆(x0i - x1i) - γi(v0i - v1i)0v0i - v1i + ϵ^-10其中:0其中:0v0i,v1i = 边ei在空间中独立方向上的初始位置x0i,x1i =边ei端点在空间中独立方向上的最小化后位置 γi =边ei的变形系数 ϵ^-1 = 一个较大的数0边ei的变形系数(γi)根据方程2计算。它是变形因子(∆)和ei对变形的敏感性(si)的线性组合。∆是一个具有恒定大小的标量。∆和si∈S都介于0和1之间。注意,较高的si并不一定意味着边会比具有较低si的边扩展得更多。变形的程度由α和β控制。因此,SW可以根据敏感性的大小自适应地扩展或收缩边的空间覆盖范围。在本文的剩余部分,我们将G中所有边的变形敏感性集合表示为S。AIJ ≠(5)7250并不一定意味着具有较高si的边会比具有较低si的边扩展得更多。变形的程度由α和β控制。因此,SW可以根据敏感性的大小自适应地扩展或收缩边的空间覆盖范围。在本文的剩余部分,我们将G中所有边的变形敏感性集合表示为S。0γi = αsi + β(1 - si)0α = 1,如果β = ∆ β =1,如果α = ∆ (2)0在方程1中,x0i和x1i是边ei在最小化后的更新位置,因此在最小化之前它们的位置是未知的。由于V包含所有边的端点,能量函数E也可以用顶点表示。方程3中的E'表示E的重新表达。0E ′ = �0v i ∈V0�0v j ∈ N ( v i )0x 2 i − v j ) + c0( v i − v j + ϵ − 1 ) 2 (3)0其中:0v i = 空间中第 i 个顶点的位置 N ( v i ) = v i 的直接顶点邻域 v j = v i 的顶点邻居x i = 最小化 E ′ 后的 v i 的位置0x j = 最小化 E ′ 后的 v j 的位置0γ i = 边缘 e i 的变形系数,位于 v i 和 v j 之间c = 一个常数 ϵ − 1 = 一个大数0SW的目标是在调整边缘大小的同时最小化顶点的整体移动。我们可以通过对 E ′ 关于每个 x i进行偏导并令其等于零来实现这一目标,如方程 4 所示。0∂x i = �0v j ∈ N ( v i )02 x i v j )0( v i − v j + ϵ − 1 ) 2 = 0 (4)0我们从方程 4 中获得了一个关于未知顶点 x i及其未知顶点邻居的线性方程。一旦获得了所有顶点的线性方程,E ′ 的最小化可以表示为形式为 AX = B的稀疏线性系统。矩阵 A ∈ R V×V 和向量 B ∈ R V× 1是已知的,并根据方程 5 计算。A IJ 表示矩阵 A 中与顶点 xi 及其顶点邻居相关的一行。向量 X = { x i } n v i =1是未知的,并可以通过稀疏线性求解器来近似计算。0原始图像0边缘敏感度在0图像图0变形后的图像0原始的0网格0边缘敏感度在0原始网格0变形的0网格0图3.空间变形应用于图像和网格。高敏感度的边缘以红色突出显示。从顶部一行可以观察到,空间变形通过缩小具有较高边缘敏感度的边缘,增加了原始图像像素的空间覆盖范围。对于网格(底部一行),空间变形会扩展具有较高敏感度的边缘。[彩色查看效果最佳]0� � 0� 0�0v j ∈N ( v i )0( v i − v j + ϵ − 1 ) 2 ,如果 I = J0( v i − v j + ϵ − 1 ) 2 , 如果 I � = J00 ,否则0B I = �0v j ∈ N ( v i )02 γ i ( v i − v0( v i − v j + ϵ − 1 ) 204.1.1 图像和网格的空间变形0要将空间变形应用于图像,我们将图像的基本表示视为一个图。图像的像素被视为图的节点。这些节点之间的边缘以特定方式定义。在AIM中,边缘仅存在于像素的水平和垂直邻居之间。因此,SW 适用于图像。对于图像,方程 2 中的 β为1。因此,具有较高敏感度的边缘将比具有较低敏感度的边缘更小。在具有这种变形网格的原始图像上进行插值将增加与具有较高敏感度边缘连接的像素的空间覆盖范围。这一现象可以在图3的顶部一行中观察到。7260图形0卷积0图形0图形0卷积0图形0卷积0图0卷积0输入图0:逐元素相加0C:隐藏层通道数C':输入通道数0:最小-最大激活0边缘0敏感性0沿着一个0独立的空间方向0空间变形器0方向0一致性损失0�|�| × C'0�|�| × 10�|�| × C �|�| × C0�|�| × 10�|�| × 10|�|:顶点数0图4. AIM的注意模块设计。注意模块从图卷积层中推断出边缘敏感性。因此,训练参数的数量较低,并且可以在欧几里德和非欧几里德数据上推断出敏感性。0对于网格数据,方程2中的α为1。将α设置为1允许与具有更高变形敏感性的边缘连接的节点增加其空间覆盖范围。请注意,变形后,图像变形网格被归一化为半径为1且以原点为中心的球体。04.2. 注意模块0如前所述,空间变形器本身无法确定输入数据中的信息区域。因此,任何帮助空间变形器和任务网络识别输入数据中信息区域的注意机制必须满足三个关键标准:0•由于空间变形器在图上操作,注意机制也必须在图上操作。0• 注意机制与任务协同学习边缘敏感性。0• 注意机制可以在独立的空间方向上学习边缘敏感性。0卷积神经网络(CNN)目前是分析图像和其他欧几里德数据的事实上选择。CNN也存在许多注意机制[19,51]。然而,CNN在非欧几里德数据(如网格和图形)上的泛化能力不强。一些最近的方法[8, 14, 31, 45,46]为网格设计了专门的卷积算子。然而,它们对网格几何(流形性等)做出了严格的假设。AIM的注意模块被实现为一个图卷积网络,以符合上述标准。该注意模块的架构如图4所示。注意模块根据输入数据在每个独立的方向上推断出边缘敏感性(S)。例如,在图像的情况下,边缘敏感性分别沿着x轴(Sx)和y轴(Sy)学习。通过最小-最大归一化,S被限制在0和1之间。04.3. 方向一致性损失0对于一个关于视觉数据的任务网络来说,有助于区分数据中区域的外观和区域在空间中的位置。由于空间变形沿着独立的方向应用,变形在每个方向上会有所不同。然而,理想情况下,变形在每个方向上不应该有所不同。例如,图像中的高信息部分应该在x轴和y轴上都比非信息区域变形更多。AIM通过方向一致性损失(Ldc)实现了这个约束。它强制注意模块的嵌入(边缘敏感性)在每个独立的空间方向上保持一致。它最大化了不同方向上嵌入之间的余弦相似度。对于一个包含N个图像的小批量数据,其中空间注意力Sx和Sy分别沿着x轴和y轴,方向一致性损失根据公式6计算。从公式6可以看出,当Sx和Sy完全不相似时,Ldc将为2。当Sx和Sy相同时,Ldc将为0。0L dc = L xy dc = 1 -10N0� S x ∙ S y0∥ Sx ∥ ∙ ∥ Sy ∥ (6)0对于一个小批量的网格,方向一致性的损失按照下面的公式7计算:0L dc = L xy dc + L yz dc + L zx dc,(7)0其中L xy dc是S x和S y之间的方向一致性损失。L yz dc是Sy和S z之间的方向一致性损失,类似地,L zx dc是S z和Sx之间的方向一致性损失。方向一致性损失与任务无关。通过空间变形器、注意力模块和方向一致性损失的明确定义,AIM得以实现。我们以端到端的方式使用AIM训练和评估了不同监督学习任务的各种任务网络,详见第5节。72704.4. 实现细节0我们使用PyTorch [34]、PyTorch Ge- ometric [9]、TorchSparse Solve [25]和PyTorch3D[36]实现了AIM。注意力模块中的图卷积是GraphSAGE[13]算子。图像的隐藏层通道数(C)为64,网格的隐藏层通道数为32。我们通过借用STN[20]中引入的网格采样器对图像进行双线性插值。边缘敏感性是通过对端点处的顶点特征进行平均得出的。当将AIM应用于图像时,我们将边缘敏感性设置为(S)中的最小值。因此,边缘像素在变形后得到了合理的保留。我们的代码可在https://github.com/ VimsLab/AIM上找到。05. 实验0图像的细粒度视觉分类是计算机视觉中的一项基本任务。同样,网格的分类和分割是3D形状分析任务中的基本任务。我们将AIM应用于多个数据集中的图像和网格的分类。我们还评估了AIM在网格分割中的效果。05.1. 实验设置0我们将AIM应用于CUB-200 [49]和Oxford-IIT Pets[33]数据集中图像的细粒度分类。CUB-200数据集包含200种鸟类的图像。鸟类以不同的尺度和姿态出现,并且没有被紧密裁剪。训练集包含约6k张图像,测试集包含约5.8k张图像。Oxford-IITPets只包含猫和狗的图像。该数据集中有37个宠物类别,图像在尺度、姿态和光照方面变化较大。它包含大约7.3k张图像,每个类别约有200张图像。训练集和测试集的大小几乎相等。我们使用AIM训练了ResNet [16]和EfficientNet[48]来对这些数据集中的图像进行分类。两个网络都使用了动量为0.9的随机梯度下降优化器,并将权重衰减设置为1e-4。对于ResNet模型,学习率为0.01,批量大小为128。对于EfficientNet,学习率为0.001,批量大小为48。空间变形器从700×700的图像中对CUB-200进行了224×224的子采样。对于Oxford-IITPets,从448×448的图像中进行了224×224的子采样。∆被设置为0.72。对于网格分类,我们使用Mesh- Net[8]和MeshNet++[46]来应用AIM。注意力模块的输入特征是顶点法线、曲率或顶点周围的一环邻域面积。两个网络在McGill 3D ShapeBench- mark (MSB) [43]和SHREC-11[28]数据集上进行了评估。MSB包含了属于19个类别的458个网格。0在这个数据集中,顶点的数量在不同的模型中是不同的。SHREC-11数据集包含了来自30个类别的600个网格模型。我们采用了与MeshNet++中提到的类似的训练策略,只是将学习率设置为0.001,而不是MSB的0.0002。∆的取值范围为0.7到0.9。最后,我们使用AIM训练了Dif- fusionNet[41]来在人体数据集[30]中分割身体部位。∆被设置为0.9。我们通过网格搜索获得了所有模型的∆值。05.2. 定量实验结果05.2.1 图像分析0我们首先评估了AIM与ResNet的三个变种:ResNet-18、ResNet-34和ResNet-50。如表1所示,使用AIM训练这些网络可以得到比基准模型更高的准确性。对于CUB-200数据集,准确性显著提高。我们还将AIM与其他数据增强技术(如随机擦除[56]和显著性采样器[37])进行了评估。我们将AIM与随机擦除进行了比较,以检查消除图像中的区域是否有助于细粒度视觉分类。我们还将AIM与显著性采样器(SS)进行了比较,因为它也扩大了对任务有益的区域的空间覆盖。随机擦除和显著性采样器都是在相同的实验设置下进行训练,没有额外的技巧。我们观察到,在输入数据中随机擦除区域并不有助于图像的细粒度分类。随机擦除导致准确性较低的一个可能解释是,其他对象在这两个数据集中并没有严重遮挡动物的图像。因此,随机擦除可能已经删除了分类器进行正确决策所必需的区域。总体而言,显著性采样器的准确性略低,但可与AIM相媲美。准确性的差异可以归因于显著性采样器无法限制图像边界内的变形。例如,如果高信息区域位于图像边界,SS将部分消除这些区域。SS准确性较低的另一个原因可能是其推断的显著性仅受任务网络的损失函数约束。而在AIM中,边缘敏感性还通过方向一致性损失进行约束。我们还在表1中比较了AIM和SS之间的可学习参数数量(#参数),以百万(M)为单位。可以观察到,AIM的参数数量与基准模型几乎相同,明显低于SS的参数数量。对于EfficientNet,我们观察到与上述方法类似的准确性。05.2.2 网格分析0我们还评估了使用AIM的MeshNet++和MeshNet来对MSB和SHREC-11的split-16中的网格进行分类。+ SS( 0.4)( 0.3)+ SS( 1.1)( 1.2)+ SS( 0.7)( 0.2)+ SS( 0.5)( 0.3)+ SS( 0.8)( 0.5)+ SS( 2.6)( 0.2)DiffusionNet90.97280方法 CUB- Oxford-IIT #参数0200个宠物数据集中的M0准确率(%) 准确率(%)0ResNet-18 78.3 91.6 11.3 ResNet-18 79.4 90.9 11.3+ 随机擦除 ( ↑ 1.1) ( ↓ 0.7)0ResNet-18 79.4 91.9 11.3 + AIM (我们的方法) (↑ 1.1) ( ↑ 0.3)0ResNet-34 79.8 92.5 21.4 ResNet-34 80.6 91.5 21.4+ 随机擦除 ( ↑ 0.8) ( ↓ 1.0)0ResNet-34 80.4 93.0 21.4 + AIM (我们的方法) (↑ 0.6) ( ↑ 0.5)0ResNet-50 81.7 93.4 23.9 ResNet-50 81.7 92.1 23.9+ 随机擦除 ( ↑ 0.0) ( ↓ 1.3)0ResNet-50 82.5 93.5 23.9 + AIM (我们的方法) (↑ 0.8) ( ↑ 0.1)0EfficientNet-b0 82.0 92.7 4.3 EfficientNet-b0 82.292.4 4.3 + 随机擦除 ( ↑ 0.2) ( ↓ 0.3)0EfficientNet-b0 82.8 93.4 4.3 + AIM(我们的方法) ( ↑ 0.8) ( ↑ 0.7)0EfficientNet-b1 82.8 93.3 6.8 EfficientNet-b1 8393.3 6.8 + 随机擦除 ( ↑ 0.2) ( ↑ 0.0)0EfficientNet-b1 83.1 93.3 6.8 + AIM(我们的方法) ( ↑ 0.3) ( ↑ 0.0)0EfficientNet-b2 83.5 93.7 8.0 EfficientNet-b2 82.893.6 8.0 + 随机擦除 ( ↓ 0.7) ( ↓ 0.1)0EfficientNet-b2 84.0 93.7 8.0 +AIM(本文方法)(↑ 0.5) (↑ 0.0)0表1.多个数据集中用于图像细粒度视觉分类的方法的分类准确率(Acc)。任务网络的图像大小固定为224×224。0split-16包含每个类别16个模型用于训练和4个模型用于测试。从表2中我们可以看到,AIM显著提高了MeshNet在两个数据集上的分类准确率。然而,由于MeshNet在分类未定向网格时不够稳健,整体分类准确率仍然较低。对于更强的学习器,如MeshNet++,仍然观察到了改进。MeshNet++在split-16上达到了100%的分类准确率。因此,很难验证AIM对MeshNet++的决策能力有多大贡献。0方法 MSB SHREC-11(split-16)0准确率(%) 准确率(%)0MeshNet 56.5 55.6 MeshNet with AIM (↑10.8) (↑ 7.5)0MeshNet++ 94.5 100 MeshNet++ withAIM (↑ 1.1) (↑ 0.0)0表2.多个数据集上网格分类方法的分类准确率(Acc)比较。AIM显著提高了MeshNet模型的分类准确率。0最后,我们使用AIM评估了DiffusionNet在人体网格中分割身体部位的效果。我们观察到使用AIM训练和测试DiffusionNet可以提高分割准确率。我们还通过在网格中随机抖动顶点的位置来训练和测试DiffusionNet。如表3所示,当在测试时顶点在没有任何学习的情况下随机移动时,准确率显著下降。这些实验结果支持了AIM的学习不是随机的,而是与任务网络协同工作的。0方法 准确率(%)0DiffusionNet + jitter 87.9 (↓3.0)0DiffusionNet + AIM 91.3 (↑0.4)0表3. 人体网格中分割身体部位的准确率(Acc)比较。06. 定性实验验证0方向一致性损失要求AIM的注意力模块在空间中的所有独立方向上的边缘敏感性相似。因此,在图像的情况下,变形网格上突出显示的边缘敏感性ResNet-1878.779.491.391.9ResNet-3480.479.892.693ResNet-5082.382.593.593.5EfficientNet-b081.882.893.293.4EfficientNet-b183.183.193.293.0EfficientNet-b283.38493.293.77290每个独立方向上的边缘敏感性必须相似。我们在下面的图5中定性验证了这一点。0图像 沿x轴的边缘敏感性0沿y轴的边缘敏感性0图5.方向一致性损失要求空间中独立方向上的边缘敏感性(来自注意力模块)相似。较高的边缘敏感性以红色突出显示。[最佳观看效果请使用彩色显示]07. 消融研究0在我们的消融研究中,我们首先验证了AIM的方向一致性损失(Ldc)的重要性。我们使用和不使用方向一致性损失训练表1中的所有模型,并在表4中报告结果。结果表明,使用带有Ldc的AIM对下游任务是有益的。0方法 CUB-200 Oxford-IIT Pets0- Ldc + Ldc - Ldc + Ldc0表4.使用AIM的方法与使用AIM但不使用方向一致性损失(Ldc)的图像分类准确率比较。当使用Ldc训练分类器时,我们用+Ldc表示,当不使用Ldc训练时,用-Ldc表示。0我们还验证了AIM是否仅用于训练阶段的增强策略。通过将∆设置为1,AIM将不执行任何变形。因此,我们将∆设置为1,并在表5中报告结果。将表5的结果与表1的结果进行比较(其中∆为0.7),我们观察到分类准确率下降。0方法 CUB-200 Oxford-IIT 宠物0准确率(%) 准确率(%)0ResNet-18 78.8 91.7 ResNet-34 80.192.8 ResNet-50 82.0 93.3EfficientNet-b0 82.3 92.9EfficientNet-b1 83.1 93.1EfficientNet-b2 83.2 93.40表5.当AIM仅用于训练图像分类器而不用于测试时的分类准确率(Acc)比较。08. 讨论和限制0AIM可以在变形后合理保留图像的边缘像素。然而,对于较低的∆值,任务关键像素的空间覆盖范围可能会减小。如果对于非常紧密裁剪的图像,∆较低,任务关键图像像素甚至可能被消除。AIM在需要保持输入数据几何形状的任务中也存在局限性。在注意力模块中堆叠更多的图形卷积不一定会增加任务性能[23],但会增加计算开销。此外,如果应用于三维或四维以上的数据,AIM的计算成本还将进一步增加。在这种情况下,半监督学习方法可能是一个可行的选择[27]。在我们的实验中,DiffusionNet在大量顶点上进行训练,这显著增加了方程式5中矩阵A的大小。此外,AIM无法解决大量顶点(X)的问题,大多数现代GPU都无法使用。因此,将AIM与DiffusionNet结合使用会显著增加训练和测试时间。AIM在训练和测试过程中重新计算顶点的位置。然而,一些方法[14,31,40,47]在训练之前对基于顶点的特征进行了预处理,它们无法使用AIM。09. 结论0我们介绍了一种用于深度神经网络的自动增强器AIM。AIM可以增强二维图像数据和三维网格数据。AIM通过在注意力模块学习的位置产生受限的非刚性变形来增强数据。AIM的一个关键特点是在训练和推理时与神经网络共同优化以适应各种任务的变形。因此,它可以估计适合任务的变形以实现更好的性能。我们在多个数据集上评估了AIM用于图像和网格的分类。此外,由于AIM可以保持输入数据的连通性,我们还评估了它用于网格分割。我们的实验结果表明,AIM有效地提高了神经网络在多个任务上的鲁棒性。7300参考文献0[1] Pengguang Chen,Shu Liu,Hengshuang Zhao和JiayaJia。Gridmask数据增强。arXiv预印本arXiv:2001.04086,2020年。20[2] Ting Chen,Simon Kornblith,MohammadNorouzi和GeoffreyHinton。视觉表示对比学习的简单框架。在《机器学习国际会议》上,页1597-1607。PMLR,2020年。10[3] Yunlu Chen,Vincent Tao Hu,EfstratiosGavves,Thomas Mensink,Pascal Mettes,PengwanYang和Cees GMSnoek。Pointmixup:点云增强。在计算机视觉-ECCV2020:第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,第III部分16,页330-345。Springer,2020年。20[4] JD Crawford和TVilis。头部旋转期间眼球旋转的轴和Listing定律。《神经生理学杂志》,65(3):407-423,1991年。20[5] Ekin D Cubuk,Barret Zoph,Dandelion Mane,VijayVasudevan和Quoc VLe。Autoaugment:从数据中学习增强策略。在《IEEE/CVF计算机视觉和模式识别会议论文集》上,页113-123,2019年。1,20[6] Terrance DeVries和Graham WTaylor。通过切割改进卷积神经网络的正则化。arXiv预印本arXiv:1708.04552,2017年。20[7] Yao Ding,Yanzhao Zhou,Yi Zhu,Qixiang Ye和JianbinJiao。选择性稀疏采样用于细粒度图像识别。在2019年IEEE/CVF国际计算机视觉会议论文集中,页6599-6608,20[8] Yutong Feng,Yifan Feng,Haoxuan You,XibinZhao和YueGao。Meshnet:用于3D形状表示的网格神经网络。在AAAI人工智能会议论文集中,卷33,页8279-8286,2019年。1,2,5,60[9] Matthias Fey和Jan EricLenssen。使用PyTorch几何进行快速图形表示学习。arXiv预印本arXiv:1903.02428,2019年。60[10] John MFindlay。扫视眼动编程:感觉和注意因素。心理研究,73(2):127-135,2009年。20[11] Golnaz Ghiasi,Yin Cui,Aravind Srinivas,RuiQian,Tsung-Yi Lin,Ekin D Cubuk,Quoc V Le和BarretZoph。简单的复制粘贴是一种强大的实例分割数据增强方法。在2021年IEEE/CVF计算机视觉和模式识别会议论文集中,页2918-2928,10[12] Chengyue Gong,Dilin Wang,Meng Li,VikasChandra和QiangLiu。Keepaugment:一种简单的信息保留数据增强方法。在2021年IEEE/CVF计算机视觉和模式识别会议论文集中,页1055-1064,1,20[13] William L Hamilton,Rex Ying和JureLeskovec。在大型图上进行归纳表示学习。在第31届神经信息处理系统国际会议论文集中,页1025-1035,2017年。60[14] Rana Hanocka,Amir Hertz,Noa Fish,Raja Giryes,ShacharFleishman和Daniel Cohen-Or。Meshcnn:一个具有边缘的网络。0一条边。ACM图形交易(TOG),38(4):1-12,2019年。1,2,5,80[15] Kaiming He,Georgia Gkioxari,Piotr Doll´ar和RossGir-shick。Maskr-cnn。在IEEE国际计算机视觉会议论文集中,页2961-2969,2017年。10[16] Kaiming He,Xiangyu Zhang,Shaoqing Ren和JianSun。深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议论文集中,页770-778,2016年。1,2,60[17] Dan Hendrycks,Norman Mu,Ekin D Cubuk,BarretZoph,Justin Gilmer和BalajiLakshminarayanan。Augmix:一种简单的数据处理方法,用于提高鲁棒性和不确定性。arXiv预印本arXiv:1912.02781,2019年。20[18] Geoffrey E Hinton,Nitish Srivastava,AlexKrizhevsky,Ilya Sutskever和Ruslan RSalakhutdinov。通过防止特征检测器的共适应来改进神经网络。arXiv预印本arXiv:1207.0580,2012年。20[19] Jie Hu,Li Shen和GangSun。挤压和激励网络。在IEEE计算机视觉和模式识别会议论文集中,页7132-7141,2018年。50[20] Max Jaderberg,Karen Simonyan,Andr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功