没有合适的资源?快使用搜索试试~ 我知道了~
12189→→→通过跨域集成的鲁棒*AmirZamir瑞士联邦理工学院(EPFL)http://crossdomain-ensembles.epfl.ch/摘要我们提出了一种方法,使神经网络预测的强大的训练数据分布的变化所提出的方法是基于通过一组不同的线索(称为“中间域”)进行预测该想法的前提是,通过不同线索进行的预测对分布偏移的响应不同,因此应该能够将它们合并为一个鲁棒的最终预测。我们执行合并在一个简单的,但原则性的方式的基础上与每个预测的不确定性。评估使用多个任务和数据集(Taskonomy,Replica,ImageNet,CIFAR)在广泛的对抗性和非对抗性分布变化下进行,这表明所提出的方法比其标准学习对应物,传统的深度集成和其他几个基线更加强大。1. 介绍部署在现实世界中的神经网络将遇到具有自然发生的失真的数据,例如。运动模糊或对抗性的。这些变化弥补了训练数据分布的变化。虽然神经网络能够学习分布中的复杂函数,但在这种变化下,它们的预测非常不可靠[9,20,50,25]。这提出了一个核心挑战,需要解决这些模型在现实世界中有用。假设我们想要从输入do- main学习映射,例如。RGB图像到目标域,例如表面法线(见图1)①的人。一种常见的方法是使用直接路径(即RGB表面法线)来学习此映射。由于此路径直接在输入域上操作,因此它易于受到RGB图像中的任何轻微改变的影响,例如亮度变化。 另一种方法是通过一个不变的中间域11或等效地* 同等贡献。图1:用于创建稳健且多样化的预测集合的所提出的方法的概述。一组K个网络在给定输入图像的情况下通过K个中间域(例如,中间域)预测目标域(这里是表面法线),该输入图像已经经历了未知的分布偏移(这里是JPEG压缩降级)。2D纹理边缘、低通滤波、灰度图像、浮雕滤波等)。然后,使用基于与每个预测相关联的不确定性的权重,将来自K个路径的预测合并成一个最终的强预测。这种方法被证明是显着的强大对抗对抗和非对抗性分布的几个任务的变化。在上图中,实线()和虚线()箭头分别表示学习函数和分析函数。变化例如,通过RGB预测的表面法线2D边表面法线路径将对输入中的亮度失真有弹性,因为2D边缘域将其抽象掉。然而,人们不知道提前使用哪个中间域,因为模型可能遇到的失真是广泛的并且先验未知的,并且一些中间域对于某些下游预测可能是太有损的。这些问题可以通过采用集成方法来缓解,其中经由中间域的不同集合进行的预测被合并到一个运行中的强预测中。本文提出了上述过程的一般方法 我们首先使用一组K个中间域,从中我们学习预测最终域(图1)。①的人。K个路径中的每一个由于其固有的偏差而对特定的分布偏移做出不同的反应,因此其预测可能会或可能不会严重降级。因此,我们进一步估计了uncer-12190ZFj=1X Y {Y}每个路径的预测的污点不需要中间域之间的关系的先验知识,因为它们对最终预测的贡献由它们的预测不确定性以独立于中间域的定义的完全计算的方式引导。换句话说,在这些域发生变化时不需要手动修改或重新设计。此外,我们采用的中间域都可以编程提取。因此,这个框架不需要任何额外的监督/标签,而不是数据集已经附带的内容。所提出的方法将同样适用,如果中间域也使用基于学习的方法来获得,例如。从诸如深度估计器的另一网络的输出预测表面法线。我们在Sec中显示。4,该方法执行良好的不敏感的中间域的选择,它generalizes到完全新的非对抗性和对抗性的腐败。2. 相关工作这项工作与许多主题有关,包括集成、不确定性估计和校准、归纳偏差学习[4],或神经科学中的工作,这些工作表明大脑使用多种,有时是部分冗余的线索来感知[23,24]。我们给一个概述,其中一些在空间的限制。集成允许我们解决偏置-方差权衡,其指出模型预测中的误差可以分解为偏置、方差和不可约的这是通过组合具有低偏差和高方差的多个模型来完成的,例如:[8]或高偏差和低方差,例如:[8],以具有低偏差和方差的预测集成方法的主要挑战是确保多样性。多样性的来源包括使用不同的初始化[33],超参数[53]或网络架构[58]用于集成组件,或使用额外的损失项[41,26,56]训练集成。然而,在分布变化下,性能的降低可能源于偏差的增加,而不是方差项[57]。我们的一组中间域通过设计产生了更多样化的合奏,并促进了不同的不变性。失真,以保持低偏置(见图)。①的人。估计不确定性:模型预测中的不确定性可以分解为两个来源[7,27]。Epis-temic不确定性解释了模型参数的不确定性,而任意不确定性源于数据中固有的噪声。有许多建议的方法来估计前者,例如使用dropout[12,48],随机变分推理方法[5,15,38,37,52,43],集成[33]和一致性能量[59],其中从一致性中提取单个不同的路径。该领域中的大多数现有方法仅估计不确定性,而不将其用于改进预测。相比之下,我们的公式估计每个路径的校准不确定性,并使用它来产生更强的预测。使用辅助数据集改进校准:神经网络倾向于产生错误校准的输出,也就是说,他们估计的不确定性并不反映正确的真实可能性[16,31]。特别是,他们对不熟悉的例子的预测往往过于自信。这通常通过校准步骤来处理。类似于[17,21,36,34],我们使用与测试时的数据集不同的数据集来训练模型,以针对不熟悉的情况输出高sigma(不确定性)。以前的论文集中在概括分类的不确定性;在3.1节中,我们证明了这可以扩展到稠密回归问题。在跨任务预测的上下文中实施一致性约束涉及确保输出预测保持不变,而不管中间域如何[59,35,62,55]。特别是与[59]相比,[ 59 ]使用(非概率)训练时间一致性约束来改善网络我们的配方和训练时间一致性约束是互补的。通过数据增强的稳健性:解决鲁棒性的一种方法涉及在训练期间使用数据增强[39,61,22,28,2]。这种方法通常涉及使用一组腐败进行训练,以推广到看不见的腐败[45]。然而,性能增益可以是不均匀的,例如,高斯噪声增强提高了对其他噪声损坏(例如,脉冲、散粒噪声),但会损害雾和对比度的性能[10]。相反,我们的主要机制使用了一个大的中间域(而不是腐败),以抵抗各种各样的看不见的腐败。除了校准不确定度外,我们在培训期间不使用任何腐败。对抗性攻击向输入中添加了难以察觉的最坏情况变化,以欺骗模型[50,32,39]。与[41,26,56]相比,[41,26,56]是基于集成的对抗性鲁棒性方法,具有额外的损失项以促进多样性,我们的集成的多样性是使用不同中间域的自然虽然我们的重点不限于对抗性攻击的鲁棒性,但它也产生了对它们的支持性评估(Sec. 4.1.2)。3. 方法我们在下面解释我们的方法的技术细节符号:定义为RGB域,=jK作为K个中间域,作为期望的预测域。来自这些K个域的单个数据点η被表示为(xn,yi,n,. . . ,yj,n,.. . ,yK,n,zn)。XY是将RGB图像映射到它们的中间值的函数集合。12191j=1j=1j=1nL= L+ α LNng,MGng,SCLng,NLLNnnn√sigma培训sigma培训深度合奏RGB预测不确定性预测不确定性预测不确定性平均Sigma(不确定度)图2:在高失真下解决过度自信的不准确预测。 左:图像(再)着色的定性预测结果及其对应的不确定性估计(即,σ)。这是针对sigma训练(ST)之前和之后的单个UNet模型以及深度集合(集合中预测的标准差)所示的较暗表示较低的不确定性/sigma。使用高斯噪声和高斯模糊失真进行ST使用其他失真产生类似的性能(参见补充)。右:11误差对平均σ的散点图每个点是从16k个测试图像的平均值计算的,用于一个不可见的失真和5个移位强度水平之一注意(定性和定量),当没有ST的模型产生差的结果时,它们的不确定性并没有相应地增加。我们的ST有助于模型在测试看不见的失真时,在其不确定性估计和误差之间具有更强的相关性。这指示ST之后的西格玛可以是用于合并多个预测的有效信号注意,预测平均值(栅域,FXY={fj:X →Yj}K,FYZ是为了缓解这种情况,我们采用了两阶段的培训设置从中间映射到目标的函数集,其中在分布数据上训练的网络进一步预测域F YZ={g j:Y j→Z}K。给定域Z的K个预测,使用函数m将它们合并以得到最终的单个预测m:{g j(Y j)}K-Z。3.1. 估计每个路径的预测和不确定性我们使用神经网络学习映射gj我们用a对gj所做预测中的噪声进行因此被训练以输出训练分布之外的高不确定性我们将这一步称为sigma训练(ST)。这里,sn被训练以学 习 其 最 大 似 然 估 计 , 损 失 表 示 为 sigma 校 准(SC)。由于这一步的目标是通过在失真(dis t)下校正sigmasn而不是平均值zn来最大化可能性,因此我们添加一个损失项以确保zn不会偏离ST开始时的预测,我们将其定义为拉普拉斯分布因此,在本发明中, 对于输入样本yj,n,z0. 我们将此损失表示为平均值(MG)。最后,网络输出两组参数[z{j,n,s{j,n]=gj(yj,n)其中我们设置sj,n=logbj,n以获得数值稳定性y我们包括来自Eq.1对未失真的数据(undist),以防止遗忘。这将导致以下结果和bj,n是拉普拉斯分布的尺度参数。损失公式:为了简洁,我们去掉了对j的依赖这导致温迪斯特区g,ST1+α2L分布,(2)g的以下负对数似然(NLL)损失:g,NLLg,MGg,SCL=1Σexp(−s)zn=1- z+s,(1)其中,α1、α2控制损失项之间的权重F或givenz(0),MG损失被定义为当前预测与在g i v en z(0)处的预测之间的l1范数距离。sigma训练的开始,即,左侧远端= z0−zn1。SC损耗引导尺度参数朝向其最大值。其中N是样本数,zn标签是最小似然估计,即 左侧远端=exp(sn)−第n个样本。这导致er-上的l1范数损失阿民善distgj,NLL 1=|zn−z0|1.与高斯分布的l2范数损失相反的误差布亭,其已被证明可提高准确性[27,59]。最后,sigma由 2exp(sn),它捕获了预测中的不确定性。通过Sigma培训(ST)进行校准:分布偏移下的不确定性估计校准不良[40],即存在输出具有高置信度的差预测的趋势这可以在图中看到2,随着噪声失真的增加,预测明显下降,但不确定性估计并没有相应地增加。 这个问题仍然存在,甚至与方法,估计认知的不确定性(图。2,“深度集合”列),其意在检测这些移位。在ST之后,网络输出高度相关的sigma。与错误相关(图)2,最右边的图)。给定相同目标域的多个预测和它们的西格玛估计,这允许我们使用后者作为用于合并的信号以得到单个强预测(第二节)。3.2)。由于ST的目标是将网络暴露于具有高失真的输入,而不是更新最终的预测均值,因此具有高强度的任何损坏都将足够。用于ST的失真与测试时的失真不同。详细研究请参见补充章节2.5。此外,实验(图)。图2、图6、表1)表明西格玛清楚地推广到看不见的失真。偏移强度5转换强度2n112192FFj=1X → Z X → Zj=1Σ(E∈F ∈FXYYZFYZ图3:该方法如何工作?每条路径中的每个网络都会收到不同的线索来进行预测,因为它们要经过不同的中间域。左:给定一个扭曲的像素化查询,每个路径(列)受到扭曲的影响不同,这反映在其预测,不确定性和权重中(越轻意味着更高的权重/不确定性)。逆方差合并使用权重来组合比每个单独预测更好的最终预测。(The表面法线的不确定性看起来丰富多彩,因为表面法线域包括3个通道,因此存在3个不确定性通道。)右:类似地,对于具有玻璃模糊失真的查询,该方法成功地忽略了降级的预测并组装了准确的最终预测。 注意,所提出的方法(inverse var. 合并)获得比直接从RGB学习(每个示例的最左列)显著更好的结果,直接从RGB学习是最常见的方法。最终预测的质量取决于以下要素:1. 对于每个像素,至少一个中间域对所遇到的失真是鲁棒的,以及2. 不确定性估计与误差很好地相关,允许合并从最佳执行路径中选择区域。均匀合并不考虑不确定性,因此导致更差的预测。椭圆标记表示合并结果优于所有单独预测的样本区域。3.2. 合并预测在利用上述方法获得映射集合XY和YZ之后,仍然需要使用合并算法来合并来自多个路径的预测。功能M. 我们 采用 一个 分析 方法giv enbym({gj(yj,n)}K )=CΣKexp(−2sj,n)zj,n以使得在最终预测中不使用降级路径的方式加权 我们还显示了每个路径的统一平均值的最终预测。虽然它比简单地使用直接路径(正常或重 新 着 色)更好,但是使用不确定性估计作为权重导致显著更准确的预测。其中C是归一化常数,定义为Kj=1 exp(−2s(j,n))−1. 这是一个直接的攻击法I. 有了一组多样化的中间域,它就更通过其方差的倒数对每条路径中的每个像素进行加权[18],这可以以可忽略的计算成本来完成。我们将其表示为逆方差合并,并将在第4.1节中显示它比我们方法的其他基于分析和学习的变体表现更好。算法1总结了我们的训练过程。算法1我们方法要求:定义fj和gjj。1:对于j= 1:K做2:使用等式(1)中的NLL损失训练g,j1.一、3:(可选)使用一致性约束[59]训练gj(第二节)4.1)4:用等式(4.1)在gj二、5:结束6:使用Inv合并来自网络的K个预测。变种合并(Sec. 3.2)。一个可行的例子。图3用一个例子说明了我们的方法。对于一个给定的图像,每个路径对于左侧的失真(像素化)查询,每个路径对失真的反应不同,并且通过基于其不确定性组合各个预测来获得最终预测。对于右边的玻璃模糊图像也可以进行类似的观察,这里学习很可能其中一个受失真的影响较小,并返回准确的预测。二. 预测的误差与其相应的不确定性估计相关良好,即。在预测准确的图像区域中不确定性低这允许我们使用这些不确定性估计作为信号,以具有从不同路径获取的图像的部分的最终预测。4. 实验我们证明了所提出的方法对不同的分布变化,不同的数据集和不同的预测任务具有鲁棒性。对于逐像素预测任务,我们在Taskonomy数据集上进行训练[60]。为了评估损坏下的鲁棒性,我们报告了常见损坏[20]和对抗性扰动[50,32,39]下的性能。为了评估数据集的变化,我们报告了Replica [49]和Habitat [47]数据集。对于分类,我们在ImageNet [46],CIFAR [29]上进行训练,并在ImageNet-C和CIFAR-C [20]上进行评估。请参阅补充和项目页面,以获得更广泛的定性结果。12193××图4:在常见损坏[ 20 ]的4个分布偏移下的定性预测结果显示在来自副本[ 49 ]数据集的样本图像上,偏移强度为3。每个预测之后是其对应的误差图。与基线相比,我们的方法能够抵抗失真,并且提供更好的准确性,特别是在细粒度区域和锐度上(参见白色标记)。最好在屏幕上看到。4.1. 像素级预测任务的评估训练数据集:我们使用Taskonomy [60]作为我们的训练数据集,它包括400万个室内场景的真实图像,每个图像都有多个注释我们报告的结果表面法线,深度(zbuffer),和reshading预测,流行的目标领域。中间域:从RGB图像中,我们提取2D边缘、拉普拉斯边缘、灰度、浮雕、低通滤波、锐化和小波图像作为中间域(详细定义见补充资料)。这些中间域通常用于低级别的图像处理任务,计算成本可以忽略不计[1,6],并且不需要任何监督。性能对中间域的选择不敏感,因为该方法始终优于基线,并且使用更多的中间域进行改进(Sec. 4.1.3,图(见第7a段)。评价数据集:我们的目标是让测试数据具有与训练数据的分布偏移,以评估我们方法的鲁棒性。所有结果均报告在以下数据集的测试集上:Taskonomy with Common Corruptions[20] : 我 们 在Taskonomy 的 测 试 集 上 应 用 它 们 包 括 除 室 外损 坏(雪、霜、雾)和更改场景几何体的损坏(弹性变换、运动和缩放模糊)之外的所有损坏。我们从评估中排除了高斯噪声和模糊,因为它们用于ST,以保持训练和测试完全分离。失真子集的可视化如图4所示,并针对补充文件中的所有严重度。具有对抗性破坏的任务经济学[50,32,39]:我们使用迭代快速梯度符号方法(I-FGSM)生成对抗性示例[32]。其他数据集:副本[49]由来自室内场景的高质量3D重建的1227张图像组成类似于Taskonomy,我们也对这些图像应用常见的腐败。栖息地[47]由1116张来自网格渲染与Taskonomy的实质性转变我们在两个数据集上进行测试,而没有进行微调(请参阅supple-tuning)。训练细节:我们的方法和基线的所有网络使用相同的UNet骨干架构[44],并使用AMSGrad [42]进行训练。 我们使用了5的学习率10−4,重量衰减21 0-6,批量大小为64。所有网络的上采样块使用双线性插值调整激活图的大小。我们还使用“跨任务一致性约束”(X-TC)[ 59 ]来增强网络训练,4.1.3)。我们遵循[59]并在预测均值上应用非概率感知损失。基线:我们评估以下基线。他们是用NLL损失训练的(等式10)。1),即模型输出均值和sigma。基线UNet:它是从RGB映射到目标域而不经过中间域(即,中间域)的单个网络。直接)。这是主要的基线。多域基线:它是以RGB图像和所有中间域作为输入的网络模型。由于该模型不强制使用不同的中间域,而不是所提出的方法,它揭示了从中间域学习是否需要显式和分布式。多任务基线:它是一个单一的模型,从RGB映射到深度,阴影和法线。这是为了揭示学习额外的任务是否提高了鲁棒性。数据增强基线:我们考虑基线UNet对抗训练以防御具有ε=(0,16]的I-FGSM攻击。该基线显示了对抗性鲁棒性转化为非对抗性扭曲的程度。我们还包括风格增强[13]作为其他基线,这已被证明可以减少比形状线索更不稳健的纹理偏差。盲猜是捕获域的总体统计的单个预测它返回的最佳猜测12194图5:分布变化下的重绘、表面法线和深度预测的定性结果。每一行显示在增加斑点噪声下来自Taskonomy测试集的查询图像我们的方法退化小于其他基线,证明了使用不同的线索,以获得一个强大的预测的有效性尤其在细粒度区域中可以看到准确度的显著改进。预测应该独立于输入。因此,它显示了可以从一般数据集学习到什么(更多细节在补充中)。深度集成[33]通过训练具有不同初始化的相同精确网络来创建集成尽管最近有论文提出了在集合中实施多样性的新方法,但在非对抗性变化下,尚未发现它们对深度集合的性能改善有显著意义[51,53]。因此,深合奏仍然是最相关的合奏基线。我们使用相同数量的路径,即集成组件,如在我们的方法中。来自每个路径的预测被相等地加权以获得最终预测。该基线揭示了从不同线索学习是否产生不同的预测,从而产生更强的最终估计器。评估的跨域集合设置:我们evalu- ate我们的合并方法的几个变种。在所有变体中,不同的路径经过不同的中间域以产生预测,其中一条路径是直接预测。然后将它们合并到最终预测中。我们建议的分析合并是优于别人。逆方差合并:每个路径均匀合并:简化的合并,其中每个路径被相等地加权,即不确定性不被使用。网络合并:神经网络用于合并预测。具体来说,我们考虑了一个堆叠模型[54],该模型学习每个路径的输出的最终预测,并将最终输出建模为拉普拉斯算子的其优点在于,损失是在整个图像上的,因此,考虑到其空间结构(详见补充材料)。4.1.1对常见损坏的图4和图5显示了我们的方法相对于基线的定性结果。各种变形下的性能如图4所示,适用于曲面法线来自副本数据集的样本图像的预测。所提出的方法始终优于基线,并提供更准确的预测,特别是在细粒度的区域。这进一步得到图6中的定量结果的支持,其中与所有三个目标域和偏移强度中的基线相比,所提出的方法在这些失真上的I1误差显著更低在评价的基线中,数据扩充方法最具竞争力,例如:对抗性鲁棒性部分地转移到非对抗性失真,尽管逆方差合并执行得明显更好。我们还观察到逆方差合并比均匀合并好得多,并且也比网络合并更好或可比较(图2)。6)尽管更简单、更轻量级和可解释。此外,它不要求预先固定路径的数量(与网络合并不同),因此路径的数量可以通过在运行中考虑计算因素来决定4.1.2对抗性攻击我们证明了该方法在对抗性攻击下的有效性。攻击是由I-FGSM产生的。在[32]之后,我们使用攻击强度ε=[2,4,8,16],迭代次数由N=min(4 +ε,1. 25)。结果示于表1中。我们的方法和基线都没有利用明确的对抗性防御机制-这表明使用中间域以使得同时欺骗所有路径的一种攻击更具挑战性的方式促进了集成多样性,因此这种方法也可以是对抗性攻击的有希望的此外,所提出的方法还优于在合并期间不使用不确定性估计的均匀合并(参见补充结果)这表明附加的不确定性输出没有产生I-FGSM可以利用的附加攻击途径。注意,我们不通过例如有意地使某些运算不可微,或者使用随机变换[3]。的分析操作12195i=1\0.120.100.080.06法线inv.变种合并(我们的)网。合并(我们的)均匀合并(我们的)深度集合直接unet直接的,直接的直接unet(风格)多域多任务0 1 2 3 4 5移位强度0.080.060.040.02深度0 1 2 3 4 5移位强度0.250.200.150.10热沙德0 1 2 3 4 5移位强度图6:使用在Taskonomy测试集上应用的常见腐败失真的定量鲁棒性评估:在11个看不见的失真上平均11个错误。我们的主要方法inv。变种与基线相比,合并以及通常其简化的变体均匀合并和网络合并对于偏移更鲁棒。误差条指示与平均值的一个在补充材料中提供了附加感知误差度量和个体失真的曲线图。正常重着色深度ϵ方法248162481624816深度合奏7.4911.1313.3615.6515.6621.9527.7534.985.456.688.2710.52Inv.变种合并7.608.8910.4012.7715.5616.5518.9322.014.944.995.936.75Adv. T. (下限误差)5.785.745.455.539.398.988.078.202.232.272.392.74表1:对抗性破坏的鲁棒性。报告了对抗攻击下的表面法线、重着色和深度的11个(越低越好。错误乘以100以提高可读性。)与基线相比,所提出的方法显着提高了对基于I-FGSM [ 32 ]的攻击的鲁棒性,而无需对抗性训练。最后一行显示了经过对抗训练[39]的模型的误差,该模型具有与测试时评估的攻击相同的攻击,因此它给出了误差的下限(有关其他细节,请参见补充资料)。得到中间区域是确定的和可微的。4.1.3其他消融研究ST/X-TC的贡献:为了量化训练的每个阶段对我们的设置的整体鲁棒性的贡献,我们在图7a的第一行(和补充)中研究了我们提出的方法在没有sigma训练(ST)和/或跨任务一致性约束(X-TC)的情况下的性能。我们的方法,有或没有ST或X-TC的限制,仍然优于深合奏,因为几乎所有的酒吧都低于0线。在补充资料的第2.3节中,我们比较了用ST和X-TC装备深度合奏的效果,并执行均匀和逆方差合并。因此,与我们的方法的唯一区别是使用中间域。我们的方法仍然优于。稳健性与所用路径数量:在图7a中,我们研究了作为路径数量的函数的性能。每个点示出对于给定数目的路径的所有可能的组合的平均l1误差虽然所有方法都随着更多路径的添加而改进,但我们提出的方法具有比深度集成和我们的统一合并变体更陡峭的下降趋势,这表明性能差距随着更多路径而增加。对中间域选择的敏感性:图7a还表明,我们的方法的性能是不敏感的一组特定的中间域。对于固定数量的路径n,我们的方法优于深度合奏的所有可能的组合n路径平均。路径重要性:我们在图中示出了在每个失真下每个中间域对于最终预测的重要性。7b. 对于路径数目n =1,. . . ,8,我们计算最佳执行路径的集合,即具有最低l1误差的n条路径的集合,由Pn ={p(i)} n表示。第n条最佳路径是由PnPn−1给定的。该图显示了不同的路径确实对给定的腐败有不同的例如噪声失真基本上受益于低通,而对比度失真没有受益,4.1.4在未失真数据为了证明我们的方法对分布外数据的鲁棒性并没有以分布内数据的性能下降为代价,我们在补充中提供了对未失真的Taskonomy和Replica数据集的定量评估。结果表明,我们的方法的性能,当测试未失真的数据,确实是可比的或更好的方法,训练只在未失真的数据上表现良好。4.2. 分类任务评价所提出的方法的好处不限于回归或密集像素任务。我们在ImageNet-C上进行了一项实验,以评估针对常见损坏的鲁棒性(表2)。我们的方法和深度集成都使用具有相同ResNet-50 [19]网络架构的8条路径。此外,在这个实验中,我们的方法对每个路径的输出概率进行了简单的平均,类似于深度集成,并且不涉及ST或X-TC训练。优越的结果显示了在使用一组不同的中间域的基本价值。CIFAR-10-C和CIFAR-10-C的结果相似1错误1错误1错误12196散粒噪声玻璃模糊斑点噪声DirecEmboGreysLow-pLaplaSharp飞溅脉冲噪声像素化012345678散焦模糊jpeg压缩对比饱和亮度二维边缘小波tss大屁股边缘增强0.0400.0380.0360.0340.0320.0300.028深度12345678的路径0.1500.1450.1400.1350.1300.1250.120热沙德12345678的路径0.09000.08750.08500.08250.08000.0775法线12345678的路径(a) sigma和/或一致性培训的效果(顶行)曲线图显示了与深度系综(即,深度系综)相比,11误差的相对变化。负意味着优于深度集合)。 即使没有ST和X-TC(一致性),所提出的方法也优于分布偏移下的深度集成。鲁棒性是路径数量的函数(底行)这些图显示了随着路径(或深度集成情况下的集成分量)数量的增加,平均l 1误差。所提出的方法(inv.变种合并)和其简化的变体(均匀合并)一致地优于稳定得更快的深度系综。(b) 每个中间域对于不同失真的重要性。该图显示了不同畸变的表面法线预测的最佳执行路径的顺序,其中8表示最重要的路径,1表示最不重要的路径。该图显示,例如,“噪声”失真最受益于低通中间域,图7:消融研究:我们进行了额外的研究,以了解sigma和一致性训练的影响,增加路径数量,以及每个失真对中间域的顺序影响。类似于图6,在(a)和(b)中,我们对Taskonomy数据应用常见腐败失真,并将11个错误平均为11个不可见的失真。误差条指示与平均值的一个这些研究的更详细分类见补充材料100-C数据集(补充中的完整结果)。方法清理错误mCE基线ResNet-5024.3776.21深度合奏21.5070.43我们21.6167.85表2:ImageNet-C上的鲁棒性。干净和失真数据的错误(平均损坏错误- mCE)。在[20]之后,mCE相对于AlexNet [30]。所有方法都只在干净的ImageNet训练数据上训练。与深度集合和单个模型基线ResNet相比,我们的方法在失真下表现得明显更好。有关CIFAR的详细分类和其他结果,请参见5. 结论与讨论我们提出了一个通用框架,用于基于创建各种中间域的多样化集合来进行稳健的预测。实验表明,这种方法确实导致更强大的预测相比,几个基线。我们还表明,我们的方法对中间域的选择(Sec.4.1.3)或用于ST的校正(补充)。此外,即使在装备了ST和一致性训练的深度合奏4.1.3,补充),我们的方法仍然优于,确认使用中间域的有效性。下面我们简要讨论一些限制:分布偏移下的不确定性:我们的方法依赖于合理的不确定性估计(即σ)。当我们观察到Sigma训练有助于此目的,并且还有不依赖于不确定性估计的统一合并仍然优于基线,我们的方法将受益于更好的不确定性估计技术。中间域的选择:我们采用了一组固定的中间域,并且,如第2节所述。4.1.3,最终性能对采用的词典不敏感。然而,以下游鲁棒性为目标的学习或计算选择这样的中间域可能是值得的未来方向。多模态分布:为了方便起见,我们用单模态分布来建模我们的个体路径输出,并且仅在合并步骤中考虑多模态分布。在每个路径的输出中允许多模态计算成本:虽然我们的方法和深度集成[ 33 ]的计算复杂度几乎相同,但基于集成的方法通常会增加计算复杂度,因为它们涉及将一个估计量变成多个估计量。调查是否可以压缩的集合中的模型将是值得的,鸣谢:我们感谢亚历山大·萨克斯富有洞察力的早期实验和有益的讨论。X-TC深 集 成 均 匀 合 并inv. 变 种 合 并1错误1错误1错误12197引用[1] Tinku Acharya和Ajoy K Ray。图像处理:原理和应用。John Wiley Sons,2005年。5[2] ArseniiAshukha,AlexanderLyzhov,DmitryMolchanov,and Dmitry Vetrov.深度学习中的域内不确定 性 估 计 和 集 成 的 陷 阱 。 arXiv 预 印 本 arXiv :2002.06470,2020。2[3] Anish Athalye,Nicholas Carlini,and David Wagner. Ob-fuscated梯度给人一种错误的安全感:对抗性例子的循环防御。arXiv预印本arXiv:1802.00420,2018。6[4] 乔纳森·巴克斯特。归纳偏差学习模型人工智能研究杂志,12:149-198,2000。2[5] CharlesBlundell,JulienCornebise,KorayKavukcuoglu,and Daan Wierstra.神经网络中的权重不确定性。arXiv预印本arXiv:1505.05424,2015。2[6] G.布拉德斯基OpenCV库。Dobb博士5[7] Armen Der Kiureghian和Ove Ditlevsen。偶然的还是冲动的?有关系吗?Structural Safety,31(2):105-112,2009. 2[8] 托马斯·G·迪特里希。机器学习中的集成方法。在多分类器系统国际研讨会上,第1-15页。Springer,2000年。2[9] 塞缪尔·道奇和莉娜·卡拉姆视觉失真下人类和深度学习识别性能的研究与比较。2017年第26届计算机通信和网络国际会议(ICCCN),第1IEEE,2017年。1[10] 尼克·福特,贾斯汀·吉尔默,尼古拉斯·卡利尼,和多格斯·库布克。对抗性示例是噪声中测试错误的自然结果arXiv预印本arXiv:1901.10513,2019。2[11] 杰罗姆·弗里德曼特雷弗·哈斯蒂罗伯特·提布希拉尼。统计学习的要素,第1卷。Springer系列,纽约,2001年。2[12] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似 : 在 深 度 学 习 中 表 示 模 型 的 不 确 定 性 。 在International Conference on Machine Learning,第1050-1059页2[13] Robert Geirhos,Patricia Rubisch,Claudio Michaelis,Matthias Bethge , Felix A Wichmann , and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以 提 高 准 确 性 和 鲁 棒 性 。 arXiv 预 印 本 arXiv :1811.12231,2018. 5[14] Stuart Geman,Elie Bienenstock和Rene 'Doursat。神经网络和偏差/方差困境。神经计算,4(1):1-58,1992.2[15] 亚历克斯·格雷夫斯神经网络的实用变分推理。神经信息处理系统的进展,第2348-2356页,2011年。2[16] Chuan Guo , Geoff Pleiss , Yu Sun , and Kilian QWeinberger.现代神经网络的校准。在国际机器学习会议上,第1321-1330页,2017年。2[17] Danijar Hafner、Dustin Tran、Timothy Lillicrap、AlexIrpan和James Davidson。函数不确定性的噪声对比先验。在人工智能的不确定性,第905-914页。PMLR,2020年。2[18] Joachim Hartung、Guido Knapp和Bimal K Sinha。统计荟萃分析与应用,第738卷。John Wiley Sons,2011. 4[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页,2016中。7[20] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性 常 见 的 腐 败 和 扰 动 。 arXiv 预 印 本 arXiv :1903.12261,2019。一、四、五、八[21] Dan Hendrycks,Mantas Mazeika,and Thomas Dietterich.具有离群值暴露的深度异常检测。arXiv预印本arXiv:1812.04606,2018。2[22] Dan Hendrycks 、 Norman Mu 、 Ekin D Cubuk 、 BarretZoph 、 Justin Gilmer 和 Balaji Lakshminarayanan 。Augmix:一种简单的数据处理方法,用于提高鲁棒性和不确定性。arXiv预印本arXiv:1912.02781,2019。2[23] Ian P Howard和Brian J Rogers。深入观察,卷。第二章:深度感知。多伦多大学出版社,2002年。2[24] Ian P Howard,Brian J Rogers,等.双眼视觉和立体视觉。牛津大学出版社,美国,1995年。2[25] 杰森·乔和约书亚·本吉奥测量cnns学习表面统计规律的倾向。arXiv预印本arXiv:1711.11561,2017。1[26] Sanjay Kariyappa和Moinuddin K Qureshi通过多样性训练提 高 集 合 的 对 抗 鲁 棒 性 。 arXiv 预 印 本 arXiv :1901.09981,2019。2[27] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性?神经信息处理系统进展,第5574-5584页,2017年。二、三[28] Ildoo Kim,Younghoon Kim,and Sungwoong Kim.测试时间增强的学习损失。神经信息处理系统的进展,33,2020。2[29] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。2009. 4[30] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展,25:1097-1105,2012。8[31] Volodymyr Kuleshov , Nathan Fenner , and StefanoErmon.使用校准回归的深度学习的精确不确定性。在国际机器学习会议上,第2796-2804页2[32] Alexey Kurakin,Ian Goodfellow,and Samy Bengio.大规 模 的 对 抗 性 机 器 学 习 。 arXiv 预 印 本 arXiv :
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功