没有合适的资源?快使用搜索试试~ 我知道了~
9661图像分类器能跨时间泛化吗?VaishaalShankar* UCBerkeleyDeva RamananCMUAchal Dave*CMU本杰明·雷希特加州大学伯克利分校加州大学伯克利分校路德维希·施密特摘要众所周知,视觉模型在应用于视频时会出现闪烁:它们可以正确识别某些帧中的对象,但在感知相似的附近帧上则会失败。在这项工作中,我们系统地分析了图像分类器对视频中这种时间扰动为此,我们构建了 两 个 新 的 数 据 集 , ImageNet-Vid-Robust 和 YTBB-Robust,总共包含57,897张图像,分为3,139组感知相似的图像。我们的数据集分别来自ImageNet-Vid和Youtube-BB,并且由人类专家针对图像相似性进行了彻底的重新注释。我们评估了在Im-ageNet上预训练的各种分类器,并在我们的两个数据集上分别显示了16和10个点的中值分类准确度此外,我们评估了三种检测模型,并表明自然扰动引起分类和本地化错误,导致检测mAP的中位数下降14个我们的分析表明,视频中自然发生的扰动对在需要可靠和低延迟预测的环境中部署卷积神经网络构成了实质性和现实的挑战。1. 介绍将最先进的图像识别系统应用于视频揭示了一个令人不安的现象:模型在一帧中正确识别对象,但在下一帧中却无法识别(图1)。在实践中,这种预测的闪烁被视为基于图像的模型的不幸但不可避免的特性。这个问题可以在离线设置中通过随时间平滑预测然而,在线平滑几乎没有那么有效,并且会导致延迟,从而导致下游应用中的灾难性错误:例如,据报道,闪烁的对象分类导致了致命的自主车辆碰撞[3]。从根本上说,预测闪烁是一个更广泛问题的表现:当前模型对小输入缺乏鲁棒性*同等贡献图1:来自附近视频帧的自然扰动以及在ImageNet-Vid上微调的ResNet-152模型的分类器预测示例。虽然图像看起来几乎与人眼相同,但分类器置信度基本上改变。扰动在机器学习社区中,模型鲁棒性通常是在被对手[11,2]或手动设计的策略(如旋转或模糊)干扰的图像上进行分析的[7,6,14,13]。然而,这些基准依赖于合成地修改输入图像,最多用作评估对自然扰动的鲁棒性的代理,这在视频中是常见的。在这项工作中,我们系统地分析了闪烁的流行视觉模型。灵感来自课成绩课成绩9662鲁棒性文献,我们评估模型的感知相似的图像,我们从附近的视频帧采样然而,附近的帧仍然可以表现出剧烈的变化(例如,显著的遮挡),这可能导致甚至鲁棒的模型失效。与之前的工作不同,我们通过采用人类专家标签来仅在感知相似的图像上评估模型鲁棒性来丢弃这些帧对[12]。作为我们研究的基石,我们引入了两个测试集来评估模型的鲁棒性:ImageNet-Vid-Robust 和 YTBB-Robust , 从 ImageNet-Vid 和 Youtube-BB数据集精心策划[27,24]。据我们所知,这些是第一批此类数据集,包含成千上万的图像,这些图像经过人工审查并被分组为数千个感知相似的集合。总的来说,我们的数据集包含3,139组时间上相邻且视觉上相似的图像(总共57,897张图像)。我们使用这些数据集来衡量当前模型对自然发生的小扰动的鲁棒性虽然我们使用视频来对这些图像进行采样,但我们的数据集允许评估标准的基于图像的计算机视觉模型的鲁棒性我们的测试平台包含超过47个不同的模型,不同的模型类型(CNN,变压器),架构(例如AlexNet,ResNet)和训练方法(例如,对抗训练、增强)。为了系统地表征闪烁,我们还引入了严格的鲁棒性度量。我们的实验表明,在我们的测试平台中的所有模型降级显着存在的小,自然的扰动,在视频帧。在我们的度量下,我们发现ImageNet-Vid-Robust和YTBB-Robust中的这种扰动分别导致分类的中值准确度下降16%和10%,并且检测1的中值AP下降14点。即使是在公共数据集上训练的性能最好的分类模型,我们也观察到ImageNet-Vid-Robust的准确率下降了14%,YTBB-Robust的准确率下降了8%。最近引入的在弱监督网络图像上训练的对比模型[23]可以减少这种差距,但需要超过4亿张图像,并且仍然分别显示出6.1%和6.7%的明显差距我们的研究结果表明,在视频中的自然扰动的鲁棒性是各种各样的模型的问题模型的实际部署,特别是在安全关键环境(如自动驾驶)中,不仅需要准确的预测,而且还需要随时间推移而稳健的预测我们的分析表明,确保对视频的每一帧进行可靠的预测是未来工作的重要方向。2. 相关工作对抗性的例子。虽然已经研究了各种形式的对抗性例子,但大多数研究都1我们只评估了ImageNet-Vid-Robust上的检测,因为Youtube-BB中的边界框标签在时间上不够密集,无法进行评估。专注于CNOP鲁棒性[11,2,32]。然而,目前还不清楚对抗性示例是否会在真正最坏的情况下造成鲁棒性问题。这是一个悬而未决的问题,是否完美的鲁棒性对一个CNORP对手将导致鲁棒性,如本文研究的现实图像失真。最近的工作提出了对抗性较小的图像修改,例如小旋转平移[6,1,7,17],色调和颜色变化[14],图像风格化[9]和合成图像损坏,例如高斯模糊和JPEG压缩[13,10]。即使上述示例比BNOP模型更真实,它们仍然综合地修改输入图像以生成扰动版本。相比之下,我们的工作不进行合成修改,而是使用未经修改的视频帧。学习视频中的鲁棒性。在最近的工作中,[12]利用视频中的时间结构来研究鲁棒性。然而,他们的实验表明,准确性的下降幅度要小得多。其主要原因是[12]中使用的不太严格的度量。相比之下,我们的PM-k度量受到先前工作[ 6 ]中使用的“最差k”度量的启发在附录中,我们更详细地研究了这两个指标之间的差异。此外,我们在Youtube-BB中发现的缺乏人工审查和高标签错误率(表1)提出了一个潜在的令人不安的混淆因素,我们在工作中解决了这个问题。分配转移。测试分布中的小的良性变化通常被称为分布偏移。[25]通过为CIFAR-10和ImageNet构建新的测试集来探索这一现象,并在新构建的测试集上观察到大量模型的性能下降。与我们的图3类似,它们的原始和新测试集精度之间的关系也近似线性。然而,他们的测试集中的图像与原始测试集中的图像几乎没有视觉相似性,而我们所有的失败案例都是在感知相似的图像上。在类似的研究中,[29]研究了不同计算机视觉数据集(如Caltech-101,PASCAL和ImageNet)的分布变化。计算机视觉中的时间一致性。 作者[16]明确识别闪烁故障,并使用一种让人想起对抗性鲁棒训练的技术来改进基于图像的模型。类似的工作集中在当对象被遮挡或快速移动时改进视频中的对象检测[18,8,33,30]。这项工作的重点一般是提高对象检测时,对象的方式,使识别困难,从一个单一的帧,如快速运动或闭塞的转变。在这项工作中,我们记录了一组更广泛的失败的情况下,基于图像的分类器和检测器,并表明失败发生时,相邻帧是不可察觉的不同。9663锚定框架锚帧废弃框架锚定框架图2:时间上相邻的帧可能在视觉上不相似。我们展示了三个随机采样的帧对,其中附近的帧在人类审查期间被标记为ImageNet-Vid健壮YTBB鲁棒每年检查每个帧集。对于每个视频,我们随机采样一个锚帧,取k= 10帧已查看1,314 2,4671,109(84%)2,030(82%)更新标签-834(41%)26,029 45,63121,070(81%)36,827(81%)表1:ImageNet-Vid-Robust和YTBB-Robust的数据集统计。对于YTBB-Robust,由于Youtube-BB中的标签不完整,我们更新了41%(834)的已接受锚点的标签。3. 评估时间鲁棒性ImageNet-Vid-Robust 和 YTBB-Robust 来 源 于ImageNet-Vid和Youtube-BB数据集中的视频[27,24]。ImageNet-Vid和Youtube-BB中的所有对象类(除了一个2之外)都来自WordNet层次结构[21]和ILSVRC-2012类的直接祖先使用WordNet层次结构,我们构建了从ILSVRC- 2012类到ImageNet-Vid和Youtube-BB类的规范 映 射 , 这 使 我 们 能 够 在 ImageNet-Vid-Robust 和YTBB-Robust上评估现成的ILSVRC-2012模型。我们在附录中提供了有关源数据集的更多背景信息。3.1. 数据集构造接下来,我们描述了如何从ImageNet-Vid和Youtube-BB中提取自然扰动帧的集合以创建ImageNet-Vid-Robust和YTBB-Robust。一种直接的方法是选择一组锚帧,并使用视频中的时间相邻帧,前提是这些帧只包含来自锚的小扰动.然而,如图2所示,这一假设经常被违反,特别是由于快速相机或对象运动。在锚帧之前和之后作为候选扰动图像3。这导致两个数据集,每个数据集包含来自3,139个视频的一个锚帧,每个锚帧4具有大约20个候选扰动。接下来,我们在四位专家人工注释员的帮助下管理数据集。策展步骤的目标是确保每个锚定帧及其附近的帧被正确地标记有相同的地面实况类,并且锚定帧和附近的帧在视觉上相似。Youtube-BB的密集标签。由于Youtube-BB以每秒1帧的速度每帧仅包含单个类别标签,注释者首先逐个检查每个锚帧并添加任何缺失的标签。总共,注释者纠正了834帧的标签,平均每个锚帧添加0.5个标签然后,这些标签以原生帧速率传播到附近的未标记帧,并在下一步中进行验证。ImageNet-Vid密集地标记每帧的所有类,所以我们跳过了这个数据集的这一步。帧对审查。接下来,对于每对锚帧和附近帧,人类注释(i)该对是否在数据集中被正确地标记,以及(ii)该对是否相似。我们采取了几个步骤来减轻这项任务的主观性,并确保高质量的注释。首先,我们训练评论者在场景经历以下任何变换时将帧标记为不相似:显著运动、显著背景变化或显著模糊变化。我们要求评论者用这些变换中的一个或“其他”来标记每个不相似的帧,并且如果对象的显著特征仅在两个帧中的一个中可见(例如狗的脸),则将一对图像标记为不相似的。如果注释者不确定正确的标签,她可以将该对标记为“不确定”。其次,我们一次只向评审员呈现一对帧,因为呈现视频或帧组可能会导致他们由于变化盲视现象而错过大的变化[22]。相反,我们首先收集自然的初步同样的方法,然后人-锚定帧帧对96642Youtube-BB中的类“3对于YTBB-Robust,我们使用[ 12 ]使用的锚帧的子集。4靠近视频的开始或结束的锚帧可以具有少于20个候选帧。9665NN----NNNNi=1Σ验证在前一阶段中,所有注释者被给予相同的标记指令,并单独重新查看总共71,660个图像对。为了提高注释的一致性,注释者共同审查了标记为不相似、标记错误或“不确定”的所有帧只有当绝大多数注释者将一对帧标记为与锚点相似时,才认为该帧与锚点相似。在审查完成后,我们丢弃了注释者标记为不相似或错误标记的所有anchor帧和候选扰动。最终数据集包含总共3,139个锚帧,每个锚帧的中值为20个类似帧3.2. PM-K评价指标考虑到上面介绍的数据集,我们提出了一个度量标准来衡量模型特别地,令A=a1,…an n是我们的数据集中的有效锚帧的集合。令Y=y1,…,y n是A的标签集。我们让k(ai)是被标记为类似于锚帧ai的帧的集合。 在我们的环境中,k是子集 2k个时间上相邻的帧(从锚点加/减k个帧)。分类. 锚定框架上的标准分类精度为acc orig= 1 −1NL0/1(f(a i),y i),其中L我们首先讨论用PM-K分类度量评估的各种类型的分类模型。其次,我们使用继承自ImageNet-Vid的边界框注释和使用pm-k度量的变体来评估ImageNet-Vid-Robust上检测模型的性能。然后,我们分析在检测对抗性示例上产生的错误,以隔离定位错误与分类错误最后,我们分析了数据集审查,视频压缩和视频帧速率对准确率下降的影响4.1. 分类分类鲁棒性度量是等式⑴中定义的acc_pmk。在图3中,我们绘制了测试床中所有分类模型的良性准确度accorig与 鲁 棒 准 确 度 accpectin 的 关 系 , 并 发 现 从 accorig 到accpectin的一致下降。此外,我们注意到,acc_orig和acc_pmk之间的关系是近似线性的,这表明虽然良性准确度的改善确实导致最坏情况准确度的改善,但它们不足以解决由于自然扰动引起的准确度下降我们在补充中提供了所有模型的实现细节和超参数。我们的测试平台由六种型号组成,并具有越来越高的监督级别。我们提出的结果代表第4.1节中每个型号类型的型号。0-1是标准的0-1损失函数。我们定义精确度为NWordNet层次结构使我们能够重新调整为1,000类ILSVRC-2012训练的模型accpmk= 1−1ΣMaxb∈N(a) L0/1(f(b),yi),⑴ImageNet-Vid-Robust和YTBB-RobustWe上的数据集i=1ki这对应于在计算精度之前从每个集合k(ai)中挑选最差帧我们注意到的相似性的pm-k度量标准的鲁棒性。如果我们让k(ai)是ai周围半径为ε的p球内所有图像的集合,那么鲁棒性的概念是相同的。对于具有多个标签的帧,如果模型预测了帧的任何正确类别,则准确性措施。侦 查 用 于 检 测 的 标 准 度 量 是 在 固 定 的 交 叉 -联 合(IoU)阈值处的预测的平均精度(mAP)[19]。我们定义类似于分类的pm-k度量:我们用最小化预测的平均精度(AP,在召回阈值上平均)的最近帧替换每个锚帧,并计算pm-k作为这些最坏情况的相邻帧上的mAP4. 主要结果我们评估了47个分类和三个检测模型在ImageNet-Vid-Robust和YTBB-Robust上的测试平台。评估各种ILSVRC-2012模型(可用[4]我们的自然环境。由于这些数据集与原始ILSVRC-2012验证集相比存在显著的分布偏移,因此我们预计良性准确度将低于ILSVRC-2012验证集的可比准确度然而,我们这里主要感兴趣的是原始精度和扰动精度acc orig-accpmk之间的差异。准确度的小下降将指示模型对于视频中自然发生的小变化是鲁棒的。相反,我们发现在我们的两个数据集上,准确性的中位数分别下降了15.0%和13.2%,这表明对这种变化的敏感性。噪声增强对于从原始准确度到扰动准确度的准确度下降的一个假设是,当对这些损坏的帧进行评估时,由视频压缩方案引入的细微伪像和损坏可能会降低性能。然后,pm-k度量的最坏情况性质可以集中在这些损坏的帧上。这些破坏的一个模型是在[13]中引入的扰动。为了测试该假设,我们评估用扰动的子集(恰好是以下之一:高斯噪声、高斯模糊、散粒噪声、对比度变化、噪声、噪声9666扰动测试准确度ImageNet-Vid-Robust YTBB-Robust8060402030 40 50 607080908070605040302040 50 60 70 80 90原始测试准确度原始测试准确度无精度下降线性拟合ILSVRCILSVRC +噪声增强ILSVRC + l2对抗训练ILSVRC +在ILSVRC-VID上微调ILSVRC+在ILSVRC-VID-DET上微调ILSVRC +在YTBBILSVRC+对ILSVRC-VID进行微调,带鲁棒损耗剪辑图3:原始模型与扰动图像。每个数据点对应于我们测试平台中的一个模型(以95%的Clopper-Pearson置信区间显示)。如果模型对扰动具有鲁棒性,我们会期望它们落在虚线(y=x)上。相反,我们发现它们都明显低于这条理想线,始终表现出显着的精度下降到扰动帧。每个扰动帧取自原始帧的十帧邻域(大约0.3秒),并由专家审查以确认与原始帧的视觉相似性。原始表2:六种模型类型和最佳性能模型的准确度(以95% Clopper-Pearson置信区间显示)。表示在锚帧(accorig)和相似性集中最差帧(accpegg)上的评估之间的准确度下降除非另有说明,否则模型架构为ResNet-50 详见第4.1节。脉冲噪声或JPEG压缩)。我们发现,这些增强方案并没有显著提高对我们扰动的鲁棒性,并且仍然导致两个数据集的中位精度下降了15.6%和16.6%。∞-鲁棒性。我们评估了[31]中的模型,该模型目前在ImageNet上的∞攻击中表现最好我们我们发现,这个模型在两个数据集上的准确度下降比上述两种模型类型都要小然而,鲁棒性模型实现比上述两种模型类型中的任一种低得多的原始和扰动准确度,并且鲁棒性增益是适度的(与类似良性准确度的模型相比为在第4.3节[28]中,作者进一步分析了∞-鲁棒模型的性能扰动测试准确度模型类型准确度准确度∆摄动ImageNet-Vid-鲁棒关于ILSVRC的67.5[64.7、70.3]52.5[49.5,55.5]15.0+ 噪声增强68.8[66.0、71.5]53.2[50.2、56.2]15.6+ ∞鲁棒性(ResNext-101)+ FT on ImageNet-Vid54.3[51.3、57.2]80.8[78.3、83.1]40.8[39.0、43.7]65.7[62.9、68.5]12.415.1+ ImageNet-Vid上的FT PM-k损失36.2[33.3,39.1]29.8[27.1,32.5]6.4+ ImageNet-Vid(ResNet-152)84.8[82.5,86.8]70.2[67.4、72.8]14.6+ ImageNet上的FT-77.6[75.1,80.0]65.4[62.5、68.1]12.3CLIP Zero-Shot95.3[93.8,96.4]89.2[87.2,91.0]6.1YTBB-稳健关于ILSVRC的57.0[54.9、59.2]43.8[41.7,46.0]13.2+ 噪声增强62.3[60.2、64.4]45.7[43.5,47.9]16.6+ ∞鲁棒性(ResNext-101)+ FT在Youtube-BB53.6[51.4、55.8]91.4[90.1,92.6]43.2[41.0,45.3]82.0[80.3,83.7]10.49.4+ FT on Youtube-BB(ResNet-152)92.9[91.6,93.9]84.7[83.0,86.2]8.2CLIP Zero-Shot 95.2[93.9,95.8]88.5[87.0,89.8]6.79667FRCNN,ResNet 101 77.8 66.3 11.5原始N任务模型mAPmAP扰动地图∆FRCNN,ResNet 5062.848.814.0检测FRCNN,ResNet 101 63.1 50.6 12.5R-FCN,ResNet 101 [30]*79.4*63.7*15.7*定位FRCNN,ResNet 50 76.6 64.2 12.4 R-FCN,ResNet101* 80.9* 70.3*10.6*表3:更快的R-CNN和R-FCN模型的检测和定位mAP。检测和定位都受到由于扰动导致显著的mAP下降。(R-FCN在ILSVRC Det和VID 2015上进行了培训,并在ILSVRC-VID 2017的2015子集上进行了评估,由 * 表示。图4:用于检测的自然扰动示例红框表示假阳性;绿框表示真阳性;白框是地面实况。分类错误是常见的失败,例如左边的狐狸,在锚帧中被正确分类,而在附近的帧中被错误分类为绵羊然而,检测模型也具有定位误差,其中感兴趣的对象除了被错误分类之外没有被正确定位,例如飞机(中间)和摩托车(右)。所有可视化显示的预测置信度均大于0.5。ImageNet-Vid-Robust和YTBB-Robust。微调视频帧。为了适应新的课程词汇和视频领域,我们在ImageNet-Vid和Youtube-BB训练集上微调了几种网络架构。对于Youtube-BB,我们在[12]中用于训练的锚帧上进行训练,对于ImageNet-Vid,我们使用所有具有鲁棒损耗的微调。视频训练优化了视频帧的平均准确度。然而,我们在测试时的目标是提高最坏情况下的PM-k准确度。我们采用了一种受对抗鲁棒性工作启发的策略[20],该策略使用PM-k度量作为训练损失。具体地,对于每个帧xt,假设模型f的标准训练损失为L(xt,yt;f)。相反,我们使用L(f(x),yt)=maxL(f(x),yt),x∈N(x)K不训练集中的帧由此产生的模型显著其ILSVRC预先训练的对手(例如,13%在ImageNet-Vid-Robust上,34%在YTBB-Robust上。准确度的这种改进导致YTBB-Robust的稳健性的适度改进,但仍然 遭 受 9.4% 的 大 幅 下 降 。 在 ImageNet-Vid-Robust上,从15.0%下降到15.1%几乎没有变化。哪里k(xt)包含xt的k具有与yt匹配的标签。不幸的是,这导致原始和扰动准确度分别大幅下降31.3%和22.7%。然而,该策略确实将鲁棒性差距从15.1%减少到6.4%,这表明这种损失可能是未来改进鲁棒性的一个有希望的途径我们提供实施细节和进一步9668精度审查原始扰动∆ImageNet-Vid-Robust80.3 64.1 16.2表4:分别使用在ImageNet-Vid和Youtube-BB上微调的ResNet-152,人类评论对ImageNet-Vid-Robust和YTBB-Robust在此模型的补充分析。微调视频帧上的检测。我们进一步分析是否额外的监督形式的绑定框注释提高了鲁棒性。为此,我们在ImageNet-Vid 上 使 用 ResNet- 50 主 干 训 练 了 Faster R-CNN检测模型[26]按照标准做法,检测骨干在ILSVRC-2012上进行了预培训。为了评估该检测器的分类,我们将具有最有信心的边界框的类作为图像的标签我们发现,与训练用于分类的模型相比,这种转换降低了准确率(77.6% vs. 80.8%)。虽然由自然扰动引起的准确度下降略有降低,但该降低完全在该测试集的误差条内。对比语言-图像预训练(CLIP)大规模对比学习的最新进展利用了文本的监督,以实现下游任务的高零拍摄性能[23,15]。我们评估了最大的CLIP模型5在来自互联网的4亿个图像,文本对上训练的性能。我们评估了该模型的两个版本,一个是我们发现,零射击变体虽然仍然遭受6%的准确度下降,但比我们测试床中的任何其他模型都我们注意到,由于训练数据的数量和模型的大小,这些模型的训练成本非常高,并且大多数研究人员的计算资源无法达到因此,我们离开这些模型的鲁棒性的进一步调查,以未来的工作。4.2. 检测我们进一步研究了自然扰动对目标检测的影响具体来说,我们报告两个相关任务的结果:目标定位和检测。目标检测是包含对象的框我 们 在 ImageNet-Vid-Robust 上 提 供 了 我 们 的 结果,它包含密集的边界框标签,不像Youtube- BB,它只以每秒1帧的速度标记框。我们使用流行的Faster R-CNN [26]和R-FCN [5,30]架构进行对象检测和定位,并在表3中报告结果。对于R-FCN架构,我们使用[30]6中的模型。我们首先注意到,由于Faster R-CNN和R-FCN架构的扰动帧,对象检测的mAP显著下降了12到15个点接下来,我们示出了定位确实比检测更容易,因为用于定位的mAP比用于检测的mAP更高(例如,七十六。六比六十二。8对于具有ResNet-50主干的更快的R-CNN然而,令人惊讶的是,切换到定位任务并没有改善原始帧和扰动帧之间的下降,这表明自然扰动引起分类和定位误差。我们在图4中显示了检测失败的示例。4.3. 数据集审查我们分析了3.1节中描述的人工审查对我们测试平台中分类器的影响。首先,我们在第4.1节中比较了代表性分类器(ResNet-152微调)在有和没有审查的帧上的原始和扰动准确度。我们发现,在重新查看之前,在ImageNet Vid-Robust和YTBB-Robust上,两个精度之间的差距分别为16.2和10.0。我们的审查提高了3至4%的原始准确性(通过丢弃错误标记或模糊的锚帧),并提高了5至6%的扰动准确性(通过丢弃不相似的帧对)。因此,我们的审查将ImageNet-Vid-Robust上的准确性下降降低了1.8%,将YTBB-Robust上的准确性下降了1.1%。这些结果表明,模型预测的变化确实是由于缺乏鲁棒性,而不是由于相邻帧之间的显着差异。正确分类的标准计算机视觉任务一个对象,并找到一个紧边界的坐标5基础模型是在336 x 336图像上评估的大型视觉Transformer(ViT-L/14@336px)6该模型最初是在2015年的ImageNet-Vid子集上训练的。我们在2015年的验证集上评估了这个模型,因为该方法需要访问预先计算的边界框建议,这些建议仅适用于2015年的ImageNet-Vid子集。✓84.870.214.4YTBB-Robust88.178.110.0✓92.984.78.99669YTBBYTBB w/审查%对抗性评论的影响,Youtube-BB-Robust评论的影响,ImageNet-Vid-Robust886644220-10-9-8-7-6-5-4-3-2-1012345678910偏移0-10-9-8-7-6-5-4-3-2-1012345678910偏移图5:我们绘制了审查前后所有模型中每个帧偏移导致错误的频率。距离较远的帧更频繁地导致错误。我们的审查通过删除不相似的帧来减少错误,特别是更远的帧精度原始扰动锚钉所有框架84. 8 70. 2 14.6 1109结果表明,对于广泛的分类和检测模型,这会导致显著的准确性下降。我们强调未来研究的两个关键途径:表5:基于压缩帧类型的分析结果(参见第4.4节)。为了进一步分析我们的审查对模型误差的影响,我们在图5中绘制了从锚帧的每个偏移距离导致所有模型类型的模型误差的频率。更大的偏移指示在时间上更远离的帧对。对于这两个数据集,我们发现,这种较大的偏移导致更频繁的模型错误。我们的审查减少了跨偏移量的错误比例,特别是对于大偏移量,这更有可能显示锚帧的大4.4. 视频压缩分析分析视频帧性能的一个关注点 特别地,ImageNet-Vid-Robust中的“mp4”视频包含3种帧类型:“i-”、“p-”和 “b-” 帧 。 ‘i-frames’ are stored without references toother我们计算原始精度和扰动精度,以及表5中没有每个帧类型的子集的精度下降。虽然由于压缩而导致的准确性存在适度差异,但我们的分析表明,由于视频压缩导致的帧质量差异,模型的敏感性并不显著5. 结论我们分析和量化图像模型中的一个常见现象:随着时间的推移,预测中的闪烁,这是由于缺乏对自然扰动的模型鲁棒性造成的。我们模型。在第4.1节中,我们发现几个模型由于自然扰动而遭受大量的精度下降。此外,关于人为扰动(如图像损坏或干扰)的改进仅导致适度的鲁棒性改进。一个例外对于这种暗淡的概述,最近在大规模网络数据上训练的对比学习方法[23],其赋予对自然扰动的部分鲁棒性。我们希望我们的标准化基准能够在提高这些模型的鲁棒性方面取得进展,并将其改进推广到在更有限的数据集上训练的模型。更多的自然扰动。视频提供了一种简单的方法,用于收集图像的自然扰动,使鲁棒性的现实形式的研究。用于生成这样的自然扰动的其他方法可能提供对鲁棒性的额外见解例如,照片共享网站包含许多近似重复的图像:在不同时间、视点或从不同相机捕获的相同场景的图像对[25]。更一般地,设计类似的、特定于领域的策略来收集、验证和测量对诸如自然语言处理或语音识别等领域中的自然扰动的鲁棒性是未来工作的有希望的方向。鸣谢。我们感谢Rohan Taori提供了针对图像损坏的鲁棒性训练的模型,以及Pavel Tokmakov在ImageNet-Vid上训练检测模型的帮助本研究部分得到了ONR奖N00014 -17-1-2191、N 00014 -17-1- 2401和N 00014 -18-1-2833、DARPA保证自动化(FA 8750 -18-C-0101)和拉格朗日(W 911 NF-16-1- 2001)的0552)程序、亚马逊AWS AI研究奖以及微软研究院的礼物。ImageNet-VidImageNet-Vid w/review%对抗性w/o84.770.314.41104w/o83.973.710.2415建立更强大的模型。 我们的基准提供w/o85.473.212.2699用于分类和检测的标准鲁棒性度量,9670引用[1] Aharon Azulay和Yair Weiss。为什么深度卷积网络对小图像变换的泛化能力如此之差?arXiv预印本arXiv:1805.12177,2018。2[2] 巴蒂斯塔·比吉奥和法比奥·罗利。野生模式:对抗性机器 学 习 兴 起 十 年 后 模 式 识 别 , 2018 年 。https://arxiv.org/abs/1712.03141网站。一、二[3] NTS董事会。由开发的自动驾驶系统控制的车辆与行人的碰撞。Nat. Transpot. 更安全。Board,Washington,DC,USA,Tech.众议员HAR- 19-03,2019年。1[4] 雷米·卡丹pytorch的预训练模型。 https://github.Com/Cadene/pretrained-models.我 的 意 思是,2019-05-20. 4[5] 戴纪峰,易力,何开明,孙建。R-fcn:通过基于区域的全卷积网络的目标检测。InNeurIPS,2016. 7[6] Logan Engstrom 、 Brandon Tran 、 Dimitris Tsipras 、Ludwig Schmidt和Aleksander Madry。 旋转和平移就足够了:用简单的转换愚弄cnns。arXiv预印本arXiv:1712.02779,2017。一、二[7] 阿尔侯赛因·法齐和帕斯卡·弗罗萨德。Manitest:分类器真的是不变的吗?在BMVC,2015年。一、二[8] Christoph Feichtenhofer、Axel Pinz和Andrew Zisserman。检测跟踪和跟踪检测。InICCV,2017. 2[9] Robert Geirhos,Patricia Rubisch,Claudio Michaelis,Matthias Bethge , Felix A Wichmann , and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。ICLR,2019。2[10] Robert Geirhos , Carlos RM Temme , Jonas Rauber ,Heiko H Schütt,Matthias Bethge,and Felix A Wichmann.人类和深度神经网络中的泛化在NeurIPS,第7538-7550页2[11] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释 和 利 用 对 抗 性 的 例 子 。 arXiv 预 印 本 arXiv :1412.6572,2014。一、二[12] Keren Gu,Brandon Yang,Jiquan Ngiam,Quoc Le,and Jonathan Shlens.使用视频来评估图像模型的鲁棒性。 arXiv预印本arXiv:1904.10076,2019。 二、三、六[13] Dan Hendrycks和Thomas Dietterich基准神经网络对常见损坏和扰动的鲁棒性arXiv预印本arXiv:1903.12261,2019。一、二、四[14] Hossein Hosseini和Radha Poovendran 。语 义对立 的例子。在CVPR研讨会上,第1614一、二[15] Chao Jia,Yinfei Yang,Ye Xia,Yi-Ting Chen,ZaranaParekh,Hieu Pham,Quoc V.Le,Yunhsuan Sung,ZhenLi,and Tom Duerig.扩大视觉和视觉语言表示学习与嘈杂的文本监督,2021年。7[16] SouYoung Jin,Aruni RoyChowdhury,Huaiizu Jiang,Ashish Singh , Aditya Prasad , Deep Chakraborty , andErik Learned-Miller.从视频中挖掘无监督硬示例,以改进对象检测。在ECCV,2018。2[17] Can Kanbak 、 Seyed-Mohsen Moosavi-Dezfooli和 PascalFrossard。深度网络的几何鲁棒性:分析和改进。arXiv预印本arXiv:1711.09115,2017。29671[18] Kai Kang , Hongsheng Li , Tong Xiao , WanliOuyang,Junjie Yan,Xihui Liu,and Xiaogang Wang.视频中的对象检测与tubelet提议网络。在CVPR,2017年。2[19] Tsung-Yi Lin,Michael Maire,Serge Belongie,JamesHays,Pietro Perona,Deva Ramanan,Piotr Dollár,and C Lawrence Zitnick.微软coco:上下文中的公用对象。在ECCV。Springer,2014. 4[20] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。对抗攻击的深度学习模型。ICLR,2018年。6[21] 乔治·A·米勒 Wordnet:英语词汇数据库。Communications of the ACM,38(11):39-41,1995. 3[22] 哈罗德·帕什勒熟悉度和视觉变化检测。PerceptionPsychophysics,44(4):369-378,1988. 3[23] Alec Radford,Jong Wook Kim,Chris Hallacy,AdityaRamesh , Gabriel Goh , Sandhini Agarwal , GirishSastry,Amanda Askell,Pamela Mishkin,Jack Clark,et al.从自然语言监督中学习可转移的视觉模型arXiv预印本arXiv:2103.00020,2021。二七八[24] Esteban Real,Jonathon Shlens,Stefano Mazzocchi,Xin Pan,and Vincent Vanhoucke.YouTube绑定框:用于视频中对象检测的大型高精度人类注释数据集。在CVPR,2017年。二、三[25] Benjamin Recht,Rebecca Roelofs,Ludwig Schmidt,and Vaishaal Shankar.imagenet分类器能推广到imagenet吗?ICML,2019年。二、八[26] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn : 利 用 区 域 建 议 网 络 进 行 实 时 目 标 检 测 。 在NeurIPS,第91-99页,2015中。7[27] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpa
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功