没有合适的资源?快使用搜索试试~ 我知道了~
703Ground-truth或DAER:次要信息的选择性重新查询Stephan J. Lemmer和Jason J. 密歇根大学安娜堡{lemmersj,jjcorso} @ umich.edu摘要许多视觉任务在推理时使用辅助信息(种子)来帮助计算机视觉模型解决问题。例如,需要初始边界框来初始化视觉对象跟踪。到目前为止,所有这些工作都假设种子是好的。然而,在实践中,从众包到嘈杂的自动种子,情况往往并非如此。因此,我们提出了种子拒绝的问题,确定是否拒绝种子的基础上预期的性能下降,灰时,它提供了一个金标准的种子。我们提供了一个正式的定义,这个问题,并专注于两个有意义的子目标:理解误差的原因和理解模型对以主输入为条件的噪声种子的响应。考虑到这些目标,我们提出了一种新的训练方法和评估指标的种子拒绝问题。然后,我们使用种子版本的观点估计和细粒度分类任务来评估这些贡献。在这些实验中,我们表明,与强基线相比,我们的方法可以将需要审查目标性能的种子数量减少23%以上。1. 介绍计算机视觉中的许多任务不仅需要诸如图像或视频的主输入,而且需要基于主输入的附加信息-种子-以提供给任务模型。该种子可用于定义问题,例如在视觉对象跟踪[28],视频对象分割[36]和视觉问题回答[1]中,或为常见任务提供额外信息,例如细粒度场景分类[27],视觉概念预测[57]或视点估计[52]。至关重要的是,这些任务的评估使用验证的黄金标准种子,忽略噪声的过程中,种子的产生。已经在自然困难[55,69,9,14]和故意对抗的背景下探索了具有较差初级输入的计算机视觉模型的性能。ial [58,61,10,51]主要输入,导致各种黄金标准关键点测地线误差:18.5°距离黄金标准:189 px测地误差:18.5°距离黄金标准:30 px测地误差:174.8°图1:关键点条件视点估计[52]的示例专注于输入空间准确性的方法[47,49,7,43,8,40,33]将选择红色关键点而不是黄色关键点,因为它更接近金标准(绿色)关键点,即使这导致更高的误差。设计用于使模型更鲁棒的方法[55,69]或检测和拒绝困难的输入[14]。然而,据我们所知,还没有进行鉴定和拒绝坏种子的工作:当代替金标准种子使用时,导致任务错误由于众包中的可靠性问题得到了很好的研究[24,39,48,44],并且可以用于创建种子的自动化系统受到不可预测的故障模式[42,61]的影响,因此没有任何用于检测坏种子的机制是一个关键的疏忽。为了强调这种机制的必要性,我们检查了图1,其中要求人类注释者单击图像上的语义上有意义的位置(例如:后座)以解决视点估计模型这个例子说明了主输入、种子和任务模型之间复杂的、有时违反直觉的交互:而在输入空间中不正确的许多种子(例如,黄色的种子)704正确答案,不考虑种子不正确的答案,无论种子答案质量取决于种子了解任务模型我们再次强调图1所示的示例,其中输入空间中的小欧几里得误差(红色关键点)可能会导致输出误差大幅增加,而大得多的欧几里得误差(黄色关键点)可能影响不大。为了解决这些挑战,我们提出了双损失自回归误差回归(DAER),这是一种针对种子拒绝问题开发的新型训练DAER在训练过程中分别考虑了上面讨论的两个挑战,并在推理过程中将它们结合起来,以预测候选种子对下游任务的影响。我们在两个任务上评估DAER的性能:关键点条件视点估计[52]-规范视点估计任务的人在回路扩展[54,50,68,35,32]-和分层场景分类[ 54,50,68,35,32 ]-图2:在KCVE(顶行)和HSC(底行)行)任务时,任务模型可以或可以不将其回答仅以主要输入为条件。对于KCVE,金标准种子被示出为绿色圆圈,而叠加的热图示出从低(绿色)到高(红色)的误差。对于HSC,金标准种子以粗体显示,正确答案以绿色显示,不正确答案以红色显示。对性能进行分级,许多在输入空间中几乎是正确的(例如,红色种子)的表现明显比金标准差。因此,当前的方法,其目的是优化数据集cu- ration的准确性[49,7,43,8,40,33],不足以完成这项任务,不仅因为它们需要过多的额外种子来实现共识,而且因为它们优化了错误的目标:它们以输出准确性的潜在成本最大化输入空间的准确性在这项工作中,我们通过直接研究种子排斥的问题来解决这个关键的疏忽。种子拒绝寻求一种原则性机制,用于丢弃导致比相应(在推断时未知)金标准种子更不准确的输出的候选种子。然后可以要求被拒绝的种子以改善总体性能。从概念上讲,我们将种子拒绝问题分为两个不同的子目标:理解错误的原因:第一个目标是理解种子对任务模型输出的影响程度。如果种子对任务模型的输出没有影响虽然已经提出了选择性预测[14,6]的任务来处理坏的主输入,但据我们所知,没有工作在独立于主输入的质量的拒绝坏种子的任务上进行理解任务模型响应:接下来,我们必须阳离子[27]-一种通过集成粗场景分类来提高细粒度分类性能的方法[56,67,31,63]为了评估DAER,我们引入了一种用于种子拒绝的任务不可知的基准评估方法,该方法以专门设计用于评估种子拒绝方法的性能的新度量为中心:附加误差(AE)、平均附加误差(MAE)和平均附加误差曲线下面积(AMAE)。与现有的指标(如选择性风险[15])不同,这些指标关注新种子的潜在益处,而不是目标值的oracle标签,这可能难以大规模获得本文的贡献如下:1. 种子拒绝问题的形式化和基准度量,其中模型的任务是确定候选种子是否会产生比相应的(在推断时未知的)金标准种子显著更高的误差。2. 双损失附加误差回归(DAER),一种广泛适用于种子拒绝任务的训练和推理方法3. DAER对关键点条件视点估计[52](KCVE)和历史场景分类[27](HSC)任务的评估表明,与性能最佳的基线相比,DAER可以将针对给定目标性能需要审查的种子数量2. 相关工作2.1. 种子推理种子推理描述了许多问题,其中任务模型接受主输入和基于该主输入的附加信息(种子)并估计目标值。虽然可以被归类为种子推理的问题列表很长[47,4,49,16,41,57,48,49]。任务:基于关键点的视点估计室内→舞厅室外自然 →舞台户外人造→溜冰场室内→Restaura`ntIndoorr →Hanger户外自然→餐厅户外自然→衣架户外人造→餐厅户外人造→温室任务:分层场景分类mation705开始接收样本主要输入:候选种子:估计使用任务模型联系我们联系我们∈ D ∈{52,27,22,36,28,1,19],这是第一个工作,明确考虑他们作为一类问题。虽然一些工作承认可以通过选择请求哪个种子来提高性能[2,17],但当前的工作通常不认为种子本身会出错。在种子是分类的情况下,例如分层场景分类[27,57],不考虑金标准以外的种子。相比之下,其中输入空间是有效连续的许多作品,例如关键点条件视点估计中的关键点点击[52]和视觉对象跟踪中的边界框[28,60],承认种子可能是有噪声的,并且要么寻求提高鲁棒性[45],要么简单地评估现有模型对先验定义的预期噪声范围的鲁棒性[60,52]。重要的是,除了忽略不在该预定义范围内的种子的影响之外,这些方法不考虑哪些特定种子导致误差增加2.2. 选择性预测与种子拒绝密切相关的问题是选择性预测的问题[6,14]。在选择性预测中,目标是将主要输入分成由任务模型分类的集合和由专家人类注释者分类的集合,使得注释成本在误差约束下最小随着时间的推移,选择性预测已经应用于许多回归和分类策略,从20世纪70年代的最近邻Gurari等人[18]通过考虑多个模型(包括人类注释者)可用的情况来扩展选择性预测的问题,并且基于回归的交集-并集来预测最佳执行者。虽然选择性预测和种子拒绝都预测任务模型在给定输入上的性能,但选择性预测仅考虑单个输入的拒绝,这将在图像分类[13,38,15]或表格回归[53,14]等任务中看到。在这些任务中,如果主输入被拒绝,则唯一的选项是从人类专家接收目标标签。这导致注释成本的不必要增加,因为靶标记固有地比种子更难以获得。例如,执行关键点点击比完整视点注释更容易[52],或者用第一帧边界框初始化对象跟踪器比在每个视频帧上绘制边界框更容易[28]。3. 种子排斥在这里,我们首先以与问题无关的方式定义种子拒绝及其相关联的度量,其中任务和拒绝模型可以通过学习的或硬的方法来参数化。拒绝?是()下一页没有端图3:单个样本(x,s c)上的种子拒绝流程图. 拒绝模型g(x,sc)0、1试图拒绝使用候选种子导致比使用(推断时未知的)金标准种子更差的性能的编码方法接下来,我们提出了我们提出的解决方案,我们称之为双损失附加误差回归(DAER)的通用配方。在第4节中,我们用两个具体问题来实例化这种方法。3.1. 问题陈述图3所示的种子拒绝是基于任务模型f(x,s)的,该任务模型接受主输入x和基于该主输入的额外信息-种子s-即候选者sc或金标准sgs(s sc,sgs)。给定这些输入,任务模型提供目标值y的估计,其目标是最小化任务特定的性能度量。然后,我们考虑如何使用候选种子代替金标准种子影响的推理时间输出的某个任务模型的一个给定的主要输入。虽然金标准种子在推理时是未知的,但在训练和评估期间,它充当经验证的我们使用我们称为附加误差(AE)的新度量来测量性能的这种变化,其给出为:AE(x,s c,s gs,y|f,)=max((f(x,s c),y)−(f(x,sgs),y),0).(一)重要的是,我们注意到最大运算符,其强制约束候选种子不能优于相应的金标准种子。这在诸如图5-(B)和(C)中所示的那些情况下是重要的,其中存在比金标准执行得更好的种子,但是我们不能期望以返回金标准种子为任务的方法来提供它。我们寻求一个拒绝模型g(x,sc)0,1,这样具有低附加误差的候选种子被接受(g(x,s,c)=1),而具有高附加误差的候选种子被拒绝(g(x,s,c)=0)。虽然理想的拒绝模型将能够将候选种子划分为在被接受的候选种子的比例(称为覆盖率)和聚集的种子706DΣΣ|C|cGS黄金标准种子“Outdoor任务模型任务模型主要输入拒绝模型候选种子“Outdoor0.20.9预测“湖”误差100预测“Golf误差0100回归损失正确性损失+-图4:DAER将额外误差的回归分为两个分量:通过正确性损失来预测候选种子是否正确,以及通过回归损失来预测附加误差,如果候选种子不正确,则回归损失仅被反向传播。为了说明,我们包括来自分层场景分类任务的示例任务模型在可接受集合上的性能的度量这有两个原因:首先,这种技术通常受到预算限制,这意味着拒绝模型可能需要接受比金标准种子引起更多错误但小于接下来,我们计算该曲线下的面积。对于样本按首次接受的覆盖率排序的测试集,可以使用以下公式凭经验计算:其他候选种子(特别是在连续的情况1Σ|D|ΣiAE(xj,sj,sj,yj|f,)我们的绩效指标[52,36,28])。接下来,拒绝模型可能不确定种子的质量,并且需要平衡其置信度与拒绝种子的成本AMAE = |i=1|i=1j=1cGS我.( 三)这表明,种子拒绝模型应有效地排名的主要输入种子对的愿望。例如,在关键点调节的视点估计在规模上用于通过场景重建生成数据集[49]的情况下,许多工作人员将被要求点击选定帧上的特定关键点。通过选择性保证风险[13]等方法针对预算或误差容限的一定数量的这些关键点点击被升级到更有经验的工作人员,该工作人员被认为能够提供正确的种子。3.2. 聚合指标随着拒绝模型定义的目标,我们注意到,需要聚合指标的参数调整和比较性能的拒绝模型的测试集,。因此,我们提出了平均附加误差(MAE),它对应于一组可接受的样本中所有附加误差的平均值MAE(f,g|D,)=(2)AMAE可用于直接比较拒绝所有目标覆盖范围的模型对于所有提出的度量(AE、MAE、AMAE),较低的值对应于较好的性能。3.3. 达尔我们通过使用附加误差的回归估计(等式1)作为可以应用阈值的评分函数来接近种子拒绝的任务。这种 回 归 是 通 过 我 们 称 之 为 双 损 失 附 加 误 差 回 归(DAER)的新方法来学习的。DAER的核心是将额外的误差回归分为两个组件,对应于引言中描述的挑战。正确性损失,解决子目标理解错误的原因,是一个分类器,估计种子是正确的可能性。解决子目标理解任务模型响应的回归损失估计给定种子不正确的额外误差。也就是说,回归损失仅在给定种子不正确时用于训练这1 (x,s,s,y)∈Dg(x,sc)AE(x,sc,sgs,y|f,)整个过程如图4所示。1|D|(x,sc)∈D.g(x,sc)在数学上,正确性和回归输出可用于计算预期的附加误差:由于目标覆盖范围或MAE是基于应用约束(例如,预算),我们进一步寻求可以跨所有覆盖比较拒绝模型的度量。为此,我们引入了平均附加误差曲线下面积(AMAE)度量。此度量可通过两个步骤找到:首先,我们计算所有覆盖率的平均附加误差,以产生如图6所示的曲线。E(AE(xi,si,si,yi|f,f))=(4)p(种子校正)E(AE|种子校正)+p(¬种子校正)E(AE|-seedcorrect)。707由于正确种子的附加误差总是零,708CGS1这简化为:E(AE(xi,si,si,yi|f,))=(5)体系结构使用46x46的独热网格作为种子,这使得随机选择的点不太可能匹配黄金标准的关键点。 因此,定义正确p(种子正确)E(AE|-seed correct)。我们使用这个公式来预测额外的误差在推理时间,但不 是 在 训 练 过 程 中 。 相 反 , 我 们 训 练 p ( ¬ seedcorrect)和E(AE|(种子正确)以这种方式播种将导致拒绝模型,该拒绝模型的目标有效地降低到直接回归附加相反,我们将正确的种子定义为附加误差为零的种子:.0 AE=0损失,这是DAER的关键组成部分的方法而DAER直接回归附加误差,我们在第二节中示出p(种子正确)=1AE =0.(七)在第4.3节中,分离两个组件显著地改进了性能。4. 实验我们的种子拒绝方法适用于各种各样的问题,因为它完全由包含(固定)任务模型、拒绝模型架构、性能度量和正确种子的定义的四元组指定。在本节中,我们通过展示两个不同任务的最新性能来展示这种灵活性:关键点条件下的视点估计和几何场景分类。关于这两个任务的培训和评估的更多细节可以在我们的补充材料和代码库1中找到。4.1. 关键点条件下的视点估计关键点条件视点估计[52]是视点估计的规范计算机视觉任务[54,50,68,35,32]的人在回路扩展。在该任务中,向人类注释者给出车辆的图像,并要求其点击关键点,诸如“front right tire”。然后将这种人类产生的信息与卷积神经网络的特征相结合,以比没有关键点的情况下更准确地估计相机视点[50,54]。在这项工作中,我们使用Click-Here CNN架构[52]作为我们的任务模型,并使用修改的输出层,我们的拒绝模型。为了评估,我们的性能指标是单位球面上的测地线,遵循约定[52,50,54]。 然而,由于计算矩阵对数的计算困难,在训练期间使用该测量是不切实际的。相反,我们的排斥模型根据Larochelle等人的观点预测旋转位移。s距离[29],D= ||I − A2A T||F,(6)其中A1和A2是由地面实况和回归欧拉角产生的旋转矩阵。虽然直观地将正确的种子定义为与金标准种子精确匹配的种子,但Click-HereCNN1https://github.com/lemmersj/ground-truth-or-daer除了更有效地平衡正确和不正确-rect种子,以这种方式定义正确的种子鼓励拒绝模型通过在考虑种子之前学习任务模型和主输入之间的相互作用来走捷径。例如,可以接受图2中的左边和中间的情况,而不考虑种子的位置训练在训练过程中,通过对输入图像裁剪中的像素进行随机采样来生成候选种子对于正确性损失,我们使用二进制交叉熵,而我们遵循使用分箱交叉熵用于回归损失的常见惯例[54,50]。评估我们通过对种子的众包关键点进行评估,保持了原始工作的人在回路的 我们通过AmazonMechanicalTurk从美国的标注人员收集了PASCAL3D+验证集[ 62 ]上的总共6,042个关键点。为了产生用于验证的代表性种子分布,我们将PASCAL3D+验证集和相应的众包种子分成五个折叠,使得没有媒介物作物出现在超过一个折叠中,并报告跨折叠的平均值。基线我们在关键点条件视点估计任务上的种子拒绝的基线是:• Softmax响应(S.R.):soft- max输出的最大值。Geifman El-Yaniv [13]表明,这在选择性预测中表现最好,该任务与种子排斥最相似。• 已知距离:候选种子与金标准种子的欧几里得距离的Oracle知识。这与众包方法有关,众包方法寻求最小化输入空间中的错误。• 任务网络熵:任务模型输出的分布熵• 任务网络百分比:从任务模型的输出分布中获取10,000个样本, 并且日平均值被用作我们的拒绝标准。其他百分位数的结果见补充材料。结果我们在表1中显示,DAER在关键点条件视点估计任务上优于基线。我们在图5和图7中突出显示了具体示例。在5-(A)中,我们看到了一个极端的情况,即金本位制是80所有样本与709.(A) 决策边界附近的金本位制(B)金本位制表现KP类:摩托车车头KP等级:右上挡风玻璃接受第一个接受最后一个接受第一个接受最后表1:KCVE任务中所有折叠的基线平均AMAE和DAER(越低越好)。(C)候选种子提高性能(D)DAER失败案例在判决边界附近,并且即使候选种子在金标准种子附近,也存在高的附加误差这会导致已知距离基线因过早接受候选种子而失败,而DAER和基于任务模型输出的基线接受第一个接受最后一个接受第一个接受最后一个错误的bilty和接受这个候选人种子晚。 在5-(B)中,黄金标准种子候选种子理想Softmax响应已知距离任务网络熵任务网络百分比达尔我们突出DAER成功地认识到的情况下,虽然候选种子的测地误差是高的,地面实况种子将不会提供一个改进的估计相机的观点。图5-(C)表示类似的情况,其中金标准种子导致输出中的误差,但是在这种情况下,候选种子产生更好的输出,尽管关键点标签和位置之间不匹配。在5-(D)中,我们看到了失败的情况,其中DAER不能准确地估计任务模型4.2. 分层场景分类分层场景分类[21,27,57]是一个扩展,细粒度分类[56,67,31,63],其中关于粗略场景分类的信息-例如在这项工作中,我们在SUN397数据集[63]上进行训练和评估,这是一个包含397个类的超过130,000张图像的数据集,并使用Koperski等人开发的插件网络架构。[27]作为我们的任务模型。对于这个问题,我们将正确的种子定义为与黄金标准粗分类相匹配的种子性能指标如下所示:f(x,s),y)=0f(x,sc)= y. (八)100f(x,sc)y通过该性能测量,MAE对应于在给定覆盖率下使用候选种子代替金标准种子引起的准确度差异百分比。训练基于预训练的ResNet-18架构的拒绝模型使用随机选择的粗略类别作为种子进行训练,并使用主输入的所有潜在种子进行验证实例图5:从KCVE中选择示例案例。理想的接受位置-覆盖率,在那里通过额外的错误排序将接受一个种子-是由白色的明星。叠加的热图从绿色(低误差)到红色(高误差)使用具有最低验证AMAE的拒绝模型进行测试。完整的培训详细信息可在补充材料中获得。对于分层场景分类任务,种子是经由训练成预测7个粗略类别组合中的一个的分类模型产生的(补充中的细节)。我们训练了五个拒绝模型和五个播种模型。这允许我们计算基线方法的5次运行的标准误差,以及学习的拒绝模型的25次运行的标准误差。基线作为我们的基线,我们使用第4.1节中描述的任务网络熵和softmax响应得分。由于种子是由DNN分类器提供的,因此我们将这些基线应用于任务模型的输出(我们以术语“精细”作为前缀结果我们在表2中看到,在聚合AMAE度量下,DAER在分层场景分类的种子拒绝任务上显著优于基线。此外,我们在图6中看到,DAER在大于0.197的每个覆盖率下都优于MAE度量的所有基线,这对应于少于80.3%的种子被拒绝的所有情况在该交叉点处,MAE约为0.45,这意味着在每222个样本中的约1个中,不正确的答案将由不正确的种子引起。我们还考虑了目标MAE的Oracle阈值的假设下,拒绝的种子的数量最小化的目标。我们考虑的情况下,它是AC-KP等级:左后上车窗KP类:摩托车前排座椅方法Amae随机1.54Softmax响应0.9306已知距离0.3964任务网络熵0.3534任务网络百分比0.3092达尔0.2864710计算:−方法Amae随机六、17 ±1。1e−1精细Softmax响应3 .第三章。35±4。1e−2精细熵3 .第三章。29±3。8e−2粗Softmax响应1 .一、75 ±4。6e−2粗熵1 .一、75 ±4。8e−2达尔1 .一、62 ±3。4e−3表 2 : HSC 任 务 上 基 线 的 AMAE 和 DAER ( 越 低 越好)。在五个播种模型中计算标准误差,并且对于DAER,计算五个拒绝模型。可接受的是,由于不正确的种子,每100个推断中有1个、每40个推断中有1个和每20个推断中有1个是不正确的,分别对应于可接受的MAE 1、2.5和5。这些情况下接受种子的平均百分比以及拒绝种子数量的相应百分比减少如表3所示。值得注意的是,对于目标MAE 5,DAER将拒绝查询的数量比下一个最强基线减少了23.8%。4.3. 子目标的重要性在定义种子拒绝时,我们提出了两个子目标:理解错误的原因和理解任务模型响应,它们分别对应于DAER中的正确性和回归损失。虽然我们已经表明DAER优于基线,但我们还没有检查每个子目标的贡献。为此,我们进行了三次消融:1. 正确性:猜测种子是否是错误的原因可能是足够的。为了测试这一点,我们单独使用正确性损失作为拒绝标准。2. 回归:DAER在65432100.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0覆盖图6:与分级场景分类任务的接受的种子的比例(覆盖率)相比的平均附加误差(越低越好)。黑线表示所有运行的平均值。阴影区域表示一个标准误差。表3:对于分层场景分类任务上的各种目标MAE必须被拒绝的种子的百分比(越低越好),以及使用DAER相对于下一个最佳基线的减少百分比。评估在数学上等同于直接回归附加误差。因此,我们通过训练一个模型来评估分割损失的价值,以在没有正确性损失的情况下执行回归。通过这样做,我们只专注于理解任务模型3. 没有种子:虽然在某些情况下,我们鼓励通过学习哪些主要输入是困难的来简化理解任务模型的响应的目标,但我们希望确保模型不完全依赖于这种捷径。为了测试是否是这种情况,我们在不访问种子的情况下回归额外的错误。我们在表4中看到这些消融的结果,其揭示了两个有趣的现象,提供了对DAER功能的深入了解:第一,在两个任务中,正确性损失优于回归损失。其次,即使没有种子,理解任务模型正确性损失优于回归损失的事实表明,将种子分类为正确的和不正确的理解错误的原因是更容易的任务,并且这种粗略的分类结合其隐含的信心是一种适度有效的拒绝方法。然而,通过回归附加误差的有条件版本来改进的事实向我们表明,消除种子正确的情况导致更容易的回归问题,并且被训练来解决该回归问题的拒绝模型可以学习估计任务模型此外,在不访问种子的情况下训练的拒绝模型的性能与两个任务上的基线相当的事实表明,基于主输入和任务模型对种子的敏感度来执行种子拒绝是可能的,但不是最佳的。我们在图7中看到了为什么这可能是这种情况,其中可以通过回归附加误差来执行最准确的种子拒绝,但是拒绝最右侧图像上的未知关键点2粗熵DAER粗熵精细熵粗熵精细SR粗SRDAERMae方法目标MAE1 2.5 5精细Softmax响应百分之八十五67.0%百分之二十四点二精细熵百分之八十四点四64.3%22.7%711KCVEHSC正确性0.29371.79 ±2.3e−2回归1.16332.05 ±1.1e−2没有种子0.80022.28 ±2.1e−2达尔0.28641.62±3.4e−3表4:DAER及其各个子目标的AMAE(越低越好)。“左大灯”“后左下角”“后座”年龄比拒绝其它示例图像上的未知关键点更可能减少平均附加5. 扩展和限制我们已经定义了种子拒绝的任务和相关的度量,AE,MAE和AMAE。使用这些定义,我们已经表明,DAER优于基线,由于其新颖的方法来回归额外的错误。在本节中,我们将讨论DAER的扩展、限制和实际部署的对其他常见任务的扩展种子拒绝和DAER的框架适用于许多使用种子的任务。在某些情况下,扩展是直接的:诸如引用表达式分割[66,34,25,23]和视觉问题回答(VQA)[1,45,59]之类的任务通常作为分类问题来解决,其中主要输入是图像,种子是人类生成的文本。对于这些任务,可以以类似于策划的VQA数据集[37,19]的方式对正确和不正确的种子进行分类,同时可以直接回归额外的误差。附加的误差导出度量同样可以以直接的方式使用。在种子不均匀的任务中-例如使用不同的层次级别进行分层场景分类或在关键点或尺寸线[30]注释之间进行选择以进行人在环视点估计-公式成立,但种子的定义包含多个不一致使用的输入模式导致一组具有挑战性的架构挑战。对于单目标视觉对象跟踪[3,28,11]和视频对象分割[36,26,5]等任务,在定义黄金标准种子方面存在有意义的挑战:虽然相关数据集提供了金标准种子,但不能保证它将是最佳表现者,也不能保证播种方法将倾向于提供这种金标准种子。对这些有趣问题的进一步探索是超出了本文的范围。部署的影响种子拒绝的目标是减少推理时错误种子的潜在影响通过这样做,它减少了目标精度所需的种子数量,从而降低了部署成本,并使此类人工智能解决方案更加图7:从任务模型(顶部)到DAER rejec- tion模型(底部)的附加误差预测的误差从高(红色)到低误差(绿色)叠加。预测是按图像归一化的。广泛可及。由于种子拒绝的最终目标是纠正对于固定任务模型已经不正确的推断,因此它不能增加任何偏差或故障模式对不利用拒绝模型的部署的影响,尽管像所有模型一样,DAER拒绝模型受到其自身故障模式的影响。一个值得注意的例外是,如果DAER扩展到数据集策展,无论是通过主动学习[65]还是通过重新移动降低模型性能的训练数据[46]。由于这样的应用将在任务和拒绝模型之间建立双向依赖性(即,任务模型训练拒绝模型,拒绝模型训练任务模型),收敛的最终点不清楚,并且可能放大偏差或盲点。因此,我们不建议在没有对这种现象进行彻底调查的情况下将DAER的发现直接扩展到数据集策展。6. 结论在这项工作中,我们引入了种子拒绝的新问题,首次解决了单个错误种子对模型性能的影响在与问题无关的术语中,我们引入了附加误差(AE)、平均附加误差(MAE)和平均附加误差曲线下面积(AMAE)的评估指标,并设计了两个有意义的子目标:理解错误的原因,以及理解任务模型响应。这些子目标激发了双损失附加误差回归(DAER)方法,与最佳性能基线相比,该方法可以将目标MAE所需的重新注释数量减少23%以上。致谢丰田研究所(测地误差预测AE712引用[1] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。在2015年IEEE计算机视觉国际会议(ICCV),第2425-2433页,智利圣地亚哥,12月15日。2015.美国电气与电子工程师协会。一、三、八[2] Mohamed El Banani和Jason J.高索顾问网络:学习问什么问题的人在循环的观点估计。arXiv:1802.01666[cs],2018年10月。arXiv:1802.01666。3[3] LucaBertinetto , JackValmadre , J oa oF. Henriques ,AndreaVedaldi,and Philip H.S. 乇用于对象跟踪的全卷积在欧洲计算机视觉会议,第850-865页,阿姆斯特丹,荷兰,2016年6月。施普林格国际出版社. 8[4] Steve Branson、Catherine Wah、Florian Schroff、BorisBabenko 、 Peter Welinder 、 Pietro Perona 和 SergeBelongie 。 人 类 在 回 路 中 的 视 觉 识 别 。 在 EuropeanConference on Computer Vision,第6314卷,第438- 451页,Berlin,Heidelberg,2010中。施普林格柏林海德堡。3[5] S. Caelles , K. K. Maninis , J. Pont-Tuset , L. Leal-Taixe,D. Cremers和L.范古尔单次视频对象分割。在2017年IEEE计算机视觉和模式识别会议(CVPR),第5320-5329页你好,2017年7月。美国电气与电子工程师协会。8[6] C.周梁淑最佳识别错误和拒绝权衡。IEEE Transactionson Information Theory,16(1):41二、三[7] 放 大 图 片 作 者 : Christopher H.Lin , Mausam , andDaniel S.焊接基于POMDP的众包工作流控制人工智能,202:52-85,9月。2013. 一、二[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248美国电气与电子工程师协会。一、二[9] 塞缪尔·道奇和莉娜·卡拉姆了解图像质量如何影响深度神经网络在第八届多媒体体验质量国际会议的序言中,第1-6页,葡萄牙里斯本,2016年6月。电气和电子工程师学会。1[10] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对深度学习视觉分类的鲁棒物理世界攻击。2018年IEEE/CVF计算机视觉和模式识别会议,第1625美国电气与电子工程师协会。1[11] 范恒和凌海滨。用于实时视觉跟踪的Siamese级联区域投影网络。在2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第7944-7953页美国,2019年6月。美国电气与电子工程师协会。8[12] Giorgio Fumera和Fabio Roli。具有嵌入拒绝选项的支持向量机。在Gerhard Goos、Juris Hart- manis、Jan vanLeeuwen、Seong-Whan Lee和AlessandroVerri , 编 辑 , Pattern Recognition with Support VectorMachines,第2388卷,第68-82页。施普林格柏林海德堡,柏林,海德堡,2002. 3[13] Yonatan Geifman和Ran El-Yaniv深度神经网络的选择性在Advances in Neural Information Processing Systems,第4878-4887页CA,USA,2017.柯伦事务所三、四、五[14] Yonatan Geifman和Ran El-Yaniv SelectiveNet:具有集成拒绝选项的深度神经网络。在第36届机器学习国际会议的论文集,第2151-2159页,长滩,加利福尼亚州,美国,2019年ACM出版社一、二、三[15] Yonatan Geifman,Guy Uziel,and Ran El-Yaniv. Bias-深度神经分类器的减少不确定性估计在第七届学习代表国际会议论文集,第1-14页,新奥尔良,洛杉矶,2019年。二、三[16] Brent Griffin、Victoria Florence和Jason J.高索基于视频对象分割的移动机器人平台视觉伺服控制和对象深度估计。在IEEE计算机视觉,第1647-1657页,斯诺马斯村,CO,2020年美国电气与电子工程师协会。3[17] Brent A Griffin和Jason J Corso。BubbleNets:通过对帧进行深度排序来学习选择视频对象分割中的指导帧。在IEEE/CVF计算机视觉和模式识别会议论文集,第8914-8923页3[18] Danna Gurari、Suyog Dutt Jain、Margrit Betke和KristenGrauman。拔插头?预测计算机或人类是否应该分割图像 。 在 2016 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第382-391页美国电气与电子工程师协会。3[19] 放 大 图 片 作 者 : Danna Gurari , Qing Li , Abigale J.Stangl,Anhong Guo,Chi Lin,Kristen Grauman,JieboLuo,and Jeffrey P.比格姆VizWiz Grand Challenge:从盲人那里收集视觉问题2018年IEEE/CVF计算机视觉和模式识别会议,第3608美国电气与电子工程师协会。三、八[20] M. E.赫尔曼具有拒绝选项的最近邻分类规则。IEEETransactions on Systems Science and Cybernetics , 6(3):179-185,July 1970. 3[21] Hexiang Hu,Guang-Tong Zhou,Zhiwei Deng,ZichengLiao,and Greg Mori.使用标签关系学习结构化推理神经网 络 。 在2016 年 IEEE计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第2960-2968页美国电气与电子工程师协会。6[22] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表 达 中 分 割 。 在 Proceedings of the 2016 EuropeanConference on ComputerVision,第108-124页施普林格国际出版社. 3[23] Tianrui Hui,Si Liu,Shaofei Huang,Guanbin Li,SansiYu,Faxi Zhang,and Jizhong Han.基于语言结构指导的上下文建模参考图像分割。在2020年欧洲计算机视觉会议论文集,第12355卷,第59-75页,虚拟,2020年。Springer713国际出版。计算机科学讲义8[24] 帕纳约蒂斯湾伊佩洛提斯福斯特教务长王静AmazonMechanical Turk上的质量管理。ACM SIGKDD人类计算研讨会- HCOMPACMPress. 1[25] Sahar Kazemzadeh , Vicente Ordonez , Mark Matten ,and Tamara Berg. ReferItGame:自然景物摄影中的物体参 照 。 在 Proceedings of the 2014 Conference onEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),第787-798页计算语言学协会。8[26] Anna Khoreva,Federico Perazzi,Rodrigo Benenson,Bernt Schiele,and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。在IE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功