没有合适的资源?快使用搜索试试~ 我知道了~
诊断时间动作检测器中的错误
诊断时间动作检测器中的错误Humam Alwassel、Fabian Caba Heilbron、Victor Escorcia和BernardGhanem沙特阿拉伯阿卜杜拉国王科技大学(KAUST)http://www.humamalwassel.com/publication/detad/{humam.alwassel,fabian.caba,victor.escorcia,bernard.ghanem}@kaust.edu.sa抽象。尽管近年来在视频理解方面取得了进展,并且在时间动作定位方面的改进速度也在不断提高,但仍不清楚距离(或接近?))我们决心解决这个问题。为此,我们引入了一种新的诊断工具来分析视频中时间动作检测器的性能,并比较单个标量度量之外的不同方法。我们通过分析最新的ActivityNet动作本地化挑战赛中最受奖励的参赛作品的表现来我们的分析表明,最具影响力的工作领域是:策略,以更好地处理实例周围的时间上下文,提高鲁棒性w.r.t.实例的绝对和相对大小,以及减少定位误差的策略。此外,我们的实验分析发现,注释者之间缺乏一致性并不是该领域取得进展的主要障碍。我们的诊断工具是公开的,可以通过对其他研究人员的算法的额外见解来关键词:时间动作检测·错误分析·诊断工具·动作本地化1介绍我们正处于视频理解的文艺复兴时期。通过表示学习[14,17,23]在图像领域取得的进步,大规模数据集在过去几年中出现,以挑战现有的想法并丰富我们对视觉流的理解[15,16,4,19,21,22,28,37]。最近的工作已经显示了新的算法[41],并反驳了与视频数据的低估3D表示相关的错误概念[7]。然而,我们仍在等待突破,使我们能够在时间上定位长未修剪视频中动作的发生[13,19]。在本文中,我们建议退一步,并分析了最近的进展,对时间的行动本地化作为一种为下一代提供正确方向的手段目前,研究人员有吸引人的直觉来解决视频动作局部化问题[1,10,34,45],他们配备了大型数据集来验证前三位作者对这项工作做出了同样的贡献。作者的排序是使用Python2H. Alwassel等人100806040上下文大小74.965.452.757.038.8协议83.578.462.546.735.126.32019.00012345 6公司简介SC100908070605040302010012二、510二、08641 .一、51 .一20的情况。00SC热门预测0.080.120.390.480.420.5433.921.701.692.342.322.452.45假阳性分析指标灵敏度假阴性分析10.90.50.90.9 0.2图1:我们的诊断工具为动作定位算法提供的三种类型的分析的图示。左:我们分析了假阳性误差来源 以及它们对性能的影响。中间:我们研究了定位度量对地面实况实例的不同特征的敏感性。右:我们检查了地面实况实例特征对漏检率的影响。他们的假设[4,19,5],他们有适当的计算能力。毫无疑问,这些方面有助于实现多年来不断增长的业绩[3,13,45]。然而,这些改进不足以描述整个画面。例如,我们仍然无法回答以下问题:我们离实现划定行动起点和终点的目标还有多远是什么让一个算法比另一个算法更有效是什么让一个动作难以本地化?时间边界的不确定性是否阻碍了新算法的发展?受其他领域类似研究的启发[18,30,36,44],我们深入研究了单个标量度量之外的问题,并进行了定量分析:(i)告知我们给定算法产生的错误类型,并测量修复它们的影响;(ii)描述哪些动作特征对给定算法的性能影响最大;以及(iii)给出对所提出的解决方案努力检索的动作特性的洞察。图1显示了我们的诊断分析应用于ActivityNet版本1.3 [4,26]上的最先进方法的简要一瞥。与现有研究的关系。Hoiem等人的开创性工作展示了诊断静止图像中对象检测器故障模式的相关性[18]。受这项工作的启发,[11,19,27,30,31,32,36,44]提供了对多个定位任务的算法的深刻与他们相比,我们的工作有助于理解的时间动作定位在未修剪的视频。目标检测和人体姿态估计。 [18]率先将定位误差分类作为一种手段,以获得有关对象检测算法性能的更多见解。[30,44]将诊断工具扩展到人体姿势估计的环境,显示了这种方法与定量识别故障模式的相关性,并推荐了改进用于身体部位定位的现有算法的方法。在类似的精神,我们的工作是第一个特点的时间动作定位在视频中的定位错误。多标签动作分类。Sigurdsson等人[36]提供了对算法的深刻诊断以及理 解 操 作 所 需 的 相关方向错误分类(%)1G2G3G4G5G6G7G8G9G10G修复每个FP错误后的平均mAPN改善(%)平均-mAPN相对∆上下文大小上下文距离协议覆盖长度实例数假阴性(%)诊断时间动作检测器中的错误3在视频里。[36]研究了不同属性的影响,如动词,对象,人体姿势,以及视频动作识别范围内动作之间的相互作用。大多数研究都集中在帧级或整个视频的动作分类上,并且平均在30秒的相对较短的流上进行。我们的工作有助于正交的角度来看,这项研究,进行了深入分析的问题,划定时间边界的行动在长视频。捐款.我们在本文中的贡献有三个方面。(i)我们收集额外的注释数据的动作上下文和时间协议在Activ- ityNet。我们使用收集的数据将地面实况实例分类为六个动作特征:上下文大小,上下文距离,一致性,覆盖范围,长度和实例数量(第3节)。(ii)我们调查并分类与时间动作定位最相关的错误类型(第4节)。(iii)我们提供了一个完整的分析工具(注释,软件和技术),便于对动作检测器的性能进行详细和深入的调查我们在最近的ActivityNet2017挑战赛(第5-7节)中举例说明了我们的诊断工具在前四名动作检测器上的使用和功能。2预赛评价框架。我们使用ActivityNet数据集v1.3[4]作为测试床为我们的诊断分析的进展,在时间的行动定位的视频。该数据集的选择服从多种原因,(i)它是平均长度为4分钟的20 K视频的大规模数据集;(ii)它由从诸如洗碗的家庭活动到诸如沙滩排球的体育活动的各种人类动作组成。这使我们能够对不同类型的动作做出结论;(iii)它是一个主动的非饱和基准,具有保持的测试集和额外的验证集,确保良好的机器学习实践并限制过度拟合风险;(iv)它提供了一个开放源代码的评估框架,并每年举办一次竞赛,以确保社区取得良好进展。此外,我们将我们的分析扩展到补充材料中广泛使用的THUMOS14数据集[20]。 通过这种方式,我们涵盖了用于指示这一领域进展的最相关的基准。动作定位问题测量算法一致地从不同类检索真实动作实例的发生而不增加虚假预测的数量的权衡通过测量算法的精确度和召回率来评估该任务。用于权衡检索特定动作片段的精度和召回率的度量是平均精度(AP),它对应于精度-召回率曲线下的插值区域[11]。为了评估多个动作类别的贡献,AP针对每个类别独立地计算,并且平均以形成平均AP(mAP)。考虑到问题的连续性质,如果预测段与地面实况段的时间交集(tIoU)满足给定阈值,则预测段被认为是真阳性的。考虑到行动持续时间的多样性,公共评估框架4H. Alwassel等人R(c)·N+F(c)表1:通过平均mAP和平均mAP N测量的定位性能 在ActivityNet上[4]。我们显示了所有预测和前10个G预测的两个指标,其中G是地面实况实例的数量。使用平均-mAPN给出稍高的值。值得注意的是,将预测的数量限制在前10个G中,给出的性能值与考虑所有预测时的性能值相似方法平均mAP(%)所有前10G平均mAPN(%)所有前10GSC三十三岁。42三十二99三十三岁。92三十三岁。45CES31岁8731岁83三十二24三十二20IC31岁8431岁70三十二14三十二00步十六岁75十六岁52十七岁26十七岁02使用average-mAP,其是利用0之间的tIoU阈值计算的所有mAP值的平均值。5和0。95(包括95),步长为0。05.为了在多个算法之间建立对多个类别的真阳性和假阳性之间的比率变化具有鲁棒性的中间地带,我们采用归一化平均AP [18]。 以这种方式,我们可以比较地面实况实例的不均匀子集之间的平均- mAP,例如当对于给定检测率,给定类别的实例的数量是另一类别的实例的数量的两倍时。我们根据归一化精度PN(c)= R(c)·N计算归一化mAP(mAP N),其中c是置信水平,R(c)是置信度至少为c的阳性样本的召回率,F(c)是置信度至少为c的预测的假阳性率,并且N是常数。我们报告average-mAP N作为动作定位度量,并将N设置为每个类的地面实况片段的平均数量。算法。我们通过研究ActivityNet中最新的动作定位任务[ 13]中的四种奖励方法来举例说明我们的诊断工具的使用(表1总结了这些方法的特点)。实际上,所有方法都以两阶段的方式解决问题,使用建议方法[2,9,12,6,34],然后是分类方案[38,39,40]。然而,存在与突出显示相关的细微设计差异。SC[26].它是最新动作本地化挑战赛的获胜者,平均差距为2%。其成功的关键在于改进行动建议阶段。为此,这项工作重新制定了完全卷积动作检测网络SSAD [25]作为类不可知检测器。检测器生成具有多个持续时间的段的密集网格,但只有靠近实例发生的那些段才获得高分。除了多个算法之外,该算法基于TAG分组方法[ 42]的输出来实现最后,独立于建议阶段结果在视频级执行CES[13,45]。这项工作在挑战赛中获得了亚军[13],并在当时的THUMOS14上保持了最先进的方法它采用时间分组启发式算法,用于从密集的actioness预测中生成行动建议[42]这些建议在随后的阶段进行分类和细化诊断时间动作检测器中的错误5猜动作接下来会发生什么行动A)烘焙B)摇滚C)蹦极饼干攀爬跳跃让我们同意跳远什么时候结束?A B C D图2:左:猜动作游戏。在这个游戏中,你必须猜测什么行动(三个选项中的一个)可能会发生在所描绘的视频剪辑的背景下。右:让我们同意游戏。在这里,目标是选择最能代表跳远动作结束时间的帧。要检查你的答案,请阅读脚注†。[45]网络安全。它的大部分努力涉及将SSN网络增强SSN在提案片段所跨越的区域周围应用时间金字塔池化,然后通过平衡片段内部的信息和片段周围的上下文信息来对片段进行分类。这项工作发现,通过使用更深层次的架构和对更大的Kinetics数据集进行微调,验证集得到了一致的改进[22]。IC[13]。这种方法排名第三,采用了与CES提交相似的策略。其主要区别在于使用基于滑动窗口的建议方案以及采用人体姿势估计来影响SSN网络的分类决策[45]。BU[43].它被授予挑战最具创新性的解决方案。这项工作将FasterRCNN架构[29]扩展到时间动作定位问题。它设计了一个时间的建议网络耦合到一个多层全连接网络的行动分类和边界细化。与利用光流或人体姿势估计的排名靠前的提交相比,这项工作仅依赖于RGB流,通过在Sports-1 M数据集上预训练的3D卷积来学习时间表示[21]。3数据集表征我们的第一个目标是描述具有固有特征的数据集,例如覆盖率,长度和实例数。此外,我们感兴趣的是增强数据集的两个额外的特征,时间上下文和时间边界协议,我们认为这是理解的过程中,我们的行为的关键。 该计划是一个自动选择的游戏(跳至图2)。第一个游戏,猜动作,包括观看一系列帧来猜测接下来会发生什么动作。第二个游戏,让我们同意,要求你选择一个给定的行动结束的时刻。我们邀请您玩这个游戏,然后在脚注中检查您的答案†。 我们将第一个游戏与动作实例是否具有时间上下文相关联。如果†(1):发生的动作是蹦极跳。(2):对于这个游戏没有一个一致的答案。67%的实验室同事选择了B帧作为正确答案。6H. Alwassel等人一个动作实例是在时间上下文中,玩家应该能够利用诸如对象、场景或动作之类的语义信息来猜测动作发生在之前或之后。第二个游戏探讨了人类如何同意定义动作实例的时间边界令人惊讶的是,此玩具示例还显示了动作的所有边界区域的定义都很难。首先,我们决定进行两项正式的在线用户研究,目的是量化时间上下文和时间边界协议的数量,以进行时间动作本地化。在本节中,我们首先介绍在线用户研究,这些研究允许我们使用时间上下文和时间边界协议属性来增强ActivityNet v1.3。然后,我们提供了一个详细的定义,在这项工作中研究的每个动作特性。3.1在线用户研究用户研究I:动作的时间背景。我们的目标是量化动作实例周围的时间上下文的数量。为此,我们进行了一项在线用户研究,类似于前面描述的猜测动作游戏。我们选择Amazon Mechanical Turk作为测试平台来进行用户研究。每一个部分都在视频剪辑的上下文中从给定的列表中选择他们认为可能在视频剪辑的上下文中发生的所有人类动作。我们重新审视了时间上下文的定义,它描述了如果动作实例周围的语义信息帮助人们猜测该实例的动作类,则该动作实例处于时间上下文中。因此,我们通过在实例的时间背景下对六个非重叠的5秒循环进行采样来调查实例的时间背景。我们使用三个不同的候选类来进行查询,其中一个选项是正确的操作类,而另外两个选项是与地面实况类相似或不相似的类。根据[3]的发现,我们使用对象和场景信息来形成相似和不相似动作的集合。考虑到允许多个选择,如果参与者只选择了正确的动作,或者如果他们选择了正确的动作和类似于以下的选项,则我们认为答案是正确的如果一个时间片段允许参与者猜测动作,我们称该片段为上下文一瞥。我们的研究涉及53名亚马逊土耳其机器人(Turkers),他们完成一项任务的平均时间为21秒。我们总共提交了3万个任务来覆盖现有的ActivityNet实例。有趣的是,Turkers能够正确地猜出90的动作。8%的任务。虽然这一结果可以被解释为数据集偏向于以动作为中心的视频的信号,但它也表明动作定位方法需要时间推理才能在这种情况下提供准确的预测。例如,在玩猜动作游戏时,最有可能使用有关场景(桥梁、河流)和对象(弹性绳、头盔)的信息来预测蹦极答案。然而,这些高级信息并不能帮助您提供让我们同意游戏中跳远的结束时间。简而言之,对于每个Activi- tyNet时态实例,我们进行了6个时态上下文实验,其中我们稍后在定义动作特性时使用。诊断时间动作检测器中的错误769.954.432.131.534.832.114.911.58.6 8.213.327.411.38.310.612.55.73.914.12.113.36.914.27.217.449.642.416.315.99.480上下文大小6040200上下文距离协议覆盖长度实例数01325 4 6 NMF Inf公司简介XS SML XLXS SML XLXS SL XL图3:每个动作特征的实例的分布。我们报告属于每个特征桶的地面实况实例用户研究II:寻找行动的时间边界。在玩了让我们同意的游戏之后,问题自然出现了,我们能及时精确地定位行动为了解决这个问题,我们遵循[36]并设计了一个实例程序,帮助我们描述在注释给定动作的我们依靠168个Turkers来重新注释ActivityNet中动作的时间边界完成任务的平均时间为3分钟。这项任务包括确定一个已经发现的行动的边界。此外,我们要求参与者单独注释每个时间边界。对于每个动作实例,我们从不同的Turker收集了三个新的注释。我们测量所有四个注释(原始注释和三个新收集的注释)之间的成对tIoU的中值的一致性。结果,Turkers的一致性得分为64。整个数据集的1%。 获得的结果表明,即使对于人类,也很难同意行动的时间界限,这与以前报告的结论相匹配[36]。总之,我们从ActivityNet中为每个动作实例收集了三个额外的注释,以便将来讨论模糊边界对动作检测器的影响。3.2动作特性我们用六个不同的特征来注释ActivityNet v1.3数据集的每个实例:上下文大小、上下文距离、一致性、覆盖范围、长度和实例数。在这里,我们定义这些特征并讨论它们的分布(图3)。上下文大小。我们使用从用户研究I收集的数据来表征实例周围的时间上下文的量。我们将上下文大小定义为与实例相关联的上下文一瞥的数量。因此,上下文大小的值的有趣的是,我们发现只有6。9%的实例没有时间上下文。此外,许多实例具有大的时间上下文,例如58。4%的实例具有3个以上的上下文一瞥。上下文距离。我们使用的结果,从用户研究I的特点,最远的距离,远离的情况下,存在一个上下文一瞥我们定义了四种类型的上下文距离:Inf,其指示不存在时间上下文;远(F);中(M);近(N)。 我们可以看到,大多数情况下(69)。9%)有很远的背景一瞥%真实值8H. Alwassel等人协议我们的目标是根据在时间边界上达成一致的困难程度来描述实例的为此,我们利用从用户研究II收集的数据我们测量一致性作为实例的所有注释对之间的中值tIoU我们基于一致性得分(中值tIoU)形成五个组:Extra Weak(XW:(0,0. 2])、弱(W:(0. 2,0。4]))、中(M:(0. 四,零。6]),高(H:(0. 6,0。8])和超高(XH:(0. 八,一。0])。我们发现,相对少数的情况下,有极弱的协议(2。1%)。 另一方面,大部分数据集(83。8%的实例)表现出至少中等一致性。覆盖为了测量覆盖率,我们通过以下方式对实例的长度进行归一化视频的持续时间。我们将覆盖率值分为五类:超小型(XS:(0,0。2])、小型(S:(0。2,0。4])、中等(M:(0。四,零。6])、大号(L:(0。6,0。8])和超大(XL:(0. 八,一。0])。有趣的是,ExtraSmall和Extra Large实例组成了数据集的大部分,共有42个。4%和27。4%的实例分配给每个存储桶。长度我们以实例持续时间(秒)来度量长度。我们创建五个不同的长度组:Extra Small(XS:(0, 30])、Small(S:(30, 60])、Medium(S:(30,( M : ( 60 , 120] ) 、 长 型 ( L : ( 120 , 180] ) 和 超 长 型(XL:>180)。 我们发现,超过一半(54。4%)的实例很小。我们还观察到实例计数随着长度大小逐渐减少。实例数(实例数)。 我们为每个实例分配其视频中的实例总数(来自同一个类)。我们为这个特征创建了四个类别:超小(XS:1);小(S:[2,4]);中(M:[5,8]);大(L:>8)。我们发现一半的数据集包含每个视频的单个实例4时间定位误差的分类在设计新方法时,该领域的研究人员经常会发现当前算法无法完全解决的错误源。例如,[33]确定了高tIoU阈值下的定位错误问题,并设计了CDC网络以帧级粒度预测动作。然而,该领域缺乏与时间局部化问题具体相关的错误的详细分类。错误类型的彻底分类及其对时间定位性能的影响的分析将有助于指导下一代定位算法专注于最显著的错误。为此,我们在本节中提出了一个分类的错误相关的动作本地化,我们分析了这些错误的影响,在第5节和第7节。LetG是在一个时间间隔g(k)处的时间间隔内的梯度图的集合=(g(k),g(k))是a∈g(k)和b∈g(k)的集合。LetPbetesetltlt在p(i)=(p(i),p(i),p(i))上的p个预分配图的sltscorep(i)、ala belp(i)和datemporal extentp(i)。p(i)上的p_r_d_i是一个T_u_esltp(i)是G的最大值,且p(i)是G的最大值,则p(i)是G的最大值,且p(i)是G的最大值。当i∈U(g(k),p(i))≥α且p(i)=g(k)时,其中α是L的全部。tt l l在其他情况下,所述预处理是故障处理(FP)。p(i)处的向上的位置是FP预处理,并且g(k)是与p(i)处的最高位置相同的大的结果。我们将FP预测分为五类(见图4)。诊断时间动作检测器中的错误90点整地面实况1时47分FN预测tIoU=0.9tIoU=0.8tIoU=0.7tIoU=0.4tIoU=0.0CON (跳格子)tIoU=0.4BG(抛光鞋)LOC(擦鞋)WL(跳格子)DD(抛光鞋)(擦鞋)TP擦鞋擦鞋图4:最相关的动作定位错误的图示(第4节)。带有粗体tIoU值的预测符合tIoU阈值(0. 55在这个例子中)。左动作实例被正确匹配,而右实例被未检测到(假阴性)。每个预测都显示了一个案例,展示了我们分类的一种错误类型双重检测错误(DD)。满足tIoU阈值的预测具有具有正确标签的地面实况实例,然而,地面实况实例已经与更高分数的另一预测匹配。我们发现这个错误是由于ActivityNet评估框架的性质,该框架在高tIoU阈值下测量性能并惩罚双重检测。tIoU(g(k),p(i))≥α,g(k)=p(i);p(j)∈P,tIoU(g(k),p(j))≥α,p(j)≥p(i)(一)tt l lt s s错误标签错误(WL)。满足tIoU阈值但不正确地预测地面实况实例的标签的预测。此错误的来源通常是动作分类模块中的一个弱点U(g(k),p(i))≥α且g(k)/=p(i)(二)tt l l定位错误(LOC)。 具有最小值为0的正确标签的预测。1 tIoU,并且在地面实况实例中未能满足αtIoU阈值。该误差的来源通常是定位模块和/或时间特征表示中的弱点。0.1 ≤t|oU(g(k),p(i))α且g(k)=p(i)(三)tt l l混淆错误(CON)。 具有最小值0的情况。1 tIoU,但不满足具有地面实况实例的αtIoU阈值。该误差是由于WL和LOC中的相同误差源的组合引起的。0的情况。1≤t|oU(g(k),p(i))α且g(k)/=p(i)(四)tt l l背景误差(BG)。 不满足最小值0的预测。1tIoU与任何地面实况实例。由于预测评分方案中的弱点,该误差可能以很大的百分比出现。U(g(k),p(i))<0。1(5)t t与我们的分析相关的另一个误差源是地面实况实例的漏检,即假阴性(FN)。在第7节中,我们分析了为什么某些类型的实例通常被当前算法检测不到。10H. Alwassel等人1009080706050403020100背景错误混淆错误定位错误错误标签错误双重检测错误真阳性SC CES IC BU热门预测121086420SC CES IC BU图5:顶部:四种方法的假阳性特征。 每个剖面展示了前10个G预测中的FP错误细分。底部:误差类型对平均mAPN的影响,即 从消除导致每种类型的错误的所有预测中获得的改进。定位错误(粉红色条)的影响最大。5假阳性分析在本节中,我们以四种最先进的方法(SC,CES,IC和BU)为例,展示我们的FP分析程序。首先,我们引入假阳性特征的概念,这是我们用来剖析一个人的F特征的机制。 因此,我们从我们的FP文件中提取了一些信息。最后,我们在average-mAPN上设置了一个类型的隔离区。假阳性特征。平均-mAPN的计算固有地依赖于预测的排名。因此,在分析FP错误时考虑预测分数是重要的。因此,我们对前10个G预测的误差分布执行我们的分析,其中G是地面实况实例的数量我们以每个类的方式挑选最佳预测,即我们从类j中选择前10个Gj预测,其中Gj是类中实例的数量J. 此外,为了查看每种错误类型的趋势,我们将前10个G预测分为10个相等的分割,并研究每个分割中五种FP错误类型(在第4节中定义)的细分。这些错误分类的集合允许我们将每种类型的错误率建模为预测得分的函数。这直观地允许我们检查不同检测器组件的行为,例如分类器和评分函数。我们选择关注前10个G预测而不是所有预测,原因如下:(i)10G足够大以显示误差类型的趋势;(ii)当前最先进的方法表现出极低的归 一 化 精 度 ( <0.05G) 。 05PN ) 超 出 了 这 个 大 量 的 预 测 。 在Suchlowpresinpontin10.90.90.20.5 0.91.30.30.50.21.20.10.20.00.60.80.70.06.87.39.3错误分类(%)1G2G3G4G5G6G7G8G9G10G错误类型对平均mAPN(%)的影响1G2G3G4G5G6G7G8G9G10G1G2G3G4G5G6G7G8G9G10G1G2G3G4G5G6G7G8G9G10G诊断时间动作检测器中的错误11非常接近所有预测的性能(表1);和(iv)比较相同数量预测的多种方法的FP概况更容易。FPP 图5(Top)显示了四种方法的FP曲线。所有方法中的top-G预测包含了大部分TP。 SC在背景误差率方面是最好的,而IC是最差的,因为其超出前G的大部分预测是背景误差。这意味着IC的存储器中存在一个复杂的问题。在另一方面,SC具有相对高的双重检测错误率。我们将此归因于SC纯粹是一种建议方法(即,它是针对高召回率进行优化的),独立于所述建议生成的视频级分类器。 然而,这种双检测率可以通过应用更严格的非最大值抑制(NMS)来固定。值得注意的是,对于前三种方法,由于不正确的标签(即错误的标签和混淆错误)引起的错误相对较小。这用信号通知所述系统的序列作为索引。在这种情况下,我们可以看到BU的高错误标签和混淆错误,这表明BU的分类器存在缺陷。FP类别对平均mAPN的影响。我们从FP配置文件中获得的见解帮助我们识别算法中的问题,但是,它们并没有告诉我们应该优先解决哪个问题 为了解决这个问题,我们通过在修复错误之后测量平均mAP N来量化错误类型的影响,即我们在移除导致给定错误类型的所有预测之后计算度量。图5(底部)显示了五个错误对四种方法性能修复定位误差对平均-mAP_N给出显著的提升,而修复其他误差类型提供有限的改进。这是一个令人信服的证据,表明定位误差是最重要的错误,以解决和研究领域应该集中在解决这个错误,以推进检测算法。6平均mAPN灵敏度通常,研究人员设计定位算法来解决某些动作特征。例如,多个作品已经尝试沿着视频捕获时间上下文[8,12,24,35,45]作为动作的本地化的代理事实上,最近的SSN架构,在这项研究中提出的CES,是最新的在这种情况下,该架构不仅描述了每个段的建议,通常是通过基于模板的方法,但它也表示周围的相邻段,以影响实例本地化。虽然这些想法是有动机的,但不清楚相对于单个度量的性能变化是否实际上对应于具有感兴趣特征的实例上的代表性变化。在这个意义上,定位算法的诊断中的另一个重要组成部分是相对于动作特性的AP变化的分析。图6(Left)显示了CES的性能变化,具有第3节中描述的所有活性特征。每个条形表示删除所有不显示特定特征的实例后的性能,短划线表示方法在所有实例上的性能12H. Alwassel等人平均-mAPN相对∆80 七 十 六 点六 上下文大小上下文距离76.6CES协议覆盖73.1长度76.6实例数二、5二、0CES65.66053.137.029.162.653.052.540.626.748.829.968.854.141.352.532.241 .一、51 .一、021.82011.600 1 2 3 4 5 618.2N M F Inf16.413.9公司简介16.55.6XS S M L XL16.2XS S M L XL11.2056.85.2XS S M L图6:左:CES的平均-mAP N对动作特性的详细灵敏度。虚线是整体性能。每个条测量特定动作特性保持的ActivityNet的子集上的平均mAP N。右图:灵敏度曲线总结左图。最大和最小平均-mAPN之间的差异表示灵敏度,而最大和总平均-mAPN之 间 的 差 异表示特性的影响。在数据集中。与FP特征分析(第5节)相比,所有四种方法在多种作用特征中均表现出相似的变化趋势。为其他剩余数据的存储图形保留备份数据。在需要强调的有趣模式中,我们发现人类倾向于在行动的开始和结束上达成更多一致的情况会转化为绩效的提高(图中的H-XH一致性),而相反的行为则会显示绩效的下降。这种相关性有点令人惊讶,因为模型不是用每个实例的多个注释来训练的。不幸的是,除了实例的性质或数据集的偏差之外类似地,动作自然发生的情况被足够的时间证据包围,以加强其存在,这与性能的下降相关联(图中的上下文大小我们认为,这是由于存在类似的行动,周围的实例,创建了一个混乱,并阻碍了精确的边界定位周围的实例。在覆盖率和实例长度方面,结果直观且易于解释。短的实例,无论是绝对的时间或与视频长度的关系,往往更难以检测。这可能是由算法用于跨视频累积时间证据的粗略时间结构的结果。图6(R_ig_t)在一个示例性文件中概括了每个特征组的C_E_S的平均-mAP_N中的变量,以及改进鲁棒性的潜在影响。根据我们的研究,所有的方法都表现出类似的趋势是,与协议和实例数量的变化相比,它们对时间背景、覆盖范围和长度的变化更敏感。基于理想分类器的实验,[36]假设注释者之间的时间一致性不是动作本地化的主要障碍有趣的是,我们的诊断分析显示了证实这一假设的第一个实验考虑到这些情况的小的正面和负面影响,必须仔细验证在该领域的改进努力,使得改进不是来自更常见和更容易的我们的分析仅用于确定目标函数的保留值,因为它具有以下特性-平均mAPN(%)2.4二、四2.40.20.20.40.50.40.632.241.61.62.340诊断时间动作检测器中的错误13100806040200012345 6 NMF Inf公司简介XS SML XLXS SML XLXS SM L协议XWWM公司简介上下文大小0 1 2 3 4 56上下文大小0 1 2 3 4 5 6公司简介图7:针对每个特征(顶部)和三对特征(底部)的算法的平均假阴性率。我们观察到诸如XS覆盖率和XW一致性等特征难以单独检测以及与其他特征配对时检测。不同的是,XL覆盖和XH协议的实例相对容易。本地化的poral上下文。在这里研究的四个模型中,有三个将通过改善时间尺度上的上下文推理而受益最多7假阴性分析到目前为止,我们只考虑了检测算法引入的FP错误的类型,以及在性能中引入更多变化的动作的特性。另一方面,研究是什么使得动作实例难以检测是有见地的,即使在极小的置信度阈值下。为此,我们计算每个算法的未检测实例的百分比,并根据第3节中定义的动作特征对其进行分组。为此目的,我们认为,如果我们没有找到一个匹配的检测精度高于0的动作实例未命中检测。05PN.图7(顶部)总结了我们的发现。为了节省空间,我们对多个算法的结果进行平均(请参阅每个算法本身的结果的补充材料我们可以从结果中掌握的第一个观察结果是其与图6所示的灵敏度曲线的反比关系。例如,对于具有极弱一致性、低覆盖率、短长度或高时间上下文大小的实例,我们观察到的性能下降与算法难以检索此类实例的证据相匹配。另一方面,我们可以理解算法正在努力为每个视频找到多个实例请注意,由于视频中存在另一个实例,错过检测的数量这绝对是一个方法应该关注的领域,以减轻对性能的负面影响对于上下文距离,该模式是直观的,因为上下文一瞥的累积大小的增加与上下文的传播和时间上的混乱相关因此,分隔实例的开始和结束的机会变得更糟。上下文大小上下文距离6757.0协议83.578.462.5覆盖长度80.962.6实例数81.085.25423.920.333.19.519.0127.319.026.33.544.636.251.735.146.37.352.38.8472.272.267.5.474.9粤ICP备05016675号-1S47.5 63.2 62.3 63.9 59.4男39.253.9 49.4 53.1 51.5长25.0 35.9 37.3 36.2 35.8电话:+86-21- 88888888传XSSMLXL68.3八十五点六八十二点七七十九点一七十七点二八十一点四八十一点八45.0六十七点七五十九点八62.0五十九点九六十点八六十五点一50.3五十八点四51.4五十三点五52.1四十七点九五十一点九27.970.058.583.273.688.0 九十二29.448.260.771.377.181.4 八十四点五22.332.148.755.663.369.0 七十五点六假阴性(%)覆盖覆盖协议14H. Alwassel等人最后,我们还发现了一些有趣的模式,在FN率在两组特征之间的交叉点。图7(底部)以类似的方式紧凑地总结了那些。有趣的是,诸如低覆盖率(XS)-大上下文大小(6)、极弱一致性(XW)-大上下文大小(6)和低覆盖率(XS)-极弱一致性(XW)的特定成对组合是如何非常难以检测的,即使一些组合在数据集中很好地表示。类似地,我们发现涉及高一致性(XH)、小上下文(0)和高覆盖率(XL)的对最后,我们在成对相互作用中发现了一些有趣的轮廓,例如,FN扩散在一致性矩阵中的百分比与上下文大小,因为我们从右上角移动到左下角在一个非平滑的方式。8讨论和结论我们介绍了一种新的诊断工具的时间动作定位和demoed其应用程序通过分析四种方法在最新的ActivityNet动作定位的挑战。我们展示了我们所提出的方法如何帮助检测方法不仅确定其FP错误的主要来源,而且还可以推断其未检测。我们提供了FP错误的详细分类,专门针对动作定位。使用这种分类,我们后来定义了我们提出的假阳性特征分析。我们发现,FP配置文件不同的方法。一些技术表现出的缺点,在他们的评分功能,而其他人表现出的弱点,在他们的行动分类。我们还研究了每种错误类型的影响,发现所有检测器都受到定位错误的强烈伤害。我们进行了广泛的数据集表征,这使我们能够更深入地了解是什么使动作实例更难本地化。我们为ActivityNet数据集引入并收集了六个新的动作特征,即上下文大小,上下文距离,一致性,覆盖范围,长度和数量。 我们将确保将数据存储到安全的字符串中。我们观察到所有的方法都对时间上下文非常敏感。此外,我们表明,时间之间的协议注释是不是一个显着的障碍,提高行动本地化。对于未来的工作,我们计划探索新的度量动作本地化,将固有的模糊性的时间动作的边界。在我们的补充材料中,我们提出了一个初步的研究,利用新收集的时间注释,以减轻严格的perfor-曼斯计算当前的评估框架使用。随着我们诊断工具的发布,我们的目标是赋予时间动作本地化社区更多的能力,使其能够更好地识别和确定错误模式。最重要的是,我们希望我们的工作能够激发创新模型的发展,以解决当代动作本地化方法的当前缺陷。致谢。本出版物基于阿卜杜拉国王科技大学(KAUST)赞助研究办公室(OSR)支持的工作,奖励号为:OSR-CRG2017-3405。诊断时间动作检测器中的错误15引用1. Alwassel,H.,Caba Heilbron,F.,Ghanem,B.:行动搜索:发现视频中的动作及其在时间动作定位中的应用。In:ECCV(2018)2. Buch,S.,Escorcia,V. Shen,C.,加尼姆湾尼布尔斯,J.C.:SST:单流临时行动建议。在:IEEE计算机视觉和模式识别会议,CVPR 2017。pp. 63733. Caba Heilbron,F.,Barrios,W. Escorcia,V. Ghanem,B.:Scc:用于有效动作检测的语义上下文级联在:CVPR(2017)4. Caba Heilbron,F.,Escorcia,V.加尼姆湾尼布尔斯,J.C.:Activitynet:人类活动理解的大规模视频基准。见:CVPR 2015。pp. 9615. Caba Heilbron,F.,Lee J.Y. Jin,H.,Ghanem,B.:我接下来要注释什么?行动定位主动学习的实证研究In:ECCV(2018)6. Caba Heilbron,F.,尼布尔斯,JC Ghanem,B.:快速时间活动的建议,有效地检测人类的行动,在未经修剪的视频。在:IEEE计算机视觉和模式识别会议,CVPR2016。pp. 19147. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。在:2017年IEEE计算机视觉和模式识别会议,CVPR 2017,檀香山,HI,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功