没有合适的资源?快使用搜索试试~ 我知道了~
8075通用事件边界检测:事件分割的基准迈克·郑寿1、2、斯坦·韦贤雷2、王伟耀1、迪普蒂·加迪亚拉姆1、马特·费斯兹利1、1FacebookAI2新加坡国立大学摘要本文提出了一个新的任务,以及一个新的基准检测通用的,无分类的事件边界,分割成块的整个视频。时间视频分割和动作检测中的常规工作集中于定位预定义的动作类别,因此不能扩展到通用视频。认知科学自上个世纪以来就已经知道,人类不断地将视频分割成有意义的时间块。这种分割自然发生,没有预定义的事件类别,也没有被明确要求这样做在这里,我们在主流CV数据集上重复这些认知实验;使用我们的新注释指南,该指南解决了无分类事件边界注释的复杂性,我们引入了通用事件边界检测(GEBD)和新基准动力学- GEBD。我们认为GEBD是理解整个视频的重要垫脚石,并且认为由于缺乏适当的任务定义和注释,它以前被忽视了。通过实验和人体研究,我们证明了注释的价值。此外,我们在TAPOS数据集和我们的Kinetics-GEBD上对监督和非监督GEBD方法进行了基准测试。我们在CVPR'21 LOVEU挑战赛上发布了我们的注释和基线代码https://sites.google.com/1. 介绍认知科学告诉我们[49],人类根据“事件”(目标导向的动作序列,如“洗车”或“做饭”)来感知视频,而且,人们在感知视频时自然和自发地分割事件,将较长的事件分解为一系列较短的时间单位。然而,主流的SOTA视频模型[47,48,13,7,28,12]仍然通常处理短剪辑(例如:1s长),然后进行某种池化操作以生成视频级预测。近年来,在时间上取得了重大进展。边界:爆破切割边界:从暗到亮的变化边界:从跑步变为跳跃时间边界:从跳跃到站立的变化边界:一个新的主体出现时间时间图1:通用事件边界示例:1)跳远是分段在一个镜头切,然后之间的行动运行,跳和站起来(占主导地位的主题在红色圆圈)。2) 颜色/亮度改变3)出现新的主题。动作检测[8,9,14],分割[24,3,21,11]和解析[35,38]。尽管如此,我们还没有看到长格式视频建模的重大进展认知科学表明,一个潜在的缺陷是事件分割:与我们的SOTA模型不同,人类自然地将视频划分为有意义的单元,并且可以对这些单元进行推理。与我们目前的方法建立在有限的预定义的动作类的集合上相比,人类在没有任何预定义的目标类的情况下感知到广泛且多样的段边界集合。为了使机器能够开发这样的能力,我们提出了一个新的任务,称为通用事件边界检测(GEBD),其目的是在本地化的时刻,人类自然感知事件边界。如图1显示,我们的事件边界可能发生在8076#视频段数#边界视频领域边界原因#边界类每个视频的THUMOS'14270018K36K体育行动201ActivityNet v1.32780123K46Kin-the-wild行动2031字谜6700010K20K家庭行动1571HACS分段50000十三万九千二十七万八千in-the-wild行动2001Ava214197K394K电影行动801EPIC-Kitchen43239K79K厨房行动2747,开放式词汇1EPIC-Kitchen-10070089K179K厨房行动4053,开放式词汇1TAPOS实例1629448K33K体育行动开放词汇1动力学-GEBD(原始)553511771K1498Kin-the-wild通用无分类法4.93动力学-GEBD(清洁)54691小行星1561K1290Kin-the-wild通用无分类法4.94表1:将我们的Kinetics-GEBD与其他视频边界数据集进行比较。我们的动力学-GEBD具有最大数量的时间边界(例如,ActivityNet的32倍,EPIC-Kitchens-100的8倍),与以体育或厨房为中心的视频相比,它跨越了广泛的视频领域,是开放式词汇而不是建立在预定义的分类基础上,包含不仅由动作变化而且由一般事件变化引起的边界,每个视频几乎有5个注释,以捕捉人类感知差异,从而确保多样性。请注意,对于ActivityNet和TAPOS,由于测试集的地面真值被保留,因此我们不包括其测试集的#段和#边界。动作改变(例如,运行到跳跃),主题改变(例如新人出现),环境改变(例如,突然变得明亮)。为了注释这种无分类的事件边界的基本事实,由具有预定义分类的现有临时任务使用的常见策略不起作用:1. 现有的任务要求我们手动定义每个目标类仔细,即.它的语义区别与其他类别相比。但是,枚举和手动定义所有候选通用事件边界类是不切实际的。2. 现有的任务通常集中在镜头和动作边界上,忽略了其他通用事件边界,如图1B中所示的示例1喜欢改变话题。在本文中,我们建议遵循认知实验[49] 在计算机视觉数据集上标注事件边界。我们选择流行的Kinetics [20]数据集作为我们的视频源,并构建了一个新的事件分割基准Kinetics-GEBD。标记的边界在不同的注释者之间是相对一致的;引起歧义的主要挑战是细节的程度。例如,一个注释器可能在舞蹈序列的开始和结束处标记边界,而另一个注释器可能注释每个舞蹈动作。我们在设计注释指南中开发了几个新的原则,以确保不同注释者之间的细节水平一致,同时明确地捕获具有多审查协议的人类感知差异我们新的GEBD任务和基准将在以下方面具有价值:1. 立即支持应用程序,如视频编辑,ING,摘要,关键帧选择,突出检测。例如,事件边界将视频划分为自然的、有意义的单元,并且可以排除单元中间的非自然剪切2. 促进长格式视频的发展GEBD是将视频分割成有意义的单元并基于这些单元进行进一步推理的第一步。总之,我们的贡献有四个方面:一个新的任务和基准,动力学-GEBD,用于检测通用事件边界,而不需要预定义的目标事件分类。我们提出了新的注释任务的设计原则,是有效的,但易于注释者遵循。我们消除了什么将被注释为事件边界的歧义,同时在注释中保持个体之间的多样性。我们在TAPOS [38]数据集和我们的Kinetics-GEBD上对许多监督和非监督方法我们证明了我们的事件边界的下游应用程序,包括视频级分类和视频摘要的价值。2. 相关工作时间动作检测或定位方法试图检测未修剪的长视频中的动作实例的开始时间和结束时间。标准基准包括THUMOS [19]、ActivityNet [1]、HACS [53]等。所有这些基准都针对指定的动作类列表,并手动定义用于确定每个动作的起点和终点的标准,防止大规模注释。已经开发了许多用于时间动作检测的方法[8,9,14,31,40,42,4,30,54,51,33]。值得注意的是,它们中的许多包含时间提议模块,其解决类似于以下的二进制分类问题:····8077前景-背景分割“背景”分段不包含预定义的动作类。然而,许多其他类属事件可能出现在背景片段中,本文的主要重点是分割类属事件。时间动作分割[24,3,21,11,26,2,27,37,18]意味着标记每帧中的动作类。一些流行的基准是50Salads [45],GTEA [26],Breakfast [21,22],MERLShopping [43]等。最近在[38]中提出了另一个称为时间动作解析的任务;解析旨在检测用于将动作分割成子动作的时间边界这与我们目前的工作关系更为密切。但是,这些注释和方法也是仅针对预定义的操作类而开发的,而不是通用边界。镜头边界检测是一项经典任务,用于检测由于视频编辑(如场景切换、淡入/消隐和平移)而导致的镜头转换。 一些最近的作品是[5,15,46,39,44]。这些镜头边界是明确定义的,并且过完备集很容易检测,因为镜头之间的变化通常很重要。在本文中,我们还注释和检测镜头边界在我们的动力学GEBD基准,但是,主要的新颖性在于事件边界- aries这是有用的通用视频打破语义连贯的子部分。3. GEBD任务的定义3.1. 任务定义GEBD定位了人类自然感知无分类事件边界的时刻,该无分类事件边界将较长的事件分成较短的时间段。为了获得地面实况注释,我们从认知实验指南[ 49 ]开始然而,认知实验通常覆盖简单视频中的有限数量的场景,例如:单个参与者,不受感兴趣事件的干扰。我们的目标是多样化的,自然的人类活动视频,如Kinetics [20],其中包含多个演员,背景干扰,空间和时间的不同细节水平等。因此,关于什么是事件边界位置存在更多的模糊性。3.2. 注释指南为了克服自然视频中的这些歧义,我们在改进注释指南的多次迭代中得出以下设计原则(a) 空间细节:专注于主导主题。为了避免被背景事件分散注意力,注释者应将注意力集中在执行事件的突出主体上。取决于视频内容,主题可以是人、组、对象或对象的集合。(b) 详细时间:与视频级事件相比,以“1级更深”的粒度查找事件边界。给定视频,可以以不同的时间粒度对其进行分段。例如,跳远视频的事件边界可以是1)粗略的:跳远开始/结束,或2)中间体:跳远分为跑、跳和落地三个步骤,或者说每一步都要跳。所有变体都是合法分割。我们接受这种模糊性在一定程度上:我们指示注释者标记边界有些时候,没有一个单一的视频级事件;然而,该原理的优点是确保分割的子部分处于相同的粒度级别。当需要更精细的粒度时,该技术可以反复应用于分段的子部分。有了这个原则的实施,我们发现,人类可以可靠地同意事件边界,而不需要一个手工制作的事件边界分类。(c) 感知的多样性:使用多重审查。有时人们对“更深一层”有不同的解释例如,在两个连续跳远实例的视频中,一些可能会分割跳远的两个实例,而其他可能会分割跑步和跳跃单元。在实践中,我们认为两者都是正确的,并发现一个视频通常有最多2-3个这样的可能的变化,由于人类感知的差异,而不是任务定义的模糊性因此,为了捕捉这种多样性,我们根据用户体验研究中的经验法则为每个视频分配了5个注释器。(d) 注释格式:时间戳与时间范围。上述原则阐明了何时标记事件边界。剩下的问题是标记在哪里。按照以前的工作,我们可以容纳一些模糊的“在哪里”在评估过程中,通过改变一个容错阈值;更多的细节可以在第二节中找到。三点三我们提供两种标记事件边界的选项:1)单个“时间戳”,通常用于瞬时变化(例如,跳远中开始跳跃的时刻)。2)时间例如落地结束和站立开始之间的间隔。更多细节可以在Supp中找到。我们的动力学注释指南的更多细节- GEBD(例如我们自己的注释接口、任务拒绝标准、注释格式)可以在Supp.3.3. 评价方案如第在图3.2中,边界可以是时间戳或短范围。如果它是一个范围,我们在评估期间用它的中间时间戳表示它。因此,我们的评估任务是测量检测到的时间戳和真实时间戳之间的差异,而不考虑它们的类型或语义含义。为了测量时间戳之间的差异,我们遵循以前的工作8078≤例如动作实例的时间解析[38]和动作开始的在线检测[41],并使用相对距离(Rel.Dis.)测量.受Intersection-over-Union测量的启发,Rel.Dis.是检测到的时间戳和地面实况时间戳之间的误差,除以对应的整个动作实例的长度。给定Rel.Dis.的固定阈值,我们可以确定检测是否正确(即,阈值)或不正确(即,> thresh-old),然后计算整个数据集的精确度、召回率、F1得分。请注意,不允许对同一边界进行重复检测。此外,每个评定者将检测结果与每个评价者的注释进行比较我们还探索了其他指标。详细的讨论可以在Supp中找到。4. 基准创建:动力学-GEBD4.1. 视频源我们的Kinetics-GEBD列车集包含从Kinetics-400列车集[20]中随机选择的20 K视频。我们的Kinetics-GEBD测试集包含从Kinetics-400 Train Set随机选择的另外20 K视频。我们的Val Set包含Kinetics-400 Val Set中的所有20 K视频。4.2. 注释员培训为了提升一个新的注释器,我们提供了一个由5个训练批次组成的培训课程。每个训练批次包含100个随机采样的Kinetics视频,并带有一些参考注释。我们向注释者明确指出,不同的人可能会以不同的方式分割同一视频,因此我们提供的注释仅供参考。一旦一个批次完成,在将注释器移动到下一个批次之前,我们将审查所有100个视频的注释,并提供有关由于误解或错误引导而导致的错误的具体总的来说,我们确实观察到每个新注释器的训练批次的稳定改进。4.3. 质量保证我们在Supp.简而言之,注释者在5个级联批次的100个视频上进行培训,在他们从事实际工作之前具有QA机制。培训早期的典型问题包括对工具或指南的误解,以及注释过多或过少的细节。培训视频按1(良好)、2(轻微错误,如不准确的时间戳)和3(不良,通常误解指南)的等级进行评级。当他们的平均评分被认为是足够的时候,评分者就进入了真正的工作。在实践中,如果注释器的平均评分低于1.3,则其性能是令人满意和可接受的。4.4. 边界原因认知研究[6]表明,事件边界可以由几个高层次的原因来表征。在完善指南的试点注释任务中,我们确认了这一发现,并得出了以下事件边界的高级原因:(1)主体转换:出现新的主体或旧的主体消失,且该主体占主导地位。(2)交互对象的变化:主体开始与新对象交互或结束与旧对象交互。(3)行动的改变:旧的行动结束,或新的行动开始。注意,该特性包括当受试者改变物理方向(例如,方向)时。跑步者突然改变方向)以及当相同的动作被执行多次时(例如,几个连续的上推实例)。(4)环境变化:环境或主要受试者的颜色或亮度的显著变化(例如:打开灯,照亮先前较暗的环境)。此外,镜头变化边界在Kinetics视频中也很常见。因此,我们还注释了镜头边界,并且可以在Supp中找到说明。在多个镜头的视频中,事件边界的目标有时,事件边界可能是由于多重耦合原因或其他原因造成的。 如图所示的分布。2:其他可忽略不计;行动改变是最常见的原因。请注意,在我们的数据集中,导致边界的动作比当前CV动作数据集中预定义的分类更加通用和多样化图2:动力学边界原因的分布- GEBD确认。4.5. 注释结果总结和分析注释容量。总共约有40名合格的注释员接受了注释我们的动力学-GEBD的培训平均速度是每个注释者每个视频大约5分钟。收到的注释数量统计。回想一下每一段视频#注释0 1 2 3 4 5电话:+86-10 - 88888888传真:+86-10 - 88888888Per. (%)0.51 0.71 1.03 1.73 4.07 91.94表2:对于我们的Kinetics-GEBD Val集合,每个视频接收的#注释与#视频及其百分比。8079由5个注释者注释。注释者可以根据Supp.表2示出了大多数视频接收所有5个注释而没有拒绝。GEBD注释的共识程度。给定数据集的构造,一个自然的问题是“注释的一致性如何?“. 通过议定书 节中3.3,对于同一个视频,我们将一个注释作为地面实况,另一个注释作为检测结果。由于我们期望一致的注释在时间上具有非常接近的边界,因此我们不使用相对距离;相反,我们基于两个边界之间的绝对距离来评估F1分数,以0.2s的步长将阈值从0.2s变化到1 s,并计算平均F1分数。通过对同一视频的所有注释对的F1得分求平均,我们可以获得其一致性得分。如果所有评分者做出非常相似的注释,则一致性得分将较高,即向1;否则低,即向0。图3显示大多数视频具有高于0.5的一致性分数。这表明,考虑到我们设计的任务定义和注释指南,考虑到以下因素,人类能够达到相当程度的共识:(1)通常由于不同的人类感知方式,视频可以具有多个正确的分段,以及(2)有时注释者会犯错误。为了理解注释错误的频率(即注释质量)与一致性得分相关,在表3中,我们针对每个一致性得分范围随机抽取5个非拒绝视频,并根据第12节中的协议进行人工审核。4.3以获得每个范围的平均评级。随着一致性得分变低,评级变差。回想一下,确定合格注释者的评分截止值是1.3,这对应于这里的0.5一致性分数。一致性(0.4,0.5](0.5,0.6](0.6,0.7](0.7,0.8](0.8,1]电话:+86-021 - 88888888传真:+86-021 - 88888888表3:平均审计评级与我们的动力学-GEBD Val集的平均F1一致性得分。4.6. 注释的后处理给定原始注释,我们执行以下步骤来构建我们的Kinetics-GEBD基准。 (1)为了确保注释质量并去除非常模糊的视频,我们排除了具有低于0.3一致性分数的视频。(2)为了捕捉人类记忆的多样性,我们只保留至少有3个注释的视频在评估期间,将检测与每个地面实况注释进行比较,并将最高F1分数视为最终结果。(3)对于每个注释,如果两个边界非常接近(即,小于0.1s),我们将它们合并为一个。注意,这包括一个时间戳边界落入范围中或者一个范围边界与另一个范围边界重叠我们从每个视频的初始和最终0.3秒更多细节在Supp。4.7. 统计对于原始Kinetics-GEBD注释,每个注释每个视频的平均边界数为5.48(标准偏差2.76,范围[1,33])。绑定之间的平均时间为1.47s(标准差1.24,范围[0,10.01])。时间范围边界的数目和平均长度为265K和0.71s。仅时间戳边界的数量为1232K。对 于Kinetics-GEBD 基 准( 在后 处理 原 始注 释之后),每个注释每个视频的边界的平均数量是4.77(标准偏差2.24,范围[0,14],分布图如图11)。(见第4(a)段)。边界之间的平均时间为1.65s(标准差1.25,范围[0.023,10.08],分布图如图所示)。4(e))。此外,图1的左列4显示分布-(0.9,1)(0.3,0.4)每个注释每个视频的#个边界、每个视频的#个边界和每个片段的持续时间。为了展示这些如何与基础Kinetics-400类进行比较,我们将所有Kinetics类从高到低进行排名,并突出显示3个类,如图10的右列所示。4.第一章5. GEBD方法5.1. 数据集除了我们的动力学-GEBD,我们还实验图 3 : 当 视 频 没 有 被 任 何 注 释 器 拒 绝 时 , 我 们 的Kinetics-GEBD Val集上的一致性分数(上线)的每个范围的视频百分比(下线)的数量。最近的TAPOS数据集[38]包含21个动作的奥运会体育视频。训练集包含13,094个动作实例,验证集包含1,790个动作实例。作者手动定义二点一厘(0.8,0.9]百分之六点五百分之三点四(0.4,0.5]百分之十一点一(0.6,0.7]31.6%808075K50K25K07.5K5K2.5K0(一)010#边界(c)第(1)款0 25 50#边界(e)(b)第(1)款10500 100 200 300 400Kinetics-400 Action Class(d)其他事项402000 100 200 300 400Kinetics-400 Action Class(f)4#3. 动作边界检测模型:时间卷积网络(TCN)[24,31]训练二元分类器以区分边界周围的帧与其他帧。#4.成对边界分类器(PC):在每个候选边界位置时间t处,我们使用相同的骨干网络来提取特征对:t之前的帧的平均特征和t之后的帧的平均特征。我们针对每个特征在空间上进行全局池化,然后将这两个配对特征连接在一起作为线性二元分类器的输入,该线性二元分类器被训练以预测时间t是边界的概率。PC是端到端训练的,以微调在ImageNet上预先训练的骨干网络;固定骨干的训练不会收敛。我们对概率序列进行了水洗,得到了上面的内部函数0.5. 每个内部#5. 时间动作提议模型:了解如何200K100K00510时间32100 100 200 300 400Kinetics-400 Action Class类无关的动作边界提议模型可以检测通用事件边界,我们在THUMOS'14 [ 19 ]上训练BMN模型[29我们将BMN表示为将每个动作建议的开始和结束都视为事件绑定。或者,由于BMN中的一个中间步骤是图4:动力学统计-GEBD。每个视频每个注释的边界数:(a)分布(b)每个动力学类别的平均值,然后按类别排序;每个视频的边界数:(c)分布(d)每个动力学类别的平均值,然后按类别排序;每个段的持续时间:(e)分布(f)每个动力学类别的平均值,然后按类别排序。如何在注释过程中将每个动作分解为子动作。虽然不是无分类的,但是子动作之间的TAPOS边界类似于GEBD动作边界。因此,我们可以通过修剪每个动作实例及其动作标签隐藏(可以长达5分钟)并在每个动作实例上进行GEBD来为我们的GEBD任务重新使用TAPOS。请注意,在TAPOS中,仅发布了1名评定者5.2. GEBD的监督方法我们直接引用监督方法的结果[38]在TAPOS(即下面的#1-3)。由于[38]尚未发布代码,我们在我们的Kinetics-GEBD上实现了以下#4-6方法#1. 时态解析模型:TransParser [38]提出了一种基于子动作边界监督的局部损失训练的模式挖掘器,以及用动作实例标签监督训练的全局损失。#2. 时间动作分割模型:连接主义时间模型(CTM)[17]和迭代软约束-为了评估分别为动作开始和结束的两个概率得分,我们分水岭化每个概率序列以获得大于0.5的内部,并将每个内部的中心我们取所有这些中心的并集,并将该方法表示为BMN-StartEnd。#6. 跨数据集GEBD方法TCN-TAPOS:为了确认比TAPOS更具挑战性的Kinetics-GEBD的需求,我们使用在TAPOS上训练的TCN模型对Kinetics-GEBD进行测试。5.3. GEBD的无监督方法这个方向很有趣,因为它可以处理任何类型的事件,而不需要注释大量的事件边界标签。#1. SceneDetect1:一个在线流行库,用于检测经典镜头变化。#2. PA -随机:我们在所有视频中随机交换以下PA方法的检测结果。每个边界的位置被映射到新视频,其在原始视频中的相对位置不变。#3.可预测性(PA):事件分割理论表明,人们感知事件边界的时刻是未来活动最不可预测的时刻[23,36,52]。这促使我们开发一种基于PA的方法,该方法首先1)随着时间计算评估可预测性分数,然后2)通过检测可预测性序列的局部最小值来定位事件边界。1) 可预测性评估:为了量化时间t处的可预测性,我们计算以下的平均特征:元赋值(ISBA)[10]由以下顺序监督一组预定义的子动作的发生。1https://github.com/Breakthrough/PySceneDetectCapoeira运动臂骑骡打壁球投掷斧骑骡骑骡碎纸体操翻筋斗频率频率频率平均边界数平均边界数平均时间(s)8081Rel.Dis. 阈值0.050.10.150.20.250.30.350.40.450.5avg场景检测0.0350.0450.0470.0510.0530.0540.0550.0560.0570.0580.051不太好PA -随机PA0.1580.3600.2330.4590.2730.5070.3100.5430.3310.5670.3470.5790.3570.5920.3690.6010.3760.6090.3840.6150.3140.543ISBA0.1060.1700.2270.2650.2980.3260.3480.3690.3820.3960.302TCN0.2370.3120.3310.3390.3420.3440.3470.3480.3480.3480.330Super.CTM0.2440.3120.3360.3510.3610.3690.3740.3810.3830.3850.350TransParser0.2890.3810.4350.4750.5000.5140.5270.5340.5400.5450.474PC0.5220.5950.6280.6460.6590.6650.6710.6760.6790.6830.642表4:各种监督和非监督GEBD方法的TAPOS F1结果Rel.Dis. 阈值0.050.10.150.20.250.30.350.40.450.5avg场景检测0.2750.3000.3120.3190.3240.3270.3300.3320.3340.3350.318不太好PA -随机PA0.3360.3960.4350.4880.4840.5200.5120.5340.5290.5440.5410.5500.5480.5550.5540.5580.5580.5610.5610.5640.5060.527BMN0.1860.2040.2130.2200.2260.2300.2330.2370.2390.2410.223BMN-StartEnd0.4910.5890.6270.6480.6600.6680.6740.6780.6810.6830.640Super.TCN-TAPOS0.4640.5600.6020.6280.6450.6590.6690.6760.6820.6870.627TCN0.5880.6570.6790.6910.6980.7030.7060.7080.7100.7120.685PC0.6250.7580.8040.8290.8440.8530.8590.8640.8670.8700.817表5:各种监督和非监督GEBD方法的Kinetics-GEBD的F1结果前一帧的平均特征和后一帧的平均特征。然后,我们计算它们的平方L2范数特征距离以获得逆可预测性φ(t);较低的距离意味着更大的可预测性。2) 来自可预测性的边界:给定φ(t),一种自然的方法是在φ的局部最大值处提出时间边界。这类似于经典的斑点检测问题,因此我们将经典的高斯拉普拉斯(LoG)滤波器[32]应用于我们的1D时间问题。我们 应 用 1D LoG 滤 波 器 来 计 算 L ( t ) =LoG ( φ(t)),并计算其导数L′(t)。我们在L’的负到正的零交叉处检测时间边界,其对应于φ的局部最大值。5.4. 实现细节除非另有明确说明,否则以下设置用于我们自己进行的所有实验:使用2个GP100 NVIDIA卡。对于每个视频,我们每3帧采样1帧输入是大小调整为224x224的RGB为了进行公平的比较,我们自己实现的所有模型,即。PC、TCN 、TCN-TAPOS、PA、BMN、BMN-StartEnd,基于ResNet-50 [16]主干构建。PC是端到端训练的,而其他人只是使用现成的ImageNet预训练功能。我们的PC、TCN、TCN-TAPOS和PA都使用候选边界之前的5帧和之后的5对于PA,我们调整Train集上LoG过滤器中的sigma,并将其设置为15.在评估过程中,我们遵循TAPOS [38]来改变相对距离(Rel.Dis.)在Sec. 3.3从5%到50%,步长为5%。5.5. 结果比较TAPOS值集F1结果如表4所示。精确度和召回率的详细结果见附录。基于可预测性的PA方法明显优于随机猜测。令人鼓舞的是,我们的无监督方法PA甚至优于所有以前的监督方法,即。ISBA、TCN、CTM、TransParser。SceneDetect实现了高精度,但召回率很低,因为它只在非常显著的边界处触发。动力学-GEBD值集F1结果见表5。精确度和召回率的详细结果见附录。在无监督方法中,PA明显优于镜头变化检测方法SceneDetect和随机猜测PA- 随机,特别是当阈值严格地针对动力学-GEBD时。将PA与也使用相同固定骨干特征的监督方法TCN进行比较,差距不大,表明无监督或8082半监督GEBD方法是值得研究的未来。PC明显优于其他,表明事件边界不能由现成的特征全面对于类别不可知的动作提议方法,直接检测动作提议(即,BMN)不是好的GEBD方法,而是评估边界(即,边界)的概率。BMN-StartEnd)有效。BMN-StartEnd仍然比PC差,因为它只检测动作变化边界,而忽略其他通用事件边界,如主题变化。由于类似的原因,在Kinetics-GEBD上,在TAPOS上训练的GEBD模型(即TCN-TAPOS)的性能低于直接在Kinetics-GEBD上训练的相同模型(即TCN-TAPOS)。TCN)。这些再次证实了通用事件边界的挑战性和我们新基准动力学-GEBD的需要。6. 视频事件边界我们的均匀采样-中间采样7065605550并且实现了接近均匀采样所实现的最佳精度这在实践中是有用的,当视频内容是多样的,因此我们不知道什么是最好的K。6.2.视频摘要我们的时间边界提供了一种自然的方式来选择视频摘要的关键帧。我们执行以下两个用户研究任务,以比 较 我 们 的 ( 对 子 部 分 的 中 间 帧 进 行 采 样 ) 和Uniform(均匀采样与我们相同数量的帧)。在任务1中,我们运行了来自Kinetics-GEBD Val的示例视频。在任务2中,我们选择Ours和Uniform之间的帧距离最大的视频。每个任务涉及大约200-250个视频。对于两个任务中的每个视频,20个用户被问到“哪组关键帧更好地全面总结了视频?“并从三个备选方案中选出一个:(1)集合1较好;(2)集合2较好;(3)平局(好/坏求和)。表6示出了在投票级别和视频级别(例如,视频级别)上获胜的不同选项的百分比。在同一视频的20个投票中,如果(1)的#票最高,则集合1获胜)。我们可以看到,对于随机样本,Ours明显优于Uniform,对于大视差样本,Ours明显优于Uniform。2 4 6 8 10每个视频采样的平均帧数图5:要对视频进行分类,很难确定均匀采样的最佳帧数。我们的事件边界提供了关于应采样多少帧的提示6.1.视频级分类我们在Kinetics-GEBD Val集合中接收至少3个注释的视频上测试分类准确性我们使用TSN [50]模型的公共实现2,该模型均匀采样K帧,对每帧应用ResNet-50骨干,最后对预测进行平均以获得视频级预测。图图5示出了均匀采样(蓝色曲线)的视频级分类精度随着K从1变化到10而增加然后减小因此,给出一个视频,我们如何确定K?尽管GEBD不被设计为选择有区别的帧,但是我们的边界提供了关于如何在均匀采样中设置K的提示,以便实现高分类准确性。基于我们的注释边界,我们可以将视频分成片段,并且每个片段可能仅需要一个帧进行采样。为了验证这一假设,我们对每个片段的中间帧进行采样。图5显示了这个(红点)平均每个视频使用5.5帧2https://github.com/mit-han-lab/temporal-shift-module网站百分比(%)均匀我们铁任务1:随机抽样投票级别33.940.925.1视频级38.343.717.8任务2:大差距投票级别12.673.014.3视频级6.090.04.0表6:视频总结的用户研究结果。7. 结论在本文中,我们介绍了新的任务GEBD和解决歧义的注释过程中。一个新的基准,动力学-GEBD,已经创建了新的设计注释指南和质量保证。我们在TAPOS数据集和我们的Kinetics-GEBD上对监督和非监督GEBD方法进行了基准测试。我们相信,我们的工作是一个重要的垫脚石,向长格式的视频理解,并希望它将能够在未来的工作学习的时间事件结构的基础上。在未来,我们计划解决通常发生在更长视频中的场景变化(例如,在30分钟的ADL视频中从厨房移动到浴室[34],在数小时的UT-Ego视频中从街道移动到餐厅[25]。8. 确认Mike Shou 和 Stan Lei 由 新 加 坡 国 家 研 究 基 金 会(NRF-NRFF 13 -2021-0008)资助。准确度(%)8083引用[1] Activitynet 挑 战 赛 2016. http : //activity-net.org/challenges/2016/,2016. 2[2] Sathyanarayanan N Aakur和Sudeep Sarkar。一个用于自我监督事件分割的感知预测框架。在IEEE计算机视觉和模式识别集,2019。3[3] Jean-Baptiste Alayrac、Ivan Laptev、Josef Sivic和SimonLacoste-Julien。对象状态和操纵动作的联合发现。在2017年IEEE计算机视觉国际会议上。第1、3条[4] Humam Alwassel,Fabian Caba Heilbron,and BernardGhanem.行动搜索:发现视频中的动作及其在时间动作定位中的应用。在2018年欧洲计算机视觉会议论文集。2[5] Lorenzo Baraldi Costantino Grana和Rita Cucchiara通过层次聚类的镜头和场景检测,用于广播视频的再利用。图像与图案的计算机分析国际会议。施普林格,2015年。3[6] Roger G Barker和Herbert F Wright。中西部和它的孩子:一个美国城镇的心理生态学一九五五年4[7] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上,2017年。1[8] Yu-Wei Chao , Sudheendra Vijayanarasimhan , BryanSey-bold , David A Ross , Jia Deng , and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE计算机视觉和模式识别会议论文集,2018年。一、二[9] Xiyang Dai , Bharat Singh , Guyue Zhang , Larry SDavis,and Yan Qiu Chen.用于视频中的活动局部化的时间上下文网络。在2017年IEEE计算机视觉国际会议上。一、二[10] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在IEEE计算机视觉和模式识别会议上,2018年。6[11] Yazan Abu Farha和Jurgen Gall。Ms-tcn:用于动作分割的多级时间卷积网络在IEEE计算机视觉和模式识别会议上,2019年。第1、3条[12] 克里斯托夫·费希滕霍夫。X3d:扩展架构以实现高效的视频识别。在IEEE计算机视觉和模式识别会议论文集,2020年。1[13] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He. 用 于 视 频 识 别 的 慢 速 网 络 。 IEEEInternational Conference on Computer Vision,2019。1[14] Jiyang Gao,Zhenheng Yang,and Ram Nevatia.用于时间动作检测的级联边界回归。在2017年英国机器视觉会议上。一、二[15] 迈克尔·吉利使用全卷积神经网络快速检测镜头边界。在IEEE Interna-基于内容的多媒体索引会议,2018年。3[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上,2016年。7[17] 黄德安,李飞飞,胡安·卡洛斯·尼布尔斯。弱监督动作标记的连接主义时间建模。欧洲计算机视觉会议论文集,2016年。6[18] Yifei Huang,Yusuke Sugano,Yoichi Sato.通过基于图的时间推理改进动作分割。在IEEE计算机视觉和模式识别会议论文集,2020年。3[19] Y.-- G. Jiang,J.Liu,中国粘蝇A.R. 扎米尔湾托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战:动作识别与大量的类。网址://crcv.ucf.edu/THUMOS14/,2014年。二、六[20] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanaras
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功