没有合适的资源?快使用搜索试试~ 我知道了~
1基于背景建模加州大学欧文分校nguyenpx@ics.uci.edu卡内基梅隆大学deva@cs.cmu.edu查利斯角加州大学欧文分校fowlkes@ics.uci.edu摘要我们描述了一种潜在的方法,学习检测动作在长序列给定的训练视频,只有整个视频类标签。我们的方法在弱监督学习中使用了两个创新的注意力建模首先,最值得注意的是,我们的框架使用注意力模型来提取前景和背景帧,其外观是显式建模的。大多数以前的作品忽略了背景,但我们表明,建模它可以让我们的系统学习更丰富的概念的行动和他们的时间范围。二是背景全监督体操?背景将自下而上的、与类别无关的注意力模块与自上而下的、特定于类别的激活图相结合,将后者用作前者的自我监督形式。这样做可以让我们的模型在没有显式时间监督的情况下学习更准确的注意力模型。这些修改导致在THUMOS 14上现有系统的AP @ IoU =0.5改进10%。我们提出的弱监督系统优于最近的国家的最先进的至少4。3%AP@IoU=0.5。最后,我们证明了弱监督学习可以用于将学习扩展到野外,未经策划的Insta-gram视频。这些视频的添加显着提高了我们的弱监督模型的本地化性能。1. 介绍我们探讨了弱监督动作本地化的问题,其中的任务是学习检测和本地化动作在长序列的视频只有视频级的类标签。这种动作理解的表述是有吸引力的,因为众所周知,精确估计动作的开始和结束帧即使对于人类也是具有挑战性的[3]。我们建立在一个身体的工作,利用注意力处理来推断帧最有可能属于一个动作。我们具体介绍以下创新。背景建模:经典管道使用attentional pooling将模型集中在那些可能监督不力:“此视频包含体操动作。”图1:通过提供精确的动作边界的完全监督数据,我们可以训练高度区分的检测模型,这些模型使用背景区域作为负面示例,隐含地对背景内容进行建模。在仅知道视频级标签的弱监督设置中,当前方法简单地训练前景模型以在视频内的一些位置处强烈响应在本文中,我们表明,一个模型,显式帐户的背景帧大大提高了弱监督定位。包含感兴趣的行为。我们表明,通过对剩余的背景帧进行建模,可以显着提高这种方法的准确性。有趣的是,对象[22]和动作[4]的完全监督系统倾向于为背景补丁和背景帧构建显式模型(或分类器),但这种类型的推理在大多数弱监督系统中都不存在。文献中值得注意的例外包括建立前景和背景的生成模型的我们将背景建模纳入判别网络架构,如下所示:许多这样的网络显式地计算注意力变量λt,其指定帧t应该影响最终视频级表示的程度(例如,通过所有帧的加权池化)。简单地说,我们构建了一个汇集的视频级特征,通过对帧进行5502前景模型背景模型55031-λt。自上而下的引导注意力:我们的第二个创新是将自上而下的注意力线索作为额外的对学习监督形式自下而上的重视。注意力变量λt,典型的类不可知论,寻找适用于所有类型动作的通用线索。 因此, 它可以被认为是一种自下而上的注意力显着性[9]。最近的工作表明,人们还可以通过查看(时间)类激活图(T-CAM)从操作池化特征的分类器中提取自上而下的注意力线索我们建议使用特定类别的注意力地图作为监督的一种形式,以细化自下而上的注意力地图λt。具体来说,我们的损失鼓励自下而上的注意力地图与自上而下的类特定注意力地图(对于已知存在于给定训练视频中的类)保持一致。微视频作为培训补充:我们观察到社交媒体平台(Instagram,Snapchat)上的微视频大量涌入[20]。这些视频通常带有用户生成的标签,可以松散地视为视频级别的标签。这种类型的数据似乎是弱监督视频训练数据的理想来源。然而,这些视频的用途仍有待确定。在本文中,我们证明了将微视频添加到现有的训练数据中可以积极地扩展学习,从而提高动作定位的准确性。我们的贡献概述如下:• 我们扩展了先前的弱监督动作定位系统,包括背景建模和自上而下的类引导注意。• 我们提出了广泛的比较分析我们的模型与其他国家的最先进的行动当地-THUMOS 14 [15]和ActivityNet [13]上的弱监督和完全监督的系统• 我们证明了使用microvideos作为补充,弱监督训练数据的良好效果。2. 相关作品近年来,大规模数据集(如THUMOS 14 [15],Charades [27],ActivityNet [13]和AVA [12])推动了时间动作局部化的进展。构建这样的数据集需要大量的人工努力来注释较长视频序列内的有趣动作的开始和结束点。许多完全监督的动作定位方法利用这些注释,并采用两阶段,提出然后分类框架[2,26,7,14,24,37]。更多re-当前最先进的方法[11,10,32,5,4]从最近的对象检测框架(例如,R-CNN)。这些方法的一个共同点是使用视频中的非动作帧来建立背景模型。然而,时间边界注释的获得是这促使人们努力开发可以用较弱的监督形式(如视频级标签)进行训练的模型。UntrimmedNets [30]使用分类模块来执行动作分类和选择模块来检测重要的时间段。Hide-n-Seek [29]解决了流行的弱监督解决方案的趋势-具有全局平均池的网络-通过随机隐藏视频的部分仅关注最具区别性的帧。STPN [19]引入了一个注意力模块来学习分段级特征表示的加权时间池的权重。该方法通过对由注意力值加权的时间类激活映射(T-CAM)进行阈值化来生成检测。AutoLoc [25]引入了一个边界预测器,使用锚定系统预测段边界。边界预测器由外-内-收缩损失驱动,其鼓励在内部具有高激活的片段和在该片段的紧邻区域上具有较弱激活的片段。W-TALC [21]引入了一个具有k-max多实例学习的系统上述方法中没有一种试图在训练期间显式地对背景内容进行建模3. 监管不力导致的地方化假设我们被提供有视频的训练集和视频级标签y∈{0,. . .,C},其中C表示可能动作的数量,0表示没有动作(背景)。在每个视频的每个帧t中,对于基于RGB和在该帧处提取的光流的特征向量,让我们写xt∈Rd(例如,在相关视频上预先训练分类任务)。然后,我们可以将每个训练视频编写为特征向量和视频级别标签的元组:({xt},y),xt∈ Rd,y ∈{0,. . . ,C}原则上,视频可以包含多种类型的动作,在这种情况下,将y建模为多标签向量更自然从这组视频级训练注释中,我们的目标是学习一个帧级分类器,该分类器可以识别测试视频的每一帧中发生的C+ 13.1. 监管不力为了产生前景动作的视频级预测,我们对整个视频执行帧特征的注意力加权平均池化,以产生单个5504不背景感知损失注意力因子的补数1−λ表示模型认为没有动作发生的帧。 我们建议,从这样的背景帧xbg汇集的特征也应该通过与应用于合并的前景帧。1ΣTxbg=不 t=1(1−λt)xt(4)ewc·xbgpbg[c]=Ci=0时(5)关于我们自导损失前景类损失背景类损失簇损失向量r,pbg∈RC+1,表示每个动作类对于背景池特征的lik k。的图2:弱监督动作定位模型的网络架构。使用预训练的网络,我们提取短视频片段的特征表示。注意力模块λ预测帧级注意力λ,其可以用于以将帧级特征汇集成单个前景视频级特征表示。注意力向量的补向量1 − λ也可以用于将属于背景的片段汇集到视频级背景表示中。从这些汇集的特征预测视频级标签。除了这种动作特定的自上而下的模型外观之外,我们还包括自下而上的聚类损失,其断言视频应该分割成不同的前景和背景外观zfg,zbg。 为了将这两者联系起来,我们计算一个注意力目标,基于地面实况视频标签y的类行为的λλ使用一种λ来匹配这个目标。视频级前景特征xfg由下式给出1ΣT背景感知损失Lbg促使该向量在背景索引y = 0处接近1,否则接近0。背景特征上的这种交叉熵损失然后简化为Lbg=−logpbg[0]与被训练为仅对前景帧进行分类的模型相比,Lbg确保参数w也学习区分动作与背景。自我引导的注意力损失注意力变量λt可以被认为是一个自下而上的,或类不可知的注意力模型,它估计帧的前景概率。这可能会对通用线索做出反应,例如大型身体运动,这并不特定于特定动作。最近的工作表明,人们可以通过检查(时间)类激活图(TCAM)[19,38]从对合并特征进行操作的分类器中提取自上而下的注意力我们支持-xfg= 不t=1λtxt。(一)姿势使用类特定的TCAM注意力地图作为一种形式的自我监督,以完善类不可知的自下而上的注意力地图λt。 具体来说,我们使用自上而下的注意力每个帧的权重是标量λt∈[0,1],用于挑选(前景)帧,在此期间,正在采取行动,同时降低贡献权重从已知为给定训练的类y映射视频:ewyx t从背景。注意力是d的函数-λfg=G(σ)(六)尺寸标架特征λt=(xt),我们用它来实现-tCi=0时 ewixt使用带有ReLU的两个全连接(FC)层进行分段第一层的激活函数和第二层的S形激活函数。为了产生视频级预测,我们将池化特征馈送到完全连接的softmax层,对于c类,通过wc∈Rd参数化:ewc·xfg其中G(σ)是指用于对类特定的自上而下的注意力信号进行时间平滑的高斯滤波器。1高斯平滑强加了直观的先验,即如果帧具有是动作的高概率,则其相邻帧也应该具有包含动作的高概率。注意,上面的softmax不同于(2)和(5)。pfg[c]=Ci=0ewi·xfg(二)因为它们是在帧级定义的(与视频级),并且它们不被自底向上调制注意λt= λ(xt)。前景分类损失是通过正则表达式相对于视频标签y的交叉熵损失。Lfg=−logpfg[y](3)55051如果视频被标记有多个动作,则我们在所有当前动作上最大池前景注意力ta r得到λλfg,使得如果在时间t发生任何动作,则λft较大。5506不tC不视频级概率关注建议(开始,结束,标签)加权T-CAM撑杆跳:0.91,高尔夫挥杆:0.05,潜水:0.002,悬崖跳水:0.001,...检测(开始、结束、标签、评分)图3:检测过程包括三个步骤:视频级类别概率阈值,分段建议生成和检测评分。首先,通过对视频级概率进行阈值化来选择相关类。注意力向量用不同的值阈值化以选择突出的、连接的片段。每个阈值对应于被汇集的不同的分段提议集合。每个建议通过在其区间内平均加权TCAM值来评分。每类非最大值抑制被执行以去除高度重叠的检测。最后一个图中的y轴表示最终检测分数。由于我们的自顶向下分类器还包括一个背景模型,我们可以考虑由背景类激活这可以被视为聚类损失,其鼓励前景和背景池化特征彼此不同。ΣCλbg=G(σ)i=1i=0时ewixtewixt(七)总损失我们将这些损失结合起来,得出每个视频的总训练损失考虑到这个注意目标,我们将自我引导损失定义为Ltotal=Lfg+αLbg+βLguide + γLcluster。(十一)L型导轨1Σ=|λt不 不— λfg|+的|λt— λbg|其中α、β和γ是控制损失之间的对应权重的超参数。我们发现这些超参数(α,β,γ)需要足够小,其使类不可知的自下而上的注意力图偏向于与自上而下的类特定注意力图一致(对于已知存在于给定训练视频中的类)。前景-背景聚类损失最后,我们考虑纯粹根据视频特征和注意力λ定义的自底向上损失,其不参考视频级标签。我们估计了另一组参数ufg,ubg∈Rd,这些参数应用于自下而上的注意力池特征(不需要自上而下的类标签)网络主要由前景损失Lfg驱动。3.2. 动作本地化为了生成动作建议和检测,我们首先基于视频级分类概率pfg识别相关动作类。针对每个相关类别生成细分建议然后,这些建议与相应的加权T-CAM评分,以获得最终的检测。 我们在时间戳t保持片段级特征,注意力值λt大于某个预定阈值。我们执行1-D连接组件的连续相邻段,形成段建议。一eufgxfgzfg=eufgxfg+eubgxfg(8)分段提案[t开始 ,t结束,c],则被评分为eubgx bg最后θλRGBwTxRGB+(1−θ)λFLOWwTxtFLOWz bg = 埃乌菲xbg+eubgxbg(九)t=t开始tctt tctend−t start+ 1每个视频都应该包含前景和背景帧,因此聚类损失会鼓励两个分类器强烈响应其相应的合并特征Lcluster=−logzfg−logzbg(10)5507(十二)其中θ是表示模态之间的相对重要性的标量在这项工作中,我们设置θ= 0。五、图3显示了推理过程的一个示例不像STPN,我们不使用注意力来生成提案5508表1:消融研究显示,每增加一次损耗,定位性能就会显著提高。这些损失也可以相互补充,因为将它们结合起来可以获得更好的结果。第一行和第二行是从STPN [19]中获得的。AP@IoULfgLBGL型导轨L团簇L稀疏0.10.20.30.40.50.60.70.80.9C––––46.638.731.222.614.7––––C–––C52.044.735.525.816.99.94.31.20.2C–C––53.846.438.229.019.210.64.41.30.1CC–––53.647.639.130.220.512.25.41.70.2CCC––58.954.341.533.924.416.27.82.40.4CC–C–54.948.440.832.423.114.27.42.50.3C–CC–60.154.145.634.023.213.66.21.40.1CCCC–60.456.046.637.526.817.69.03.30.4加权的T-CAM,但是来自注意力向量λ。多个阈值用于提供更大的提案池我们发现,从不同模态的平均atten- tion权重产生的建议,导致更可靠的建议。类非最大值抑制(NMS)用于去除具有高重叠的检测。4. 实验4.1. 数据集和评估方法数据集我们在两个流行的动作检测基准上评估了所提出的算法,THUMOS 14 [15]和Ac-tivityNet 1.3 [13]。THUMOS 14在212个验证视频和200个测试视频中为20个动作类提供了时间边界注释。按照标准协议,我们使用没有时间注释的验证子集进行训练,并使用测试视频进行评估视频长度从几秒到26分钟不等,平均持续时间约为3分钟。平均每个视频有15个动作实例。动作实例的长度也有很大的差异,从不到一秒到几分钟。ActivityNet数据集为未修剪视频中的复杂动作本地化提供了更大的基准。 我们使用ActivityNet1.3,它有10,024个视频用于训练,4,926个用于验证,5,044个用于测试,有200个活动类。为了公平比较,我们使用与STPN相同的预提取I3D特征。微视频是在Instagram和Snapchat等社交媒体平台上提供的简短、未经修剪的这些视频被创作为令人兴奋的,因此十个具有比普通视频高得多的前景/背景内容比例。我们的目标是利用这种新的数据源及其附带的标签来提高动作本地化性能。我们下载了100个最新的Instagram视频,其中包含从THUMOS 14的行动名称构建的标签例如,对于删除重复和错误标记的视频。留存率取决于行动标签,范围从15%到89%,平均留存率为45%。为2000个视频制作视频级标签的时间不到2小时。最后一集共包含915个微视频。这些视频的持续时间从6秒到15秒不等。 每个视频通常有1- 2个动作实例。在我们的补充材料中显示了示例微视频。在我们的实验中,我们简单地将这些微视频添加到THUMOS 14训练集,并保持实验的其余部分不变。我们遵循标准评估协议,基于不同水平的交集与并集 ( IoU ) 阈 值 下 的 平 均 精 度 ( mAP ) 值 使 用ActivityNet2提供的时间动作本地化任务的基准代码进行评估。4.2. 实现细节为了公平比较,实验设置与STPN保持相似[19]。具体来说,我们使用在Kinetics [17]上训练的双流I3D网络作为分段级特征提取器。使用公开的代码和模型提取I3D特征3.我们遵循软件推荐的RGB和光流的预处理步骤。对于流,我们使用OpenCV实现来使用GunnarFarneback而不是像STPN一样每个视频采样固定数量的片段,我们加载一个视频的所有片段,每批只处理一个视频。损失函数在等式中加权。11被设置为α=β=γ= 0。1.一、提供此特定设置是为了便于重现。然而,只要这些值比前景类损失权重小10倍左右,收敛模型就具有类似的性能。直观的视频级标签提供了最有价值的监督。更高的前期类损失权重鼓励模型首先产生正确的视频级标签。一旦前景损失饱和,最小化其他损失改善了前景和背景之间的边界决策。该网络在TensorFlow中实现并经过训练2https://github.com/activitynet/ActivityNet/blob/master/Evaluation/网站3https://github.com/deepmind/kinetics-i3d网站5509基本事实检测T-CAM我们关注检测T-CAMSTPN关注图4:通过背景建模,我们的模型能够产生更好的注意力权重,T-CAM信号和随后更好的检测。前两个动作实例(绿色椭圆)被我们的方法检测到,但被STPN完全错过。虽然这两种算法都检测到最后两个动作实例(最后的红色和绿色椭圆),但我们的算法能够获得更准确的边界。使用亚当优化器,学习率为10- 4。 在测试时,我们拒绝视频级概率低于0的类。1.一、 如果没有前景类的概率大于0。1,我们为最高前景类生成建议和检测 我们建议使用一个大的阈值范围从0到0。5与0。025增量。所有的建议都合并成一个大的集合。 我们使用NMS重叠阈值0。五、5. 结果我们对损失项的不同组合进行消融研究,以进一步了解每种损失的贡献。表1中的结果表明,添加每种损失都改善了定位性能。在训练中将这些损失结合起来会产生更好的结果,这意味着每一个都提供了互补的线索。图4显示了一个比较我们的模型和STPN之间我们的模型能够产生更好的注意力,T-CAM,因此,更好的动作检测。我们的模型能够检测到以前模型完全错过的实例。这导致跨不同IoU重叠阈值的定位模型的召回率和平均精确度对于两种模型检测到的动作实例,我们的模型能够获得更准确的时间边界。这导致AP针对更严格的IoU重叠阈值的改进表2比较了我们的方法在THUMOS 14与过去三年中发布的其他弱监督和全监督本地化系统相比。对于小于0的IoU。5,我们将mAP比STPN提高了10%mAP[19]。我们还显著优于最近最先进的弱监督动作定位系统。我们的模型也可以与其他完全监督的系统相媲美在更高的IoU重叠制度,我们的模型[4]的文件。这表明我们的模型知道动作发生在哪里,但无法精确地阐明边界以及完全监督的方法。这是合理的,因为我们的弱监督模型不知道完全监督方法完全访问的边界标记。表3将我们的结果与ActivityNet 1.3验证集上的其他最先进方法进行了比较。类似于THUMOS 14,我们的方法显着优于现有的弱监督方法,同时保持与其他全监督方法的竞争力。作为补充训练数据的微视频尽管THUMOS 14在每个动作类中有统一数量的训练视频,但动作实例的类分布严重倾斜(从30个BaseballPitch实例到499个Diving实例)。因此,具有较高实例数的类别(跳水、链球投掷)具有较高的mAP,而具有较少动作实例的类别(棒球投球、网球挥杆、清洁和挺举)具有较低的mAP。微视频的加入重新平衡了动作实例的倾斜类分布,并提高了生成效率。5510表2:与THUMOS 14最新技术的比较。我们的方法比原始系统提高了10%[19]。我们显著优于其他弱监督方法[25,21],5%mAP@0。5. 一般来说,我们的模型性能与低IoU制度中的完全监督方法相当。更高的IoU要求更准确的行动边界决策,而如果没有实际的边界监督,这是很难做到的。监督方法0.10.20.3AP@IoU0.4 0.50.60.70.80.9Heilbron等人[14个]––––13.5––––Richard等人[23日]39.735.730.023.215.2––––Shou等人[26日]47.743.536.328.719.010.35.3––Yeung等人[34个]48.944.036.026.417.1––––完全监督Yuan等人[35]第三十五届Escordia等人[6]Shou et al. [24日]51.4––42.6––33.6–26.1–18.813.923.3––––7.9––––––Yuan等人[36个]51.045.236.527.817.8––––Xu等人[32个]54.551.544.835.628.9––––Zhao等人[37]第三十七届66.059.451.941.029.8––––Chao等[4]美国59.857.153.248.542.833.820.8––Alwassel等人[1]第一章––51.842.430.820.211.1––弱监督Wang等人[30个][29]第二十九章:我的世界[19个]44.436.452.037.727.844.728.219.535.521.112.725.813.76.816.9––9.9––4.3––1.2––0.2Paul等[21日]55.249.640.131.122.8–7.6––Shou等人[25日]––35.829.021.213.45.8––我们60.456.046.637.526.817.69.03.30.4我们的+MV64.259.549.138.427.517.38.63.20.5表3:ActivityNet1.3验证集的结果方法AP@IoU0.5 0.750.95[28]第二十八话34.5–王涛[31]45.10.0完全监督Shou等人[24日]Xiong等[37]第三十七届45.3 26.039.1 23.50.25.5Montes等人[18个国家]22.5–Xu等[33个]26.8–Chao等人[4]美国38.2 18.31.30弱监督Nguyen等人[19个]29.3 16.92.6我们36.4 19.22.9具有较低操作实例计数的类别的可验证性我们观察到至少3%的AP@IoU= 0的改善。5表示具有最低实例计数的5个表2显示了使用额外的微视频(“我们的+MV”)训练的模型,其IoU阈值从0显著提高。1比0。5,同时在较高的IoU制度下保持类似的性能。这表明微视频的添加允许模型更好地识别动作实例,但无助于生成高度精确的边界。这些结果,以及收集和策划微视频的便利性,为使用微视频作为微视频本地化的弱监督训练补充提供了一个有希望的方向。故障模式图5检查了我们方法的当前故障模式。图5a示出了多个动作实例彼此靠近地发生,具有很少或没有背景5511他们之间当动作之间发生很少的背景时,模型无法正确地分割动作。图5 b示出了复合动作CleanAnd- Jerk的示例。执行这些动作的人通常在这些动作之间保持静止,因此模型将其分为两个部分。在图5c中,我们看到另一个困难,即边界注释的主观性。在训练视频中,“BasketballDunk”的动作通常包括有人跑向篮筐,跳跃和扣篮。然而,人类注释只是将动作的最后一部分视为基础事实。在这种情况下,弱监督方法很难找到正确的人类商定的边界,从而限制了更高IoU制度的性能。为了更好地直观了解这些故障情况,我们建议读者参考我们的补充材料。讨论在没有稀疏性损失的情况下,大多数STPN稀疏性损失迫使注意力模块输出更多样化的注意力权重值。然而,这种损失与视频级前景损失相结合,鼓励模型选择预测视频级标签所需的最小数量的帧。在训练过程中的某个点之后,定位性能开始显著恶化,因为稀疏性损失继续消除相关帧。这就需要提前停车,以防止性能下降。相比之下,我们的模型使用自上而下的T-CAM5512注意力T-C是检测(a) 由于连续实例的背景相似而失败(网球)。注意力T-CAM检测(b) 由两个微操作(CleanAndJerk)组成的操作导致失败注意力T-CAM检测(c) 由于主观边界而失败(篮球)。图5:仅通过视频级监控难以解决行动位置的故障案例的定性示例作为注意力权重的一种自我监督形式因此,我们的模型可以简单地训练收敛。结论我们介绍了一种从弱监督训练数据中学习动作定位的方法,该方法优于现有方法,甚至优于一些完全监督的模型。我们把这种方法的成功归功于为视频中的背景内容建立了一个明确的模型。通过将自上而下的动作模型与自下而上的聚类模型相结合,我们能够学习一个潜在的注意力信号,该信号可以用于使用简单的阈值来提出动作间隔,而不需要更复杂的稀疏性或动作范围的时间先验。最令人兴奋的是,所产生的模型可以利用额外的弱监督数据,这些数据很容易在线收集。尽管Instagram视频和THUMOS 14之间发生了领域转移,但我们仍然能够提高许多类别的性能,证明了弱监督方法克服成本的能力与昂贵的视频注释相关联。鸣 谢 这 项 工 作 得 到 了 NVIDIA 、 NSF Grants1253538、1618903和国家情报总监办公室(ODNI)、情报高级研究项目活动(IARPA)通过内政部/内政部商业中心(DOI/IBC)合同号D17 PC 00345提供的硬件捐赠的部分支持。的美国政府被授权复制和分发再版用于政府目的,而不受任何版权注释。免责声明:本文所载的观点和结论是 作 者 的 观 点 和 结 论 , 不 应 被 解 释 为 必 然 代 表IARPA,DOI/IBC或美国政府的政策或认可,无论是明示或暗示。政府的引用[1] Humam Alwassel,Fabian Caba Heilbron,and BernardGhanem.行动搜索:发现视频中的动作及其5513应用于时间动作定位。在ECCV,2018。[2] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。单流临时行动建议。在CVPR中。IEEE,2017年。[3] Fabian Caba Heilbron,Joon-Young Lee,Hailin Jin,andBernard Ghanem.我接下来要注释什么?行动定位主动学习的实证研究。在ECCV,2018。[4] Yu-Wei Chao , Sudheendra Vijayanarasimhan , BryanSey-bold , David A Ross , Jia Deng , and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在CVPR,2018年。[5] Xiyang Dai , Bharat Singh , Guyue Zhang , Larry SDavis,and Yan Qiu Chen.用于视频中的活动局部化的时间上下文网络。在ICCV。IEEE,2017年。[6] Victor Escorcia Fabian Caba Heilbron Juan Carlos Niebles和伯纳德·加尼姆。DAP:深入行动建议,促进行动理解。在ECCV,2016年。[7] Victor Escorcia , Fabian Caba Heilbron , Juan CarlosNiebles和Bernard Ghanem。Daps:用于行动理解的深度行动建议。在ECCV。施普林格,2016年。[8] 贡纳·法内巴克。基于多项式展开的两帧运动估计在斯堪的纳维亚国际年龄分析会议上,第363-370页。施普林格,2003年。[9] 高大山,维贾伊·马哈代万,努诺·瓦斯康塞洛斯。自下而上显著性的判别中心-环绕假设。神经信息处理系统进展,第497-504页,2008年[10] Jiyang Gao,Zhenheng Yang,and Ram Nevatia.用于时间动作检测的级联边界回归。BMVC,2017年。[11] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia.Turn tap : Temporal Unit RegressionNetwork for Temporal Action Proposals,2017.[12] ChunhuiGu,Chen Sun,Sudheendra Vijayanarasimhan,Caroline Pantofaru ,David A Ross,George Toderici,Yeqing Li,Susanna Ricco,Rahul Sukthankar,CordeliaSchmid,et al. Ava:时空局部原子视觉动作的视频数据集。CVPR,2018年。[13] F. C.海尔布隆河谷埃斯科西亚湾Ghanem和J. C.尼布尔斯ActivityNet:用于人类活动理解的大规模视频基准。CVPR,2015。[14] Fabian Caba Heilbron , Juan Carlos Niebles 和 BernardGhanem。快速时间活动的建议,有效地检测人类的行动,在未经修剪的视频。在CVPR,2016年。[15] Y.-- G. Jiang,J.Liu,中国粘蝇A.Roshan Zamir,G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战:动作识别与大量的类,2014年。[16] Nebojsa Jojic和Brendan J Frey。学习视频层中灵活的精灵。载于CVPR,2001年。[17] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan ,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。5514[18] 阿尔贝托·蒙特斯,阿玛雅·萨尔瓦多,圣地亚哥·帕斯夸尔和泽维尔·吉罗-尼托。基于递归神经网络的未修剪视频中的时间活动检测。2016年第一届NIPS大型计算机视觉系统研讨会(LSCVS)[19] Phuc Nguyen 、 Ting Liu 、 Gautam Prasad 和 BohyungHan 。 基于 稀 疏时 间 池 网络 的 弱监 督 动作 定 位。CVPR,2018年。[20] 阮春,格雷戈里·罗杰斯,查尔斯·福克斯和德瓦·拉曼南。微视频的开放世界。CVPR BigVision研讨会,2016年。[21] Sujoy Paul、Sourya Roy和Amit K Roy-Chowdhury。W-滑石:弱监督的时间活动定位和分类。ECCV,2018年。[22] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年[23] 亚历山大·理查德和尤尔根·加尔。使用统计语言模型的时间动作在CVPR,2016年。[24] Zheng Shou , Jonathan Chan , Alireza Zareian ,Kazuyuki Miyazawa,and Shih-Fu Chang. CDC:卷积-去卷积网络,用于未修剪视频中的精确时间动作定位。CVPR,2017年。[25] Zheng Shou , Hang Gao , Lei Zhang , KazuyukiMiyazawa,and Shih-Fu Chang. Autoloc:弱监督的时间动作定位。ECCV,2018年。[26] 郑寿,王东港,张世福基于多级cnn的未裁剪视频中的时间动作定位在CVPR,2016年。[27] 贡 纳 河 Sigurdsson 、 Gu¨lVarol 、 XiaolongWang 、AliFarhadi、Ivan Laptev和Abhinav Gupta。好莱坞之家:众包数据收集活动的理解.在ECCV,2016年。[28] Gurkirt Singh和Fabio Cuzzolin用于活动检测的未修剪视 频 分 类 : 挑 战 ActivityNet 。 arXiv 预 印 本 arXiv :1607.01979,2016。[29] Krishna Kumar Singh和Yong Jae Lee。捉迷藏:迫使网络对弱监督的对象和动作定位进行细致的处理。InICCV,2017.[30] Limin Wang,Yuanjun Xiong,Dahua Lin,and Luc vanGool.用于弱监督动作识别和检测的Untrimmednets。在CVPR,2017年。[31] R. Wang)和雅江翠雀花(D.涛. 2016年Activitynet。ActivityNet大型活动识别挑战赛,2016年。[32] Huijuan Xu,Abir Das,and Kate Saenko. R-C3 D:用于时间活动检测的区域卷积3D网络。InICCV,2017.[33] Huijuan Xu,Abir Das,and Kate Saenko.用于时间活动检测的区域卷积3d网络。InICCV,2017.[34] 杨小威,奥尔加·鲁萨科夫斯基,格雷格·莫里,还有李菲菲.从视频中的帧一瞥进行端到端的动作检测学习。在CVPR,2016年。[35] 袁军,倪冰冰,杨小康,阿什拉夫·卡西姆.具有分数分布特征的金字塔的时间动作定位在CVPR,2016年。5515[36] Zehuan Yuan , Jonathan C Stroud , Tong Lu , and JiaDeng.结构化最大和的时间动作定位在CVPR,2017年。[37] 赵岳,熊元军,王利民,吴志荣,唐晓鸥,林大华.结构化分段网络的时间动作检测。ICCV,2017年。[38] Bolei Zhou , Aditya Khosla , Agata Lapedriza , AudeOliva,and Antonio Torralba.学习深度特征以区分本地化。在CVPR,2016年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功