没有合适的资源?快使用搜索试试~ 我知道了~
1454SCC:用于有效动作检测的语义上下文级联Fabian Caba Heilbron、Wayner Barrios、Victor Escorcia和Bernard Ghanem阿卜杜拉国王科技大学,沙特阿拉伯图瓦尔http://www.cabaf.net/scc摘要尽管最近在大规模视频分析方面取得了进展,但动作检测仍然是计算机视觉中最具挑战性的未解决问题之一。这个障碍部分是由于需要分析大量数据以检测视频中的动作。现有的方法已经减轻了计算成本,但仍然,这些方法缺乏丰富的高层语义,帮助他们快速本地化的动作。在本文中,我们介绍了一个语义级联上下文(SCC)模型,旨在检测长视频序列中的动作。通过拥抱与人类活动相关的语义先验,SCC产生高质量的类特定的行动建议,并以级联方式修剪在Active- tivityNet中的实验结果表明,SCC在实时操作的同时实现了最先进的动作检测性能。1. 介绍想象一下,您希望在数字档案中查找并分享您在夏威夷打沙滩排球的精彩瞬间的视频(参见图1)。要做到这一点,你必须扫描每个视频,并确定你正在寻找的时刻是否存在于每个视频中。为了优化搜索时间,您可能会快速滚动存档,然后停下来检查时间实例,在那里您看到了沙滩、排球网或排球。在这些时候,你会滚动或播放视频较慢,以确定视频的这一部分是否是你正在寻找的特殊时刻如果不是,则重新对视频进行从粗到细的时间搜索,直到将它们全部搜索完。这种特殊的搜索问题不仅困扰着寻找难忘时刻的人们,而且还阻碍了从消费者视频汇总到监控、人群监控和老年人护理的各种现实任务。显然,需要高效且准确的自动化方法,可以搜索和检索视频集合中的事件和活动,在视觉社区中正式称为尽管有大量的研究工作,图1. 打沙滩排球不仅仅是人们跑步、跳跃和击球的总和。它本质上意味着一个户外沙滩,一个排球网,一个排球和人类以一种特定的方式相互作用。我们的方法利用这种丰富和有区别的语义信息(即对象和地点),以高效和有效的方式确定感兴趣的活动何时发生在长的未修剪的视频中。在动作识别和检测的主题上,准确和快速检测的目标在我们的自动视觉系统中仍然是难以实现的。动作检测的第一次尝试在每个时间位置和多个时间尺度上对视频彻底应用活动分类器[8,10,32]。尽管它们在小规模和受控场景中实现了良好的检测性能为了克服这些传统方法的计算需求,并受到对象检测领域[18,35,36]进步的启发,最近的方法[5,9,37]开发了快速扫描视频以生成时间片段的在这样做时,活动分类器仅应用于少数候选分段,因此,显著降低了计算开销。然而,这些检测方法忽略了语义上下文先验(例如,对象和场景)在本地化的行动,即使他们已被证明是相当有效的,打沙滩排球球净0点3点动力学海滩1455描述动作和提升动作分类性能[19,21,29,50]。在本文中,我们嵌入使用语义上下文的检测动作的过程中。再次考虑图1中的视频序列。视频帧中排球、网和沙滩的存在是一个良好的语义先验,它提供了视觉证据,用于检测包括该帧的沙滩排球换句话说,我们认为:(1)动作-客体和动作-场景关系形式的语义语境(例如:同现)可以帮助引导未修剪视频中的动作的时间定位。此外,缺乏这一背景也可以提供信息。例如,知道视频帧不包含狗并且是在室内拍摄的,会阻止对遛狗和铲雪动作的检测。除了提高本地化,我们还认为,(ii)动作对象和动作场景的关系可以被利用,以快速修剪或忽略不太可能存在于视频片段中的动作,而无需应用昂贵的动作分类器。这种级联的方法在动作类的数量很大时特别有用,就像现在许多活动数据集的情况一样(例如,ActivityNet [4])。事实上,我们意识到,通过观察人类如何滚动长视频,同时搜索特定的动作类,可以验证声明(i)-(ii)(更多细节见第3节)。捐款. 本文的核心思想是介绍该模型包含与人类活动有很强关联的丰富语义上下文信息。特别是,贡献是双重的。(1)提出了一种新的语义上下文级联(SCC)模型,该模型充分利用了动作-对象和动作-场景的关系,提高了定位质量。召回),并以级联的方式快速修剪掉不相关的动作。这两个特征导致用于检测 的 高 效 且 准 确 的 级 联 流 水 线 。 ( 2 ) 当 应 用 于ActivityNet [4]时,最多样化的大规模活动检测数据集,我们的SCC模型实现了最先进的性能,同时与最先进的检测器相比,显着降低了2. 相关工作为操作建模上下文。几种方法已经结合了上下文线索,以提高受控场景中的动作识别率[14,16,25,26,34,47,49]。Marszaek等人[29]显示动作和场景之间的共现的相关性,以设计用于检索电影剪辑中的短动作的有用的视觉表示。在赋予视觉特征以用于动作理解的类似精神中,[14,19,20,25,34,47]表明视频中对象之间关系的隐式和显式建模允许区分视频中发生的动作,特别是通过减少类似的动作,如喝酒和抽烟。最近,Jainet al. [21]通过进行一项大规模研究进一步扩展这一想法,该研究揭示了行为和稀疏数量的观测之间的强烈共现。本着同样的精神,这项工作,吴等。[50]使用高容量神经网络来学习对象、场景和动作关系,最终目标是改进活动分类。虽然上下文线索的有效性已被成功地证明,以帮助动作分类器更区分,以前的方法没有探索这些想法,以解决在动作检测的挑战。据我们所知,我们的工作是第一个解决动作检测,通过利用语义信息,从动作对象和动作场景的关系,在大规模。动作侦测。在2D对象检测器[18]中的2D对象提议的成功和普遍存在之后,时空提议[43,48,53]和时间活动亲[5,9,30,37]已经成为关键的预处理步骤,以避免用于动作检测的穷举滑动窗口方法[8,10,32]。与我们的工作密切相关的是Caba Heilbronet al. [5]引入稀疏学习框架来有效地扫描视频(10FPS),并产生一组可能包含动作的高保真时间建议Shouet al的当代作品。[37]提供了一个临时建议模块,帮助多级系统过滤掉背景片段(60 FPS)。为了进一步提高先前工作的质量和计算效率,Escorciaet al.[9]通过采用深度学习模型和分类单元(130 FPS)进一步加快提案生成步骤。另一项研究探索了使用注意力模型来聚焦视频的时间片段[31,52]。然而,这两种方法(即,动作建议和注意力模型)缺乏对动作相关语义信息(例如,与物体和场景的动作关系),我们认为这对于快速检测人类活动很重要3. 动机有明确的证据表明,人类使用上下文信息和语义先验来成功地执行视觉任务[3,15]。为了在动作检测领域验证这一论点,并激励我们在一个案例中使用语义上下文来提高动作定位,我们进行了一项在线用户研究,其中人类受试者被赋予一项清晰简洁的任务,即注释视频序列中特定活动的开始和结束时间。为了识别用户关注的视频的时间部分,我们记录了他/她与用户界面(视频浏览器)的所有交互。视频级别上的可能动作包括向左或向右滑动时间条以分别快速搜索开始和结束时间,以及直接跳转到视频中的任何时间点。1456用户操作1时的帧用户操作3时的帧1.00.80.60.4狗(置信度)左光标(速度)右光标(速度)0.20.0时间虚拟对象虚拟场景图2.左图描绘了人类遵循的动作序列,以注释视频中遛狗的时间边界左右光标相对于对象检测器响应的中心速度(狗)。右侧动作对象和动作场景链接的示例。我们观察到语义变化之间有很强的相关性(例如在狗出现在视频中之后)和用户聚焦的视频的时间点。为了从动作对象和动作场景关系提供的丰富语义信息中受益,我们进行了一项注释工作,将三个大型数据集联系起来。我们的研究表明,语义变化和用户关注的视频的时间部分这些时间部分往往与意图活动的语义先验密切相关。考虑图2(左),它展示了为注释遛狗动作而执行的步骤序列的示例。正如在这个例子中,我们的研究发现,用户倾向于快速扫描视频,直到与动作相关的语义先验出现在视频中,在这种情况下,狗。这种观察激发了我们的语义上下文级联(SCC)模型,但也激发了我们注释动作,对象和场景之间的语义关系。图2(中)显示了一个典型的例子,用户如何注释遛狗的活动,他们如何移动光标,伴随着狗探测器响应的时间演变。有趣的是,检测器响应的峰值(对象外观的变化)与最小光标速度相关。这种行为表明与活动类相关联的语义上下文(即狗的存在)被对象用来快速到达与该上下文一致的视频的一部分。然后,以慢得多的速度,用户利用语义信息以及对活动类的理解来定义视频中该活动实例的边界。 这项研究的详细情况和更多的用户实例见补充材料。为了从动作对象和动作场景的关联中获益,我们首先需要首先推断这种关系。为此,我们进行了一项注释工作,将计算机视觉中三个最大的数据集联系起来:ImageNet [7]、Activi- tyNet [4]和Places 205 [55]。鉴于我们的目标是动作检测,我们在ActivityNet中注释与每个类别相关的对象和场景集。我们依靠AmazonMechanical Turk工作人员为ActivityNet中的每个类别获取多个文本描述[4]。然后,我们对这些信息进行后处理,以获得与活动潜在相关的候选对象和场景。我们手动定义语义关系(操作-对象和动作场景),使用ImageNet[7]和Places205[55]中的现有类别。图2(右)显示了遛狗活动的带注释链接的示例。稍后,我们将使用活动、对象和场景的分层组织之间的链接来提高提取的动作提议的本地化质量,并修剪掉这些提议中不太可能的动作类从这个注释工作中挖掘的关系和关于注释协议的进一步细节可以在补充材料中找到。4. 语义上下文级联模型我们的目标是开发一个模型,检测视频中何时以及哪些动作(在一个大集合中)发生。我们的主要挑战是设计这种模型,使其在保持低计算足迹的同时产生可靠的检测,因此它可以在大规模(即,大量的长视频和大量的动作类)。因此,我们提出了我们的语义上下文级联(见图3)模型,该模型利用高召回动作建议的功效,视频语义上下文(对象和场景)中的动作区分线索,以及动作分类器的功能,以级联方式执行动作检测。级联有三个阶段:(1)动作建议,(2)语义编码器,和(3)动作分类器。这些阶段中的每一个都旨在逐步修剪既不具有动作性也不具有相关语义信息的候选检测。4.1. 第一阶段:行动建议行动建议方法已经证明了它们能够快速生成不同尺度的时间片段,并在视频中具有高召回率[5,9,37]。考虑到速度和召回在我们的设计中至关重要,我们选择DAP [9]从未修剪的视频中提取动作建议。这种方法使我们能够以130FPS的速度有效地扫描视频,并在单次扫描中以多个尺度产生高保真的动作建议。为了完整性,我们给出了一个简短的描述-动作1:向右滑动动作3:向右滑动时间左光标动作2:跳跃向右光标遛狗狗狗人类被人类动物狗伪影皮带邻域公园地点205遛狗动物和宠物行使动物家庭评分1457p对象先验走狗(0.95)对象建议对象CNN对象管场景CNN语义编码器(第二阶段)场景先验视频序列行动建议书(第一阶行动建议行动分类器课程特定提案(第3阶段)遛狗拒绝拒绝建议回归器行动类评分图3. 我们提出了一个多级级联模型,以有效地扫描视频,并确定何时发生感兴趣的活动。我们依靠有效的行动建议来削减不太可能找到活动的部分。之后,一个语义编码器将关于对象和场景的时间信息与关于动作对象和动作场景关系的先验知识相结合,以细化其时间边界或以类特定的方式将其修剪掉。最后,由动作分类器进一步分析最后一个片段池,动作分类器确定调整后的片段属于特定活动的概率。的DAP架构,其中包含四个模块-ULES。视觉编码器将视频中的视觉信息表示为来自预先训练的C3D网络的激活。序列编码器(即LSTM)对C3D特征随时间的演变进行建模,通用动作本地化。然后,定位模块生成贯穿输入视频的不同时间长度的候选提议的开始和结束时间。最后,预测模块根据每个动作建议包含感兴趣的活动的概率,因此,每个视频的阶段1的输出是一组np个时间提议,由下式表示:P =[p1|·· ·|其中pi∈R2编码第i个提议的时间位置。4.2. 阶段2:语义编码器受对象检测器响应与人类完成的时间活动注释的细化之间的相关性的启发(参见第3节),我们的语义编码器利用每个片段的语义上下文来改善其定位和动作可能性,如图3所示。具体而言,我们利用来自与活动相关的对象和场景之间的链接以及沿段的对象和场景的时间激活的先验知识,以类特定的方式实现该任务通过这种方式,我们的语义编码器通过以下方式改进了第一阶段的结果:拒绝不感兴趣的建议,调整每个建议的开始和结束时间,更好的类特定的本地化,并通过修剪不太可能存在于每个动作建议中的类来边缘化建议池所需的计算上昂贵的动作分类器的成本形式化语义上下文。 我们将带注释的动作-对象和动作-场景关系分别编码为二进制码Lo∈ {0,1}o×c和Ls∈ {0,1}s×c。这里,c表示我们感兴趣的动作类别的数量in中,o是链接到c个动作的对象的数量,s是链接的场景的数量在我们的实验中,o、s和c分别为440、48和200例如,如果动作j链接到对象i和场景k,则Lo(i,j)=1且Ls(k,j)=1;否则,它们为0。预期阶段2输出。在下面的内容中,我们将解释如何将P中的原始提议转换并修剪成以下参数,以便稍后将它们馈送到阶段3中的动作分类器中1. 更新的提案位置:张量PSCC∈R2×m×c对过滤后剩下的m ≤ np个特定于行动的提案进行编码。与该地区的精神相似,RPN [35],每个过滤建议的位置根据每个动作类进行调整。2. 类特定的动作得分:二进制矩阵SSCC∈{0,1}c×m对每个建议需要在下一阶段应用的动作分类器进行例如,如果SSCC中的列i在1458我OSSO不我哦哦行J(即,SSCC(j,i)= 1),则只有动作j在阶段3中,将分类器应用于调整后的建议i以下链接评分函数:l(rt,rt+1))=sim(φ(rt),φ(rt+1))+λov(rt,rt+1)),(1)SI我是我是我J编码动作-对象关系。其中,sim(φo(rt),φo(rt+1))是余弦相似度be。I j以前的工作已经表明了利用在一对建议对象得分之间,以及ov(rt,rt+1))动作分类的对象表示[19,21,50]。I j然而,这些方法仅在全局视频级别使用该语义信息用于描述。相反,我们在每个行动建议中编码对象检测的时空演变。为了做到这一点,我们首先提取通用ob-是一对对象亲之间的交集删除边界框。与[12]类似,我们将寻找最优路径的问题转换为:1TΣ−1[56]第56话,你是我的女人吗?R=arg maxls(rt,rt+1)),(2)每个行动建议在3FPS。在每个对象建议上,我们应用ResNet [17]分类器,该分类器对ImageNet中的o对象类进行了微调,这些对象类被发现在语义上与caction类相关。请注意,我们不能微调一个端到端的对象检测器(例如,更快的R-CNN [35]),因为ActivityNet没有地面真实对象检测。此外,o对象集包含的类比在ImageNet [36],COCO [27]或其他检测数据集上训练的可用检测器中的类要图4. 为了克服我们的对象检测器(顶行)的假阳性检测,我们利用对象提议之间随时间推移的时空和外观一致性来链接和修剪它们,如底行所示。对于每个动作建议,我们定义rt来表示第i个对象建议的边界框位置步骤测试。我们用它的ResNet对象得分vec表示rtIjRt=1对于{1,. . . ,n。},其中n。是帧中的对象提议的总数,并且R是链接的对象提议的序列。方程2使用dy有效地求解动态编程我们最多解决这个问题N次,同时在每次迭代后删除最佳路径实际上,我们在实验中设置N=5。这种策略使我们能够生成具有时空外观相干性的对象管。一旦计算出对象管,我们就将这些管中的对象提案的对象响应最大化为了维护时间信息,我们使用时间网格(在我们的实验中为16个箱),在该时间网格内应用最大池化。因此,行动建议pi的对象级表示由矩阵Fi∈Ro×16给出。编码动作场景关系。与物体类似,场景也表现出区分人类行为的能力[29]。 为了在行动建议中编码场景信息,我们使用VGG 网络进行大规模地 点 识 别(VGGPlaces)[45],该网络在Places205数据集上训练[55]。对于每个提议p i,我们计算其每个时间步的VGGPlaces场景分数。我们最大池这些分数16时间箱跨越整个行动的建议一致。因此,行动建议pi的场景级表示由矩阵给出Fi∈Rs×16语义上下文的简化。在这里,我们的目标是将Lo和Ls中可用的语义上下文结合起来,以修剪不太可能出现在动作提议pi中的动作类别。为了做到这一点,我们简单地根据等式(3)用动作特定的特征来丰富pitiotor,记为φo(ri)∈R。 不像以前的工作在帧/视频级别使用全局对象分数进行操作g(Fi,L(:,j))ψ=i= 1,. . . ,np;nj= 1,. . . 、c(3)分类时,我们采用目标检测,以减少背景在表示中的影响,并充分利用动作对象上下文。由于视频对象检测[23,42]中的固有挑战,我们引入了一种简单的方法来随着时间的推移链接对象建议,使得虚假和不一致的检测不会污染动作建议的基于对象的表示(图4jg(Fi,Ls(:,j))其中g(A,b)执行A的每一列与向量b之间的逐元素(Hadamard)向量积。在我们的例子中,g(Fi,Lo(:,j))简单地将与链接矩阵L o内的动作j不相关联的对象对应的所有对象级特征的效果归零。对g(Fi,Ls(:,j))也有类似的概念.在这样做的时候,这一步)。受Gkioxari和Malik的启发[12],sj我们构建具有时空和外观一致性的对象管为了形成这些管,我们定义被看作是第j个动作类的第i个动作程序对于每个动作类j,我们1459训练一个1-vs-all SVM分类器,在所有的pvj特征集上预测训练集中建议的动作标签。作为级联,这组弱分类器用于减少被馈送到阶段3的假阳性的数量的目的。对于测试时的每个动作建议,我们应用所有这些分类器来计算c动作置信度得分。在实践中,我们在这些分数上设置一个最小阈值τ,以便选择每个提案中可能存在的稀疏数量的动作类因此,从原始提议集合中修剪其c动作得分小于τ的动作提议pi因此,m个语义上一致的建议保留在原始np中,并且它们的阈值分数保留在矩阵SSCC∈{0,1}c×m。除了给每个行动建议一个类特定的分数,我们还学习了一个回归函数,该函数将训练集中的fjj特征拟合到属于类j的每个建议的真实开始和结束位置。遵循[11]的参数化,但调整为时间建议,该类特定回归函数基于c动作类别细化建议pi的位置每个动作类别学习一个回归模型。在测试时,我们只转换SSCC中选择的类的动作建议,以生成更新的类特定位置PSCC。4.3. 阶段3:动作分类器在设计鲁棒且高度准确的动作分类器方面已经取得了很大进展[2,6,28,38,44,46,51]。所以理想情况下,这些分类器中的任何一个都可以在这里使用。然而,这将需要执行复杂的功能,这将严重影响运行时.或者,我们重用第一阶段中使用的视觉表示(即,C3D特征),并采用Xuet al. [51]这是一个很好的例子。与使用其他更奢侈的模型相比,应用此分类器的额外开销是最小的。为了训练这种多类分类器,我们用行动建议来增强训 练 地 面 实 况 , 其 与 地 面 实 况 检 测 的 时 间 交 叉(tIoU)大于0。7 .第一次会议。类似地,使用tIoU为0的行动建议来扩大负面示例的集合<。3 .第三章。在这里,我们使用使用VLAD编码的C3D特征来训练线性SVM分类器[22]。在测试时,我们仅在调整后的时间位置PSCC处应用SSCC中选择的动作分类器。通过这种方式,我们的动作分类器的本地化性能以取决于SSCC的边际成本得到提升,如第5节所示。最后,我们的定位结果按照标准实践(例如非最大抑制(NMS))进行进一步处理,并将检测分数乘以类特定长度先验[33]。5. 实验数据集。用于动作检测的传统数据集[13,54]仅包含少量动作类别(主要是体育),其中语义先验对于大规模活动检测的重要性可能没有得到充分认识。最近,视觉社区发布了两个用于视频分析的大规模数据集[1,24]。两个数据集都包括全局视频级别的活动/概念注释。不幸的是,活动在视频内发生的时间边界不可 用 。 因 此 , 我 们 选 择 在 我 们 的 实 验 中 使 用ActivityNet [4],这是人类活动分析的最大可用数据集。ActivityNet不仅包括视频级别的人类活动注释,还包含活动的策划开始和结束时间。这些时间注释是基于Amazon Mechani- cal Turk上的众包工作生成的该数据集在活动类型方面也相当多样化。例如,活动范围从体育类的如跳远到家庭类的如真空地板。去年,作者发布了不同版本的数据集。在我们的实验中,我们特别使用ActivityNet的1.3版本,其中包括200个活动类和19994个视频。实作详细数据。为了使我们的研究结果reproducible,我们在这里描述我们的SCC模型的实施细节。在我们的行动建议阶段,我们首先为整个ActivityNet数据集提取DAP建议 为了过滤掉附近的动作建议,我们应用tIoU阈值大于0的非最大抑制。7 .第一次会议。我们通过只选择得分最高的100个提案来减少每个视频的提案总数。我们的语义编码器依赖于EdgeBoxes [56]来提取一组对象建议,这些建议为我们的对象管模块提供信息。鉴于每个Activity链接的对象很少,我们将每个操作建议的对象管数量N最后,我们的动作分类器使用512个k-means中心的词汇表进行训练,并对VLAD代码进行幂和L2归一化。基线。我们的基线是一个模型,它提取动作分类器后面的动作建议。在这样做时,我们分离了SCC模型的贡献。换句话说,我们通过关闭语义编码器来定义基线我们将此方法称为SCC基线。指标. 我们遵循标准的评估协议在活动网络和计算平均平均精度(mAP)在不同的tIoU阈值,即。0的情况。5,0。75,0。95,平均从0。五比零。九十五为了分离每个早期阶段的贡献,我们还报告了用于计算mAP的相同tIoU阈值的召回。5.1. 实验分析为了验证SCC模型的贡献,我们在验证集1460SCC基线(召回)SCC(召回)SCC基线(mAP)SCC(mAP)O80SCC有帮助吗?70605040302010班级数量与绩效504030201000.50.750.95Avg.00 50 100 150 200tIoU阈值类数图5.左图显示了语义上下文的相关性,在mAP和召回方面的增益,用于时间活动检测。在右边,我们显示了在最后阶段为每个建议评估的分类器数量的召回和检测性能。按照这种思路,我们得出的结论是,我们的SCC不仅提供了一种有效的方法来检测活动,还通过为每个部分修剪有害的操作来减轻性能下降。活动网。我们首先将SCC的性能与我们的基线进行比较。然后,我们研究了几个SCC变体,最终目标是在阶段2(语义编码器)中隔离每个模块的贡献SCC有帮助吗?SCC不仅在召回率方面,而且在检测性能(mAP)方面都显著优于其基线模型(SCC基线)。图5(左)比较了两种方法在不同tIoU阈值下的回忆和mAP。SCC在更高的tIoU阈值下实现了大的性能改进,这归因于SCC有多少类被提供给动作分类器? SCC不仅生成高保真的类特定的动作建议,它允许选择稀疏数量的动作类来馈送到我们的动作分类器。稀疏性由最小动作分数阈值τ控制。在图5(右)中,我们绘制了具有不同τ值的SCC的mAP和召回率。当τ=0时,所有200个动作类都被馈送到分类器。相反,当τ增加时,保留的类的数量减少。有趣的是,当超过75%的类被修剪掉时,我们的方法的召回率和mAP没有受到显著影响事实上,当200个类中只有40个类被传递给动作分类器时,SCC达到了最高性能。我们调查的因素,使我们的SCC模型取得成功。表1比较了SCC模型不同变体的性能。接下来将对每个变体进行描述和深入研究。物体管很重要。我们认为,全球编码对象的分数恶化了我们的动作对象的关系。为了证明这一点,我们报告我们的SCC模型的性能时,对象管被丢弃。换句话说,我们通过最大池化来获得对象级表示FiSCC变体@50召回率(%)@75@95@平均值@50最大平均接入点(%)@75@95@平均值w/o物体管72.838.116.942.436.616.34.119.1无回归量72.534.815.941.939.815.93.119.9无语义69.837.217.542.137.616.84.120.1rnd语义40.329.610.730.529.110.01.710.7完整模型75.441.318.946.340.017.94.721.7表1.消融研究显示了我们语义编码器阶段的所有组件的相关性。在所有的原始对象提案得分上。如表1所示,从我们的SCC模型中排除对象管(w/o对象管)会导致性能(召回和mAP)显著下降。这突出了我们的对象管过滤噪声对象检测的能力。建议回归有帮助。当类特定的回归模块(w/o回归器)关闭时,我们观察到性能在更高的tIoU阈值下急剧下降(见表5)。这是因为类特定的回归有助于生成更紧密的片段,从而在更高的tIoU下转化为更好的性能。语义语境。我们定义了两种不同的变体来揭示将语义上下文引入SCC的重要性,并在表1中报告结果。(1)我们用两个随机生成的二进制矩阵(rnd语义)代替Lo和Ls(2)用两个全一矩阵代替Lo和Ls这相当于将所有对象和场景连接到所有动作(无语义)。正如预期的那样,当语义上下文被随机生成的先验知识取代时,性能会大幅下降。这是一个直观的结果,因为SCC的语义编码器中引入了混淆。对于w/o语义变体,观察到不太 剧 烈 但 仍 然 显 著 的 下 降 这 验 证 了 使 用 从ActivityNet、ImageNet和Places数据集挖掘的动作-对象和动作-场景关系提高了类特定分数和回归结果的正确性。性能(%)性能(%)SCC(召回)SCC (mAP)1461时间跳房子5.2. 与最新技术表2比较了SCC与ActivityNet测试集上最先进的检测方法。它包括不同tIoU阈值下的检测性能,以及测试时处理一分钟视频所需的运行时间。当需要更严格的预测时(即,tIoU大于0.5)。在速度方面,SCC将计算成本降低了10倍,与ActivityNet 1.3版上最快的现有检测方法相比。虽然UTS团队方法在tIoU为0时实现了最高性能。5.当需要更严格的预测(就tIoU而言)时,它会失败他们的方法强烈依赖于数据集上的持续时间和位置偏差来产生候选预测,导致在较高的tIoU阈值下性能较低。Singh等人[40]依赖于昂贵的特征来表示稀疏数量的提议。当mAP在多个tIoU阈值上平均时,该方法获得第二好的性能(在SCC之后)。Singh等人[39]也需要昂贵的光流测量来描述视频序列,但他们没有使用建议,而是依赖于LSTM来编码视频的时间演变。这使他们能够在不同的tIoU阈值上获得有竞争力的结果。最后,东京大学的方法使用廉价的功能来描述,然后分类使用滑动窗口方法生成的时间段。廉价的功能使他们能够降低计算成本,但代价是失去重要的运动描述。与其他方法相比,这导致整体性能较低。就平均功率而言,SCC通常优于最先进的技术。例如,它记录了1.5%的改善,作为亚军的补充。由于任务的难度,这种改进可以被我们的SCC模型的另一个关键属性是它可以快速检测视频中的动作。与以前的方法相比,SCC的测试速度快10倍(见表2)。SCC能够实时扫描和检测视频,这对于大规模场景是可取的。性能(mAP%)接近@50@75@95 @平均测试运行时秒 FPSUTS团队42.52.90.014.65003.6Singh等人[第四十届]36.411.10.017.89141.97Singh等人[39]第三十九届28.717.82.917.76092.95东京大学26.915.83.616.24404.1我们的模型39.918.74.719.350.235.9表2. ActivityNet测试集中的检测和平均性能。有趣的是,SCC不仅通过利用活动的语义上下文实现了最先进的性能,它也是当前方法中最有效的替代方案。详细的运行时间可以在补充材料中找到图6.不同SCC变体的定性结果。前两行显示了预测正确动作的视频示例。最后一行显示了SCC失败的典型示例。5.3. 定性结果图6显示了SCC的不同变体的定性结果具体来说,我们给出了变体的检测结果:w/o回归器,w/o语义和我们的完整模型(SCC)。前两个例子对应于所有方法都能够预测视频中正确类别的在上面的例子中,所有的变量都准确而紧密地预测了铲雪的动作然而,对于更困难的示例(如第二行),SCC优于变体,因为它能够以类特定的方式回归操作的位置。最后,最后一行给出了一个所有变体都失败的示例。在这种情况下,当预期的活动不包括丰富的语义时,就会出现SCC的典型错误。我们在补充材料中纳入了其他定性结果。6. 结论我们引入了语义级联上下文(SCC)模型,它能够准确有效地检测动作。SCC结合了动作对象和动作场景的关系,最终目标是提高对动作建议的回忆大量的实验表明,SCC产生强大的detec- tions,并减少了测试时间的运行时间。在未来的工作中,我们计划探索其他视觉任务,如对象检测,可以从挖掘的语义关系中受益。致谢。本出版物中的研究得到了阿卜杜拉国王科技大学(KAUST)赞助研究办公室的支持。时间铲雪时间调酒调酒Groundtruth SCC w/oregressor w/osemantics1462引用[1] S. Abu-El-Haija,N. Kothari,J. Lee,P.纳采夫湾托代里奇,B. Varadarajan和S. Vijayanarasimhan。Youtube-8 m:大规模视频分类基准。arXiv预印本,2016年。[2] F. Basura,E. Gavves,J. M. 奥拉马斯A. Ghodrati,以及T. Tuytelaars为动作识别建立视频演化模型。CVPR,2015。[3] I. 比德曼河J. Mezzanotte和J.C. 拉比诺维茨场景感知:检测和判断对象是否发生关系冲突。认知心理学,14(2):143[4] F. Caba Heilbron,V.埃斯科西亚湾Ghanem和J.卡-洛斯尼布尔斯。Activitynet:人类活动理解的大规模视频基准。CVPR,2015。[5] F. Caba Heilbron,J. C. Niebles和B.加尼姆快速的时间-poral活动的建议,有效地检测人类的行动,在未经修剪的视频。在CVPR,2016年。[6] F. Caba Heilbron,A. Thabet,J. C. Niebles和B.加尼姆相机 运 动 和 周 围 场 景 外 观 作 为 动 作 识 别 的 上 下 文InACCV,2014.[7] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞 。 Imagenet : 一 个 大 规 模 的 分 层 图 像 数 据 库 。CVPR,2009。[8] O. 杜兴岛Laptev,J.Sivic,F.Bach和J.庞塞视频中人类动作的自动注释。ICCV,2009年。[9] 诉Escorcia,F.Caba Heilbron,J.C. Niebles和B.加尼姆Daps:行动理解的深度行动建议。在ECCV,2016年。[10] A. Gaidon,Z. Harchaoui和C.施密特用于有效动作检测的动作序列模型。CVPR,2011。[11] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。CVPR,2014。[12] G. Gkioxari和J.马利克找活动管。CVPR,2015。[13] A. 戈尔班,H. 伊德里斯,Y.-- G. 江泽民说,A.罗山·扎米尔,I. Laptev,M. Shah和R.苏克坦卡THUMOS挑战:具有大量类的动作识别。http://www.thumos.info/,2015年。[14] A. Gupta和L. S.戴维斯行动中的目标:结合动作理解和对象感知的方法。CVPR,2007。[15] P. M. S. 黑客空间和时间中的事件和物体Mind,91(361):1[16] D.汉湖,澳-地Bo和C.斯明奇塞斯库用于动作识别的选择和上下文。ICCV,2009年。[17] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[18] J. 霍桑河贝嫩森山口 Doll a'r和B. 席勒什么是有效的检测建议?IEEE transactions on pattern analysis and machineintelligence,38(4):814[19] N. Ikizler-Cinbis和S. Scaroff对象、场景和动作:结合多种特征进行人体动作识别。ECCV,2010年。[20] M. Jain,J. C. van Gemert,T. Mensink和C. G.斯诺克目标2行动:分类和本地化的行动没有任何视频的例子。在ICCV,2015年。[21] M. Jain,J.C. van Gemert和C.G. 斯诺克15,000个对象类别告诉我们什么关于分类和定位动作?CVPR,2015。[22] H. Je' gou,F.Perronnin,M.Douze,J.桑切斯山口。佩雷斯,还有C.施密特将局部图像描述符聚合成压缩代码。IEEETransactionsonPatternAnalysisandMachineIntelligence,34(9):1704[23] K.康,W。欧阳,H. Li和X.王.用卷积神经网络从视频tubelets中检测目标。在CVPR,2016年。[24] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR,2014。[25] H. S.科普拉河Gupta和A.萨克塞纳从rgb-d影片学习人类活动与物件启示。The International Journal of RoboticsResearch,32(8):951[26] L- J.Li和L.飞飞什么,在哪里,谁?通过场景和对象识别对事件进行分类。载于ICCV,2007年。[27] T.林,M。迈尔,S。贝隆吉湖D.布尔代夫河B.吉尔希克,J。海斯角Perona,D. 拉马南山口 Doll a'r和C. L. 齐特尼克Microsoft COCO:上下文中的通用对象arXiv预印本,2014年。[28] S.马湖,加-地Sigal和S. Scaroff用于活动检测和早期检测的lstms中的学习活动进展。在CVPR,2016年。[29] M.马尔萨莱克岛Laptev和C.施密特在上下文中的动作。CVPR,2009。[30] P. Mettes,J. C. van Gemert,S. Cappallo,T. Mensink,以及C. G.斯诺克碎片袋:选择和编码视频片段,用于事件检测和重新叙述。InICMR,2015.[31] A. Montes,A. Sal v ado r,X. 我是涅托。使用递归神经网络在未修剪视频中进行时间arXiv预印本,2016年。[32] D. Oneata,J. Verbeek,and C.施密特有效的行动局部化与近似规范化的费舍尔矢量。CVPR,2014。[33] D. Oneata,J. Verbeek,and C.施密特The lear submissionat thumos 2014. 2014年[34] A. Prest,V. Ferrari,and C. 施密特 真实视频中人与物体 交 互 的 显 式 建 模 。 IEEE transactions on patternanalysis and machine intelligence,35(4):835
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功