没有合适的资源?快使用搜索试试~ 我知道了~
以人为中心的视频亮点检测方法的研究与评估
81570HighlightMe:从以人为中心的视频中检测亮点0Uttaran Bhattacharya *1,Gang Wu 2,Stefano Petrangeli 2,Viswanathan Swaminathan 2和Dinesh Manocha 101 美国马里兰大学,帕克分校,马里兰州,美国。{uttaranb|dmanocha}@umd.edu 2 AdobeResearch,圣何塞,加利福尼亚州,美国。{gawu|petrange|vishy}@adobe.com0摘要0我们提出了一种与领域和用户偏好无关的方法,用于检测以人为中心的视频中的可突出显示的摘录。我们的方法基于视频中多个可观察到的以人为中心的模态(例如姿势和面部表情)的基于图的表示。我们使用一个带有空间-时间图卷积的自编码器网络来检测基于这些模态的人类活动和交互。我们训练我们的网络将不同模态的基于活动和交互的潜在结构表示映射到基于帧的亮点分数,基于帧的代表性。我们使用这些分数计算哪些帧需要突出显示,并拼接连续的帧以生成摘录。我们在大规模的AVA-Kinetics行动数据集上训练我们的网络,并在四个基准视频亮点数据集上进行评估:DSH、TVSum、PHD2和SumMe。我们观察到在这些数据集中与最先进的方法相比,匹配人工注释的亮点的平均精度提高了4-12%,而不需要任何用户提供的偏好或数据集特定的微调。01. 引言0以人为中心的视频关注人类活动、任务和情感[62,50]。这些视频是快速增长的在线媒体[8]的主要组成部分,来自多个领域,例如业余体育和表演、讲座、教程、视频博客(vlogs)以及个人或团体活动,例如烧烤和度假旅行。然而,未经编辑的以人为中心的视频也往往包含大量无关和无趣的内容,需要对其进行编辑以实现高效浏览[47]。为了解决这个问题,研究人员开发了多种技术来检测可突出显示的摘录并对视频进行摘要[11, 53, 42, 63, 44,67]。给定未经编辑的素材,亮点检测获取感兴趣的时刻。0* Uttaran在Adobe Research实习期间完成的工作0图1:使用以人为中心的模态检测亮点摘录。我们的方法利用多种以人为中心的模态,例如身体姿势和面部表情,在关注人类活动的视频中可观察到,以检测亮点。我们使用每种模态的2D或3D互连点表示构建空间-时间图表示以计算亮点分数。0摘要和摘要计算最相关和代表性的摘录集。检测有效的亮点不仅加快了浏览速度,还提高了这些亮点被分享和推荐的机会[53]。当前的方法可以通过给定的注释亮点[47,11]或不同亮点类别的示例集,例如从滑雪图像中学习以检测视频中的滑雪摘录[23,25],来学习检测这些摘录。其他方法通过学习每个帧或镜头相对于原始视频的代表性来消除对监督的需求[36],并利用视频元数据,例如持续时间[53]和镜头的相关性[67,64]。所有这些方法要么假设或受益于未经编辑的素材的某些领域特定知识,例如在跑酷视频中,奔跑和跳跃可能更相关,而在滑雪视频中,滑行动作可能更相关。另一种方法不考虑领域特定的知识,而是考虑多个用户的预先录制偏好来检测个性化的亮点[42]。0of-the-art image-based networks can learn rich semanticfeatures capturing the interrelations between the variousdetected objects in the images, leading to efficient high-light detection. However, these approaches do not explic-itly model human activities or inter-person interactions thatare the primary focus of human-centric videos. Develop-ing methods for human-centric videos, meanwhile, has beenessential for a variety of tasks, including expression andemotion recognition [34, 2, 38], activity recognition [56],scene understanding [50, 32], crowd analysis [51], videosuper-resolution [32], and text-based video grounding [48].These methods show that human-centric videos need tobe treated separately from generic videos, by leveraginghuman-centric modalities such as poses and faces. There-fore, there is both the scope and the need to bring the ma-chineries of human-centric video understanding to the taskof highlight detection as well.Main contributions. We develop an end-to-end learningsystem that detects highlights from human-centric videoswithout requiring domain-specific knowledge, highlight an-notations, or exemplars.Our approach utilizes the hu-man activities and interactions that are expressed throughmultiple sensory channels or modalities, including faces,eyes, voices, body poses, and hand gestures [1, 38]. Weuse graph-based representations for all the human-centricmodalities to sufficiently represent how the inherent struc-ture of each modality evolves with various activities andinteractions over time.Our network learns from thesegraph-based representations using spatial-temporal graphconvolutions and maps the per-frame modalities to highlightscores using an autoencoder architecture.Our highlightscores are based on the representativeness of all the framesin the videos, and we stitch together contiguous frames toproduce the final excerpts. Our novel contributions include:81580•基于人类中心模态的高光检测。我们的方法在每个输入视频中识别可观察的模态,如姿势和面部表情,并将它们的相互关系编码为高光检测的得分,跨越时间和不同的人。0•无需注释训练高光得分。我们不需要高光注释、样本、用户偏好或领域特定的知识。相反,我们只需要使用现成的模态检测技术来检测一个或多个人类中心模态,以训练我们的高光得分。0•领域和用户无关的性能。我们训练的网络在各种领域和用户偏好的视频中实现了最先进的高光检测性能,通过对多个基准数据集进行评估。我们的方法在基准领域特定视频高光(DSH)数据集[47]和个人高光检测数据集(PHD2)[11]上分别实现了0.64和0.20的平均精度,并且相对于最先进的方法提高了7%和4%(绝对值)。0我们还在TVSum [46]和SumMe[15]这两个较小的基准数据集上取得了最先进的性能,分别在平均精度和平均F分数上比当前最先进的基线方法提高了12%和4%(绝对值)。即使对于不完全以人类为中心的领域(例如狗展)或人类中心模态稀疏检测的视频,我们的方法的性能也与当前最先进的方法相当。02. 相关工作0高光检测和与之密切相关的视频摘要问题在计算机视觉、多媒体和相关领域已经得到了广泛研究。早期的方法利用了各种技术,包括基于视觉内容的聚类、场景转换图、帧的时间方差[59, 6,49]和表示语义信息的手工特征,如面部活动[20]。另一方面,最近的方法利用了各种深度学习工具和技术来进行高光检测和视频摘要。高光检测。高光检测的目标是从未编辑的视频中检测出有趣的时刻或摘录[49,47]。大部分方法将其视为一种监督排序问题,使得高光摘录的排名高于其他所有摘录[47, 17, 58, 18, 11, 60, 19,52]。这些方法假设可以获得高光摘录的人类注释标签,并训练网络学习与这些标签相关的通用或领域特定的排序度量。另一方面,弱监督和无监督的高光检测方法通过利用样本或视频元数据来消除标签依赖性。样本包括描绘领域特定动作(如体操和滑雪)的网络图像[25]。视频元数据包括视频类别的信息[57],或者用于区分未编辑视频和编辑视频的属性,例如持续时间[53]。一些方法还考虑用户偏好来生成个性化的高光[42]。所有这些方法在帧的2D图像空间中进行计算,不利用人类中心模态。视频摘要。视频摘要旨在以各种格式(包括故事线图[24, 54]、关键帧序列[30]、剪辑[15,64]及其基于用户需求的混合)提供简洁的视频概要。它通常被视为满足连贯性[35]、多样性和代表性[40,67]的子序列估计任务。现有的无监督方法建立在多个概念上,如视觉共现[7]、帧和镜头之间的时间相关性[23, 36,44, 64]、学习类别感知分类器[41]和类别感知特征学习[66,46]。弱监督方法使用示例网络图像和视频[24, 22, 4,43],以及类别描述[41,40]作为先验知识。其他方法使用带有人类注释摘要的监督学习,使用子集选择的方法来生成摘要81590图2:代表性。我们展示了在姿势空间(左侧)和面部标志物空间(右侧)中计算的不同代表性值的帧。我们基于代表性学习突出得分。0[13],视觉重要性分数[30,15],子模块混合[16,55]和时间间隔关系[63,64,65]。虽然我们的目标是突出检测,但我们的方法受到这些摘要方法的启发。特别是,我们确保我们的突出得分捕捉到视频中的代表性,并满足鲁棒的特征重建。多模态学习。大量的工作集中在多模态动作识别[5,45,33,10]和情感识别[3,26,61,38,39]上。这些方法观察并结合来自人类表达的多个模态的线索,包括面部、姿势、声音音调、眼动、手势和步态。现有方法通常使用点和图对观察到的模态进行建模[33,3,38],使其适用于学习特定于动作和情感的特征。在我们的工作中,我们利用了人类中心视频的可突出摘录可以基于模态确定的事实。遵循最近的多模态动作和情感识别趋势[33,38],我们还将在视频帧中观察到的模态建模为时空图,并利用它们来学习我们的突出得分。03. 多模态突出检测0在我们的工作中,我们使用术语“模态”来表示对人类活动和互动敏感的人类表达通道,例如面部、眼睛、身体姿势、手和步态[5,38,39]。活动构成个体表达,互动发生在其他人类、生物和03.1. 人类中心模态0在我们的工作中,我们的目标是从视频中检测出感兴趣的时刻或突出点。本节详细介绍了我们如何利用从视频中观察到的人类中心模态来检测这些突出点。0非生物对象,与各种行为[56,10]和情感[2,39]相关。我们认为,人类用户喜欢的人类中心视频的可突出摘录集中在这些活动和互动上。因此,我们的网络旨在从可观察到的人类中心模态中学习。对于每个人的每个检测到的模态,我们的网络利用不同时间实例的相互关系和不同人之间的相互关系来检测最具代表性的摘录。虽然我们从视频帧的RGB图像空间中提取这些模态,但我们注意到模态更好地捕捉到了帧的丰富语义。图像空间表示建立在图像不同部分之间的强度差异的变体上,没有对不同部分如何物理相互作用的基本见解。相反,模态基于它们的结构提供了关于这种相互作用的见解,例如,手臂和腿的相对运动表明某些动作,各种面部标志物的相对运动表明某些表情和情感。我们构建我们的网络来明确考虑每个模态的结构以及这些结构随时间的活动和互动的演变。我们从输入视频中考虑M≥1个可观察到的人类中心模态。我们假设使用标准的检测和跟踪技术[29,12]提取模态,并使用一组相互连接的2D或3D点表示,例如面部的一组2D面部标志物或姿势的一组3D身体关节。为了表示每个模态m=1,...,M,我们构建一个时空图表示Gm={Vm,Em}。Vm中的节点表示相应模态的点,Em中的边表示模态的结构以及该结构随时间的演变。为了充分捕捉这一点,我们考虑了三种边缘类型:0•捕捉单个人的节点之间的空间关系的人内边,例如姿势关节之间的骨骼和面部特征点之间的连接器。这些边表示每个视频帧上模态的基线结构。0•连接不同人的相同节点的人际边,例如根节点到根节点,头部到头部,在每个视频帧上。这些边捕捉了不同人的节点之间的相互作用。它们对于每对人来说形成一个二分图,并表示每个视频帧上的人际交互。0•连接同一人的相同节点的时间边,例如根节点到根节点,头部到头部,跨多个视频帧。这些边捕捉了这些节点随时间的演变。它们对于每对视频帧来说形成一个二分图,并表示随时间的活动和交互的演变。这些节点的空间位置和所有这些边的组合使得我们的网络能够学习视频中所有人的活动和交互,并相应地学习亮点得分,而无需对视频领域或用户提供的偏好有任何先验知识。zm = STGCNm,m; W (enc)m,(2)hm = σSTGCNm, zm; W (hlt)m,(3)81600图3:以人为中心的模态的亮点检测:我们的网络从多个以人为中心的模态中学习亮点得分的概述。我们使用标准技术[29,12]来检测以人为中心的模态。我们将模态表示为2D或3D中连接点的集合。我们并行训练所有模态的网络。网络之间唯一的交互点是它们预测的亮点得分,我们将其组合成加权亮点得分进行训练。03.2. 视频帧的代表性0由于我们的目标是在视频中检测出亮点,而不需要注释或样本,因此我们的方法与检测视频中的代表帧的方法相一致,类似于视频摘要[36,14]。虽然在图像空间中检测代表帧可能会导致无法检测到亮点检测的兴趣时刻[47],但我们的关键观察是,在以人为中心的模态空间中检测代表帧实际上可以检测到以人为中心的视频中的亮点检测的兴趣时刻。我们将视频帧的代表性定义为视频与不包含该帧的视频之间在某个度量空间中的差异。差异越大,该帧的代表性越高。直观地说,帧的代表性衡量了它相对于整个视频所包含的信息的比例。我们在亮点检测中的目标是从视频中检测出一组具有最大代表性的帧。在我们的工作中,我们使用可观测模态的度量空间来衡量代表性。图2展示了在姿势和面部特征点空间中具有不同代表性值的帧的示例。我们认为每个视频由总共T帧和P人(用较少帧填充视频)组成。因此,对于每个模态m,Vm总共包含N×T×P个节点,其中N是每个人的节点数。我们将这些节点整合成一个张量Xm = � X(1)m; . . . ; X(T)m �,其中0对于每个帧t,X(t)m∈RN×P×D,其中D是每个节点的空间维度,通常为2或3。然后我们可以将0或1的亮点得分h(t)m乘以每个帧t以反映它们的代表性。因此,我们可以将净差异D写成分配亮点得分的结果,如下所示:0D = ��� X m − � h (1) m ; . . . ; h ( T ) m � ⊙ X m �(1)0其中⊙表示Hadamard乘积。现在我们可以同时最小化方程1中的D和每个模态m的�th(t)m。我们注意到方程1的一个平凡解是选择一个阈值0≤τ≤T,然后为Xm中具有最高代表性的前τ个帧分配亮点得分1,为所有其他帧分配亮点得分0。然而,选择τ是非平凡的,并且需要从实践中的数据中学习。因此,我们训练了基于自动编码器的深度神经网络来学习各种数据的亮点得分。我们还允许亮点得分在[0,1]之间连续,以保持我们的网络可微分。此外,使亮点得分连续还有助于我们理解每个帧的相对代表性,这是现代亮点检测系统的内置组成部分[53, 42]。03.3. 网络架构0图 3显示了我们预测输入视频中精彩片段的整体网络架构。我们的网络的目标是学习每帧的精彩得分,以最小化类似于公式1的形式。我们的网络通过接收可观察的以人为中心的模态的每帧基于图的表示来实现这一目标。它试图使用尽可能少的输入模态帧来重建视频中的所有活动,即加权重建,其中权重是精彩得分。在这个训练过程中,我们的网络学习将更高的精彩得分分配给具有更高代表性的帧。现在我们详细描述我们的网络架构。我们的自编码器由编码器、评分器和解码器组成。我们的编码器接收来自输入视频的每个可观察模态m 的空间-时间图 G m = {V m , E m }。它使用一个单独的空间-时间图卷积网络(STGCN)[ 56 , 28 , 9 ] 将每个模态 m 的 X m转换为潜在的基于活动的特征 z m ∈ R N × T × P × D l,其中 D l是潜在特征中每个节点的维度。因此,我们有以下操作:0其中 A m 表示从 E m 获得的邻接矩阵,W ( enc ) m包含编码器中可训练的 STGCN参数集。我们在这里指出,数据 X m形成一个满秩张量,因此 STGCN 避免了将所有 z m 分配为0 的退化解。我们的潜在基于活动的特征 z m � m连接到评分器,它由一个空间-时间图卷积层和一个模态的sigmoid 运算组成。我们的评分器将每个 z m转换为每个节点的归一化精彩得分 h m ∈ [0 , 1] N × T× P × 1 ,即0其中 σ ( ∙ ) 表示 sigmoid 函数,W ( hlt ) m包含可训练的 STGCN 参数集。我们的解码器接收特征 z m和精彩mmmm81610为每个模态 m 计算得分 h m ,并通过将 h m 与 z m的每个节点维度进行哈达玛积运算,得到加权的潜在特征 � zm ∈ R N × T × P × D l ,即0� z m = [ h m ; h m ; . . . ] � ��� D l 次0换句话说,我们的目标是选择与 X m中最具代表性帧相对应的潜在特征 z m。在训练过程中,我们的评分器成功地学习将更高的 h m值分配给表示更具代表性的帧的 z m特征,并在重建过程中偏爱它们。根据加权的潜在特征 � zm ,我们的解码器使用另一个 STGCN生成输入图节点的重建 � X m ∈ R N × T × P × D ,即0其中 W ( dec ) m 包含解码器中可训练的 STGCN 参数集。03.4. 训练的损失函数0类似于公式 1,我们训练我们的网络架构以最大程度地重建所有模态中的输入图节点,同时最小化用于重建的帧数。我们的方法基于这样的假设:具有更高代表性的帧构成视频中更具亮点的片段。因此,实际上,我们的目标是在重建输入视频时尽可能抑制尽可能多的帧,只关注具有高代表性的帧。给定每个模态 m 的精彩得分 h m,我们对所有维度进行最大池化,但不包括时间,以获得每个模态的视频帧的最大精彩得分 h ( max T ) m ∈ [0 , 1]T × 1 ,即0h(max T)m = max n∈N,p∈Phm. (6)0我们还考虑了每种模态m的h(maxT)m的加权贡献,其中权重与输入视频中可见该模态的帧数成比例。如果帧中的组成点超过该模态的一半可见,则定义该模态在该帧中是可观察的。根据这个定义,我们为每种模态m构建一个权重αm,如下所示:0αm =模态m可观察的帧数0T. (7)0由于每个帧可以包含从没有到所有模态的内容,因此0 ≤αm ≤ 1�m。然后,我们为视频的所有帧构建加权亮点分数¯hm ∈[0, 1]T × 1,如下所示:0¯hm = αm h(max T)m.(8)最后,给定解码器重构�Xm和每种模态αm的权重,我们构建我们的损失函数L0用于训练我们的网络的0L =0���Xm − �Xm��� + ��¯hm�� + λm∥Wm∥, (9)0其中Wm汇集了所有可训练参数W(enc)m,W(hlt)m和W(dec)m,λm是正则化因子,我们使用平滑ℓ1范数来表示∥∙∥。我们注意到L由对比目标组成,这些目标提供了学习亮点分数所需的竞争。第一项中的减数�Xm,即从Eqs.4和5得到的���Xm−�Xm���,是Eq.1中的减数的替代品。最小化这一项将要求将所有亮点分数设置为1(因此所有帧都是亮点)。相反,最小化第二项��¯hm��将要求将所有亮点分数设置为0(因此没有帧是亮点)。因此,我们的网络最终只给具有最大代表性的帧分配高亮分数。04. 实现和测试0我们在大规模的AVA-Kinetics数据集[31]上训练我们的网络。该数据集包含235个训练视频和64个验证视频,每个视频长达15分钟,并用1秒的剪辑中的动作标签进行注释。我们忽略动作标签,使用原始视频来训练和验证我们的亮点检测网络。该数据集包含各种各样的人类活动,但没有对可突出显示的摘录进行监督。因此,它非常适合我们学习检测人类特定亮点摘录的任务。由于内存限制,我们将每个视频分为非重叠的30秒片段进行处理,共有7,050个训练片段和1,920个验证片段。04.1. 实现0我们使用了2种模态,姿势和面部,这是我们在所有测试数据集上测试我们的方法时观察到的两种最常见的模态。其他模态,如手势和眼动,要么很少可见,要么检测结果嘈杂。我们按照CMU全景模型[21,37]构建姿势图,并按照Geitgey的面部关键点模型[12]构建面部关键点图。我们使用一个多人追踪器[29]跟踪所有帧中的人物。我们使用一个姿势检测器[37]和一个面部关键点检测器[12]分别检测他们的3D姿势和2D面部关键点的坐标。我们将所有坐标缩放到[-1,1]的范围内。为了构建每种模态的图,我们在每个帧中考虑最多20个人,并在过去和未来的30个相邻帧之间添加时间边,其中f是处理视频的帧率。如果可用,我们在过去和未来的帧中使用相等数量的帧进行时间邻接。我们观察到,在2到5的帧率之间,无论是准确性还是内存需求方面,性能都很高。我们在实验中使用f = 5。对于所有的zm,我们使用了Dl= 8的潜在维度。0.120.150.150.160.20BK0.310.340.330.420.660.57FM0.370.400.370.460.430.88GA0.330.400.380.480.610.50PR0.330.400.380.470.530.84PK0.320.380.350.460.600.76VT0.300.350.330.420.560.65VU0.360.440.410.470.500.77theov-81620表1:DSH数据集[47]的平均精确度。粗体:最佳,下划线:次佳。我们的方法在冲浪领域中表现次佳,因为检测到的姿势和面部不足,而在其他所有领域中表现最佳。0领域 RRAE [57] Video2 GIF [17] LSVM [47] Less is More [53]我们的方法0狗展 0.49 0.31 0.60 0.58 0.63 体操 0.35 0.34 0.41 0.44 0.73 跑酷 0.500.54 0.61 0.67 0.72 滑板 0.25 0.55 0.62 0.58 0.64 滑雪 0.22 0.33 0.360.49 0.52 冲浪 0.49 0.54 0.61 0.65 0.620平均值 0.38 0.46 0.54 0.57 0.640表2:PHD 2[11]的平均精确度。粗体:最佳,下划线:次佳。0随机FCSN [44] Video2 GIF [17] Ad-FCSN [42] 我们的方法0我们使用Adam优化器[27]进行200个时期的训练,批量大小为2,初始学习率为10^-3,动量为0.9,权重衰减为10^-4。我们每个时期后将学习率降低0.999倍。我们的训练在Nvidia GeForce GTX 1080TiGPU上每个时期约40分钟,总共花费了大约4.6个GPU天。04.2. 测试0在测试时,我们根据公式8为输入视频的每一帧获得加权的精彩片段得分m ¯ h m。我们将所有高于阈值hthres的连续帧组合起来,生成视频的精彩片段。根据我们的实验,我们观察到h thres ≥0.5的值可以检测到具有代表性的精彩片段。hthres和τ(第3.2节)之间的区别在于,hthres用于捕捉领域和用户偏好无关的代表性得分。实际上,我们为每个精彩片段分配一个分数,该分数是其组成帧的加权精彩片段得分的平均值。我们根据这些分数对片段进行排序,以便用户可以选择自己的阈值,获取高于该阈值的片段。他们选择的阈值越高,幸存下来的片段就越少,从而减少了他们筛选不太具有代表性的片段的手动工作量。05. 实验0我们在两个大规模公共基准数据集上评估我们的方法和当前最先进的方法的性能:领域特定精彩片段(DSH)数据集[47]和个人精彩片段检测数据集(PHD2)[11]。我们还在较小的公共数据集TVSum[46]和SumMe[15]上进行评估。然而,与任何当前的方法不同的是,我们不进行训练或优化。0表3:TVSum数据集[46]的平均精确度。完整的领域名称在第5.1节中。粗体:最佳,下划线:次佳。我们的方法在非完全以人为中心的领域(BK、DS、GA、MS)中表现次佳,在其他所有领域中表现最佳。0领域 MBF [7] KVS [41] CVS [40] Adv-LSTM [36] Less is More [53] 我们的方法0自行车技巧 0.37 0.42 0.40 0.48 0.69 0.93 狗展 0.36 0.39 0.38 0.47 0.63 0.600制作三明治 0.41 0.42 0.40 0.49 0.54 0.500平均值 0.35 0.40 0.37 0.46 0.58 0.700我们可以在这些数据集中调整我们的方法。我们还通过从训练和评估中删除单个模态来测试我们网络的性能。05.1. 数据集0DSH数据集[47]包括六个领域特定类别的YouTube视频:狗展、体操、跑酷、滑板、滑雪和冲浪。每个领域大约有100个视频,总时长约为1,430分钟。PHD2数据集[11]包含测试集中约10,000个YouTube视频,总时长约55,800分钟。它包含根据用户偏好进行注释的精彩片段,共有850个用户参与注释。TVSum数据集[46]有50个YouTube视频,总时长约210分钟,涵盖了十个领域:养蜂(BK)、自行车技巧(BT)、狗展(DS)、快闪(FM)、动物美容(GA)、制作三明治(MS)、游行(PR)、跑酷(PK)、车辆轮胎(VT)和车辆解困(VU)。SumMe数据集[15]有25个个人视频,总时长约66分钟。05.2. 评估指标0我们计算了常用的平均精度均值(mAP),用于匹配注释高光[ 47 , 17 , 11 , 53 , 42]。对于高光的评估,我们考虑每个视频的精确度,而不是跨视频,因为从一个视频中检测到的高光不一定比另一个视频的非高光片段具有更高的高光分数[ 47]。我们还报告了我们方法在所有数据集上的平均F分数(精确度和召回率的调和平均值,按视频计算,然后对所有视频进行平均),以及在SumMe数据集上提供的基线方法[ 15]。05.3. 基线方法0在DSH数据集上与四个基线方法进行比较[ 47 ],在PHD 2上与四个基线方法进行比较[ 11],在TVSum数据集上与五个基线方法进行比较[ 46 ],以及0.390.400.390.420.420.430.440.4881630表4:SumMe数据集上的F分数[ 15]。粗体:最佳,下划线:次佳。0Int [ 15 ] Sub [16 ]0DPP-LSTM [63 ]0GAN-S [ 36 ] DRL-S [ 67 ] S2 N [ 52 ]0Ad-FCSN [ 42 ]我们的方法0在SumMe数据集上为7 [ 15]。我们报告了文献中所述的基线方法的性能。在DSH数据集上,我们与Sun等人的基于潜在SVM的高光排名(LSVM)方法[ 47],使用C3D特征和全连接层学习高光排名的Video2GIF [17 ],Yang等人的无监督鲁棒循环自编码器方法(RRAE)[57 ]以及Xiong等人的方法(Less is More)[ 53]进行了比较,后者通过使用视频的持续时间作为弱监督来学习高光排名,因为较短的视频更容易被编辑,因此更容易成为高光。在PHD 2上,我们再次与Video2GIF [ 17],使用GoogLeNet学习基于图像的特征进行高光检测的完全卷积序列网络(FCSN)[ 44]以及自适应FCSN方法(Ad-FCSN)[ 42]进行了比较,后者还包括一个历史编码器,以适应用户的高光偏好历史,以检测个性化高光。我们还使用完全随机的高光检测器作为最低基线,参考[ 42]。在TVSum数据集上,我们再次与基于持续时间的高光检测方法(Less is More)[ 53],Chu等人的基于视觉相关性的方法[ 7](使用最大双全图查找(MBF)获取与原始视频相关的共现镜头),Potapov等人的基于核的视频摘要方法(KVS)[41](在语义一致的片段上训练SVM),Panda等人的协作视频摘要方法(CVS)[ 40](使用共识正则化器来检测满足稀疏性、多样性和代表性的高光片段)以及Mahasseni等人的无监督视频摘要方法[ 36](使用带有对抗损失的LSTMs)进行了比较。在SumMe数据集上,我们再次与自适应FCSN(Ad-FCSN)[ 42],Gygli等人的基于趣味性的摘要方法(Int.)[ 15],Gygli等人的基于子模性的摘要方法(Sub.)[ 16],Zhang等人的LSTM网络[ 63](采用确定性点过程(DPP-LSTM)),Lu和Grauman的基于GAN的方法[ 35](带有额外的监督)(GAN-S),Zhou等人的基于深度强化学习的方法[ 67](带有额外的监督)(DRL-S)以及使用编码器-解码器架构从序列数据中检测具有高相关性的片段的序列到片段检测方法(S 2 N)[ 52 ]进行了比较。05.4. 结果0DSH [ 47 ]和TVSum [ 46]。我们在表1和表3中报告了这些数据集中所有领域的mAP。我们在几乎所有领域上都优于基线方法。0表5:在基准数据集上比较不同消融版本的我们方法的平均mAP和平均F分数。粗体:最佳,下划线:次佳。0使用模态的数据集0仅面部 仅姿势 两者都有0mAP F mAP F mAP F0DSH [47] 0.51 0.45 0.57 0.48 0.64 0.56 TVSum [46] 0.570.46 0.64 0.56 0.70 0.59 PHD 2 [11] 0.16 0.20 0.15 0.180.20 0.22 SumMe [15] 0.48 0.39 0.45 0.41 0.52 0.480图4:根据亮点得分阈值h thres的平均精度。在DSH数据集的领域中[47]。0在这些领域中,要么不完全以人为中心(养蜂、狗展、动物美容和制作三明治在TVSum中),要么无法检测到足够的姿势和面部(DSH中的冲浪)。然而,在这些领域中,我们的方法排名第二,而在所有领域中,我们的方法相对于最佳基线的表现优于绝对值为4% - 12%。PHD 2[11]。我们在表2中报告了整个数据集上的mAP。鉴于视频中检测到的人类数量众多,我们的方法相对于最佳基线的表现优于绝对值为4%。SumMe[15]。我们在表4中报告了整个数据集上的平均F分数。按照之前的方法[52,42],我们随机选择了数据集的20%用于计算平均F分数,重复了这个实验五次,并报告了平均性能。基于这些实验,我们的方法相对于最佳基线的表现优于绝对值为4%。这些结果表明,我们使用以人为中心的模态来检测亮点,在所有这些基准数据集上都达到了最先进的性能。05.5. 消融研究0在我们的实验中,我们考虑了两种模态,姿势和面部。我们依次消融这两种模态,并通过在剩余模态上训练我们的方法来测试其性能。我们在表5中报告了我们方法的消融版本在所有四个基准数据集上的平均mAP和平均F分数。仅使用姿势而没有面部时,与使用两种模态相比,我们观察到平均mAP下降了5% - 7%,平均F分数下降了3% -8%。仅使用面部而没有姿势时,我们观察到平均mAP下降了4% -13%,平均F分数下降了2% -13%。这是因为相对于面部特征点,姿势通常更丰富且更容易检测到。例如,即使人体部分被遮挡、处于黑暗中或不在清晰焦点中,姿势仍然可以被检测到,而检测面部特征点需要面部被良好照明并处于焦点中。因此,不检测姿势会导致错过大量可突出显示的摘录。只有在PHD2中,面部的检测比姿势更常见,这种趋势才会逆转。我们还展示了我们方法的定性性能。faces and no poses, we observe more severe absolute drop-offs of 4% − 13% for the mean mAP and 2% − 13% forthe mean F-score across the datasets. This happens becauseposes are generally more abundant and more easily detectedcompared to face landmarks. For example, poses can be de-tected even when a human is partially occluded, in the dark,or not in clear focus, whereas detection of face landmarksrequires the face to be well-lit and in focus.Therefore,not detecting poses leads to missing a significant number ofhighlightable excerpts. This trend is reversed only in PHD2,where faces were more commonly detected than poses.We also show the qualitative performance of our method81640图5:我们的方法检测到的样本亮点帧。我们展示了由我们方法的不同消融版本检测到的不同亮点得分范围内的样本帧。我们按照从上到下的顺序展示了来自SumMe [15]、PHD2 [11]、DSH [47]和TVSum[46]数据集的一个样本视频。当仅使用面部或仅使用姿势时,我们的方法仅基于面部或姿势的代表性学习亮点得分。结合两种模态,我们的方法基于两者的代表性学习亮点得分。0在DSH、PHD2、TVSum和SumMe这四个数据集中,我们在每个数据集中的一个样本视频上对其进行了所有消融版本的实验,如图5所示。我们可以看到,当只观察姿势而不
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功