第一人称视频的角色:观点总结、特点、问题(20字)

134 浏览量更新于2023-10-13 收藏 890KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

从视频的三个角色的观点总结第一人称视频何宣义1、邱维珍2、王玉强11台湾国立台湾大学电机工程系{b01901029，ycwang}@ ntu.edu.tw2台湾国立交通大学计算机科学系walon@cs.nctu.edu.tw抽象。视频突出显示或摘要是计算机视觉中有趣的主题之一，它有利于各种应用，如查看，搜索或存储。然而，大多数现有的研究依赖于第三人称视频的训练数据，这不能很容易地概括为突出第一人称视频。为了导出一个有效的模型来总结第一人称视频，我们提出了一种新的深度神经网络架构，用于描述和区分具有不同视角的视频中的我们提出的模型是在半监督环境中实现的，其中在训练期间呈现完全注释的第三人称视频、未标记的第一人称视频和少量注释的第一人称视频。在我们的实验中，定性和定量的评价基准和我们收集的第一人称视频数据集。关键词：视频摘要·第一人称视觉·迁移学习·度量学习1介绍可穿戴和头戴式摄像头改变了人们录制和浏览视频的方式。这些设备使用户能够捕获生活记录视频，而无需有意地关注特定主题。因此，与第三人称视频相比，所得到的第一人称视频（或以自我为中心的视频）将展现出非常独特的内容和属性。正如Molino等人所指出的那样。[18]，第一人称视频缺乏足够的结构信息和重复内容将限制观看质量。因此，期望能够突出显示或概括这样的视频以改善用户观看体验。视频摘要的目标是从视频中封装信息片段，其目的是识别精彩视频片段。用于视频摘要的现有方法选择最具代表性的视频片段[8，16]或检测特定或预定义的视觉结构或对象作为摘要输出[13，14，15]。随着深度学习的最新发展，最近的工作[28]成功地利用深度神经网络进行第一人称2H.-我何伟-C. Chiu和Y.-C. F. 王视频摘要，通过使用预先收集和注释的第一人称视频数据集。然而，难以收集大量完全注释的第一人称视频数据（注意，[28]中的数据集不是公开可用的）。为了解决这些限制，迁移学习技术成为一种替代解决方案。更准确地说，人们可以从带注释的第三人称视频中学习，并旨在将学习的模型转换为第一人称视频。然而，由于第三人称视频和第一人称视频之间的视觉外观可以预期的显着差异此外，令人满意的第一人称视频摘要应该包括对记录者和观看者都重要的片段。如果没有观察到任何带注释的第一人称视频揭示这些信息，就很难学习解决相应任务的有效模型。现有的迁移学习工作一直专注于减轻跨数据域的主迁移（或数据集偏差）[19]。随着深度学习最近的成功，深度神经网络的架构也被用来解决类似的问题[21]。最近的基于深度学习的视频摘要方法，如[11，17，30]没有明确解决这个问题。为了推进第一人称视频摘要的迁移学习，可以利用完全注释的第三人称视频加上多个注释的第一人称视频来训练他们的模型。为了增加没有标签信息的第一人称视频的训练集大小，可以进一步将上述监督域自适应设置扩展到更具挑战性但实用的半监督设置。也就是说，在训练期间还可以呈现附加的未标记的第一人称视频。因此，人们不仅需要减轻第一人称和第三人称视频之间的域（视点）偏差，还需要解决如何在半监督环境中学习深度神经网络的问题。在本文中，我们提出了一个深度学习框架，该框架执行跨域特征嵌入并跨视频域传输亮点信息。更具体地说，我们的网络架构在半监督设置中联合执行域也就是说，除了具有完全注释的精彩部分分数的第三人称视频之外，还在训练期间呈现第一人称视频，而它们中的仅一小部分具有地面实况分数。此外，我们进一步整合了基于递归神经网络（RNN）的序列到序列模型，该模型允许利用长期的时间信息来改进摘要。总之，我们的贡献有三个方面：1）通过减少第三人称视频和第一人称视频之间的语义差距，我们提出的网络跨视频域传输信息时空特征以执行第一人称视频摘要; 2）我们的网络能够在自适应过程中处理未标记的数据，这不仅允许我们的模型在半监督设置中进行训练，还可以减轻由于少量带注释的第一人称视频数据而导致的可能的过拟合;3）除了使用SumMe [7]数据集外，我们还可以使用Sum ma rizin gF ir st-Per sonV ide osfromTh irPer s ons3收集更大规模的第一人称视频数据集用于进一步评估，其现在可用3.2相关作品第一人称视频摘要近年来，第一人称视频摘要吸引了计算机视觉社区[2，4，18]。大多数现有的方法遵循基本的工作流程，该工作流程由（1）视觉特征提取和（2）关键帧选择或场景分割组成，而后者通常受制于预定义的标准。例如，Leeet al.[13，14]选择包含重要主体和对象以及视觉多样性的视频帧，而Bet- tadapura等人。[3]在度假相关的视频中寻找艺术属性。Lin等[15]为每种类型的以自我为中心的视频训练特定于上下文的精彩部分检测器，这使得能够进行在线摘要并解决数据存储的问题Xu等[27]利用凝视信息来预测对视频片段的关注，从而产生反映记录器偏好的摘要。然而，上述方法主要应用于特定的视频上下文（例如，日常生活或烹饪视频）。虽然最近的工作姚等。[28]通过深度度量学习来学习相关的排名函数，对15个类别的视频片段进行评分，它需要大量的完全注释的第一人称视频（超过50小时）进行训练。这就是为什么用于视频摘要的半监督迁移学习框架（如我们的）实际上是更可取的，其目标是利用跨视频域的信息来改进摘要。一些最近的基于深度学习的方法通过解决序列到序列问题来处理视频摘要，其中视频帧通过递归神经网络（RNN）方案编码。例如，Zhanget al.[30]提出了一种基于双向长短期记忆（biLSTM）框架的摘要模型，该模型在具有关键帧选择的注释重要性分数的视频上进行训练。他们另外应用行列式点过程（DPP）来增强所选择的关键帧的多样性。Ji等人[11]通过整合注意力机制进一步扩展了这种biLSTM模型。他们的模型在对biLSTM生成的视频片段的特征向量进行解码时，以更细的粒度考虑时间信息。尽管监督方法显示出有希望的视频摘要结果，但用于视频摘要的现有数据集（具有地面实况数据）[7，23]通常具有较小的尺度。为了学习有效的摘要模型，期望具有大量的标记视频用于训练目的。因此，一些作品试图利用各种技术来解决这个问题。例如，Pandaet al.[20]从YouTube 8M [1]收集弱注释视频，并使用以下辅助标签训练其摘要模型3数据集和代码可在https://github.com/azuxmioy/fpvsum上获得4H.-我何伟-C. Chiu和Y.-C. F. 王表1.现有视频摘要数据集的比较数据集类型长度视频数量注释/评分描述UT Ego [13]第一人称17小时4个视频帧，其中包含重要的人和物每项的文本描述- 在非受控环境中的日常活动视频- 提供文本标签[29]第二十九话>60小时13自我总和+凝视第一人称>15小时21[27日]5秒视频片段515个事件由5个相机佩戴者[13]第13话：我的世界- 不供公众查阅的- 日常生活视频和凝视数据- 不供公众查阅的完全注释的帧级分数- GoPro运动的15个类别Yao等人[28]第一人>100小时600来自12个注释者从YouTube- 未公开提供SumMe [7]第三人称50分钟20个完全注释的帧级分数-原始用户视频包含第一人称14 min至少15个注释者中的5个有趣的事件[23]第二十三话第三人3小时30分钟50个完全注释的帧级分数-10个类别的50个YouTube视频来自TRECVid MED任务的20个注释器提出第一人称7小时56分钟98完全注释的帧级分数-14个类别的GoPro观众友好从YouTube上选择的至少10个注释者视频活动类; Sunet al.[24]通过利用已被编辑为正训练数据的YouTube视频集合来训练他们的精彩分类器，而负面的则从原始视频中检索。或者，Gygliet al. [9]通过收集从GIF图像网站挖掘的大量训练对来呈现摘要模型。通过推进序列生成对抗网络，Mahasseniet al.[17]通过预测视频关键帧分布来执行视频摘要然而，上述方法通常集中于总结第三人称视频，或者具有混合类型视频的那些视频[7，23]（即，第三人称和第一人称之间没有区别）。如上所述，由于视觉内容和外观的显著变化（加上由于缺乏足够量的注释训练数据），突出显示第一人称视频将是特别具有挑战性的这就是为什么我们选择在半监督环境中解决第一人称视频摘要，并提出深度迁移学习技术来解决这个问题。用于视频摘要的数据集最后，我们在表1中总结了用于第一人称和第三人称视频摘要的现有数据集的特性。 UT Ego [13]注释关键帧，包括日常生活视频中的重要对象和人物。VideoSet [29]为UT Ego [13]和Disneyworld [6]中的视频提供了额外的文本标签，包括用于摘要评估的工具。EgoSum+凝视[27]由从相机佩戴者获得的镜头级注释及其凝视信息组成。然而，上述第一人称数据集的上下文非常有限（例如，日常生活、烹饪等。活动）。此外，由于其长持续时间和冗余，观众难以获得帧级Yao等人[28]首先提出了一个大规模的数据集，包括从YouTube挖掘的各种体育视频的帧级符号。与两个广泛使用的数据集SumMe [7]和TvSum [23]相比，从YouTube中挖掘的大多数第一人称视频要么过度编辑要么过长，这可能导致非常困难。Sum ma rizin gF ir st-Per sonV ide osfromTh irPer s ons5伪三联体Fig. 1. 我们的第一人称视频摘要框架通过半监督域适应。注意，在训练期间呈现完全注释的第三人称视频VT、未标记的第一人称视频VU加上多个注释的第一人称视频VF。我们让x、es和ep分别表示输入、共享和私有特征。视频中的不同视点，加上数据集内的帧不连续性和注释偏差。值得注意的是，大多数用于视频摘要的第一人称数据集都不是公开的，这就是为什么我们的主要贡献之一是收集和发布第一人称视频数据集，包括观众友好的视频和无偏见的重要性分数，以用于研究目的。3拟议框架为了完整起见，我们首先解释本文中的符号。我们 h。aveannΣotatedvideoclectioninclu dingas.etofthird-pΣersonvideosVT=VT，... V T 和少数第一人称视频VF=VF，... 其中M和N1个月1个月分别表示第三人称和第一人称视频的数量（其中通常M>N）。 C或R。这是一个很好的例子。（i. 例如，imporΣtancescores）atthehe帧级是ST= ST，...，ST和SF= SF，…，SF.另外我们有1MU。U1U Σ N第一人称视频V=V1，… VK无任何注释的重要性分数，视频的数量KN。我们的工作的目标是跨越VT，VF和VU的语义差距，使学习模型可以应用于第一人称视频摘要。我们提出的方法的架构如图所示。1，它由用于跨域特征嵌入和总结的网络组件组成。评分ℒdiffℒ三T，高ghT，高，T，非p pT，不n不T，高分享F，高权重T，非s，sF，高，F，无S sUSF，不nF，高，F，无p pFUUpUdiffℒdiffℒ什特雷茨ℒ三突出突出非精彩非精彩未标记6H.-我何伟-C. Chiu和Y.-C. F. 王diffrecrecdiffdiffpSSp1M我们的方法的亮点包括：1）我们的域分离架构学习跨视频域的共享和私有特征，同时适配跨域的精彩部分信息用于摘要; 2）一个自学习方案，用于利用未标记的第一人称视频数据，以便我们的模型可以在半监督设置中进行训练;以及3）我们的用于利用长期时间信息来改进最终摘要的高光检测网络。我们的框架的细节将在下面的小节中描述。3.1跨域特征嵌入为了适应跨视频域的信息，以突出感兴趣的特定视频域，我们提出的网络的第一阶段执行跨域特征嵌入。更具体地说，我们的目标是检索和传输代表性的突出信息在第三和第一人称视频，同时抑制在每个域中的不相关的功能这通过经由域分离结构执行跨域特征嵌入来实现受[ 5]的启发，我们的域分离网络组件将特征表示分解为两个子空间：跨视频域的用于提取域不变信息的共享子空间，以及对每个域唯一的私有子空间域，用于描述特定于域的属性。.Σ.GivenvΣideosegmentswithfixed-length，i. 例如， XT=XT，…，XTXF=x F，… x F分别从VT和VF，我们认为这样的部分作为基本的1N元素在我们的框架中用于捕获视频时空信息。的共享编码器Es在图1中。1将xT， xF编码为域不变表示eT， eF，而私有编码器ET和EF将它们嵌入到域特定的s s p p特征eT和eF。这些编码器与解码器D和两个解码器D联合学习。p p显式损失函数：重建损失LL差损LL. 注意那个LL鼓励解码器D从特征连接共享和私有表示e = concat（es， ep），其可以可以写成：Σ¨ ¨2Lrec =¨fD（ei）−xi¨i∈{F，T}.（一）至于差分损耗LL，则是由es之间的正交性所决定的和ep，从而强制Es和EP捕获信息（共享的和私有的）从x.因此，L定义为：LT¨2�F�F¨2其中ETETLdiff= ¨ Ep Es¨F+ ¨ Ep Es¨F，（2）是由私有和共享特征组成的矩阵第三人称视角的视频片段同样，EF和EF指用于对应的第一人称嵌入特征的矩阵。利用上述域分离架构允许我们通过跨视频域的共享特征嵌入来减轻域差异，并且同时在每个域的私有子空间中保留足够的域特定特性L2Sum ma rizin gF ir st-Per sonV ide osfromTh irPer s ons7埃莱什基recdiff尽管以上使用域分离组件来抑制跨视频域的特征差异，但不保证共享编码器Es从输入视频捕获精彩部分信息的语义。因此，我们进一步利用三元组网络[10，22]推进深度度量学习，以改进特征嵌入。这不仅使我们能够更好地描述第三人称和第一人称视图上的视频，而且还可以反映和共享跨视频域的突出信息，以用于以后的摘要目的。为了实现上述目标，我们将具有地面实况分数注释的共享特征的跨域视频划分为突出和非突出子。集合：{eT，high， eT，non}和{eF，high， eF，non}，其中eT，high和eT，non涉及s s s s s s分别是精彩部分和非精彩部分第三人称视频子集似-通常，我们具有第一人称视频子集{eF，high， eF，non}。共同消除S s视频域差异和跨域适配高光信息，三元组是从一组特征{eT，high， eT，non， eF，high， eF，non}构建的。s s s s包括从域内和跨域视频数据中提取的特征对采取以{eT，high， eT，non， eF，high}为例，计算s s s如：.LLT，高T，非F，高T，高Σtri=max0，M −Dcos（es，es）+Dcos（es，es）、（3）其中Dcos （e， e′）=1−e·e′2 2 返回嵌入到特征，并且M表示度量学习的裕度注意这种损失对于来自内部和跨视频数据的所有三元组计算。3.2使用未标记的第一人称视频进行Sect.3.1允许我们识别跨视频域的域不变和域特定特征。然而，由于标记的第一人称视频的数量通常比第三人称视频的数量少得多，因此期望进一步利用未标记的第一人称视频，使得可以减轻可能的过拟合。因此，在我们提出的网络中，我们引入了一个自学习组件来解决这个任务。如示于图1、第一人称的未标记片段视频通过嵌入网络，得到特征向量eU，eU。p s重建损失LU和差损LU，与LrecLdiff 分别但应用于未标记的eU和EU培训中：¨¨2¨ ¨2LU=¨fD（eU）−xU¨ ，LU=¨EUEU¨.（四）rec2差异p s F为了进一步利用未标记的第一人称视频以及注释的跨域数据来改进跨域特征嵌入，我们通过生成伪三元组来扩展上述学习方案，这允许我们微调上述跨域嵌入网络。更精确地说，在基于来自{eT，eF}的样本构建的子集中，相对于每个参考eU=concat（eU，eU）的最远和最近特征将被视为负对e-concat（eU，eU）。S p和正对e+为eU，从而形成伪三联体。所以没有L和L8H.-我何伟-C. Chiu和Y.-C. F. 王三三p观察地面实况注释分数，这种伪三元组LU可以为每个未标记的第一人称视频计算LU=max .0，M − Dcos（eU，e−）+Dcos（eU，e+）Σ.（五）利用上述自学习策略，我们现在能够在训练期间联合利用监督和未标记的视频数据，使得网络分量E_F、E_s和D可以相应地更新。3.3基于片段到序列的高光检测从上面的小节中，我们看到我们的网络的第一阶段在半监督设置中跨视频域执行特征嵌入，同时在特征空间中保留表示和区分性高光信息由于我们的网络的重点是执行第一人称视频总结，marization，我们最后介绍了一个亮点检测网络。如图所示1，这将额外地强制第一人称视频的所得联合特征展现足够的高光信息。通过使用精彩部分和非精彩部分分数，引入的精彩部分检测网络充当二元分类器，其相应地区分相关联的视频片段。所以，我们不像[9，24，28]那样考虑排名损失。相反，在[17]之后，我们将分类损失应用于我们的高光检测模型。为了详细说明此高光检测过程，我们将连接特征{e1，…eB}作为高光检测网络H的输入，用于预测重要性分数si =fH（ei）。请注意，ei = concat（ep，i， es，i），B为每个批次中的实例预测得分和地面实况得分之间的得分损失计算为：1ΣBL评分=−Bi=1yi·log（si），（6）其中，每个地面实况分数si被转换为2-D独热向量yi=（0，1）∨（1，0），并且两个w或kHreturnsa2-Dsoftmaxprediction为了将上述基于片段的视频精彩部分检测扩展到基于序列的预测，我们进一步将所提出的网络架构扩展到序列级，即，现在提供嵌入网络的特征输出作为递归神经网络（RNN）的输入。如[11，17，30]中所建议的，与这种基于RNN的组件的集成允许人们观察视频序列内的片段之间的长期依赖性。虽然最近的基于RNN的模型可以很容易地应用并集成到我们的框架中（例如，基于LSTM的模型[30]，对抗LSTM网络[17]和基于注意力的编码器-解码器网络[11]），我们特别采用[30]中的视频摘要LSTM（vsLSTM）供我们使用。我们注意到vsLSTM由一个双向LSTM（biLSTM）单元和一个单隐藏层MLP组成。biLSTM细胞Sum ma rizin gF ir st-Per sonV ide osfromTh irPer s ons9取级联特征序列E ={e1，…et}作为输入和返回bothforor wardhiddenstateshfororward →−→−hbackward←−←−={h 1，… h t}和向后隐藏状态={h 1，…ht}。这些观察到的隐藏状态将利用和预-提供跨时间段的语义信息在引入基于LSTM的模型时，可以直接部署单隐藏层MLP以用于预测mp或tancesc或esss={ts1，.，在这种情况下，输入的数据将被转换为数据，而E. 因此，更新vsLSTM的评分损失可以通过（6）计算。3.4学习我们的网络值得注意的是，我们提出的网络允许端到端训练，它通过计算以下损失来更新每个组件的参数：Ltotal=Ltri+α·Lrec+β·Ldiff+γ·Lscore，（7）其中α、β、γ是控制总损失相互作用的超参数。除了依赖于具有地面实况分数的视频数据的L分数之外，剩余的损失被计算并且在标记的和未标记的数据上求和。对于基于序列的高光检测网络的学习，实现了两阶段训练方案。也就是说，我们首先使用视频片段对来训练特征嵌入网络，如图所示1（即，基于片段的高光检测网络），然后使用连续视频片段作为输入来联合训练RNN和所得网络。4实验4.1数据集我们现在描述用于实验的数据集（包括我们收集的数据集）。具有完整注释的两个公开可用的数据集SumMe [7]和TV-Sum [23]最近被用于评估视频摘要任务的性能。两者都涵盖了用于摘要目的的各种视频上下文。SumMe由25个用户视频组成，长度从1分钟到6分钟不等，其中提供了帧级重要性分数的注释。在该数据集中，有五个第一人称视频，另一方面，TVSum由从YouTube收集的50个第三人称视频组成，并且每个视频都用帧级重要性分数进行注释。此数据集中的视频被视为第三人称标记数据，用于我们的训练目的。然而，SumMe中的第一人称视频数量远远不足以训练有效的深度学习模型进行摘要。因此，按照[28]的过程，我们还创建了一个新的第一人称数据集，其中包含来自YouTube的各种类别的第一人称视频以及相应的帧级重要性分数。10H.-我何伟-C. Chiu和Y.-C. F. 王表2.实验中考虑的视频数据集的描述和属性数据集视频类型视频总长度#SumMe第一人14分钟5测试是第三人50分钟20培训（VT）是TvSum第三人210分钟50培训（VT）是FPVSum25%培训（VF）第一人162分钟56 55%培训（VU）是标记的20%测试第一人称314分钟42训练（VU）无未标记在收集第一人称视频的过程中，我们发现YouTube上大量的这类视频不是原始视频，而是编辑过的视频，包括明显的帧不连续性（由用户选择/编辑），视角的转换和不相关的内容。因此，它们不能直接应用并添加到数据收集中以进行训练/测试。另一个观察是关于注释集合的。我们观察到，大多数注释者会在为长视频分配分数时失去因此，我们收集了第一人称视频摘要数据集FPVSum，共有98个视频。除了剪辑或不连续的视频，我们收集的视频数据来自14个不同长度的类别（总共超过7小时）。对于每个类别，大约35%的视频序列被至少10个用户用地面实况分数注释，而其余的被视为未标记的。所考虑数据集的完整讨论和比较见表2。我们注意到，在评估第一人称视频摘要的性能时，只有我们提出的模型可以在半监督设置中实现，而现有的基线和最先进的方法无法在训练期间处理未标记的第一人称视频。4.2实验装置评估指标我们遵循[17，30]中用于视频摘要评估的标准，其中视频摘要的长度小于原始视频总长度假设A是所生成的概要的集合，并且B是由用户注释的重要性分数选择的视频片段的集合，所得到的精确度P和召回率R被定义为：A和B的总重叠持续时间P=总持续时间A和B的总重叠持续时间R=B的总持续时间、（8）.（九）因此，F-测度计算为F = 2 ×P×R/（P + R）× 100%。此外，我们进一步计算曲线下面积（AUC）值的基础上产生的精度召回曲线，这使我们能够执行详细的比较，相对于不同长度的摘要。Sum ma rizin gF ir st-Per sonV ide osfromTh irPer s ons11我们将我们的工作与四个基线（称为随机，均匀，DSN [5]和C3D[26]）和两个最先进的监督视频摘要模型进行比较：TDCNN [28]和vsLSTM [30]。我们首先顺序地描述如何获得四个基线。– 随机：从每个测试视频中随机抽取15%的片段作为亮点。– 均匀：代替随机采样，来自每个测试视频的15%的片段被等距地选择为高光。– DSN：直接使用域分离网络（DSN）[5]来执行跨视图视频摘要。– C3D：我们为每个视频片段提取C3D [26]预训练特征。采用C3D特征作为输入的高光分类器通过分类损失（6）来训练。每个视频中具有前15%预测分数的片段被选择作为精彩部分输出。至于这两种最先进的方法，它们的原始目标和实验设置与我们的半监督方法不同。因此，我们无法直接报告和比较它们的性能。相反，我们使用以下设置来实现他们的作品，以进行公平的比较。– TDCNN：虽然[28]最初设计了一个双流网络，利用了两个视觉特征（即，AlexNet [12]和C3D），为了公平起见，我们仅在实验中比较TDCNN（C3D）我们训练了一个时间高光检测网络，它是建立在一个6层的完全连续的Siam e s e n t t te tt ttsm pptan c ee. s c或e s。Σ上的Los函数对于TDCNN分类器，定义为L对=max 0， 1-s（x高）+s（x非），其中s（xhigh）和s（xnon）是高光和非高光片段的分数。用于学习TDCNN分类器的连体网络的正训练数据和负训练数据对是通过遵循在Sect. 第3.1条– vsLSTM：如[30]所示，它被实现为堆叠视频特征提取器，具有256个隐藏单元的biLSTM和单隐藏层MLP的架构，其中vsLSTM的参数通过使用均方损失来学习请注意，原始的GoogLeNet [25]特征提取器现在被相同的C3D架构所取代我们进一步实验了vsLSTM的另一个变体，使用分类损失作为（6），在[17]中使用。TDCNN和vsLSTM模型都是用VT和VF训练的，并且从具有前15%分数的片段中选择得到的摘要此外，我们还为受控实验实现了我们方法的另外两个变体：– 我们的w/oVU：我们在图中训练我们的模型1，仅具有监督训练数据VT和VF，即，一个完全监督的版本，而无需观察未标记的第一人称视频。– 我们的（非顺序）：代替RNN，我们应用2层全连接网络作为图1中的高光检测网络。1.一、请注意，此变体适用于全监督和半监督设置。12H.-我何伟-C. Chiu和Y.-C. F. 王表3.第一人称视频摘要的性能评估和比较，包括F测量和AUC值。请注意，只有Ours在训练过程中使用了未标记的第一人称视频，而vsLSTM+用我们的分类损失替换了其原始MSE损失方法F-measureAUC值SumMe FPVSum SumMe FPVSum随机16.31215.071--基线均匀DSN [5]15.05322.65815.67019.345-0.2075-0.1662C3D [26]26.94519.5950.20910.1938TDCNN [28]28.62331.1740.23400.2658非顺序我们的无VU35.27237.0980.24890.2904我们38.64938.4090.27330.2962vsLSTM [30]29.85019.901--连续的vsLSTM+我们的无VU31.46835.98026.20437.3660.2421-0.2266-我们41.99138.5720.31650.31204.3定量评价表3总结了我们的框架、基线和最先进的视频摘要算法的定量结果。当比较基于非序列的方法（包括基线）时，由于跨域特征嵌入的学习和未标记训练数据VU的利用，我们的模型产生了有利的结果。最近的C3D和TDCNN方法由于缺乏从跨视频域的数据中学习的能力而无法实现可比的结果我们还观察到，直接使用DSN来汇总跨数据域的视频，而不利用任何跨域标签信息，不能产生令人满意的性能。我们注意到，使用我们提出的模型而不观察未标记的第一人称视频训练数据（即，表3中的我们的w/oV/U）仍然相对于上述最先进的方法执行。这再次验证了我们的跨域嵌入框架的有效性。如表中所示3，我们的方法的完整这是因为vsLSTM只将C3D特征作为输入，而不是设计用于处理跨域视频数据。我们的网络设计的分析我们现在使用我们的模型的变体在非顺序设置中进行对照实验。如表4所示，我们的t表示我们的模型仅使用共享编码器来描述跨域数据，并且我们的排名/我们的MSE是使用相关损失的模型，这在[9，28，30]中提出。最后，Ours* 表示我们的模型，而不执行（5）中的伪三元组损失，而Ours** 表示我们的模型的监督版本（即，而不观察任何未标记的第一人称视频）。从Sum ma rizin gF ir st-Per sonV ide osfromTh irPer s ons13三表4. 分析我们的网络设计和设置。注意，Ours *表示我们的模型不使用任何私有编码器，Ours ranking/Ours MSE表示使用排名和MSE损失作为我们的模型中的评分损失，Ours* 是排除伪三元组损失LU的版本，并且Ours**表示没有观察的版本。未标记数据VU。跨域嵌入得分损失未标记的视频方法TDCNN [28]我们的†我们的排名我们的MSE我们的 *我们的**我们SumMe28.62329.75428.43529.07834.25235.27238.649FPVSum31.17431.02034.00736.04635.48537.09838.409从表4中列出的结果可以清楚地看出，我们的全模型实现了最佳性能。因此，我们的模型设计和上述组件的集成是理想的跨域视频摘要。4.4可视化结果图2示出了在S um M e d at et中的挑战性第一人称测试video这段视频长3分钟，由安装在头盔上的摄像机录制它是典型的第一人称视频，因为视频内容反映了记录器的运动自行车骑手）并且没有特定的对象被有意地聚焦。图中的蓝色条。2指示由用户注释的帧级地面实况分数。绿色、红色和黄色的区间分别对应于我们的模型vsLSTM和TDCNN生成的摘要。红色水平线表示用于分割高光和非高光部分的阈值，如第10节中所述。第3.1条值得注意的是，在该视频中存在两个特定动作，“跳跃”和“下楼梯”。这两个动作类型是非常单一的并且与第一人称视频密切相关，并且因此通常不存在于像SumMe和TvSum数据集中的第三人称视频我们看到，虽然TDCNN和vsLSTM都未能预测这样的精彩时刻，但由于利用了带注释的第三人称和第一人称视频（包括未标记的视频）的信息，我们的模型能够产生令人满意的摘要输出。5结论在本文中，我们提出了一种新的第一人称视频摘要的深度学习架构我们的网络独特地将跨域特征嵌入和高光检测模块集成在一个循环框架中，该框架允许跨视频域提取和适应时空区分性高光信息。此外，为了减轻由于训练期间少量标记的第一人称视频数据而可能的过拟合，引入的自学习方案进一步允许我们利用观察到的信息14H.-我何伟-C. Chiu和Y.-C. F. 王我们F-测量值= 46.15vsLSTMF-测量值= 30.78TDCNNF-测量值= 23.08了图二、 Exampleumarizati onr eultsovideo“V a l p a r a i s o D o w nhill”from Su m M e. 地面实况注释得分以蓝色显示，而我们的模型vsLSTM和TDCNN的预测摘要分别以绿色，红色和黄色显示请注意，红色水平线表示将分数分为突出显示和非突出显示分数的阈值。请注意，我们的方法通过确定移动性来产生期望的结果，例如“jumping”和“going down”。相反，其他人未能捕捉到具有大量错误预测的时刻。从未标记的第一人称视频（即，半监督设置）。除了评估基准数据集外，我们还收集了一个新的第一人称视频数据集。定量和定性的实验结果证实了我们提出的第一人称视频摘要模型的有效性和鲁棒性。致谢本工作得到了台湾科技部的部分支持，资助号为MOST 107-2636-E-009-001和107- 2634-F-002-010。Sum ma rizin gF ir st-Per sonV ide osfromTh irPer s ons15引用1. Abu-El-Haija，S.，Kothari，N.，李，J.，Natsev，P.，Toderici，G.，Varadarajan，B.，Vijayanarasimhan，S.：Youtube-8 m：大规模视频分类基准。1609.08675（2016）2. Betancourt，A. Morerio，P. Regazzoni，C.S.，Rauterberg，M.：第一人称视觉方法的演变：一个调查。 IEEE Transactions on Circuits andSystemsforVideoTechnology（TCSVT）25（5），7443. Bettadapura，V.，Castro，D.，埃萨岛：从以自我为中心的度假视频中发现风景如画的亮点。在：IEEE计算机视觉应用冬季会议（WACV）（2016年）4. Bolanos，M.，Dimiccoli，M.，Radeva，P.：从视觉生活记录走向讲故事：一个新的评论。 IEEETransacti onsonHuman-MachineSystem （ THMS ） 47（1），775. Bousmalis，K.，Trigeorgis，G.，Silberman，N.Krishnan，D.，Erhan，D.：域分离网络。在：神经信息处理系统（NIPS）的进展（2016）6. Fathi，A.，Hodgins J.K. J. M. Bogg：社会交往：第一人称视角。IEEE计算机视觉与模式识别会议（CVPR）（2012）7. Gygli，M.，Grabner，H.，Riemenschneider，H.，Van Gool，L.：从用户视频创建摘要。在：欧洲计算机视觉会议（ECCV）（2014年）8. Gygli，M.，Grabner，H.，Van Gool，L.：通过学习目标的子模混合物的视频摘要IEEE计算机视觉与模式识别会议（CVPR）（2015）9. Gygli，M.，Song，Y.，Cao，L.：Video2gif：从视频自动生成动画GIF在：IEEE计算机视觉和模式识别会议（CVPR）（2016年）10. Hoffer，E.，Ailon，N.：使用三重网络的深度度量学习。在：基于相似性的模式识别国际研讨会（2015）11. 吉志Xiong，K.，彭，Y.，李X：使用基于注意力的编码器-解码器网络的视频摘要。1708.09545（2017）12. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。神经信息处理系统（NIPS）进展（2012）13. Lee Y.J. Ghosh，J.，Grauman，K.：发现重要的人物和物体，以实现自我中心的视频摘要。在：计算机视觉和模式识别（CVPR）IEEE会议论文集（2012年）14. Lee Y.J. Grauman，K.：预测自我中心视频摘要的重要对象。InternalJournalofComuterVisin（IJCV）114（1），3815. Lin，Y.L.，Morariu，V.I.，徐文：录制时进行总结：自我中心视频的基于上下文的高光检测。在： IEEE 计算机视觉研讨会国际会议论文集（2015）16. 吕志，Grauman，K.：故事驱动的摘要，用于以自我为中心的视频。在：IEEE计算机视觉和模式识别会议（CVPR）（2013年）上的17. Mahasseni，B.，Lam，M.，Todorovic，S.：对抗性lstm网络的无监督视频摘要在：IEEE计算机视觉和模式识别会议（CVPR）论文集（2017）16H.-我何伟-C. Chiu和Y.-C. F. 王18. del Molino，A.G.，Tan，C.，Lim，J.H.，Tan，A.H.：以自我为中心的视频总结：全面调查。IEEE Transactions on Human-Machine Systems47（1），6519. 潘 S.J.Yang ， Q. ：迁移学习研究综述 IEEE Transactions onKnowl-e dgeandDataE ng ne ringg（TKDE）22（10），134520. 潘达河Das，A.，吴志，Ernst，J.，Roy-Chowdhury，A.K.：网络视频的弱监督摘要在：IEEE计算机视觉国际会议（ICCV）（2017年）的会议记录21. 帕特尔，V.M.，戈帕兰河Li，R.，切拉帕河：视觉域自适应：一份关于接收和接收设备的调查报告。IEEESignalProcessinMagazine32（3），5322. Sermanet，P.，林奇角Chebotar，Y.，徐，J.，Jang，E.，Schaal，S.，Levine，S.：时间对比网络：从视频中进行自我监督学习IEEE机器人与自动化国际会议（ICRA）论文集（2

下载后可阅读完整内容，剩余1页未读，立即下载