深度学习架构提升第一人称视频摘要：关键视角与挑战

155 浏览量更新于2024-06-20 收藏 890KB PDF 举报

本文主要探讨了第一人称视频在计算机视觉领域的特殊角色及其挑战。第一人称视频，即由佩戴者拍摄的视角，提供了不同于第三人称视频的独特内容，如个人体验和情感表达，但因为其结构信息较少且难以获取大量标注数据，使得视频摘要这一任务变得复杂。作者何宣义、邱维珍和王玉强针对这个问题，提出了一个新的深度神经网络架构，旨在处理第一人称视频的摘要和区分。他们强调了迁移学习的重要性，即利用已标注的第三人称视频数据来训练模型，然后将其适应第一人称视频的特性。这种方法在半监督环境下实施，通过混合完全注解的第三人称视频、少量注解的第一人称视频以及未标记的第一人称视频来训练模型。这样做可以克服第一人称视频数据标注不足的问题。视频摘要的目标在于从长视频中提取关键信息片段，通常通过挑选最具代表性或检测特定对象来实现。然而，对于第一人称视频，理想的摘要应不仅包含对记录者来说重要的时刻，还应吸引观众的兴趣。由于第一人称与第三人称视角之间的显著差异，设计一个既能在内容上保持一致性，又能捕捉到观看者情感共鸣的摘要算法是一项具有挑战性的任务。文中提到了先前的研究，如[28]，他们尝试利用深度学习处理第一人称视频摘要，但数据集的可用性是一个限制因素。本文的工作旨在填补这个空白，通过创新的方法探索如何在第一人称视频摘要中取得更好的性能，从而提升用户的观看体验。关键词包括视频摘要、第一人称视觉、迁移学习和度量学习，这些都是文章的核心焦点，展示了作者们在解决第一人称视频特殊问题上的理论和技术贡献。总体而言，本文为理解和优化第一人称视频处理提供了一个新的视角和可能的解决方案。

H.-我何伟-C. Chiu和Y.-C. F. 王

表1.现有视频摘要数据集的比较

数据集类型长度视频

数量

注释/评分描述

UT Ego [13]第一人称17小时4个

视频帧，其中包含

重要的人和物

每项的文本描述

在非受控环境中的日

常活动视频

提供文本标签

[29]第二十九话

60小时13

自我总和+凝视

第一人称

15小时21

[27

日]

5秒视频片段

个事件由5个相

机佩戴者

[13]第13话：我的世界

不供公众查阅的

日常生活视频和凝视

数据

不供公众查阅的

完全注释的帧级分数

- GoPro运动的15个类别

Yao等人[28]第一人

100小时600

来自12个注释者

从YouTube

- 未公开提供

SumMe [7] 第

三人称

50分

钟

20个完全注释的帧级分数-原始用户视频包含

第一人称

14 min

至少15个注释者中的5个

有趣的事件

[23]第二十三话第三人3小时30分钟 50个

完全注释的帧级分数-10个类别的50个YouTube视频

来自TRECVid MED任务的20个注释器

提出第一人称7小时56分钟 98

完全注释的帧级分数-14个类别的GoPro观众友好

从YouTube上选择的至少10个注释者视频

活动类; Sun

et al

.[24]通过利用已被编辑为正训练数据的YouTube视频集

合来训练他们的精彩分类器，而负面的则从原始视频中检索。或者，

Gygli

et al

. [9]通过收集从GIF图像网站挖掘的大量训练对来呈现摘要模

型。通过推进序列生成对抗网络，Mahasseni

et al

.[17]通过预测视频关

键帧分布来执行视频摘要

然而，上述方法通常集中于总结第三人称视频，或者具有混合类

型视频的那些视频[7，23]（即，第三人称和第一人称之间没有区

别）。如上所述，由于视觉内容和外观的显著变化（加上由于缺乏足

够量的注释训练数据），突出显示第一人称视频将是特别具有挑战性

的这就是为什么我们选择在半监督环境中解决第一人称视频摘要，并

提出深度迁移学习技术来解决这个问题。

用于视频摘要的数据集最后，我们在表1中总结了用于第一人称和第

三人称视频摘要的现有数据集的特性。 UT Ego [13]注释关键帧，包括

日常生活视频中的重要对象和人物。VideoSet [29]为UT Ego [13]和

Disneyworld [6]中的视频提供了额外的文本标签，包括用于摘要评估

的工具。EgoSum+凝视[27]由从相机佩戴者获得的镜头级注释及其凝

视信息组成。然而，上述第一人称数据集的上下文非常有限（例如，

日常生活、烹饪等。活动）。此外，由于其长持续时间和冗余，观众

难以获得帧级

Yao等人[28]首先提出了一个大规模的数据集，包括从YouTube挖掘

的各种体育视频的帧级符号。与两个广泛使用的数据集SumMe [7]和

TvSum [23]相比，从YouTube中挖掘的大多数第一人称视频要么过度

编辑要么过长，这可能导致非常困难。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习架构提升第一人称视频摘要：关键视角与挑战

如何写好一篇实习总结——范本..doc

中考语文专题复习：记叙文阅读知识梳理.doc

unity 角色控制器 第一人称

unity第一人称角色控制

在unity中如何使用第一人称视角角色移动来进行虚拟仿真漫游，请写出具体操作和代码，需要什么物体来实现第一人称视角角色移动，如何控制物体和摄像机，请写出具体的物体和摄像机

unity3d第一人称漫游步骤

unity第一人称射击游戏

unityfps第一人称fps

unity 第一人称角色视角旋转代码实现

unity第一人称漫游

最新资源

unity 角色控制器第一人称