基于多模态图神经网络的人为中心视频亮点检测提升

PDF格式 | 16.39MB | 更新于2025-01-16 | 179 浏览量 | 举报

本文主要探讨了一种创新的人工智能方法，即"以人为中心的视频亮点检测"，旨在从大量的以人为中心的视频中自动识别出值得关注和突出显示的片段。该研究由Uttaran Bhattacharya等人，来自美国马里兰大学帕克分校和Adobe Research团队合作完成。研究的核心在于提出了一种基于图的表示和自编码器网络的技术。首先，作者构建了一个视频模型，该模型关注多个以人为中心的模态，如姿势和面部表情，通过空间-时间图卷积网络来捕捉这些模态中的活动和交互。这种方法独立于特定领域或用户的偏好，从而提高检测的通用性。网络的训练目标是将不同模态下人类行为和互动的潜在结构映射到帧级别的亮点评分，即评估每个帧的代表性。这样，系统能够根据这些分数决定哪些帧应被高亮显示，通过连续帧的拼接生成具有吸引力的摘录。这种方法的优势在于，即使在大规模的AVA-Kinetics动作数据集上进行训练后，无需用户偏好或数据集特定的调整，也能在DSH、TVSum、PHD 2和SumMe等多个基准视频亮点数据集上表现出色，与现有最先进的方法相比，平均精度提升4-12%。文章指出，以人为中心的视频涵盖了众多场景，如体育比赛、演讲、教程、vlogs等，但往往包含冗余内容。通过亮点检测技术，可以有效地帮助用户筛选出精华部分，提升观看体验。研究结果表明，这种方法在自动化视频摘要方面取得了显著的进步，为视频内容管理和个性化推荐提供了有力工具。

8159

图2：代表性。我们展示了在姿势空间（左侧）和面部标志

物空间（右侧）中计算的不同代表性值的帧。我们基于代表

性学习突出得分。

[13]，视觉重要性分数[30，15]，子模块混合[16，55]和时

间间隔关系[63，64，65]。虽然我们的目标是突出检测，但

我们的方法受到这些摘要方法的启发。特别是，我们确保我

们的突出得分捕捉到视频中的代表性，并满足鲁棒的特征重

建。多模态学习。大量的工作集中在多模态动作识别[5，45

，33，10]和情感识别[3，26，61，38，39]上。这些方法

观察并结合来自人类表达的多个模态的线索，包括面部、姿

势、声音音调、眼动、手势和步态。现有方法通常使用点和

图对观察到的模态进行建模[33，3，38]，使其适用于学习

特定于动作和情感的特征。在我们的工作中，我们利用了人

类中心视频的可突出摘录可以基于模态确定的事实。遵循最

近的多模态动作和情感识别趋势[33，38]，我们还将在视频

帧中观察到的模态建模为时空图，并利用它们来学习我们的

突出得分。

3.多模态突出检测

在我们的工作中，我们使用术语“模态”来表示对人类活动

和互动敏感的人类表达通道，例如面部、眼睛、身体姿势、

手和步态[5，38，39]。活动构成个体表达，互动发生在其

他人类、生物和

3.1.人类中心模态

在我们的工作中，我们的目标是从视频中检测出感兴趣的时

刻或突出点。本节详细介绍了我们如何利用从视频中观察到

的人类中心模态来检测这些突出点。

非生物对象，与各种行为[56，10]和情感[2，39]相关。我

们认为，人类用户喜欢的人类中心视频的可突出摘录集中在

这些活动和互动上。因此，我们的网络旨在从可观察到的人

类中心模态中学习。对于每个人的每个检测到的模态，我们

的网络利用不同时间实例的相互关系和不同人之间的相互关

系来检测最具代表性的摘录。虽然我们从视频帧的RGB图像

空间中提取这些模态，但我们注意到模态更好地捕捉到了帧

的丰富语义。图像空间表示建立在图像不同部分之间的强度

差异的变体上，没有对不同部分如何物理相互作用的基本见

解。相反，模态基于它们的结构提供了关于这种相互作用的

见解，例如，手臂和腿的相对运动表明某些动作，各种面部

标志物的相对运动表明某些表情和情感。我们构建我们的网

络来明确考虑每个模态的结构以及这些结构随时间的活动和

互动的演变。我们从输入视频中考虑M≥1个可观察到的人类

中心模态。我们假设使用标准的检测和跟踪技术[29，12]提

取模态，并使用一组相互连接的2D或3D点表示，例如面部

的一组2D面部标志物或姿势的一组3D身体关节。为了表示

每个模态m=1，...，M，我们构建一个时空图表示Gm={Vm

，Em}。Vm中的节点表示相应模态的点，Em中的边表示模

态的结构以及该结构随时间的演变。为了充分捕捉这一点，

我们考虑了三种边缘类型：

•

捕捉单个人的节点之间的空间关系的人内边，例如姿势关

节之间的骨骼和面部特征点之间的连接器。这些边表示每

个视频帧上模态的基线结构。

•

连接不同人的相同节点的人际边，例如根节点到根节点，

头部到头部，在每个视频帧上。这些边捕捉了不同人的节

点之间的相互作用。它们对于每对人来说形成一个二分图

，并表示每个视频帧上的人际交互。

•

连接同一人的相同节点的时间边，例如根节点到根节点，头

部到头部，跨多个视频帧。这些边捕捉了这些节点随时间的

演变。它们对于每对视频帧来说形成一个二分图，并表示随

时间的活动和交互的演变。这些节点的空间位置和所有这些

边的组合使得我们的网络能够学习视频中所有人的活动和交

互，并相应地学习亮点得分，而无需对视频领域或用户提供

的偏好有任何先验知识。

剩余10页未读，继续阅读

cpongm

粉丝: 6

基于多模态图神经网络的人为中心视频亮点检测提升

TCFormer：用于以人为中心视觉分析的令牌聚类Transformer

移动设备与感知：以人为中心的新时代

敏捷开发：以人为中心的迭代方法与实践

数据融合matlab代码-iCAN:[BMVC2018]用于以人为对象的交互检测的以实例为中心的注意力网络

人工智能行业：在工作场所以人为中心的AI方法(1).pdf

以人为中心的照顾.doc

chili:以人为中心的编程

在以人为中心的大脑成像空间中表示和检索视频镜头

人工智能行业：在工作场所以人为中心的AI方法（英译中）.pdf

参与式感知:以人为中心的智能感知与计算

最新资源