基于多模态图神经网络的人为中心视频亮点检测提升

PDF格式 | 16.39MB | 更新于2025-01-16 | 179 浏览量 | 0 下载量 举报
收藏
本文主要探讨了一种创新的人工智能方法,即"以人为中心的视频亮点检测",旨在从大量的以人为中心的视频中自动识别出值得关注和突出显示的片段。该研究由Uttaran Bhattacharya等人,来自美国马里兰大学帕克分校和Adobe Research团队合作完成。 研究的核心在于提出了一种基于图的表示和自编码器网络的技术。首先,作者构建了一个视频模型,该模型关注多个以人为中心的模态,如姿势和面部表情,通过空间-时间图卷积网络来捕捉这些模态中的活动和交互。这种方法独立于特定领域或用户的偏好,从而提高检测的通用性。 网络的训练目标是将不同模态下人类行为和互动的潜在结构映射到帧级别的亮点评分,即评估每个帧的代表性。这样,系统能够根据这些分数决定哪些帧应被高亮显示,通过连续帧的拼接生成具有吸引力的摘录。这种方法的优势在于,即使在大规模的AVA-Kinetics动作数据集上进行训练后,无需用户偏好或数据集特定的调整,也能在DSH、TVSum、PHD 2和SumMe等多个基准视频亮点数据集上表现出色,与现有最先进的方法相比,平均精度提升4-12%。 文章指出,以人为中心的视频涵盖了众多场景,如体育比赛、演讲、教程、vlogs等,但往往包含冗余内容。通过亮点检测技术,可以有效地帮助用户筛选出精华部分,提升观看体验。研究结果表明,这种方法在自动化视频摘要方面取得了显著的进步,为视频内容管理和个性化推荐提供了有力工具。

相关推荐