多维度多模态视觉特征融合的视频描述技术

81 浏览量更新于2024-08-29 2 收藏 885KB PDF 举报

"基于多维度和多模态信息的视频描述方法" 本文主要探讨了一种创新的视频自动描述技术，该技术旨在解决视频内容复杂信息表示的挑战。在视频描述任务中，有效地捕获和融合多维度及多模态信息是至关重要的。作者丁恩杰、刘忠育、刘亚峰和郁万里提出了一个综合方案，结合了迁移学习、图像描述算法以及多层长短期记忆网络（LSTM），以生成准确的视频内容语言描述。首先，他们利用迁移学习来提取视频序列的多维度特征。迁移学习是一种机器学习方法，它利用预训练模型在大规模数据集上的知识，如ImageNet，来提升在新任务上的性能。对于视频，这包括提取静态和动态的特征，涵盖了视频的不同方面，例如静止的背景、运动的对象以及时间序列中的变化。接着，为了获取更深入的语义理解，文章采用了图像描述算法来解析视频的关键帧。这种算法通常涉及卷积神经网络（CNN）和循环神经网络（RNN），尤其是LSTM，它们能够处理序列数据并捕获长期依赖性。通过这种方式，视频中的关键事件和场景可以被转化为文本描述，增强了对视频内容的理解。然后，多层LSTM被用来融合上述的多维度和多模态特征。LSTM是一种特殊的RNN，特别适合处理时间序列数据，因为它能够有效地避免长期依赖性的问题。通过多个层次的LSTM，不同模态的信息（视觉、听觉等）可以被逐步融合，形成一个全面的视频上下文表示。实验结果表明，这种方法相比于现有的视频描述技术，表现出了更好的性能。这可能归因于其对多维度和多模态信息的深入挖掘，以及LSTM在网络中的有效信息融合能力。因此，这项工作为视频内容理解和自动化描述提供了一个强大的工具，对于视频搜索、内容推荐和无障碍通信等领域具有实际应用价值。关键词：视频描述、多模态、迁移学习、长短期记忆网络、循环神经网络。该研究工作对于未来在人工智能和多媒体处理领域的研究有着重要的参考意义，推动了视频内容理解和表达的进一步发展。

2020 年 2 月 Journal on Communications February 2020

第 41 卷第 2 期通信学报 Vol.41

No.2

基于多维度和多模态信息的视频描述方法

丁恩杰

，刘忠育

，刘亚峰

，郁万里

（1. 中国矿业大学物联网（感知矿山）研究中心，江苏徐州 221008；2. 不来德大学电动学与微电子研究所，不来德 28359）

摘要：针对视频自动描述任务中的复杂信息表征问题，提出一种多维度和多模态视觉特征的提取和融合方法。

首先通过迁移学习提取视频序列的静态和动态等多维度特征，并采用图像描述算法提取视频关键帧的语义信息，

完成视频信息的特征表征；然后采用多层长短期记忆网络融合多维度和多模态信息，最终生成视频内容的语言描

述。实验仿真表明，所提方法与目前已有方法相比，在视频自动描述任务中取得了较好的效果。

关键词：视频描述；多模态；迁移学习；长短期记忆网络；循环神经网络

中图分类号：TP391.4

文献标识码：A

doi: 10.11959/j.issn.1000−436x.2020037

Video description method based on multidimensional

and multimodal information

DING Enjie

, LIU Zhongyu

, LIU Yafeng

, YU Wanli

1. IoT/Perception Mine Research Center, China University of Mining & Technology, Xuzhou 221008, China

2. Institute of Electrodynamics and Microelectronics, University of Bremen, Bremen 28359, Germany

Abstract: In order to solve the problem of complex information representation in automatic video description tasks, a

multi-dimensional and multi-modal visual feature extraction and fusion method was proposed. Firstly, multi-dimensional

features such as static and dynamic attributes of the video sequence were extracted by transfer learning, and the image

description algorithm was also used to extract the semantic information of the key frames in the video. By doing this, the

video features extraction was carried out. Then, multi-layer long and short memory networks were used to fuse mul-

ti-dimensional and multi-modal information, and finally generated a language description of the video content. Compared

with the existing methods, experimental simulations results show that the proposed method achieves better results in the

video automatic description task.

Key words: video description, multimodal, transfer learning, long and short term memory network, recurrent neural net-

work

1 引言

随着大数据、计算机算力、机器学习模型不断

发展，视频描述技术再度掀起研究热潮。视频描述

有着十分广泛的应用，如视频检索、视频标注、行

为识别、人机交互、视频内容讲解等场景

[1-2]

。然而

该任务相对复杂，涉及计算机视觉理解和自然语言

处理 2 个领域，本质上属于跨模态的映射问题，现

有的方法还有较大的提升空间

[3]

。

视频描述主要分 2 类。一类是抽象概括一段视

频的主要内容，该类任务的输入通常是一个视频片

段，而输出则是一句或若干句自然语言

[4]

。另一类

则是视频内容的密集描述，通常需要将视频片段中

的人、物、场景状态及其相互关系和变化过程描述

收稿日期：2019–10–21；修回日期：2020–01–14

通信作者：刘忠育，zhongyuliu6@163.com

基金项目：国家重点研发计划基金资助项目（No.2017YFC0804400, No.2017YFC0804401）

Foundation Item: The National Key Research and Development Program of China (No.2017YFC0804400, No.2017YFC0804401)

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38666753

粉丝: 7
资源: 909

多维度多模态视觉特征融合的视频描述技术

基于多维度和多模态信息的视频描述方法.docx

基于自编码器与多模态数据融合的视频推荐方法.docx

基于LBP和Fisherfaces的多模态人脸识别.pdf

基于深度学习框架的多模态动作识别.pdf

改进的KNN算法预测多种线索和模态的维度情感

基于多模态融合与反馈的在线视频推荐系统

基于 transformers 的多模态目标 sentiment 分类方法研究

基于rank-level融合的多模态生物识别系统提升性能

多模态信息融合技术在纸币鉴伪中的应用

多任务学习在多模态脑网络特征融合中的应用研究

最新资源