深度双向模型与特征融合提升视频转文字准确率

需积分: 20 30 浏览量更新于2024-08-13 1 收藏 2.15MB PDF 举报

本文主要探讨了基于深度双向模型和特征融合的视频转文字技术，这是一个在自然语言处理领域极具挑战的研究课题。传统的深度BLSTM模型，结合卷积神经网络(CNN)特征，能够有效地捕捉视频序列中的全局时空关联信息，这对于理解视频内容至关重要。然而，该方法在提升准确率的同时，往往伴随着较高的计算复杂度。为了克服这些问题，研究人员提出了一种深度BMGU模型。这个模型在保持深度BLSTM模型结构优点的同时，通过优化设计提高了计算效率，使得视频转文字的任务在时间和性能上得到了显著提升。这种改进对于实际应用中的实时性和效率有着重要的意义。在特征融合方面，原始视频帧的CNN特征和经过Haar特征预处理后的视频CNN特征被相结合。Haar特征是一种常用的人脸检测和物体识别特征，将其与原始特征融合，增加了训练数据的多样性，有助于提升模型对视频内容的敏感性和表达能力。这种方法不仅丰富了特征表示，而且提高了视频转自然语言描述的质量。实验结果在M-VAD和MPII-MD数据集上验证了这些改进的有效性。相比于基础的S2VT模型，使用深度BMGU模型和特征融合的方法，M-METEOR分数分别从6.7和7.1提高到了8.0和8.3。这表明，新提出的模型明显提升了视频转文字的准确性和语言描述的自然度。这项研究通过深度双向模型和特征融合策略，成功地提升了视频转文字任务的性能，为该领域的研究提供了新的视角和技术手段。它对于视频内容的理解和自动化描述具有重要的理论和实际价值，也为其他多媒体内容分析任务提供了有益的借鉴。

收稿日期：２０１８０３１９；修回日期：２０１８０５０５　　基金项目：国家自然科学基金资助项目（６１６７１２１３）；广州市人体数据科学重点实验室基

金资助项目（２０１６０５０３００１１）

作者简介：宁培阳（１９９２），男，广西南宁人，硕士，主要研究方向为视频理解（５４０４３９３２９＠ｑｑ．ｃｏｍ）；史景伦（１９７７），男，教授，博士，主要研究

方向为异构传感器与多数据融合、深度学习相关智能算法、智能控制；张荣锋（１９８０），男，讲师，博士，主要研究方向为机器学习与视频处理；邱威

（１９９４），男，硕士，主要研究方向为机器学习与推荐系统．

基于深度双向模型和特征融合的视频转文字研究



宁培阳，史景伦，张荣锋，邱　威

（华南理工大学电子与信息学院，广州５１０６４０）

摘　要：自动生成视频的自然语言描述是一个非常具有挑战性的研究热点。基于深度ＢＬＳＴＭ模型和ＣＮＮ特

征的方法，能够学习到视频序列的全局时空关联信息。针对视频转文字时面临的准确率低以及计算复杂度高的

问题，提出了深度ＢＭＧＵ模型，从而在保持深度ＢＬＳＴＭ模型结构优势的同时提高计算效率；还将原始视频帧的

ＣＮＮ特征与经过Ｈａａｒ特征预处理后的视频的ＣＮＮ特征进行后期融合，从而增加了训练特征的多样性，进而提

升了视频转自然语言的实验效果。在ＭＶＡＤ和ＭＰＩＩＭＤ数据集中，相对原Ｓ２ＶＴ模型，所提方法分别将ＭＥＴＥＯＲ

分数从６．７和７．１提高到８．０和８．３。结果表明所提方法有效地改善了原Ｓ２ＶＴ模型的准确率和语言描述效果。

关键词：视频转文字；深度双向模型；哈尔特征；特征融合；卷积神经网络

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０１０６８０３１７０４

ｄｏｉ

：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０３．０４８８

Ｒｅｓｅａｒｃｈｏｎｖｉｄｅｏｄｅｓｃｒｉｐｔｉｏｎｂａｓｅｄｏｎｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｍｏｄｅｌａｎｄｆｅａｔｕｒｅｆｕｓｉｏｎ

ＮｉｎｇＰｅｉｙａｎｇ，ＳｈｉＪｉｎｇｌｕｎ，ＺｈａｎｇＲｏｎｇｆｅｎｇ，ＱｉｕＷｅｉ

（ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃ＆ＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０６４０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｕｔｏｍａｔｉｃａｌｌｙｇｅｎｅｒａｔｉｎｇａｎａｔｕｒａｌｌａｎｇｕａｇｅｄｅｓｃｒｉｐｔｉｏｎｏｆａｖｉｄｅｏｉｓａｃｈａｌｌｅｎｇｉｎｇｗｏｒｋｆｏｒｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．Ｔｈｅ

ｍｅｔｈｏｄｂａｓｅｄｏｎｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ（ＤＢＬＳＴＭ）ａｎｄＣＮＮｆｅａｔｕｒｅ，ｈａｓｔｈｅａｂｉｌｉｔｙｔｏｌｅａｒｎｇｌｏｂａｌｓｐａｔｉｏ

ｔｅｍｐｏｒａｌｃｏｒｒｅｌａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｏｆｖｉｄｅｏｓ．Ｆｏｃｕｓｉｎｇｏｎｔｈｅｌｏｗａｃｃｕｒａｃｙａｎｄｈｉｇｈｃｏｍｐｕｔａｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙｏｆｖｉｄｅｏｔｏｔｅｘｔ

，ｔｈｉｓ

ｐａｐｅｒｐｒｏｐｏｓｅｄａｎｅｗｍｅｔｈｏｄ，ｗｈｉｃｈｂａｓｅｄｏｎｔｈｅｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｍｉｎｉｍａｌｇａｔｅｄｕｎｉｔ（ＢＭＧＵ）ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｃｏｍ

ｐｕｔａｔｉｏｎａｌｅｆｆｉｃｉｅｎｃｙｗｈｉｌｅｍａｉｎｔａｉｎｉｎｇｔｈｅａｄｖａｎｔａｇｅｓｉｎｓｔｒｕｃｔｕｒｅｏｆｔｈｅｄｅｅｐＢＬＳＴＭｍｏｄｅｌ．Ｉｎｔｈｅｓａｍｅｔｉｍｅ，ｂｙｍｅｒｇｉｎｇｔｈｅ

ＣＮＮｆｅａｔｕｒｅｏｆｔｈｅｏｒｉｇｉｎａｌｆｒａｍｅｓａｎｄｔｈｅＣＮＮｆｅａｔｕｒｅｏｆｔｈｅｆｒａｍｅｓｗｉｔｈＨａａｒｆｅａｔｕｒｅｉｎｃｒｅａｓｅｄｔｈｅｄｉｖｅｒｓｉｔｙｏｆｔｒａｉｎｉｎｇｆｅａ

ｔｕｒｅｓａｎｄｉｍｐｒｏｖｅｄｔｈｅｅｆｆｅｃｔｏｆｔｈｅｖｉｄｅｏｔｏｔｅｘｔ．ＢｙｕｓｉｎｇｔｈｅｄａｔａｓｅｔｓｏｆＭＶＡＤａｎｄＭＰＩＩＭＤ，ｃｏｍｐａｒｉｎｇｔｏｔｈｅｏｒｉｇｉｎａｌ

Ｓ２ＶＴｍｏｄｅｌ，ｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｎｃｒｅａｓｅｄｔｈｅｓｃｏｒｅｓｆｒｏｍ６．７ｔｏ８．０ａｎｄｆｒｏｍ７．１ｔｏ８．３ｉｎＭＥＴＥＯＲ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔ

ｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｃａｎｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙａｎｄｔｈｅｄｅｓｃｒｉｐｔｉｏｎｏｆｔｈｅｖｉｄｅｏｓｏｆｔｈｅｏｒｉｇｉｎａｌＳ２ＶＴｍｏｄｅｌ．

Ｋｅｙｗｏｒｄｓ：ｖｉｄｅｏｔｏｔｅｘｔ；ｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｍｏｄｅｌ；Ｈａａｒｆｅａｔｕｒｅ；ｆｅａｔｕｒｅｆｕｓｉｏｎ；ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ

０　引言

视频转自然语言（ｖｉｄｅｏｃａｐｔｉｏｎｉｎｇ，又称自动生成视频的自

然语言描述），其主要任务是对视频进行理解和分析，并进一

步获取有用的语义信息，然后将这些视频帧中的语义信息与应

用的语义环境进行关联，从而将视频帧序列转换为自然语言描

述

［１］

。视频转自然语言可用于智能安防、人机交互、视频检索

等诸多领域，具有较高的应用价值和现实意义。

随着深度学习在计算机视觉诸多领域的逐步延伸，以

Ｓ２ＶＴ

［２］

（ｓｅｑｕｅｎｃｅｔｏｓｅｑｕｅｎｃｅｖｉｄｅｏｔｏｔｅｘｔ）为代表的视频转文

字方法在性能上显著地超越了以往的非深度学习方法，但也有

若干方面需要改进。例如，为了获取视频帧中所包含的语义信

息，一般先使用ＣＮＮ模型来提取视频帧的卷积特征

［３］

，卷积特

征中包含视频帧的空间信息。然而，视频描述数据集中的视频

帧常常存在背景繁杂（存在多种对象）的情况，某些ＣＮＮ模型

提取这类视频帧的特征时性能会降低，导致视频转文字方法不

能输出较为准确的自然语言描述。另外，ＬＳＴＭ是Ｓ２ＶＴ方法

的核心模型，它通过将ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ）无门的

结构改进为具有三个门结构和两个隐藏状态的结构，较好地克

服了梯度弥散或梯度爆炸的问题，从而具有较电子的对长序列

信息进行学习和建模的能力

［４，５］

。然而ＬＳＴＭ增加了大量的参

数，降低了方法的计算效率，不利于将其应用于实时性要求高、

计算条件严苛的场合。并且，近年来Ｃｈｕｎｇ等人

［６］

通过实验

发现，门结构的数量越多并不意味着最终的实验效果会更好，

甚至一些较为简单的ＲＮＮ模型在降低了计算复杂度的同时，

还能够收到比ＬＳＴＭ更好的效果。

针对Ｓ２ＶＴ方法中存在的描述准确率低、计算复杂等问

题，本文提出了基于深度双向循环神经网络

［７］

和哈尔特征

［８］

（Ｈａａｒｆｅａｔｕｒｅ）的视频转文字方法，具体如下：首先，针对Ｓ２ＶＴ

模型（其编码层基于单向ＬＳＴＭ）不能充分学习视频序列中前

后帧时序信息的问题，提出基于深度双向ＬＳＴＭ的视频转文字

方法以学习到全局的时间关联信息；其次，针对视频帧具有背

景繁杂的特点，而影响对主体对象特征提取的问题，提出基于

Ｈａａｒ特征预处理的视频帧增强方法，即在使用ＶＧＧ等卷积神

经网络提取视频帧的隐式特征前，通过提取Ｈａａｒ特征对视频

帧进行预处理，以达到抑制繁杂背景信息和强化主体对象信息

的目的；再次，针对深度ＢＬＳＴＭ计算复杂度高的问题，提出基

于深度ＢＭＧＵ的视频转文字方法。实验表明，这种基于简化

模型的方法，不仅能够有效地提高计算效率，而且自然语言描

述的效果也与深度

ＢＬＳＴＭ模型相当。

第３７卷第１期

２０２０年１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３７Ｎｏ１

Ｊａｎ．２０２０

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38544625

粉丝: 5
资源: 870

深度双向模型与特征融合提升视频转文字准确率

基于深度学习和多特征融合的中文电子病历实体识别研究.pdf

基于多特征融合的中文文本分类研究.docx

基于语言引导的深度视频压缩特征的研究

基于文本和图像特征融合的图像分类方法研究

BGnet双目深度估计原理解释

NER模型有哪些经典的神经网络结构

Bert-BiGRU 深度学习算法结合怎么使用

编写代码采用深度学习模型TextCNN、BiLSTM、Bilstm+attention、Textcnn+BiLSTM+Attention进行微博评论数据二分类

SACNN-LSTM-RCtransformer 这是什莫模型

yolov7改进bifan

最新资源