深度网络驱动的视频文本矫正：修复不准确描述

86 浏览量更新于2024-06-20 收藏 1.08MB PDF 举报

视觉文本校正（VTC）是一种新兴的自然语言处理任务，它聚焦于视频内容的文本描述中的不准确性检测与修正。相比于传统的文本纠错（TC），VTC不仅关注单个单词的拼写错误，而是需要在理解视频上下文的基础上，识别并替换那些可能导致语法错误或上下文不一致的词。阿米尔·马扎赫里和穆巴拉克·沙阿在中佛罗里达大学计算机视觉研究中心提出了一个深度学习框架，通过设计深度网络来解决这个问题。该方法首先采用卷积N-Grams和长短时记忆网络（LSTM）相结合的技术，捕捉单词间的短期和长期依赖关系。在不准确性检测阶段，网络通过对句子中每个单词进行重构，寻找并最大化对不准确单词的重构误差，以此进行定位。接着，在校正阶段，模型将具有最大重构误差的单词视为待修复的候选，将其替换为字典中更合适的词语，本质上这是一个基于字典的分类问题。为了支持VTC的研究，研究者还开发了一种自动构建大规模数据集的方法，这对于训练和评估模型至关重要。实验结果显示，他们的方法在VTC任务上表现出色，揭示了这一领域的挑战，比如如何准确理解视频内容与文本之间的关联，以及如何在保持语法正确性和上下文一致性的同时进行修复。值得注意的是，这项工作填补了视觉文本校正领域的空白，为后续研究提供了一个新颖且具有实际应用潜力的方向。VTC的解决不仅需要深入的自然语言处理技巧，还需要结合计算机视觉技术，以实现对视频内容的深入理解和文本的精准修复。

A. Mazaheri和M. Shah

像对象检测[5，6]，动作分类[7，8]这样的LEMS。类似地，循环神经网

络（RNN）

- 11]，更具体地说，长短期记忆（LSTM）[12]在解决许多自然语言

处理（NLP）问题方面的巨大进步中具有影响力，例如翻译[13]，Para-phrasing[14]，

问答[15-17]等。除了RNN之外，一些NLP作品受益于N-Grams[18，19]。和卷积N-

Grams [20，13]来编码句子中单词的邻域依赖性。[13]中的最新工作显示

了N-Gram卷积在序列到序列翻译任务中优于LSTM方法。因此，在本文

中，我们利用N-Grams卷积和门控线性单元[21]对文本进行编码，并将视

觉特征纳入我们的不准确检测网络中。此外，已经报道了将单词[22，

23]、短语和文档[24，25]的语义编码为向量的研究。所有这些研究的主

要目标是以保留语义关系的方式表示文本数据。在这项研究中，我们

使用表示和远程学习来重构句子的每个词，并且基于重构误差来找到不

准确的词

NLP和CV的进步激发了新一代的问题，这些问题处于NLP和CV的

交叉点。图像/视频字幕

[26

视觉问题回答（VQA）

[29

在字幕任务中，

关于图像/视频的任何正确句子都是可接受的，但在VQA中，问题可

以是关于视觉输入的具体细节。有不同类型的VQA问题，如多项选择

题回答[35]，教科书问题回答（TQA）[36]，视觉识别[36]，视觉验证

[37]，填空（FIB）[38，28，39]等。除了在上述每个作品中的几种类

型的问题之外，还使用了不同种类的输入。[35]中的作者介绍了一个

电影剪辑数据集，其中包含相应的字幕（演员之间的对话）和关于每

个剪辑的问题。TQA [36]是VQA的一种较新形式，其中输入是小学教

科书的一小部分，包括多个段落，数字和关于每个段落的几个问题。

视觉对话[36]的目的是保持关于给定照片的有意义的对话，其中对话

是用户提出的一视觉知识提取[37]问题是验证用户的陈述（例如：

“马会飞吗？”

）

从网络抓取的图像中。

填空（FIB）[38，28，39]与我们的工作关系最密切。FIB是一个提

问任务，其中问题以不完整句子的形式出现在FIB任务中，每个句子

中的空白单词的位置是给定的，目的是找到正确的单词来填补空白。

虽然FIB在某种程度上类似于所提出的VTC任务，但使用简单的FIB方

法来纠正不准确的句子并不简单在FIB问题中，空白的位置是给定

的，而在VTC问题中，需要首先找到句子中不准确的单词，然后用正

确的单词替换它

传统的TC任务，如语法和拼写纠正，在NLP中有丰富的文献。例

如，[40]中的作者训练贝叶斯网络

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度网络驱动的视频文本矫正：修复不准确描述

视觉识别：文档扫描OCR识别

ChatGPT 最强AI视频与图片制作

基于LabVIEW的双目视觉应用的基本步骤中图像校正：使用LabVIEW中的图像处理工具箱对图像进行校正，以消除摄像头之间的畸变。

matlab双目视觉图像校正

opencv 双目视觉:定标、校正、测距

python模糊图像文本识别

深度学习 光照不均匀校正

讲讲雷达目标跟踪的校正

单目标定和双目立体视觉标定校正后，是为了做什么

基于LabVIEW的双目视觉应用的基本步骤中的图像校正具体用些编程

最新资源

深度学习光照不均匀校正