视觉文本校正：深度网络修复视频文本中的不准确性

19 浏览量更新于2023-10-13 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉文本校正阿米尔·马扎赫里和穆巴拉克·沙阿中佛罗里达大学计算机视觉研究中心amirmazaheri@knights.ucf.edushah@crcv.ucf.edu抽象。本文介绍了一个新的问题，称为视觉文本校正（VTC），即，在视频的文本描述中查找并替换不准确的词。我们提出了一个深度网络，它可以同时检测句子中的不准确之处，并通过替换不准确的单词来修复它。我们的方法利用了视频和单词的语义相互依赖性，以及句子中单词的短期和长期关系。我们提出的公式可以通过两个步骤解决采用端到端网络的VTC问题：（1）不准确性检测，以及（2）正确单词预测。在检测步骤中，句子的每个单词被重构，使得用于不准确单词的重构被最大化。我们利用短期和长期的依赖性，分别采用卷积N-Grams和LSTM重建的词向量。对于校正步骤，基本思路简单地将具有最大重构误差的字替换为更好的字。第二步本质上是一个分类问题，其中类是字典中作为替换选项的单词。此外，为了训练和评估我们的模型，我们提出了一种自动构建VTC问题的大型数据集的方法。我们的实验和性能分析表明，该方法提供了非常好的结果，也突出了一般的挑战，在解决VTC问题。据我们所知，这项工作是第一次为视觉文本校正任务。1介绍文本纠错（TC）是自然语言处理（NLP）的一个重要应用。文本校正可以是单个单词自动校正系统的形式，该系统通知用户拼写错误的单词并建议最相似的在本文中，我们制定了一种新的类型的文本校正问题命名为视觉文本校正（VTC）。在VTC中，给定视频和关于视频的句子方面的不准确的文本描述，任务是修复句子的不准确性。不准确性可以是短语或单个单词的形式，并且可能导致语法错误或给定视频的上下文中的不一致。例如，在视频的上下文中，单词“car” ： “He is willing in a car” 导致文本不一致，并且单词“hand”导致不准确（参见图1）。2A. Mazaheri和M. Shah˜ ˜ ˜˜˜3.Σ有人和他握手。有人和他握手。有人摇了摇头。Fig. 1.一个不准确的句子例子为一个给定的视频。VTC的任务是找到不准确的词并用正确的词替换它。为了使问题形式化，令句子S =[w1，w2，…由N组成词是视频 V的准确描述，其中w i∈ {0，1}|V|得双曲正弦值 .|是我们字典里的单词数。|is the number of words in our dictionary. 对于不准确的句子S = [w1，w2，…w N]，VTC的任务是找到不准确的词wt*，其中1 ≤ t*≤N，并且还估计替换词w t。一个句子中可能有几个不准确的单词;但是，我们使用只有一个不准确单词的句子来训练我们的系统尽管如此，我们表明，我们训练的网络可以应用于具有多个不准确单词的句子。我们提出的公式可以通过两个步骤解决采用端到端网络的VTC问题：（1）不准确检测，和（2）正确词预测。图2显示了我们方法的拟议框架。在第一步中，我们通过重建来检测不准确性，即我们将每个单词嵌入到连续向量中，并基于其相邻单词为句子中重构向量与实际词向量之间的大距离意味着不准确的词。对于第二步，基本思想是简单地将具有最大重构误差的字替换为更好的字。第二步本质上是一个分类问题，其中类是字典中作为替换选项的单词。1.1动机为什么视觉文本校正？我们相信职训局是一个极具挑战性和需要解决的问题。在过去的几年里，计算机视觉和自然语言处理（NLP）的集成受到了广泛的关注，并取得了很大的进展。像视频字幕生成、可视问答等问题，是这一进步的突出例子。通过这篇论文，我们开始了一个新的研究路线，VTC在现实世界的系统中有许多潜在的应用，如视频共享应用程序和社交网络的字幕自动校正，基于文本的视频检索系统，自动警察报告验证等。为什么VTC具有挑战性？给定字典中的大量单词，在句子中可以发生许多不同的单词组合比如有|V|可能的三元组组合的单词从字典的大小|这使得预先选择所有可能的正确组合是不切实际的。|, which makes pre-selection ofall possible correct combinations impractical.不准确的句子：不准确度检测：视觉文本校正3输入文本：描述不准确有人握着他的手。词语嵌入转化N-克短期实习LSTMs长期依赖性编码文本门控视觉偏倚通过重建检测单词分类有人和他握手。输入视频：准确描述：有人摇了摇头。C3dVGG19图二、视觉文本校正的建议框架目标是找到并替换给定视频的描述性句子中的不准确单词。有两个主要模块：1）不准确检测模块找到不准确的单词，以及2）正确单词预测模块预测准确的单词作为替换。这两个模块都使用编码的文本和视觉特征。不准确性检测使用视觉门控偏置来检测不准确性，并且单词预测模块使用有效的方法来编码句子和视觉特征来预测正确的单词。此外，在许多情况下，即使是有意义的单词组合也可能导致不正确或不一致的句子。此外，句子可以在长度上变化，并且不准确可以在句子的开头、中间或结尾。最后但并非最不重要的是，VTC方法必须找到不准确的地方，并选择最佳的替代方案来修复它。视频可以提供除文本之外的有用信息，因为句子的一些词（如动词和名词）需要与视频语义（如视频中存在的对象和动作）一致。1.2贡献本文的贡献有三个方面。首先，我们介绍了新的VTC问题。其次，我们提出了一个原则性的方法来解决VTC问题，通过分解成不准确的词检测和正确的词预测步骤的问题。我们提出了一种新的句子编码器和门控方法来融合视觉和文本输入。第三，我们提供了一种有效的方法来构建一个大型数据集来训练我们的深度网络并进行实验。我们还表明，我们的方法是适用于多个不准确的句子。2相关工作在过去的几年中，深度卷积神经网络（CNN）[1-4A. Mazaheri和M. Shah像对象检测[5，6]，动作分类[7，8]这样的LEMS。类似地，循环神经网络（RNN）[9 - 11]，更具体地说，长短期记忆（LSTM）[12]在解决许多自然语言处理（NLP）问题方面的巨大进步中具有影响力，例如翻译[13]，Para-phrasing[14]，问答[15-17]等。除了RNN之外，一些NLP作品受益于N-Grams[18，19]。和卷积N-Grams [20，13]来编码句子中单词的邻域依赖性。[13]中的最新工作显示了N-Gram卷积在序列到序列翻译任务中优于LSTM方法。因此，在本文中，我们利用N-Grams卷积和门控线性单元[21]对文本进行编码，并将视觉特征纳入我们的不准确检测网络中。此外，已经报道了将单词[22，23]、短语和文档[24，25]的语义编码为向量的研究。所有这些研究的主要目标是以保留语义关系的方式表示文本数据。在这项研究中，我们使用表示和远程学习来重构句子的每个词，并且基于重构误差来找到不准确的词NLP和CV的进步激发了新一代的问题，这些问题处于NLP和CV的交叉点。图像/视频字幕[26视觉问题回答（VQA）[29在字幕任务中，关于图像/视频的任何正确句子都是可接受的，但在VQA中，问题可以是关于视觉输入的具体细节。有不同类型的VQA问题，如多项选择题回答[35]，教科书问题回答（TQA）[36]，视觉识别[36]，视觉验证[37]，填空（FIB）[38，28，39]等。除了在上述每个作品中的几种类型的问题之外，还使用了不同种类的输入。[35]中的作者介绍了一个电影剪辑数据集，其中包含相应的字幕（演员之间的对话）和关于每个剪辑的问题。TQA [36]是VQA的一种较新形式，其中输入是小学教科书的一小部分，包括多个段落，数字和关于每个段落的几个问题。视觉对话[36]的目的是保持关于给定照片的有意义的对话，其中对话是用户提出的一视觉知识提取[37]问题是验证用户的陈述（例如：“马会飞吗？”）从网络抓取的图像中。填空（FIB）[38，28，39]与我们的工作关系最密切。FIB是一个提问任务，其中问题以不完整句子的形式出现在FIB任务中，每个句子中的空白单词的位置是给定的，目的是找到正确的单词来填补空白。虽然FIB在某种程度上类似于所提出的VTC任务，但使用简单的FIB方法来纠正不准确的句子并不简单在FIB问题中，空白的位置是给定的，而在VTC问题中，需要首先找到句子中不准确的单词，然后用正确的单词替换它传统的TC任务，如语法和拼写纠正，在NLP中有丰富的文献。例如，[40]中的作者训练贝叶斯网络视觉文本校正5˜˜ ˜˜t*˜˜在一个句子中找到正确的拼错的单词。另一行作品如[41，42]，试图改写一个句子来修复语法异常。相比之下to works in [40，43，41，41，42]，在我们的问题中没有拼写错误的单词，并且我们甚至在句子的语法结构正确的情况下解决了VTC问题。此外，重新排序句子中的单词[42]不能解决我们的问题，因为我们需要在保持句子结构的同时检测和替换单个单词。此外，这是第一个在文本校正任务中使用视频的工作。3方法为了公式化VTC问题，假设S =[w1，w2，… 是视频V的给定句子。我们的目标是找到不正确的词t*的索引，并用w*t*纠正它，如下所示：（t*，w*）=a rgmaxp（（t，wt）|S~，V），（1）1≤t≤N，wt∈β其中w i∈{0，1}|V|是表示句子中第i个单词的独热向量，|V|是字典的大小，N是句子的长度。此外，βV表示所有潜在替换词的集合。由于t*和w*t* 是顺序相关的，我们将等式1分解为两个子任务：单词检测不准确，如：tt=arg max p（t| S，V），（2）1≤t≤N而准确的词w*t*预测为：w*t*= arg max p（w| S，V，t*）。（三）w∈β3.1不准确检测我们提出的检测重建方法，找到最不准确的词在一个句子中，利用句子中的词之间的语义关系。在我们的方法中，一个句子中的每个单词被重建，使得不准确的单词的重建被最大化。为此，我们使用可训练查找表θ x ∈ R为每个对应的词w i构建嵌入词向量xi ∈Rdx|V|×dx.我们利用短期和长期依赖分别采用卷积N-Grams和LSTM重建的词向量。短期依赖性：卷积N-Gram网络[13]捕获每个单词周围的短期依赖关系。句子的长度可以变化主要6A. Mazaheri和M. Shah不N-Gram方法的优点是其对破坏长句中的单词的鲁棒性，因为它只考虑每个单词周围的相邻块。设X=[x1; x2;. . . ;XN]是表示嵌入的词向量的堆叠向量。由于每个单词的位置提供了关于该单词在句子中的正确性的额外信息，因此我们将其与单词向量X相结合。我们不把p∈Rdx定义为一个词的定义向量，也不把它定义为一个句子的一行我们使用pt值作为每个句子的对应词向量xt的门，并得到最终组合I：It=xt⊙σ（pt），（4）其中⊙表示逐元素乘法，并且I∈RN×dx是具有2dx滤波器和m的感受野大小的一维卷积的输入。我们称所得的激活向量C∈RN×2dx。此外，我们使用门控线性单元（GLU）[21]作为非线性激活函数。首先，我们沿着深度维度将C[A，B]=C，Φ=A⊙σ（B），（五）其中A，B∈RN×dx，Φ=[φ1;φ2;. . . ;φN]，且dφi∈Rdx. 这一设计是将B矩阵用作矩阵A的门。打开的门让输入通过，关闭的门将输入变为零。通过堆叠多个1-D卷积和GLU激活函数，模型变得更深，并且感受野变得更小。更大来自每一层的输出Φ是下一层的输入I 我们称最终输出 Φ为C-非线性N-图，X∈RN×dx。在图3中，我们示出了N-Gram编码的一个层。长期依赖性：递归网络，特别是LSTM，已经成功地用于捕获序列中的长期关系。长时间的联系有利于理解文本的意义，也有利于发现文本中可能存在的错误。为了使用LSTM基于句子的其余部分重构词向量，我们为句子中的每个词定义左片段和右片段左边的片段从句子的第一个词开始，到所考虑的词之前的一个词;而右片段是从句子的最后一个词到以相反顺序在考虑中的词之后的一个词。我们使用LSTM对左右每个片段进行编码，并提取LSTM的最后一个隐藏状态向量作为编码片段：xR= Wc×[ul|（6）tt不当reul/r∈R包含该工作的l个eft/right框架的编码向量时且Wc∈Rdx×2h是一个可用于对该[ul] 进行遍历的可解集|ur]intotheexR.不t t视觉文本校正7VI=X（P）…A，$=&Φ=A）（$）门控线性单元(a)（b）第（1）款图三. (a)一层卷积文本编码，捕获相邻关系。为了将一个层扩展到多个层，我们简单地将φi向量视为下一层的I i。(b)我们提出的视觉门控偏置过程。给定每个词向量，我们通过门控过程过滤掉给定视觉特征的一些部分。检测模块：我们设计了一个模块来学习一个实际的wordvectorxt和这个reecon结构dxtasexplaineda bove之间的距离。Thismodule学习为不准确的单词分配更大的距离，并如下重建预测D=Wxtxt×（⊙），（7）tdxtxt当Wd∈R1×dx时，Dt是一个空间. xt是xetencoding的输出namely，xt=xCforConvolutionalN-Gramsorxt=xRincaseofRecurrett t不是w或ks。Next，wecombinebothasavectorxt=xR+xCtocapturebothlongt t句子的术语和短期依赖性。为了简单起见，我们将距离模块设计为单层网络;但是，它可以是更深层的网络。作为门控偏差的视觉特征：视觉特征可以有助于发现视频描述中的不准确性;然而，这可能是非常具有挑战性的，因为某些新的数据可能不被复制到一个新的数据库中。G. “we at he r”），而其他存储器可能会被复制到信息电视中的应用程序（例如，G. 'c at '）。我们引入了一个门控模型，将视觉功能来衡量每个字的不一致性。主要思想是为每个单词的视觉特征找到一个动态向量，如下所示（见图3）：V=Wv×其中，Ω（V）∈ Rdv是视觉特征向量，Wv∈ Rdx×dv是视觉特征的变换矩阵。我们为每个词向量xt构建视觉偏差vt：ΨVv=⊙σ（[W ×x]），（9）tΨgt……）⊙）. . . ⊙视觉特征）⊙）⊙. . .一维卷积网络. . .单词N视觉偏差Word 1视觉偏差. . .. . .字N. . .⊙字1⊙⊙⊙……8A. Mazaheri和M. ShahWg ∈Rdx×dx是变换矩阵，且表示向量的L2-范数。Sigmoid（σ（. ））运算符将其输入限制为（0， 1）。它使模型能够动态地拒绝或接受句子中每个单词的视觉特征将V向量并入等式7中的最直观方式是将它们用作偏置项。事实上，被词门拒绝的特征将具有零值并且将充当中性。因此，我们使用具有视频贡献的等式7的以下D=Wxtxt×（⊙v），（10）tdxtxtt其中，表示逐元素求和。对于检测过程的最后一步，我们找到具有最大值的单词D值：t*= arg max（Dt）。（十一）1≤t≤N检测损失：我们使用交叉熵作为检测损失函数。给定地面实况独热向量y∈ {0， 1}N，其指示不准确的词，并且T*=softmax（D）作为概率，我们计算检测损失ld。3.2正确的单词预测我们提出的方法来解决VTC问题的第二阶段是预测一个替代字的不准确的字。提出的正确词预测包括三个子模块：1-文本编码器，2-视频编码器，和3-推理子模块。文本编码器：这个子模块必须以这样一种方式对输入的句子进行编码，以便能够对输入的句子进行解码。我们使用向量x（等式7）来检测重建结构，只要向量足够丰富以检测重建误差的不准确性。我们可以将不准确检测的输出t* 馈送到我们的精确单词预测网络;然而，等式11中的argmax算子是不可微的，并且阻止我们端到端地训练我们的模型。为了解决这个问题，我们通过向量T=Softmax（D）来近似等式11，该向量由句子中N个单词中的每个单词不正确的概率组成。我们构建编码的文本向量qt：qt=tanh（Wq×xt），（12）其中Wq∈Rdq×dx是可训练矩阵。qt∈Rdq实际上是文本描述的假设表示。更具体地说，qt是编码的句子，假设t是不正确的词，要替换视觉文本校正9Σu=Tq。（13）qt*根据公式12，最后是文本表述uq∈Rdq被公式化为所有qt向量上的加权和：N∗不t=1不是那个，是那个。）向量具有有界值。视频编码：我们利用视频信息来找到一个句子的准确单词。当文本格式可以针对每个位置单独地预测单词时，视觉特征可以帮助其基于视频预测更好的单词我们提取视觉特征向量Ω（V），并使用全连接层计算我们的视频编码：uV=tanh（WV×Ω（V）），（14）其中WV∈Rdq×dv，uV∈Rdq是我们的视觉表示，它有界值。为了简单起见，我们仅使用了一层视频编码;然而，它可以是更深和更复杂的网络。推理：对于推理，我们从字典中选择正确的替代词。事实上，这相当于一个分类问题，其中类是单词，输入是文本表示和视觉特征：n= arg max（Wi×[uq+uV]），（15）w∈β其中Wi ∈ R|β| ×dq. 最后，我们使用交叉熵来计算正确的单词预测损失，即lf我们的VTC方法的总损失是l=lf+ld，并且我们一起训练两个子任务。4数据集和实验4.1数据集在本节中，我们将描述我们的视觉文本校正数据集及其生成方法。我们为VTC任务构建数据集的方法背后的主要思想是从每个句子中删除一个单词，并用一个不准确的单词替换它;然而，为了建立一个真实的数据集，有几个挑战需要解决。在这里，我们列出了一些挑战，并提出了我们应对这些挑战的方法。我们的目标是构建一个包含各种带有文本描述的视频的大型数据集。我们要求数据集的词汇表和视频样本的数量足够大，以训练深度网络;因此我们选择“大规模模型D e s c r i p t i on C h al l e n ge（LS MD C）”[ 38，44]，其中一个是深度网络。W10A. Mazaheri和M. Shah最大的视频描述数据集可用。此外， LSMDC 已经被注释为“Vi_id_eo_Fill_in_the_Blan_k（FIB）”。在本发明中，一个表格包含一个或多个需要填写的空格对于VTC问题，我们引入不准确的词来代替FIB数据集中的空白。如果FIB数据集的句子中有多个空格，我们会生成该句子的多个示例。请注意，有一些重要的点与选择的替代工作或数据，其中hichweneedtoke epinmin d。第一，原始词和替换词之间的相关性不高。例如，如果我们用“bicyclic”来表示“car”，则许多数据将被删除，并且将在所有数据项中使用“car”来重新执行“bicyclic”。例如，我们希望我们的句子看起来自然，即使在单词替换之后。因此，重新设计的工作必须具有“Par t O f S p ee c h“（P O S）标签。例如，一个单数动词最好用另一个单数动词代替。手动注释和选择每个样本的替换词的成本很高，因为视频的数量很大，数据集的词汇量很大此外，它是很难为人类注释，以防止原始和替换词之间的相关性。我们已经考虑了所有提到的点来构建我们的数据集。下面我们描述如何为VTC问题构建适当的随机放置：在这种方法中，对于LSMDC-FIB数据集中的每个注释空白，我们从字典中随机选择一个单词这种方法显然是引入错误单词的最直接和最简单的方法然而，在该方法中，可能存在对某些特定单词的偏向，因为所选择的不准确单词可能不遵循单词在词典中的自然分布例如，我们有许多单词总共出现不到4或5次通过随机放置方法，稀有词和高频词有相同的机会出现为不准确的词。这是指对某些特定单词的“输入操作记录”这种不平衡的数据集允许任何方法仅基于单词本身而不是上下文中的单词来检测不准确性此外，由于替换词和原始词可能不采用相同的POS标签，因此随机放置方法不能满足上述要求之一POS和自然分布：由于随机位置的弱点，我们引入了一种更复杂的方法，该方法从具有与原始（或准确）单词相同标签的单词集合中选择不准确的我们首先使用自然语言工具包（NLTK）[45]从所有句子中提取所有单词的POS标签，得到32个标签。令Sr是训练句子中至少一次采用标签r（1≤r≤32）的所有单词的集合为了找到一个替代的注释空白字w的标签r在一个句子中，我们从Sr和使用它作为不准确的词。显然，在自然语言中，一些标签比其他标签更常见，因此不正确的单词也是相同的。视觉文本校正11为了从集合中抽取样本，我们使用单词在所有句子中的分布。因此，在训练集中出现次数越多的单词越有可能出现为不准确的单词。因此，不同词的出现误正率相近.通过这种方法，我们可以防止罕见的单词被频繁地选择为不准确的单词，反之亦然。4.2结果检测实验：在这一小节中，我们提出了我们的检测模块的结果，并检查我们的方法与各种设置。结果总结于表1中。下面我们将更详细地解释每个实验随机猜测是在句子中随机选取一个词作为不准确的词。在表1的纯文本实验部分中，我们比较了所有盲实验，其中没有使用视觉特征来检测不准确性。Vanilla LSTM使用一个简单的LSTM，使用一个完全连接的层直接从其隐藏状态中产生Dt单向长期依赖性仅使用等式6中的u1长期依赖性实验使用第3.1节中解释的递归神经网络方法。然而，卷积N-Grams w/o位置嵌入仅使用卷积N-Grams，而没有在第3.1节中解释的每个词的位置的贡献，而卷积N-Grams是第3.1节中完整解释的模块。这两个实验表明了有效性最后，卷积N-Grams+长期依赖使用卷积N-Grams和RNN的组合，如第3.1节所述。最后一个实验揭示了一个句子中单词的短期和长期依赖性对TC任务为了进一步研究我们的方法检测错误单词的强度，我们将我们的方法与商业Web应用程序1进行比较。此应用程序可以检测文本中的结构或语法错误。我们从测试集中提供600个随机样本到Web应用程序，并检查它是否可以检测到不准确性。在表1中，我们显示了我们的方法和上述Web应用程序之间的比较。这个实验显示了我们的结果的优越性，也是我们生成的数据集的质量。在表1的视频和文本实验部分中，我们展示了视频和文本的实验。视觉门控偏置实验表明，我们提出的配方，利用视觉特征的检测子任务的能力。为了显示我们的视觉门控方法的优越性，我们进行视觉特征连接实验。在该实验中，我们将视觉 fetaturvectorv （ V ）与在Equation7using级联和全连接层中的v ec t or s x t和d x t t的一个ch相结合。对于这些实验，我们使用预训练的C3D [8]来计算Ω（V）。1www.grammarly.com12A. Mazaheri和M. Shah不表1.检测实验结果。对于这些实验，我们只是评估不同模型定位不准确单词的能力。方法准确度（%）随机8.3纯文本实验商业Web应用程序18.8香草LSTM28.0单向长期依赖58.0长期依赖67.2转换N-Grams（不带位置嵌入）66.8转化N-克69.0Conv N-Grams +长期依赖性72.5视频和文本实验4.3校正实验在表2中，我们提供了校正任务的结果。注意，校正任务由不准确词检测和正确词预测子任务组成;因此，给定测试样本的正确答案必须具有不准确单词的确切位置以及真实单词预测（等式1中的（t*，w**））。我们的模型-只是文本的实验证明了我们的方法的性能，只有文本信息。我们的C3D模型使用视频和文本，C3D [8]特征作为视觉特征。类似地，我们的VGG19特征模型显示了当VGG19 [46]特征是视觉输入时的结果。在我们的预训练检测模型+预训练FIB [39]实验中，我们使用表1中的最佳检测模型来检测不准确的单词。我们去掉不准确的词，造一个有一个空格的不完整的句子。然后，我们使用一种预先训练的最先进的FIB方法[39]，该方法使用两个阶段的Bi-LSTM（LR/RL LSTM）进行文本编码+C3 D和VGG 19特征+时间和空间注意力，以找到不完整句子的缺失单词。我们展示了我们的方法的优越性，该方法已经过端到端的训练。在检测（表2）和校正（表1）任务两者中，在包括视觉特征之后存在准确性改进。我们还报告了平均精度（MAP）指标，以进行全面的比较。为了测量MAP，我们计算N×|β|所有可能的分数（t*，w*t*）。4.4多个不准确在这里，我们表明，我们的方法是能够被推广到一个以上的不准确的话的句子我们进行了一个新的实验，测试句子中有多个不准确的地方，结果见表3。事实上，我们用一个不准确的词替换LSMDC-FIB测试句子中所有带注释的空白词。我们假设不准确的数量k是给定的Conv N-Grams+长期依赖性+视觉特征串联72.8Conv N-Grams+长期依赖性+可视门控偏倚74.5视觉文本校正13表2.文本校正实验结果。对于校正任务，模型需要成功地定位不准确的单词并提供正确的替换。方法准确度（%）平均动脉压（%）随机0.04≃0Vanilla LSTM - Just Text17.217.7我们的模型-只是文本35.236.9我们的预训练检测模型+预训练FIB [39]36.038.6具有C3D功能38.639.8我们的型号具有VGG19功能38.840.1我们的模型具有VGG19 + C3D功能38.940.7表3.检测和纠正具有多个不准确性的句子的结果。提供了两种类型的准确度评估。(1)基于单词（WB）的准确性：所有正确固定的不正确的单词被独立地计数。(2)基于句子（SB）的准确性：一个句子中所有不准确的词都必须纠正。类似地，报告两种类型的MAP：（1）WB-MAP，其中，每个不正确字一个AP计算。(2)SB-MAP，其中，计算每个句子一个AP，包括所有k个不正确的单词。k表示每个句子中不准确的数量。K =1 2 3 4所有1 2 3 4所有试验样品数量1805 4856 5961 520 30349 1805 2428 1987 130 9575检测WB-Acc. （%）SB-接入（%）Vanilla LSTM - Just Text59 63 67 686659 37 27 1836我们的方法-只是文本80 81 80 808080 65 48 3759我们的方法-文本+视频85 83 83 828385 68 54 3963校正WB-Acc. （%）SB-接入（%）我们的方法-只是文本19 12 12 11319 2≃0 ≃ 05我们的方法-文本+视频24 18 17 171824 4≃0 ≃ 07校正WB-MAP（%）SB-MAP（%）我们的方法-只是文本30 14 10 81230 15 11 917我们的方法-文本+视频35 17 11 71435 18 12 1019但是模型需要定位它们。为了选择每个句子中的错误，我们使用LSMDC-FIB数据集注释。请注意，在训练中，我们使用只包含一个不准确单词的句子，类似于之前的实验。在测试期间，我们将等式11修改为∗i=1，...，K=arg kmax（Dt），其中arg kmax返回前k个不准确的单词候选人在我们的测试集句子中，不准确的单词数量达到十个字。然而，在表3中，我们分别显示了每个k≤4值的句子的检测结果，以及所有k值的总体准确度4.5定性结果我们在图4中展示了几个VTC示例。对于每个样本，我们显示了一个视频帧和相应的句子的不准确性。我们提供了定性的结果，用于在我们的“Ju s t T e xt”和“T e x t + Vi d e o”方法中进行的分析。We不14A. Mazaheri和M. Shah他朝空荡荡的起居室瞥了一眼，然后关上了楼上的门。有人亲吻某人他指着一个大横幅，然后注意到出租车里有一个漂亮的女孩她继续往前走，用挑剔的眼光打量着一件貂皮披肩图4.第一章在这里，我们展示了我们的测试结果的四个样本对于每个样本，我们显示一个视频和一个不准确的句子，检测到的不准确的单词，以及预测的准确的单词替换。绿色表示正确结果，而红色表示错误结果。示出了用于检测和正确单词预测的两列绿色和红色分别表示真输出和假输出。注意，对于VTC任务，仅仅良好的检测或预测是不够的。这两个子任务都需要解决VTC问题。例如，图4中的左下示例示出了对于单词“JustTe xt”和“Text+Videeo”的错误，尽管使用“Text+Video”预测的单词是正确的。5结论我们提出了一个新的文本校正问题的公式，其目标是找到视频描述中的不准确之处，并通过替换不准确的词。我们提出了一种新的方法来利用文本和视觉特征来检测和修复不准确的句子，我们表明我们的方法获得了优异的结果此外，我们介绍了一种方法来产生一个合适的数据集的VTC问题。我们提出的方法提供了一个强大的基线不准确检测和纠正任务的句子与一个或多个不准确。我们相信，我们的工作是在自然语言处理和计算机视觉的交叉相关的研究向前迈进了一步。我们希望这项工作能为VTC未来的研究带来更多令人兴奋的结果。致谢本材料基于国家科学基金会资助的工作。1741431.本材料中表达的任何观点、发现、结论或建议均为作者的观点、发现、结论或建议，不一定反映美国国家科学基金会的观点。视觉文本校正15引用1. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。在：NIPS。（2012年）2. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）3. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。在：CVPR中。（2015年）4. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。arXiv预印本arXiv：1512.03385（2015）5. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR中。（二零零九年）6. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议论文集。（2016）7707. Soomro，K.，Zamir，A.R.，Shah，M.：Ucf101：来自野外视频的101个人类动作类的数据集arXiv预印本arXiv：1212.0402（2012）8. Tran，D.，Bourdev，L.费格斯河托雷萨尼湖Paluri，M.：用三维卷积网络学习时空特征。In：ICCV. （2015年）9. Schuster，M.，Paliwal，K.K.：双向递归神经网络。IEEE Transactions onSignal Processing 45（11）（1997）10. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算第九条第八款（1997）11. Chung，J. Gulcehre角周，K.，Bengio，Y.：门控回流神经网络在序列建模中的实证评价。ArXiv预印本arXiv：1412.3555（2014）12. Malinowski，M.，Rohrbach，M.，Fritz，M.：问问你的神经元：一个基于神经的方法来回答有关图像的问题。在：CVPR中。（2015年）13. Gehring，J.，Auli，M.，Grangier，D.，Yarats，D. Dauphin，Y.N.：卷积序列到序列学习。arXiv预印本arXiv：1705.03122（2017）14. Chen，D.L. Dolan，W.B.：收集高度并行的数据进行释义评估。在：计算语言学协会第49届年会的会议记录：人类语言技术-第1卷，计算机协会（2011）190-20015. Bordes，A.，Usunier，N.，Chopra，S.，Weston，J.：用记忆网络求解大规模简单问题。arXiv预印本arXiv：1506.02075（2015）16. 库马尔，A.，Irsoy，O.，苏，J.，Bradbury，J. English，R.，皮尔斯湾Ondruska，P.，古拉贾尼岛Socher，R.：问我任何事情：用于自然语言处理的动态记忆网络。arXiv预印本arXiv：1506.07285（2015）17. Weston，J.，Chopra，S.，Bordes，A.：记忆网络。ArXiv预印本arXiv：1410.3916（2014）18. 张洪，Chiang，D.：预期计数的Kneser-ney平滑19. Chen，S.F.，Goodman，J.：语言建模平滑技术的实证研究。载于：计算机协会第34届年会会议记录，计算机协会（1996年）31020. Kalchbrenner，N. Grefenstette，E.，Blunsom，P.：一个用于句子建模的卷积神经网络。ArXiv预印本arXiv：1404.2188（2014）21. Dauphin，Y.N.，Fan，A.，Auli，M.，Grangier，D.：使用门控卷积网络进行语言建模。arXiv预印本arXiv：1612.08083（2016）16A. Mazaheri和M. Shah22. Mikolov，T.，Chen，K.，科拉多湾Dean，J.：向量空间中词表示的有效估计。ArXiv预印本arXiv：1301.3781（2013）23. Mikolov，T.，萨茨克弗岛Chen，K.，科罗拉多州科拉多Dean，J.：单词和短语的分布式表示及其组合。在：NIPS。（2013）311124. Le，Q.，Mikolov，T.：句子和文档的分布式表示。第31届机器学习国际会议（ICML-14）论文集。（2014）118825. Dai，A.M.，Olah，C.，Le，Q.V.：使用段落向量的文档嵌入。 arXiv预印本arXiv：1507.07998（2015）26. Vinyals，O.，Toshev，A. Bengio，S.，Erhan，D.：展示和讲述：神经图像字幕生成器。在：CVPR中。（2015年）27. Johnson，J.，Karpathy，A.，李菲菲：Densecap：用于密集字幕的全卷积定位网络。arXiv预印本arXiv：1511.07571（2015）28. Yu，Y.，Ko，H.崔，J.，Kim，G.：端到端的概念词检测视频字幕，检索和问答。在：ProceedingsoftheIEEEConferenceonC〇mputerVisisinandPattermRec 〇 gnitin中。（2017）316529. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。In：ICCV. （2015年）30. Ren，M.，基罗斯河Zemel，R.：探索图像问答的模型和数据。在：NIPS。（2015年）31. Malinowski，M.，Fritz，M.：一种基于不确定输入的真实场景多世界问答方法。在：NIPS。（2014年）32. 阿格拉瓦尔，A.，卢，J，Antol，S.，Mitchell，M. Zitnick，C.L.，Batra，D. ， Parikh ， D. ： Vqa ：可视化问答。 arXiv 预印本 arXiv ： 1505.00468（2015）33. Xiong，C.，Merity，S. Socher，R.：视觉和文本问答的动态记忆网络。arXiv预印本arXiv：1603.01417（2016）34. 张，P.，Goyal，Y.，萨默斯-斯特，D. Batra，D.，Parikh，D.：阴阳：平衡和回答二元视觉问题。arXiv预印本arXiv：1511.05099（2015）35. Tapaswi，M.，Zhu，Y.，Stiefeldam，R.，Torralba，A.，Urtasu

下载后可阅读完整内容，剩余1页未读，立即下载