基于多模态变换的文本视觉问答模型

75 浏览量更新于2023-10-25 收藏 2.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9992基于指针增强多模态变换的TextVQARonghang Hu1，2Amanpreet Singh1Trevor Darrell2MarcusRohrbach11 Facebook AI Research（FAIR）2加州大学伯克利分校{ronhang，trevor}@ eecs.berkeley.edu，{asg，mrf}@ fb.com摘要许多视觉场景包含携带关键信息的文本，因此理解图像中的文本对于下游推理任务至关重要。例如，警告标志上的深水标签警告人们危险-TextVQA问：危险是什么？上一篇：水我们的型号：深水型舞台上的格最近的工作探索了TextVQA需要阅读和理解图像中的文本以回答问题的任务。然而，用于TextVQA的现有方法大多基于一对两种模态之间的自定义成对融合机制，并且通过将TextVQA作为分类任务来约束到单个预测步骤在这项工作中，我们提出了一个新的模型，文本VQA任务的基础上，多模态Transformer疑问词视觉对象图像中的文本（丰富的功能）联合嵌入+多模态Transformer我们的模型迭代应答译码“deep”t=0 t=1答案：动态指针建筑伴随着丰富的图像中的文本表示。我们的模型自然地融合不同的模态均匀地嵌入到一个共同的语义空间，自我注意力被应用到模型间和内模态上下文。此外，它支持使用动态指针网络进行迭代答案解码，允许模型通过多步预测而不是一步分类来形成答案。我们的模型在TextVQA任务的三个基准数据集上的表现优于现有方法。1. 介绍作为视觉推理的一个突出任务，视觉问题推理（VQA）任务[4]在两个数据集（例如，[4，17，22，21，20]）和方法（例如，[14、3、6、25、33]）。然而，这些数据集和方法主要集中在场景中的视觉组件。另一方面，他们往往忽视了一个关键的模态-图像中的文本-携带必要的信息，为场景的理解和推理。例如，在图1中，标志上的深水警告人们场景中的危险。为了解决这个缺点，最近提出了新的VQA数据集[44，8，37]，其中明确要求理解和解释图像中的文本，这被称为TextVQA任务。图1.与以前的工作相比（例如，[44]）在TextVQA任务中，我们的模型伴随着图像文本的丰富特征，在联合嵌入空间上使用多模态Transformer处理所有模态，而不是模态之间的成对融合机制。此外，答案预测通过迭代解码与指针，而不是一步分类在一个固定的词汇或复制单个文本标记从图像。TextVQA任务特别要求模型在三种模态上进行查看、阅读和推理：输入问题、图像中的可视内容（例如可视对象）以及图像中的文本。基于图像的OCR结果，已经为TextVQA任务提出了几种方法[44，8，37，7]特别是，LoRRA [44]使用OCR注意分支扩展了以前的VQA模型[43]，并将OCR令牌作为动态词汇添加到答案分类器中，允许从图像中复制单个OCR令牌作为答案。类似地，在[37]中，OCR令牌被分组为块并添加到VQA模型的输出空间。虽然这些方法能够在一定程度上读取图像中的文本，但它们通常依赖于两种模态之间的自定义成对多模态融合机制（诸如以输入问题为条件的对图像区域和文本标记的单跳注意），这限制了模态之间可能的交互的类型。此外，他们将答案预测视为单步分类问题9993答案或从图像复制文本标记此外，以往的基于词嵌入的图像文本特征的表征能力有限，并错过了重要的线索，如外观（例如，字体和颜色）以及图像中文本标记的位置。例如，具有不同字体并且在空间上彼此分开的to-kens通常不属于同一街道标志。在本文中，我们使用我们用于TextVQA任务的新型多模态多副本网格（M4C）模型来解决上述限制，该模型基于Transformer [48]架构，并通过动态指针进行迭代答案解码，如图1所示。我们的模型自然地融合了三种输入模态，并在多模态Transformer中均匀地捕获模态内和模态间的交互，该转换器将来自每个模态的所有实体投影到公共语义嵌入空间中，并应用自我注意机制[38，48]来收集每个实体的关系表示。我们没有将答案预测作为分类任务，而是在多个步骤中执行迭代答案解码，并使用动态指针网络增强我们的答案解码器，该动态指针网络允许以置换不变的方式选择图像中的文本，而不依赖于先前工作（如 LoRRA[44]）中的任何ad-hoc位置索引此外，我们的模型能够在生成的答案中将自己的词汇表与图像中的文本相结合，如图4和图5中的示例所示。最后，我们介绍了一个丰富的表示文本标记在图像中的多线索的基础上，包括其词嵌入，外观，位置和字符级信息。我们在本文中的贡献如下：1）我们表明，多个（两个以上）输入模态可以通过我们的多模态Transformer架构自然融合并联合建模。2)与以前在TextVQA上的工作不同，我们的模型在单个分类步骤之外对答案进行推理，并通过我们的指针增强多步解码器进行预测3)我们采用了丰富的特征表示图像中的文本标记，并表明它比仅基于单词嵌入的特征更好。4)我们的模型在TextVQA任务的三个具有挑战性的数据集上的表现明显优于以前的工作： TextVQA [44]（+25%相对），ST-VQA [8]（+65%相对）tive）和OCR-VQA [37]（+32%相对值）。2. 相关工作VQA基于阅读和理解图像文本。最近，已经提出了一些数据集和方法[44，8，37，7]用于基于图像中的文本的视觉问题回答（称为TextVQA任务）。LoRRA [44]，一个突出的事先工作，这项任务，延长皮提亚[43] VQA的框架，并允许它通过在OCR标记上应用单个注意力跳跃（以问题为条件）并将OCR标记索引包括在答案分类器在[37]中提出了一个概念上类似的此外，其他一些方法[8，7]通过使用OCR输入增强现有VQA模型来实现文本阅读。然而，这些现有的方法受到其简单的图像文本的特征表示，多模态学习方法和一步分类的答案输出的限制。在这项工作中，我们解决这些限制与我们的M4C模型。多式学习在视觉与语言任务视觉和语言任务的早期方法通常通过对一种模态的注意以另一种模态为条件来结合图像和文本，例如基于文本的图像注意（例如，[51，34]）。一些方法已经探索了多模态融合机制，诸如双线性模型（例如，[14，25]），自我关注（例如，[15]）和图形网络（例如，[30]）。受《Transformer》成功的启发[48]和BERT [13]架构在自然语言任务中，最近的几项工作[33，1，47，31，29，45，53，11]也在大规模数据集上应用了基于transformer的图像和文本之间的融合，并具有自监督功能然而，大多数现有的作品对待每一个模态与一组特定的参数，这使得他们很难规模更多的投入模态。另一方面，在我们的工作中，我们从每一个模态的所有实体到一个联合嵌入空间和对待他们均匀的所有事物的列表上的Transformer架构。我们的研究结果表明，联合嵌入和自我注意力是有效的建模时，多个（两个以上）的输入方式。使用指针的动态复制。TextVQA任务中的许多答案来自图像中的文本标记，例如书名或街道标志。由于很难在答案词汇表中包含所有可能的文本标记，因此从图像中复制文本通常是答案预测的更容易选择。先前的工作已经探索了基于指针网络[50]及其变体在不同任务中动态复制输入，例如文本摘要[42]，知识检索[52]和图像字幕[35对于TextVQA任务，最近的工作[44，37]已经提出通过将其索引添加到分类器输出来将OCR复制到kens。然而，除了它们仅复制单个标记（或块）的限制之外，这些方法的一个缺点是它们需要预定义数量的OCR标记（因为分类器具有固定的输出维度），并且它们的输出取决于标记的排序。在这项工作中，我们克服了这个缺点，使用置换不变的指针网络与我们的多模态Transformer。9994MnnnKXnMnM嗯嗯3. 多模态多副本网格（M4C）在这项工作中，我们提出了多模态多副本网格（M4C），一种新的方法的TextVQA任务的指针增强的多模态Transformer架构与迭代答案预测的基础上。给定一个问题和一幅图像作为输入，我们从三种模态中提取特征表示-这三种模态分别表示为问题词特征列表、来自现成对象检测器的视觉对象特征列表以及基于外部OCR系统的OCR令牌特征列表。我们的模型将来自三种模态的实体（在我们的情况下，问题词，检测到的对象和检测到的OCR标记）的特征表示作为学习的公共嵌入空间中的向量。然后，在所有投影特征的列表上应用多层Transformer [48]，用模态内和模态间上下文丰富它们的表示。我们的模型通过迭代解码伴随着动态指针网络来学习预测答案。在解码期间，它以自回归方式馈送先前的输出来预测下一个答案分量。在每一步中，它要么从图像中复制一个OCR标记，要么从其固定的答案词汇表中选择一个单词。图2显示了我们模型的概述3.1. 所有模态我们的模型接收来自三种模态的输入--我们为每种模态提取特征表示，并通过特定于领域的嵌入方法将它们投影到一个公共的d维语义空间中，如下所示。疑问词的嵌入。给定一个问题作为K个单词的序列，我们使用预训练的BERT模型将这些单词嵌入到d维特征向量{xques}（其中k=1，· · ·，K）的相应序列中[13]。1在训练过程中，BERT参数使用问题回答损失进行微调。用两个学习的线性变换投影到d维空间（其中d与上面的疑问词嵌入相同），并被求和为最终的对象嵌入{xobj}，如下所示：xobj=LN（W1xfr）+ LN（W2xb）（1）其中W1和W2是学习的投影矩阵。 LN（·）是层归一化[5]，添加在线性变换的输出上，以确保对象嵌入与问题词嵌入具有相同的我们在训练过程中微调FasterR-CNN检测器的最后一使用丰富的表示嵌入OCR令牌。直观地说，要在图像中表示文本，不仅需要对其字符进行编码，还需要对其外观进行编码（例如，颜色、字体和背景）和图像中的空间位置（例如，出现在书籍封面顶部的单词更可能是书籍标题）。我们在我们的模型中遵循这种直觉，并使用由四种类型的特征组成的丰富OCR表示，在我们的实验中，这明显优于先前工作中单独的单词嵌入（如FastText）[44]。在通过外部OCR系统获得图像中的一组N个OCR标记之后，从第n个标记（其中n = 1，···，N）中，我们提取1）300维FastText [9]向量xft，其是具有子词信息的词嵌入，2）通过RoI提取的来自上述对象检测中的相同Faster R-CNN检测器的外观特征x fr。在OCR令牌的边界框上进行池化，3）604维字符金字塔直方图（PHOC）[ 2 ]向量x p，捕获令牌中存在什么字符-这对OCR错误更鲁棒，并且可以被视为粗略的字符模型，以及4）基于OCR令牌的相对边界框坐标[ x min /W im，y min /H im，x max /H im]的4维位置特征b。Wim，ymax/Him]。我们将每个特征线性地投影到d维空间中，并将它们相加（在层归一化之后）作为最终的OCR令牌嵌入{xocr}，如下所xocr=LN（W3xft+W4xfr+W5xp）+ LN（W6xb）（2）n嵌入检测到的对象。给定一个图像，我们无无无无无无无通过预先训练的检测器（在我们的案例中，更快的R-CNN [41]）。关注-在先前的工作[3，43，44]中，我们提取外观特征xfr使用来自第 m 个 OB 的检测器对象（其中m=l，· · ·，M）。来捕捉它的位置在图像中，我们从第m个对象的相对边界框坐标[ x min /W im，y min/H im，x max /W im，y max /H im ]引入4维位置特征xb然后，对外观特征和位置特征进行了其中W3、W4、W5和W6是学习的投影矩阵LN（·）是层归一化。3.2. 基于指针增广变换的多模态融合与迭代答案在将来自每个模态的所有实体（疑问词、视觉对象和OCR标记）作为向量嵌入到d维联合嵌入空间中之后，如第2节中所述。3.1中，我们在来自{xques}、{xobj}和 {xocr} 的所有 K+M+N 个实体的列表上应用 L 个Transformer层[48]的堆栈，其隐藏维度为d。通过多-1在我们的实现中，我们从BERT-BASE的前3层我们发现使用它的前几层而不是使用它的所有12层就足够了，这节省了计算。kmn变压器中头部自关注机制，每个实体允许自由参加所有其他实体，无论9995问题：是输出1OCR评分1输出2OCR得2……OCR得分T限速回答：75英里出口56文石1英里动态指针网络词汇得分1词汇得分2…词汇得分T检测到的物体：…OCR代币：………多模态Transformer层疑问词嵌入检测对象嵌入OCR令牌嵌入先前预测嵌入………问题问题检测到问题检测检测OCR OCR OCR开始>前一个前一个单词1单词2单词K对象1对象2对象M令牌1令牌2令牌N输出1输出T-175什么t，n不nn不不我电话+1不t我我t tt我t，n nt速度限制的这路？车路签署速度限制 75 出口图2.我们的M4C模型概述我们通过特定于域的嵌入方法将所有实体（疑问词、检测到的视觉对象和检测到的OCR标记）投影到共同的d维语义空间中，并在投影的事物列表上应用多个Transformer层。基于Transformer的输出，我们通过迭代自回归解码来预测答案，在每一步中，我们的模型要么通过我们的动态指针网络选择一个OCR令牌，要么从其固定答案词汇中选择一个单词无论它们是否来自同一模态对于前-指针网络，预测复制分数yocr（此处例如，允许一个OCR令牌关注另一个OCR令牌、检测到的对象或疑问词。这使得n=1，· · ·，N），对于每个令牌，经由解码输出zdec与每个OCR令牌通过相同的Transformer参数集以同质方式我们的多模态Transformer的输出是每个模态中实体的d维特征向量的列表，这可以被看作是它们在多模态上下文中的丰富嵌入。我们通过迭代解码预测问题的答案，使用与解码器完全相同的Transformer层。我们以自回归方式对答案逐词解码，总共T步，其中每个解码的单词可以是图像中的OCR令牌或来自我们的固定词汇表的频繁答案单词的单词。如图2所示，在解码过程中的每一步，我们都将嵌入先前预测的单词，并根据Transformer输出将表示形式zocr设置为yocr =（W ocrzocr + bocr）T.其中Wocr和Wdec是d×d矩阵，并且bocr和bdec是d维向量。在预测期间，我们在固定答案词汇分数和动态OCR复制分数的关联yall=[ycr;yocr]上取argmax，从所有V+N候选中选择最高在我们的迭代自回归解码过程中，如果在解码时间步t处的预测是OCR令牌，则我们馈送其OCR表示xocr作为Transformer输入一个动态指针网络。Dec电话+1到下一个预测步骤t +1。否则（该条）-设{zocr，· · ·，zocr}为d维TransformerOUS预测是来自固定答案词汇表的单词1N输出图像中的N个OCR令牌假设我们有一个经常出现在训练集答案中的V字词汇表在第t个解码步骤，Transformer模型输出对应于步骤t的输入xdec的d维矢量zdec（在本节稍后从zdec，我们预测了V维分数y我们将其对应的权重向量w代入等式n。3作为下一步此外，我们添加两个额外的d维向量作为输入--一个固定词汇表单词或OCR标记。类似于ma-t t从固定答案词汇表中选择一个词，- 在解码步骤t从图像中选择OCR标记的N维分数yocr。在我们的实现中，第i个单词（其中i=1，···，V）的固定答案词汇得分被预测为简单的线性层，中文翻译，我们扩大我们的答案词汇与两个特殊标记，和。这里，被用作第一解码步骤的输入，并且我们在被预测之后停止解码过程。为了确保答案解码中的因果关系，我们将y=（w）Tz dec+b（三）注意力的权重在自我注意力层的跨，t我i t i前架构[48]，这样的问题的话，检测其中w是答案词汇表中第i个单词的d维参数，b是标量参数。为了从图像中的N个OCR标记中选择标记，我们使用动态对象和OCR标记不能参与任何解码步骤，并且除了疑问词、检测到的对象和OCR标记之外，所有解码步骤只能参与先前的解码步骤这与[40]中的前缀LM相似。X9996不3.3. 培训在训练过程中，我们在每个解码步骤中监督我们的多模态变换器。类似于序列预测任务，如机器翻译，我们使用教师强迫[28]（即。使用对解码器的基本事实输入）来训练我们的多步回答解码器，其中每个基本事实回答被标记为单词序列。考虑到答案单词可以出现在固定答案词汇和OCR令牌中，我们对级联分数yall应用多标签S形损失（而不是softmax损失）。4. 实验我们在TextVQA任务的三个具有挑战性的数据集上评估了我们的模型，包括TextVQA [44]，ST-VQA [8]和OCR-VQA [37]（我们仅将这些数据集用于研究我们的模型在所有三个数据集上的表现都明显优于以前的工作。4.1. 对TextVQA数据集的评估TextVQA数据集[44]包含来自Open Images数据集[27]的28，408张图像与VQAv2 [17]类似，TextVQA数据集中的每个问题都有10个人工注释的答案，最终的准确性通过10个答案的软投票来衡量。2我们使用d=768作为联合嵌入空间的维数，并使用前三层的768维输出（在训练期间进行微调）使用BERT-BASE提取问题词特征。对于视觉对象，遵循Pythia [43]和LoRRA [44]，我们使用在Visual Genome数据集[26]上预训练的Faster R-CNN检测器[41]检测对象，并在每张图像上保留100个得分最高的对象。然后，从每个检测到的对象提取fc6特征向量。我们在提取的fc 6特征上应用Faster R-CNNfc 7权重，以输出2048维的fc 7外观特征，并在训练期间微调fc 7权重。然而，我们不像LoRRA那样使用ResNet-152卷积特征[19]。最后，我们使用Rosetta OCR系统在每个图像上提取文本标记[10]。与之前的工作LoRRA[44] 在我们的模型中，我们使用了一个只有英语版本的Rosetta，我们发现它有更高的召回率。我们把这两个版本称为罗塞塔-ml和Rosetta-en。如第3.1从每个OCR令牌中，我们提取FastText[9]特征，FasterR-CNN（FRCN）的应用特征，PHOC[2]特征和边界框（bbox）特征。在我们的多模态Transformer中，我们使用L=4层的具有12个关注头的多模态Transformer其他超参数（如脱落率）遵循BERT-BASE [13]。然而，我们注意到，多模式跨-2详情请参见https://visualqa.org/evaluation。前一个参数是从头开始初始化的，而不是从预先训练的BERT模型初始化的。我们使用T=12的最大解码步骤在答案预测中，除非另有说明，这足以覆盖几乎所有的答案。我们从训练集中的答案中收集前5000个频繁单词作为我们的在训练过程中，我们使用128的批量大小，并训练最多 24， 000 次迭代。我们的模型使用 Adamoptimizer进行训练，学习率为1 e-4和阶梯学习率计划，其中我们在14000次和19000次迭代时将学习率乘以0.1。使用验证集精度选择最佳快照整个训练在4个Nvidia Tesla V100 GPU上进行，耗时约10小时。作为对该数据集的一项值得注意的先前工作，我们展示了与LoRRA模型的逐步比较[44]。LoRRA在图像视觉特征和OCR特征上使用两个单跳注意层。然后，将参与的视觉和OCR特征与问题的矢量编码融合，并馈送到单步分类器中，以从训练集中选择频繁答案或从图像中选择单个OCR标记与我们在SEC中丰富的OCR表示不同。在LoRRA模型中，每个OCR令牌仅表示为300维FastText向量。预训练问题编码和OCR系统的烧蚀。首先，我们使用多模态Transformer架构，但在答案预测中没有迭代解码，即，M4C（w/o dec.）表1中在此设置中，我们只进行一步解码，然后从训练集中选择一个频繁答案3，或者复制图像中的单个OCR 令牌作为答案。作为与LoRRA的一步一步的比较，我们从Rosetta-ml中提取OCR令牌开始，仅用FastText向量表示OCR令牌，并在Sec中初始化问题编码参数3.1从头开始（而不是从预先训练的BERT-BASE模型）。结果示于表1的第3行中。与第1行中的LoRRA相比，我们模型的这个受限版本在TextVQA验证集上的性能已经超过LoRRA约3%（绝对值）。这一结果表明，我们的多模态变换器架构是更有效的联合建模的三个输入模态。我们还尝试从GloVe [39]中初始化单词嵌入，如LoRRA中所示，并从头开始其余参数，如第2行所示。然而，我们发现这个设置从零开始初始化所有内容的性能略差，我们怀疑这是由于LoRRA和我们模型中使用的BERT标记器然后，我们在第4行切换到预训练的BERT进行问题编码，在第5行切换比较第3行和第5行，我们可以看到预训练的 BERT 提高了大约 0.6% 的准确率，而Rosetta-en又提高了1%。3在这种情况下，我们预测整个（多词）答案，而不是像完整模型中那样从答案词汇表中预测单个单词。9997#方法问题enc.OCR OCR令牌输出帐户准确基于valontest的预训练系统表示模块1[44]第44话我的世界2M4C w/o dec.GloVe Rosetta-ml FastText分类器29.363M4C w/o dec.（无）Rosetta-ml FastText分类器29.554M4C w/o dec.BERT Rosetta-ml FastText分类器30.155M4C w/o dec.BERT Rosetta-en FastText分类器31.286M4C w/o dec.BERT Rosetta-en FastText + bbox分类器33.327M4C w/o dec.BERT Rosetta-en FastText + bbox + FRCN分类器34.388M4C w/o dec.BERT Rosetta-en FastText + bbox + FRCN + PHOC分类器35.709M4 C（我们的-消融）（无）Rosetta-ml FastText + bbox + FRCN + PHOC解码器36.0610M4 C（我们的-消融）BERT Rosetta-ml FastText + bbox + FRCN + PHOC解码器37.0611M4C（ours）BERT Rosetta-en FastText + bbox + FRCN + PHOC decoder39.4039.01 12 DCD ZJU（ensemble）[32]13 MSFT VTI [46]14 M4 C（我们的;带ST-VQA）BERT Rosetta-en FastText + bbox + FRCN + PHOC解码器40.55 40.46表1.在TextVQA数据集上，我们消融了我们的M4C模型，并与之前的工作LoRRA [44]进行了详细的比较我们的多模态Transformer（第3行与第1行）、丰富的OCR表示（第8行与第5行）和迭代答案预测（第11行与第8行）都显著提高了值得注意的是，即使使用更少的预训练参数，我们的模型仍然比LoRRA高出9.5%（绝对值）（第9行与第1行）。我们的最终模型在没有和有ST-VQA数据集作为额外训练数据的情况下分别达到了39.01%（第11行）和40.46%（第14行）的测试准确率参见第4.1详情65605550454035301 2 4 6 8 10 12最大译码步数T图3.在TextVQA、ST-VQA和OCR-VQA的验证集上的不同最大解码步长T下的准确度单步（T= 1）和多步（T >1）答案预测之间存在很大差距。我们在实验中默认使用12个步骤OCR特征表示的消融我们分析了SEC中丰富的OCR表示的影响。3.1通过表1第5 - 8行中的消融。我们看到OCR位置（bbox）功能和ROI池外观功能（FRCN）都显著提高了性能此外，我们发现PHOC作为OCR令牌的字符级表示也很有与仅使用LoRRA中的FastText功能相比，我们丰富的OCR表示提供了约4%（绝对）的准确性提高我们注意到，我们额外的OCR特征不需要更多的预训练模型，因为我们在OCR外观特征的对象检测中应用了完全相同的Faster R-CNN模型，而PHOC是一个手动设计的特征，不需要预训练。迭代答案解码。然后，我们将我们的完整M4C模型与迭代答案解码应用于TextVQA数据集。结果如表1第11行所示，其比使用单步分类器的第8行中的对应物高约4%（绝对值），比第1行中的LoRRA高13%（绝对值）。此外，我们使用Rosetta-ml消融我们的模型，并在第9行和第10行中随机初始化问题编码参数。在这里，我们可以看到，当使用与LoRRA相同的OCR系统和更少的预训练组件时，第9行中的模型仍然比LoRRA（第1行）高出9.5%（绝对值）我们还分析了我们的模型相对于最大解码步骤的性能，如图3所示，其中多个步骤的解码与单个步骤相比大大提高了性能。图4显示了我们的M4C模型在TextVQA数据集上与LoRRA [44]相比的定性示例（附录中的更多示例），其中我们的模型能够选择多个OCR令牌并将其与预测答案中的固定词汇相结合。定性见解。在检查错误时，我们发现错误的一个主要来源是OCR失败（例如，在图4的最后一个例子中，我们发现手表上的数字没有被检测到）。这表明，我们的模型的准确性可以通过更好的OCR系统来提高，正如表1中第10行和第11行之间的比较所支持的那样。另一个可能的未来方向是基于问题动态地识别图像中的文本（例如，如果问题询问产品品牌的价格，则可能想要直接本地化图像中的品牌名称）。我们的模型的其他一些错误包括解决对象和文本之间的关系然而，我们的模型能够纠正以前工作中的大量错误，其中需要复制多个文本标记来形成答案。TextVQASt-VQAOCR-VQA精度9998最右边窗户上的灯牌上写着什么？谁是今日美国乐队的名字是什么几点了？LoRRA：exitLoRRA：roger zelaznyLoRRA：7LoRRA：1：45M4C（我们的）：百威淡啤M4C（我们的）：凯茜威廉姆斯 M4C（我们的）：灵魂怀疑M4C（我们的）：3：44人类：百威啤酒;所有2升人类：凯西威廉姆斯人类：灵魂怀疑; h。迈克尔不能回答的人：5：40;5：41;5：42;8：00图4.我们的M4C模型在TextVQA验证集上的定性示例（橙色单词来自OCR令牌，蓝色单词来自固定答案词汇表）。与以前的LoRRA [44]从训练集中选择一个答案或仅复制单个OCR令牌相比，我们的模型可以复制多个OCR令牌，并通过迭代解码将它们与其固定词汇相2019年TextVQA挑战赛。我们还比较了2019年TextVQA挑战赛的获奖作品4我们将我们的方法与DCD [32]（挑战获胜者，基于合奏）和MSFT VTI [46]（挑战后的顶级条目）进行了我们发现，我们的单一模型（第11行）在TextVQA测试集上的表现明显优于这些挑战获奖作品。我们还尝试使用ST-VQA数据集[8]作为额外的训练数据（之前的一些挑战参与者使用的做法），这又提高了1%，最终测试准确率为40.46%-这是4.2. ST VQA数据集评价ST-VQA数据集[8]包含来自多个来源的自然图像，包括ICDAR 2013 [24]，ICDAR 2015[23]，ImageNet [12]，VizWiz [18]，IIIT STR [36]，Visual Genome [26]和COCO-Text [49]。5ST-VQA数据集的格式与第4.1.然而，每个问题都只有一个或两个由问题作者提供的真实答案。该数据集涉及三个任务，其任务3 -开放词典（包含18，921个训练验证图像和2，971个测试图像）对应于我们的通用TextVQA设置，其中在测试时不提供答案候选者。ST-VQA数据集采用平均标准化Levenshtein相似性（ANLS）6作为其官方评估指标，定义为得分1−dL（apred，agt）/max（|的pred|、|的gt|）（其中，apred和agt是预测和地面实况答案，dL是编辑距离）对所有问题求平均。此外，所有低于阈值0.5的分数在求平均值之前都被截断为0。为了便于比较，我们报告两个accu-4https://textvqa.org/challenge5我们注意到，在下载的ST-VQA数据中，许多来自COCO-Text[49]的图像（约占所有图像的1/3）因未知原因被调整为256×256，这降低了图像质量并扭曲了它们的纵横比。在我们的实验中，我们将这些图像替换为COCO-Text的原始版本作为对象检测和OCR系统的输入6 https://rrc.cvc.uab.es/? ch=11 com=任务输出准确噪音声级噪音声级#方法模块昂瓦尔昂瓦尔试验1SAN+STR [8]–––0.1352VTA [7]–––0.2823M4C w/o dec.分类器33.520.397–4M4C（我们的）解码器38.050.4720.462表2.在ST-VQA数据集上，我们的无解码器的限制模型已经远远超过了以前的工作。我们的最终模型比挑战获胜者VTA实现了+0.18（绝对）ANLS提升 [7]。参见第4.2详情在我们的实验中，由于ST-VQA数据集没有用于训练和验证的官方分割，我们随机选择17，028张图像作为我们的训练集，并使用剩余的1，893张图像作为我们的验证集。我们在ST-VQA数据集上训练我们的模型，遵循与第二节中的TextVQA实验完全相同的设置（表1中的第11行）。4.1，我们使用Rosetta-en提取图像文本标记，使用FastText+ bbox + FRCN + PHOC作为我们的OCR表示，并从预训练的BERT-BASE模型中初始化问题编码参数。结果示于表2中。我们模型的消融。我们训练了两个版本的模型，一个是受限版本（M4 C w/o dec.在表2中），具有固定的一步分类器作为输出模块（类似于表1中的第8行），以及具有迭代答案解码的一个完整版本（M4 C）。比较这两个模型的结果，可以看出，从我们的迭代答案预测机制有很大的改善。与以前的工作比较。我们在这个数据集上比较了之前的两种方法：1）SAN+STR [8]，它结合了VQA的SAN[51]和用于答案词汇检索的场景文本检索[16]，以及2）VTA [7]，ICDAR 2019年ST-VQA挑战赛6冠军，基于BERT [13]的问题编码和BUTD [3]的VQA。从表2可以看出，我们的限制模型（M4 C w/o dec.）已经实现了比这两个模型更高的ANLS，我们的完整模型实现了高达+0.18（绝对）ANLS9999停车标志出现的街道名称是什么白色的牌子上写着什么？香蕉多少钱一磅？图像中的停车标志是什么？预测：45平行DR预测：东京站预测：99预测：全线停止GT：45度线DRGT：东京站GT：99GT：全程图5.来自ST-VQA验证集上的M4 C模型的定性示例（来自OCR标记的橙色单词和来自固定答案词汇表的蓝色我们的模型可以选择多个OCR标记，并将它们与其固定的词汇表相结合，以预测答案。#方法输出Accu.准确答案，数据集假设这些答案问题可以从书的封面图像中推断出来。我们使用与Sec中相同的超参数来训练模型。4.1和4.2，但使用2倍的总迭代和适应的学习率计划，因为OCR-VQA数据集包含更多的图像。结果示于表3中。与使用一步分类器（M4 C w/o dec.）相比，我们的迭代解码的完整模型实现了更好的准确性，这与图3一致，表3.在OCR-VQA数据集上，我们尝试使用ei-迭代解码器（我们的完整模型）或单步分类器（M4 C w/odec.）作为输出模块，我们的迭代解码器大大提高了精度，并大大优于基线方法。参见第4.3详情这本书的作者是谁这是一本药学书籍吗？预测：纽约时报预测：没有GT：纽约时报GT：不图6.OCR-VQA验证集上来自我们的M4 C模型的定性示例（来自OCR令牌的橙色单词和来自固定答案词汇表的蓝色boost over the best previouswork.我们还在图3中消除了我们模型中的最大复制数量，表明多步（而不是一步）解码是有益的图5显示了我们的模型在ST-VQA数据集上的定性示例。4.3. 对OCR VQA数据集的评价OCR-VQA数据集包含207，572张书籍封面图像每个问题都有一个基本事实多个解码步骤在该数据集上是非常有益的这可能是因为OCR-VQA数据集通常包含多个单词的答案，例如书名和作者姓名。我们比较了[37]中的四种基线方法，这些方法是基于1）卷积网络（CNN）的视觉特征的VQA系统，2）使用手动定义的规则将 OCR 标记分组为文本块（ BLOCK ）， 3 ）图像中所有 OCR 标记的平均word2vec（W2V）特征，以及4）它们的组合。请注意，虽然BLOCK基线也可以选择多个OCR令牌，但它依赖于手动定义的规则来将令牌合并到组中，并且只能选择一个组作为答案，而我们的方法则从数据中学习如何复制OCR令牌来组成答案。与这些基准相比，我们的M4C具有超过15%（绝对）的测试精度。图6显示了我们的模型在此数据集上的定性示例。5. 结论本文提出了一种基于图像文本理解和推理的多模态多拷贝网格（M4C）视觉问答系统。M4C对图像中的文本采用丰富的表示，通过联合嵌入空间上的指针增强多模态变换器架构对所有模态进行联合建模，并通过迭代解码预测答案，在TextVQA任务的三个验证数据集上大幅优于先前的工作。我们的研究结果表明，它是有效的，通过特定领域的嵌入，然后同质的自我注意，并产生复杂的答案，多步解码，而不是一步分类处理多个模态。模块昂瓦尔试验1[37]第37话––42.02美国有线电视新闻网[37]––14.33BLOCK+CNN [37]––41.54BLOCK+CNN+W2V [37]––48.35M4C w/o dec.分类器46.3–6M4C（我们的）解码器63.563.910000引用[1] Chris Alberti，Jeffrey Ling，Michael Collins，and DavidReitter.融合文本中检测到的对象以用于视觉问答。arXiv预印本arXiv：1908.05054，2019。[2] 乔恩·阿尔马兹、阿尔伯特·戈多、艾丽西亚·福恩和欧内斯特·V·阿尔韦尼。单词识别和嵌入式的attribute。IEEETransactionsonPatternAnalysisandMachineIntelligence，36（12）：2552[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页[5] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[6] HediBen-Y

下载后可阅读完整内容，剩余1页未读，立即下载