LaTr：布局感知变压器在场景文本VQA中的优势

134 浏览量更新于2023-10-25 收藏 14.67MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

165480LaTr：面向场景文本VQA的布局感知变压器0Ali Furkan Biten 1*† Ron Litman 2* Yusheng Xie 2 Srikar Appalaraju 2 R. Manmatha 201. 西班牙巴塞罗那自治大学计算机视觉中心，2. 亚马逊AWS AI实验室0abiten@cvc.uab.es { litmanr, yushx, srikara, manmatha } @amazon.com0摘要0我们提出了一种新颖的面向场景文本VQA的多模态架构0文本视觉问答（STVQA）名为Layout-AwareTransformer（LaTr）。STVQA任务要求模型对不同的模态进行推理。因此，我们首先研究了每个模态的影响，并揭示了语言模块的重要性，特别是在丰富布局信息的情况下。考虑到这一点，我们提出了一种只需要文本和空间线索的单一目标预训练方案。我们展示了将此预训练方案应用于扫描文档上，尽管存在领域差异，但具有某些优势。扫描文档易于获取，文本密集且具有各种布局，有助于模型通过将语言和布局信息联系在一起来学习各种空间线索（例如左侧、下方等）。与现有方法相比，我们的方法执行无词汇解码，并且如所示，在训练词汇表之外也具有良好的泛化能力。我们进一步证明LaTr提高了对OCR错误的鲁棒性，这是STVQA失败案例的常见原因。此外，通过利用视觉变换器，我们消除了对外部对象检测器的需求。LaTr在多个数据集上优于最先进的STVQA方法。特别是在TextVQA上提高了7.6％，在ST-VQA上提高了10.8％，在OCR-VQA上提高了4.0％（所有绝对准确性数字）。0扫描文档易于获取，文本密集且具有各种布局，通过将语言和布局信息联系在一起，帮助模型学习各种空间线索（例如左侧、下方等）。与现有方法相比，我们的方法执行无词汇解码，并且如所示，在训练词汇表之外也具有良好的泛化能力。我们进一步证明LaTr提高了对OCR错误的鲁棒性，这是STVQA失败案例的常见原因。此外，通过利用视觉变换器，我们消除了对外部对象检测器的需求。LaTr在多个数据集上优于最先进的STVQA方法。特别是在TextVQA上提高了7.6％，在ST-VQA上提高了10.8％，在OCR-VQA上提高了4.0％（所有绝对准确性数字）。01. 引言0场景文本VQA（STVQA）旨在通过利用图像中的场景文本回答问题。0利用图像中的场景文本。它需要对由各种模态传达的丰富语义信息进行推理-视觉、语言和场景文本。图1(a)描述了STVQA中的代表性样本，展示了模型所需的能力，包括：（1）先验信息和世界知识，例如知道网站的外观（左图）；（2）使用语言、布局和视觉信息的能力（中间和右图）。0在这项工作中，我们介绍了一种面向布局的Transformer模型，用于STVQA。0*作者贡献相等。†在亚马逊实习期间完成的工作。0图1. STVQA中语言和布局的作用。 (a) TextVQA的代表性样本。(b)我们可视化了OCR系统提取的信息，显示一些问题只需要文本特征，一些问题需要文本和布局信息，只有一些问题需要更多。考虑到这一点，我们提出了一种布局感知的预训练和架构。0LaTr是一种基于多模态编码器-解码器变压器的STVQA模型。我们首先探索了在STVQA中语言和布局信息能带我们走多远。在图1(b)中，我们可视化了光学字符识别（OCR）系统[1, 6, 14,38]提取的信息，展示了三种问题类别：第一种类型只需要文本标记就可以回答；第二种类型需要文本和布局信息（右侧与左侧）；第三种类型需要同时利用文本、空间和视觉特征来回答。我们定量地表明，在当前的数据集中，大多数问题都属于前两个类别。为了系统地展示这一点，我们首先在STVQA基准测试上评估了零样本语言模型，然后展示了LaTr只使用文本标记就能正确回答超过50%的问题。接下来，我们展示了通过我们提出的布局感知预训练和架构来丰富语言模态的性能提升。0最近，Yang等人[74]展示了在利用图像中的场景文本方面的优势。0在自然图像上预训练STVQA模型，提出了注重文本的预训练（TAP）方案，旨在促进多模态协作。获取带有文本的大量自然图像具有挑战性且难以扩展，因为大多数自然图像不包含场景文本。cently, integrating reading into the vision and languagetasks has become imperative, especially in VQA and cap-tioning where the models were known to be illiterate [8,58].Since the usage of text can be quite distinct in terms ofthe environment, several papers introduce new datasetsfor various contexts in which text appears; ST-VQA [9],TextVQA [58] in natural images; OCR-VQA [49] in bookand movie covers; DocVQA [47] in scanned documents;InfoVQA [46] in info-graphics. Moreover, STE-VQA [70]is proposed for multi-lingual VQA and TextCaps [57] forcaptioning on natural images. There are several papers pub-lished on scene text VQA. LoRRa [58] extended Pythia [23]with a pointer network [68] to select either from a ﬁxed vo-cabulary or from OCR tokens. M4C [21] also used pointernetworks but instead used multi-modal transformers [66] toencode all modalities together. SA-M4C [25] build on topof M4C by providing supervision on self-attention weights.MM-GNN [16] builds separate graphs for different modali-ties by utilizing graph neural networks [29]. Instead of hav-ing separate graphs for each modality, SMA [15] introducesa single graph that encodes all modalities. [78] proposes touse an attention mechanism to fuse pairwise modalities.165490即使有，文本的数量通常很少（先前的统计数据显示每个图像的中位数仅为6个单词）。此外，更重要的是，TAP在设计预训练目标时没有考虑到将布局信息与语义表示对齐的重要性。0为了克服这些缺点，我们提出了注重布局的预训练方法0我们基于单一目标的预训练仅使用文本和空间线索作为输入。我们的预训练强制模型学习一个考虑到文本和布局信息之间相互作用的联合表示，从而有益于STVQA的下游任务。尽管存在领域差距，但我们发现在文档上进行预训练相比自然图像具有某些优势。扫描文档中包含更多的文本，因此更容易扩展实验并使模型接触更多数据。文档中的单词通常是完整的句子，有助于模型更好地学习简单词袋之外的语义。此外，扫描文档提供了多样的布局，实现了语言和空间特征的有效对齐。最后，无需视觉特征进行预训练可以大大减少计算复杂性。0我们的模型利用视觉变换器[13]进行特征提取0从而取代了对外部物体检测器的广泛需求。此外，在实践中，当前的STVQA模型利用了特定于数据集的词汇表，并使用指针机制进行解码，从而对固定词汇表过度依赖，无法修复OCR错误。我们的模型可以进行无词汇表解码，即使在词汇表之外的答案上也表现良好，并且在某些情况下甚至可以克服OCR错误。LaTr在多个公共基准测试中大幅超越了最先进的STVQA方法。总结起来，我们工作的主要贡献是：1.我们认识到语言和布局在STVQA中的关键作用0我们在STVQA上提出了一种注重布局的预训练和架构来解决这个问题。02.我们确定了文档和布局之间的新共生关系0通过预训练，我们在STVQA上展示了实证结果，表明尽管存在巨大的领域差距，但文档对于联系语言和布局信息是有益的。03.我们展示了现有方法在词汇表外的答案上表现不佳0对于词汇表外的答案，LaTr不需要词汇表，即使在训练词汇表中没有的答案上也表现良好，甚至可以克服OCR错误。04.我们进行了大量实验，并展示了我们方法的有效性0通过在TextVQA上提升7.6％，在ST-VQA上提升10.8％，在OCR-VQA数据集上提升4.0％，验证了我们方法的有效性。02.相关工作0预训练和语言模型。获取语言文本的低成本与预训练的成功相结合0预训练，语言模型[12,40,52,53]在机器翻译、自然语言理解、问题回答等方面取得了显著的成功。最近的许多研究[2,10,22,28,34-37,42,43,61,62,77]表明，预训练多模态架构对于视觉和语言任务是有益的。杨等人[74]首次证明了使用掩码语言建模和图像-文本匹配作为预训练任务在场景文本VQA中的有效性。在本文中，我们展示了通过简单的注重布局的预训练方案将语言和布局信息联系起来对场景文本VQA是有益的。此外，我们在扫描文档上进行预训练，并发现尽管存在领域差距，但文档可以用于STVQA任务。结合场景文本的视觉语言任务。0LaTr通过预训练丰富了语言模态与布局信息。0最近，将阅读整合到视觉和语言任务中变得至关重要，特别是在VQA和字幕中，模型被认为是文盲[8，58]。由于文本的使用在环境方面可能非常不同，因此有几篇论文为文本出现的各种上下文引入了新的数据集；ST-VQA [9]，TextVQA[58]在自然图像中；OCR-VQA [49]在书籍和电影封面中；DocVQA [47]在扫描文档中；InfoVQA[46]在信息图表中。此外，STE-VQA [70]提供了用于多语言VQA的数据集，TextCaps[57]用于自然图像的字幕。有几篇论文发表了关于场景文本VQA的研究。LoRRa [58]使用指针网络[68]扩展了Pythia[23]，以从固定词汇表或OCR标记中选择。M4C[21]也使用了指针网络，但是使用了多模态变压器[66]来一起编码所有模态。SA-M4C[25]在M4C的基础上提供了自注意力权重的监督。MM-GNN[16]通过利用图神经网络[29]为不同的模态构建了单独的图。SMA[15]引入了一个编码所有模态的单一图，而不是为每个模态单独构建图。[78]提出使用注意机制来融合成对的模态。03. 方法0在本节中，我们详细描述了我们的模型架构。0结构和我们的预训练策略，如图2所示。LaTr由三个主要构建块组成。首先，只对文本进行预训练的语言模型。其次，使用OCR标记边界框的空间嵌入与文档的进一步布局感知预训练相结合，如图2（a）所示。最后，使用ViT架构[13]获取视觉特征。��)+(1)165500无法翻译的内容0无法翻译的内容0图2. LaTr的概述。（a）在预训练中，我们只使用文本和空间线索训练语言模态，以共同建模文本和布局信息之间的相互作用。预训练是在大量文档上完成的。文档是一个文本丰富的环境，具有各种布局。（b）在微调中，我们添加来自ViT的视觉特征，从而消除了对外部对象检测器的需求。0图3.布局位置嵌入。利用表示图像中文本布局的2D位置嵌入来丰富语义表示。0视觉特征。我们首先解释每个模块，然后描述所有模块如何作为一个整体结合在一起。0语言模型。我们的LaTr架构基于0Text-to-Text Transfer Transformer（T5[53]）的编码器-解码器变压器架构。除了一些小的修改外，T5的架构与[66]提出的原始变压器基本相同，这使得它可以以各种方式进行扩展。此外，T5预训练中使用的大量预训练数据使其在STVQA中作为模型初始化变得有吸引力。特别是，[53]使用Common Crawl公开可用的网络存档获取了750GB的清理过的英文文本数据子集，他们称之为ColossalClean CrawledCorpus（C4）。在C4上进行的预训练是通过去噪任务完成的，这是掩码语言建模（MLM[12]）的一种变体。我们遵循HuggingFace[63]的实现并使用其权重。01 https://huggingface.co/transformers/model_doc/0t5.html0二维空间嵌入最近的文档理解0文献[5, 72,73]证明了在与Transformer一起工作时布局信息的价值。关键思想是将文本的二维位置信息与语言表示相关联和耦合，即在布局信息和语义表示之间创建更好的对齐。与文档中的单词不同，自然图像中的场景文本可能以任意形状和角度出现（例如，手表表盘上的文本）。因此，我们包括文本的高度和宽度以指示阅读顺序。0正式地，如图3所示，给定OCR标记 O i，0相关的单词边界框可以由 ( x i01 , h i , w i )，其中 ( x i00 ) 对应于0边界框左上角的位置，( x i01 ) 表示右下角的位置，0（h i，wi）表示相对于阅读顺序的高度和宽度。为了嵌入边界框信息，我们使用了一种常用于连续编码独热表示的查找表（例如PyTorch中的nn.Embedding）。在将单词表示馈送到Transformer编码器之前，我们将所有表示相加：0E i = E O ( O i ) + E x ( x i )00 ) + E y ( y i )0E x ( x i 01 ) + E y ( y i )01 ) + E w ( w i ) + E h ( h i )0其中 E i 是OCR标记 O i 的编码表示，E O，E x，E y，Ew，E h 是可学习的查找表。0文本数据，我们进一步进行预训练，以有效地对齐布局信息（以二维空间嵌入的形式）和语义表示。据我们所知，我们是第一个提出在documents instead of natural images for the task of scenetext VQA. The motivation for selecting documents is thatthey are a source of rich text environment in a variety ofcomplex layouts. Inspired by [53], we perform a layout-aware de-noising pre-training task, which includes the 2-Dspatial embedding, as seen in Fig. 2 (a). This enables the useof weak data with no answer annotations in the pre-trainingstage. Like the normal de-noising task, our layout-awarede-noising task masks a span of tokens and forces the modelto predict the masked spans. Unlike the normal de-noisingtask, we also give the model access to the rough locationof the masked tokens, which encourages the model to fullyutilize the layout information when completing this task.}))(2)Vision Transformer (ViT) [13]. The ViT is an image clas-siﬁcation network which is pre-trained and ﬁne-tuned onImageNet [11]. We utilize ViT in our architecture only inthe ﬁne-tuning stage, and we freeze all the layers except thelast fully connected projection layer we add. Formally, animage I having the dimension of H ⇥ W ⇥ C is reshapedinto 2D patches of size N ⇥ (p2 · C), where (H, W) is theheight and width, C is the number of channels, (P, P) isthe resolution of each image patch, and N = HW/P 2 isthe ﬁnal number of patches. As depicted in Fig. 2 (b), weutilize a linear projection layer to map the ﬂattened patchesto D dimensional space and feed them to the ViT. We passthe full ViT output (containing [class] token) sequence to atrainable linear projection layer and then feed it to the trans-former encoder. Position embeddings are added to the patchembeddings to retain positional information. We denote theﬁnal visual output as V = {V0, ..., VN}.165510更正式地说，令 O = { O 1 , O 2 , ..., O n } 为集合0所有OCR标记（字符串）和 B = { B 1 , B 2 ..., B n } 的对应边界框信息，其中 B j = ( x j0将 j 作为起始索引来屏蔽的第 l 个掩码跨度的最大值小于第l+1 个掩码跨度的最小值。然后，以以下方式将 { O j , ..., Oj + k } 和 { B j , ..., B j + k } 替换为 ˜ O i（特殊索引掩码标记）和 ˜ B i （跨度的最小包围框）：0˜ O i = < extra id l >，其中 l ∈ { 0 , ..., k - 1 }，˜ B i = (min( { x i00 )，min( { y i } )0max( { x i01 )，max( { y i } )0其中 j ≤ i ≤ j + k0其中屏蔽标记的边界框的高度和宽度是根据 ˜ B i的坐标计算的。0实质上，我们已经替换了一段单词标记0{ O j , ..., O j + k } 和它们对应的边界框 { B j , ..., B j + k }与一个特殊的标记 ˜ O i和一个相应的“宽松”边界框。换句话说，当我们屏蔽单词的范围时，我们选择左上坐标的最小值和右下坐标的最大值。原因有两个。首先，我们不希望我们的模型知道精确的标记框，因为那样会透露出有多少标记被屏蔽。其次，我们选择不完全屏蔽边界框，因为模型不知道文档中文本应该出现在哪里，不能有效地使用正确的空间上下文。因此，我们防止模型采取捷径，但同时给予足够的信息进行学习。屏蔽的标记 ˜ O i 及其边界框 ˜ B i 然后使用 Eq. ( 1 )嵌入，就像任何其他常规标记一样。我们使用交叉熵损失来预测所有屏蔽标记的原始文本。0ternal pre-trained object detector [ 21 , 74 ]用于提取对象标签、视觉对象特征和视觉OCR特征。在这项工作中，我们与文献不同，利用了一个0LaTr 到目前为止，我们已经解释了我们的构建模块0方法，现在我们描述如何将所有这些组合在一起，如图 2(b)所示。在使用布局信息预训练模型的语言模态之后，我们将所有三种模态输入到变换器编码器中，即图像、OCR信息和问题。设 V = { V 0 , ..., V N } 为一组视觉块特征，其中 V0 是 [ class ] 嵌入，Q = { W 1 , ..., W m }是将问题分词为 W i 的问题。我们使用 Eq. ( 1 )嵌入OCR标记和问题，以获得编码的OCR标记 E和编码的问题特征 E q 。对于每个 W i的二维空间嵌入，我们使用固定值 ( x 0 = y 0 = 0; x 1= y 1 = 1000 )。最后，我们将所有输入 [ V ; E ; E q ]连接起来，馈送到多模态变换器编码器-解码器架构中。我们使用交叉熵损失来微调我们的模型。04. 实验0在本节中，我们通过与最先进的方法进行比较，实验性地检验了我们的方法的性能。我们考虑了TextVQA [ 58]、ST-VQA 2 [ 9 ]和OCR-VQA [ 49]的标准基准。对于预训练，我们考虑了[ 7 , 74]中使用的相同数据集，并增加了工业文档库（IDL）3。IDL是由UCSF托管的一组行业文档，其中包含来自烟草、药品、食品等各个行业的数百万份公开披露的文档。该网站的数据量约为1300万份文档，相当于约6400万页的各种文档图像。我们还使用Textract OCR 4从每个文档中提取OCR。有关所有数据集的实现细节和更多信息，请参阅文献。02 我们使用ST-VQA来表示[9]中提出的数据集，以及STVQA来表示场景文本VQA的一般任务。0表示场景文本VQA的一般任务。03 https://www.industrydocuments.ucsf.edu/ 4https://aws.amazon.com/textract/can be found in Appendix A and B, respectively. We notethat throughout the rest of the paper, ‡ refers to the modelsﬁne-tuned with both TextVQA and ST-VQA, at the sametime. “-Small”, “-Base” and “-Large” model sizes refer toarchitectures that have 6+6, 12+12 and 24+24 layers in en-coder and decoder, respectively. For convenience, we referto LaTr-Base as LaTr.VQA [9] in the unconstrained setting.LaTr uses theAmazon-OCR and is pre-trained on IDL and ﬁne-tunedon the training set of ST-VQA. LaTr‡ is also ﬁne-tunedwith TextVQA. The behaviour observed in TextVQA isconsistent with ST-VQA dataset, LaTr‡-Base and LaTr‡-Large outperforming the previous art [74] by +8.26% and+10.81%, respectively. Moreover, we show a similar trendon OCR-VQA [49] dataset where the discussion and thenumbers can be found in Appendix E.Qualitative AnalysisIn Fig. 4 we depict ﬁve different165520方法 OCR系统预训练数据额外微调参数数量验证准确率测试准确率0M4C [21] Rosetta-en 7 7 200M 39.40 39.010SMA [15] Rosetta-en 7 7 - 40.05 40.660CRN [39] Rosetta-en 7 7 - 40.39 40.960LaAP-Net [20] Rosetta-en 7 7 - 40.68 40.540TAP [74] Rosetta-en TextVQA 7 200M 44.06 -0LaTr-Small Rosetta-en 7 7 149M 41.84 -0LaTr-Base Rosetta-en 7 7 311M 44.06 -0LaTr-Base Rosetta-en IDL 7 311M 48.38 -0SA-M4C [25] Google-OCR 7 ST-VQA 200M 45.4 44.60SMA [15] SBD-Trans OCR 7 ST-VQA - - 45.510M4C [21,74] Microsoft-OCR 7 ST-VQA 200M 45.22 -0TAP [74] Microsoft-OCR TextVQA 7 200M 49.91 49.710TAP [74] Microsoft-OCR TextVQA，ST-VQA ST-VQA 200M 50.57 50.710LOGOS [44] Microsoft-OCR 7 ST-VQA - 51.53 51.080TAP [74] Microsoft-OCR TextVQA，ST-VQA，TextCaps，OCR-CC ST-VQA 200M 54.71 53.970M4C [21] Amazon-OCR 7 7 200M 47.84 -0LaTr-Base Amazon-OCR 7 7 311M 52.29 -0LaTr-Base Amazon-OCR IDL 7 311M 58.03 58.860LaTr ‡ -Base Amazon-OCR IDL ST-VQA 311M 59.53 59.550LaTr-Large Amazon-OCR IDL 7 856M 59.76 59.240LaTr ‡ -Large Amazon-OCR IDL ST-VQA 856M 61.05 61.600表1.TextVQA数据集[58]的结果。通常，表的上半部分呈现了在受限制的设置下只使用TextVQA进行训练和Rosetta进行OCR检测的结果，而下半部分是无约束的设置。LaTr推动了最新性能，验证和测试的提升分别为+6.43%和+7.63%。0TextVQA结果与之前的工作[74]类似，我们对其进行了修改。0定义了两种评估设置。前者是受限制的设置，只使用TextVQA进行训练和Rosetta进行OCR检测。后者是无约束的设置。0在Tab.1的第一部分中，我们展示了在受限制的设置下与最先进方法的最佳性能。可以看出，LaTr-Small的性能优于M4C（+2.44%），并且参数更少。将模型容量增加到LaTr会进一步0性能提升了+2.22%（关于模型容量的讨论可以在附录D中找到）。此外，LaTr在没有任何预训练的情况下，与TAP[74]达到了相同的性能，证明了我们模型的有效性。此外，当LaTr在IDL上进行预训练时，使用RosettaOCR，性能从44.06%提高到48.38%（+4.32%），这清楚地表明了面向扫描文档的布局感知预训练对于场景文本VQA任务的有效性，即使在受限制的设置中也是如此。0在Tab. 1的底部部分，我们修改了OCR系统。0将模型从Rosetta更新到最新版本，并逐渐添加额外的训练数据集（无约束设置）。在这项工作中，我们尝试了Amazon Text-in-Image。0（Amazon-OCR）5[65]。可以看出，当使用Amazon-OCR时，我们的方法优于M4C基线，将性能从47.84%提高到52.29%（+4.45%）。此外，当启用预训练时，LaTr在验证集上的性能从54.71%提高到58.03%（+3.32%），在测试集上从53.97%提高到58.86%（+4.89%）。我们注意到，对于[74]，验证集和测试集之间有-0.74%的减少，而对于LaTr，我们观察到+0.83%的增加，表明更好的泛化能力。另一个关键点是，当将ST-VQA数据集作为额外的微调数据添加时，LaTr可以获得更多的好处。我们认为这一点很关键，因为我们不需要为TextVQA和ST-VQA训练单独的模型，而是一个模型可以在两个数据集上获得最佳性能。最后，将模型容量增加到LaTr-Large可以进一步提高性能，达到61.6%（比[74]提高了7.6%）。ST-VQA结果Tab. 2呈现了ST-05 https://docs.aws.amazon.com/rekognition/index.html��reasoning over the relative spatial positions of the text in theimage. Over the years several methods aimed at developingspatially aware models were proposed [25, 44]. However,most of those methods are complex, not easy to implementand eventually led to minimal performance improvements.LaTr is pre-trained on documents with layout information,which leads to a spatially aware model without any complexarchitectural changes. The last category we analyze is longanswers (Fig. 4 (e)). In practice, the existing pointer net-work decoding mechanism is also limited in ability to pro-duce long answers. Furthermore, when pre-training is done165530问题类别代表了能力0图4.STVQA为什么难？当前最先进的方法在获取场景文本VQA所需的各种能力方面存在困难。我们描述了五个代表性的能力：修正OCR错误、语言理解、世界知识、理解复杂布局以及生成长答案的能力。我们的模型能够正确回答这些例子中的每一个。我们将读者引用到附录F中的更多定性结果和与以前的艺术作品的比较。0SA-M4C [25] 42.23 0.512 0.5040M4C [21] 38.05 0.472 0.4620CRN [39] - - 0.4830SMA [15] - - 0.4660LOGOS [44] 48.63 0.581 0.5790LaAP-Net [20] 39.74 0.497 0.4850LaTr-Base 58.41 0.675 0.6680TAP [74] 50.83 0.598 0.5970LaTr ‡-Large 61.64 0.702 0.6960LaTr ‡ -Base 59.09 0.683 0.6840表2.在ST-VQA数据集[9]上的结果。我们的模型将最新性能提升了10.81%。0推理相对空间位置的能力。多年来，已经提出了

下载后可阅读完整内容，剩余1页未读，立即下载