没有合适的资源?快使用搜索试试~ 我知道了~
9930DocFormer:用于文档理解的端到端Transformer0Srikar AppalarajuAWS AI0srikara@amazon.com0Bhavan JasaniAWS AI0bjasani@amazon.com0Bhargava UralaKota AWS AI0bharkota@amazon.com0YushengXie AWS AI0yushx@amazon.com0R. ManmathaAWS AI0manmatha@amazon.com0摘要0我们提出了DocFormer -一种基于多模态transformer的用于视觉文档理解(VDU)任务的架构。VDU是一个具有挑战性的问题,旨在理解各种格式(表单、收据等)和布局的文档。此外,DocFormer以无监督的方式进行预训练,使用精心设计的任务来鼓励多模态交互。DocFormer使用文本、视觉和空间特征,并使用一种新颖的多模态自注意力层将它们结合起来。DocFormer还在模态之间共享学习到的空间嵌入,这使得模型能够将文本与视觉标记相互关联。DocFormer在4个不同的数据集上进行了评估,并具有强大的基线。DocFormer在所有数据集上都取得了最先进的结果,有时甚至超过了参数数量为其4倍的模型。01. 引言0视觉文档理解(VDU)的任务旨在理解出生为PDF或图像的数字文档。VDU专注于各种与文档相关的任务,如实体分组、序列标记、文档分类。虽然现代OCR引擎[33]在预测文档中的文本方面表现出色,但VDU通常需要理解文档的结构和布局。仅使用文本或甚至仅使用文本和空间特征是不够的。为了获得最佳结果,需要利用文本、空间特征和图像。使用transformer模型[4, 14,51]是利用所有这些特征的一种方法。最近已经使用transformer模型进行VDU[25, 54,55]。这些模型在无监督预训练的方式、自注意力在VDU领域的修改方式或如何融合模态(文本和/或图像和空间)方面有所不同。已经有了仅文本[14]、仅文本加空间特征[25,54]的VDU方法。然而,最理想的是融合这三种模态(文本、0图1:文档片段:对该文档的各种VDU任务可能包括将每个文本标记分类为固定类别或将标记分组为语义类别,并找到标记之间的关系,例如(“DATE PREPARED” → Key和“1/29/74” →Value),或将文档分类为不同的类别。请注意,文档中可能有“其他”文本,例如“C-5”,模型应该忽略或根据任务将其分类为“其他”。0视觉和空间特征)。这是可取的,因为文本中有一些信息是视觉特征所忽略的(语义语言),而视觉特征中有一些信息是文本所忽略的(例如文本字体和视觉布局)。一般来说,多模态训练很困难,因为必须将一段文本映射到任意的视觉内容。例如,在图1中,“ITEM1”需要映射到视觉区域。换句话说,文本描述了语义高级概念,例如“人”,而视觉特征则映射到图像中的像素(人的像素)。很难从文本←−→图像中强制执行跨模态特征相关性。我们将这个问题称为跨模态特征相关性,并在后面引用它以展示DocFormer如何提出一种解决方法。DocFormer遵循现在常见的预训练和微调策略。DocFormer在编码器的transformer架构中结合了一种新颖的多模态自注意力和共享空间嵌入。此外,我们提供了++...+++9940提出了三个预训练任务,其中两个是新颖的无监督多模态任务:学习重构和多模态掩码语言建模任务。详细信息请参见第3节。据我们所知,这是第一种不使用庞大的预训练目标检测网络进行视觉特征提取的VDU方法。相反,DocFormer使用普通的ResNet50[21]特征以及共享的空间(在文本和图像之间)嵌入,这不仅节省了内存,而且使得DocFormer能够通过空间特征轻松地关联文本和视觉特征。DocFormer从头开始训练视觉分支。现在我们来强调一下我们论文的贡献:0•一种新颖的多模态注意力层,能够融合文本、视觉和空间特征。0•三个无监督的预训练任务,鼓励多模态特征的协作。其中两个是新颖的无监督多模态任务:学习重构任务和多模态掩码语言建模任务。0•DocFormer是端到端可训练的,不依赖于预训练的目标检测网络进行视觉特征,简化了其架构。在四个不同的VDU任务中,DocFormer取得了最先进的结果。在某些任务中,它的性能超过了其他变种的transformer,其大小几乎是其参数数量的4倍。此外,DocFormer不使用自定义OCR,不像一些最近的论文[55, 25]。02. 背景0文档理解方法在文献中使用了图像、空间和文本特征的各种组合,以便理解和提取结构丰富的文档中的信息,例如表格[18, 57, 12]、表格[44, 56, 24]、收据[27, 26]和发票[35, 42,37]。找到组合这些多模态特征的最佳方法是一个活跃的研究领域。基于网格的方法[29,13]被提出用于发票图像,其中使用字符或单词向量表示对文本像素进行编码,并使用卷积神经网络将其分类为发票号码、日期、供应商名称和地址等字段类型。BERT[14]是一种基于变换器编码器[51]的神经网络,已经在语言理解任务上表现良好。LayoutLM[54]通过添加2D空间坐标嵌入以及1D位置和文本标记嵌入来修改BERT架构。他们还为每个单词标记添加了视觉特征,这些特征是使用Faster-RCNN及其边界框坐标获得的。0视觉0变换器0语言变换器0特征 单词特征0融合层0*位置嵌入0视觉0变换器0语言变换器0视觉0特征0单词0特征0融合层0*视觉位置0视觉和语言变换器0视觉特征0融合层0*位置0嵌入0视觉和语言变换器第n层0单词嵌入0来自CNN的视觉特征02D嵌入+绝对位置嵌入+1D相对嵌入0多模态特征0视觉和语言变换器第1层0视觉和语言变换器第2层0a) 联合多模态 b) 双流多模态 c) 单流0多模态0d) 我们的 (DocFormer):离散多模态0单词特征0*文本位置0多模态特征 多模态特征 多模态特征0图2:变压器多模态编码器架构的概念比较:机制在模态的组合方式上有所不同。类型A)联合多模态:如VL-BERT[46],LayoutLMv2 [55],VisualBERT [32],MMBT[30],UNITER [8] 类型B)双流多模态:CLIP [40],VilBERT [36]类型C)单流多模态类型D)我们的方法:离散多模态。例如,DocFormer。注意:在每个变压器层中,每个输入模态都进行单独的自注意力。最佳观看效果为彩色。0LayoutLM在1100万个未标记页面上进行了预训练,然后在几个文档理解任务(表单处理、分类和收据处理)上进行了微调。这种先在大规模数据集上进行预训练,然后在几个相关的下游任务上进行微调的思想也出现在通用视觉和语言理解工作中[46, 36, 30,32]等。图2显示了多模态变压器编码器架构的比较。最近,LayoutLMv2[55]通过改变将视觉特征输入模型的方式(将其视为单独的标记,而不是将视觉特征添加到相应的文本标记中)对LayoutLM进行了改进。此外,还探索了其他预训练任务以利用未标记的文档数据。BROS[26]还使用基于BERT的编码器,并使用基于SPADE[28]的基于图的分类器来预测文档中文本标记之间的实体关系。他们还使用2D空间嵌入与文本标记一起添加,并在表单、收据文档图像上评估他们的网络。基于T5[41]的多模态变压器编码器-解码器架构已被提出9950最近,田中等提出了Layout-T5[48],用于对Web文章文档图像数据库进行问答任务,而Powalski等提出了TILT[39],将卷积特征与T5架构结合起来执行各种下游文档理解任务。03. 方法0概念概述:我们首先介绍了变压器编码器多模态训练中使用的架构的概念概述,如图2所示。(a)联合多模态:VL-BERT [46],LayoutLMv2[55],Visu- alBERT [32],MMBT[30]:在这种类型的架构中,视觉和文本被连接成一个长序列,这使得变压器的自注意力由于跨模态特征相关性而变得困难,这在引言中有所提及。 (b)双流多模态:CLIP[40],Vil- BERT[36]:每个模态都是一个独立的分支,这允许使用任意模型来处理每个分支。然而,文本和图像仅在最后相互作用,这并不理想。最好进行早期融合。(c)单流多模态:将视觉特征也视为标记(就像语言一样),并将其与其他特征相加。以这种方式(简单相加)将视觉特征与语言标记结合在一起是不自然的,因为视觉和语言特征是不同类型的数据。(d)离散多模态:在本文中,DocFormer将视觉、文本和空间特征解耦。即,空间和视觉特征作为残差连接传递到每个变压器层。我们这样做是因为空间和视觉依赖关系可能在不同层次上有所不同。在每个变压器层中,视觉和语言特征分别进行自注意力计算,并共享空间特征。为了对DocFormer进行预训练,我们使用了IIT-CDIP文档集合[31]中的500万个页面的子集进行预训练。为了进行多模态VDU,我们首先提取OCR,这为我们提供了每个文档的文本和相应的单词级边界框。接下来,我们将描述模型架构,然后是预训练任务。03.1. 模型架构0DocFormer是一个仅编码器的变压器架构。它还具有用于视觉特征提取的CNN骨干。所有组件都进行端到端的训练。DocFormer使用新颖的多模态自注意力在变压器层中实现了深度多模态交互。我们描述了在将三种模态特征(视觉、语言和空间)输入变压器层之前如何准备它们。视觉特征:假设 v ∈ R 3 × h × w是文档的图像,我们将其通过ResNet50卷积神经网络 f cnn( θ, v )进行处理。我们在第4层提取低分辨率的视觉嵌入,即 v l 4∈ R c × h l × w l 。在这个阶段,典型的值为 c = 2048 和h l = h 32 ,w l = w 32 (其中 c 是通道数,h l 和 w l是高度和0特征的宽度)。Transformer编码器期望输入维度为d的扁平序列。因此,我们首先应用1×1卷积将通道c减少到d。然后,我们将ResNet特征展平为(d,hl×wl),并使用线性变换层进一步转换为(d,N),其中d=768,N=512。因此,我们将视觉嵌入表示为V= linear(conv1×1(fcnn(θ,v)))。语言特征:设t为从文档图像中通过OCR提取的文本。为了生成语言嵌入,我们首先使用word-piece分词器[53]对文本t进行分词,得到ttok,然后将其通过可训练的嵌入层Wt进行处理。ttok的形式如[CLS],ttok1,ttok2,...,ttokn,其中n=511。如果一页中的标记数>511,则忽略其余部分。对于标记少于511个的文档,我们使用特殊的[PAD]标记填充序列,并在自注意力计算过程中忽略[PAD]标记。我们确保文本嵌入T =Wt(ttok)与视觉嵌入V具有相同的形状。根据之前的研究[55],我们使用LayoutLMv1[54]预训练权重初始化Wt。空间特征:对于文本中的每个单词k,我们还获取边界框坐标bk=(x1, y1, x2, y2, x3, y3, x4,y4)。2D空间坐标bk为模型提供了关于单词相对于整个文档的位置的附加上下文。这有助于模型更好地理解内容。对于每个单词,我们使用单独的层Wx和Wy分别对x和y坐标进行编码。我们还编码了更多的空间特征:边界框高度h,宽度w,从边界框的每个角到其右侧边界框对应角的欧氏距离以及边界框之间的质心距离,例如Arel={Ak+1num−Aknum};A∈(x, y);num∈(1, 2, 3, 4,c),其中c是边界框的中心。由于transformer层是置换不变的,我们还使用绝对1D位置编码Pabs。我们为视觉V s和语言T s特征创建单独的空间嵌入,因为空间依赖性可能是模态特定的。最终的空间嵌入是通过对所有中间嵌入求和得到的。所有空间嵌入都是可训练的。0Vs = Wxv(x1, x3, w, Axrel)+0Wyt(y1, y3, h, Ayrel) + Pabst(2)0Ts = Wxt(x1, x3, w, Axrel)+0Wyv(y1, y3, h, Ayrel) + Pabst(1)0多模态自注意力层:现在我们详细描述我们的新颖的多模态自注意力层。考虑一个transformer编码器fenc(η, V, Vs, T,Ts),其中η是transformer的可训练参数,V,Vs,T和Ts是视觉、视觉空间、语言和语言空间(3)+(6)9960分别是视觉和语言特征,并且如前所述获得。Transformerfenc输出与每个输入特征相同形状的多模态特征表示M,即d=768,N=512。自注意力,即缩放的点积注意力,如[51]中所介绍的,对于单个头部来说,被定义为查询具有键值对的字典。即在transformer层l和特征长度L中的第i个输入标记。0Mli =0L0j=10exp(αij) / Σnj′=1exp(αij′)0ΣxljWV,l0其中αij定义为自注意力,计算方式为(第l层中标记xi和xj之间的注意力)。0αij =1/√0d0ΣxliWQ,lΣxljWK,lT(4)0这里,d是隐藏表示的维度,W Q,l,W K,l ∈ Rd×dK,WV ∈Rd×dV是学习的参数矩阵,它们在层或注意力头之间不共享。不失一般性,我们去掉对层l的依赖,简化Eq. 4为:0αij = �xiWQ� ∙ �xjWK�T (5)0我们修改了这个多模态VDU任务的注意力公式。DocFormer试图将以下归纳偏差融入到自注意力公式中:对于大多数VDU任务,局部特征比全局特征更重要。我们修改了方程5,添加了相对特征。具体而言,视觉特征的注意力分布为:0αvij = (xviWQv)(xvjWKv)T � �� �键-查询注意力0+ (xviWQvaij) � �� �查询1D相对注意力0(xvjWKvaij) � �� �键1D相对注意力0+ (VsWQs)(VsWKs) � �� �视觉空间注意力0这里,xv表示视觉特征,WKv,WQv表示键和查询的视觉嵌入的可学习矩阵。WKs,WQs表示键和查询的空间嵌入的可学习矩阵。aij是令牌i和j之间的1D相对位置嵌入,即aij=Wrelj−i,其中Wrel学习令牌i如何关注j。我们剪辑相对注意力,以便DocFormer更重视局部特征。我们得到了语言注意力αtij的类似方程:0αtij = (xiWQt)(xjWKt)T + (xiWQtaij) +0(xjWQtaij) + (TsWQs)(TsWKs) (7)0这里,x是前一个编码器层的输出,或者如果l=1,则是词嵌入层的输出。方程6和方程7的一个重要方面是我们在每一层中共享空间权重,即空间注意力权重(WQs,WKs)在视觉和语言之间共享。这有助于模型在不同模态之间相关联的特征。0使用方程6计算的视觉自注意力代入方程3,得到具有空间感知的自注意视觉特征ˆVl。类似地,使用方程7代入方程3,得到语言特征ˆTl。多模态特征输出由Ml = ˆVl +ˆTl给出。值得注意的是,对于层l>1,方程7中的特征x是多模态的,因为我们在第l−1层的输出处组合了视觉和语言特征。最终的M12由下游线性层使用。为什么以这种方式进行多模态注意力?我们将视觉和空间信息解开并将它们传递给transformer的每一层。我们认为,在各层之间使视觉和空间信息可访问作为信息残差连接[22,52]是有益的,有助于生成更好的多模态特征表示,从而更好地解决跨模态特征相关性的问题。这在我们的实验(第4节)中得到了验证,我们展示了即使与某些情况下参数数量为四倍的模型相比,DocFormer也获得了最先进的性能。此外,在每一层中跨模态共享空间权重使得DocFormer有机会学习跨模态空间交互,同时减少参数数量。在第4节中,我们展示了DocFormer在其模型类中是最小的,但它能够展现出卓越的性能。运行时复杂度:DocFormer的运行时复杂度与原始自注意力模型[51]的复杂度相同(详见补充材料)03.2. 预训练0设计新的有效的无监督预训练策略的能力仍然是一个开放的问题。我们的预训练过程涉及传递文档图像、提取的OCR文本和相应的空间特征。所有预训练任务都设计成网络需要视觉和语言特征的协作,从而真正学习到比仅使用其中一种模态训练更优越的表示。请参见图3,了解预训练任务的高级概述。多模态掩码语言建模(MM-MLM):这是对BERT中引入的原始掩码语言建模(MLM)预文本任务的修改,可以看作是一个文本去噪任务,即对于一个文本序列t,生成一个损坏的序列�t。变压器编码器预测ˆt,并通过重构整个序列进行训练。在我们的情况下,我们使用多模态特征嵌入M来重构文本序列。在先前的研究中,对于一个被掩码的文本标记,相应的视觉区域也被掩码以防止“作弊”。相反,我们有意不掩盖与[MASK]文本对应的视觉区域。这是为了鼓励视觉特征补充文本特征,从而最小化文本重构损失。掩码百分比与最初提出的相同[14]。交叉熵损失...CLSM2M3M4M5M511M512T1) Multi-modal MaskedLanguage ModelingImage decoderCNNT2) Learn to reconstructT3) Text describe ImageBinaryclassifierspatial embedding1st layer12th layer...V1V2V3V4V5V511V512...(0,0)1(x,y)2(x,y)3(x,y)4(x,y)5(x,y)511(x,y)512...CLSCustomer[Mask]Number23878CitySFImagefeatureextractorLinear layerVisual tokensText tokensBounding boxes9970用于此任务的是LMM-MLM(多模态掩码语言模型)。学习重构(LTR):在这个新颖的预训练任务中,我们进行图像版本的MM-MLM任务,即进行图像重构任务。通过一个浅层解码器,将DocFormer预测的多模态特征传递给重构图像(与输入图像具有相同的维度)。在这种情况下,该任务类似于自编码器图像重构,但使用了多模态特征。其基本思想是,在存在图像和文本特征的情况下,图像重构需要两种模态的协同作用。我们使用重构图像和原始输入图像之间的平滑L1损失(L LTR)。文本描述图像(TDI):在这个任务中,我们尝试教会网络判断给定的文本是否描述了一个文档图像。为此,我们使用一个线性层对多模态特征进行汇总,以预测一个二进制答案。这个任务与前面两个任务的不同之处在于,该任务将全局汇总特征注入到网络中(而不是MM-MLM和LTR仅关注局部特征)。在一个批次中,80%的时间正确的文本和图像是配对的,剩下的20%的时间错误的图像与文本配对。这个任务使用二元交叉熵损失(L TDI)。由于20%的负面配对情况会干扰LTR任务(对于文本←−→图像配对不匹配的情况,配对重构损失会很高),所以在存在不匹配的情况下忽略LTR损失。最终的预训练损失Lpt= λLMM-MLM + βLTR +γTDI。实际上,λ=5,β=1,γ=5。DocFormer预训练5个时期,然后我们移除所有三个任务头。我们添加一个线性投影头,并对模型的所有组件进行微调,用于所有下游任务。04. 实验0对于所有实验,我们在训练集上进行微调,并在相应的测试/验证数据集上报告结果。我们没有进行特定于数据集的超参数调整。我们将此视为一个优点,如果进行了特定于数据集的微调,我们报告的结果可能会更高。对于所有下游任务,我们使用官方提供的注释,除非另有说明。这些数据集的一个共同特点是训练数据量相对较小(大多数小于1000个样本)。我们认为,在这种情况下,预训练对于帮助更大,并有助于衡量DocFormer的泛化能力。符号:表1、表2、表3、表4使用以下符号。T:文本特征,S:空间特征。I:图像特征。粗体表示SOTA。下划线表示第二好。†表示使用编码器+解码器变压器层。�表示近似估计。实现细节:我们在补充材料的表1中总结了预训练和微调的细节。我们...0DocFormer:视觉和0语言变换器0OCR0预测0"账户"0是/否0图3:DocFormer预训练方法概述。高级概述。注意:与[CLS]对应的第一个边界框令牌,用于整个页面坐标。0强调热身步骤和学习率的重要性。我们发现这些设置对预训练结果以及下游任务的性能有着非平凡的影响。我们使用Pytorch[38]和Huggingface库[50]。模型:我们采用了变压器编码器模型的常用术语——基础模型,具有12个变压器层(768隐藏状态和12个注意力头),以及大型模型,具有24个变压器层(1024隐藏状态和16个注意力头)。我们展示了DocFormer-base在4个任务中获得了SOTA,甚至超过了大型模型,并且在第4个任务中接近大型模型。除了多模态DocFormer之外,我们还提供了一个文本和空间DocFormer,通过对多模态DocFormer进行预训练,但仅使用文本和空间特征进行微调。我们这样做是为了展示我们模型的灵活性,并展示在预训练期间,视觉特征被注入到DocFormer中,使其比纯文本和空间模型表现更好。04.1.序列标注任务0FUNSD[17]数据集是一个表单理解任务。它包含199个嘈杂的文档(149个训练,50个测试),这些文档经过扫描和注释。我们关注语义实体标记任务(即,将属于同一类别的标记分组)。我们使用F1分数来衡量实体级性能,如表1所示。DocFormer-base实现了83.34%的F1分数,优于可比较的模型:LayoutLMv2-base(+0.58),BROS(+2.13),LayoutLMv1-base(+4.07)。对于只使用5M页进行训练的DocFormer-large,情况也是如此。FUNSD性能与预训练样本:我们还测量了只有文本和空间特征的DocFormer-base的性能。9980模型#参数(M)精确率 召回率 F10基于仅文本/(文本+空间)特征的方法:0BERT-base[14] 109 54.69 61.71 60.26 RoBERTa-base[34] 125 63.4969.75 66.48 UniLMv2-base[3] 125 63.49 69.75 66.48LayoutLMv1-base[54] 113 76.12 81.55 78.66 BROS-base[25] 139 80.5681.88 81.210BERT-large[14] 340 61.13 70.85 65.63 RoBERTa-large[34] 355 67.8073.91 70.72 UniLMv2-large[3] 355 67.80 73.91 70.72LayoutLMv1-large[54] 343 75.36 80.61 77.890基于图像+文本+空间特征的方法:0LayoutLMv1-base[54] 160 76.77 81.95 79.27 LayoutLMv2-base[55]200 80.29 85.39 82.76 LayoutLMv2-large[55] 426 83.24 85.19 84.200DocFormer-base(T+S)149 77.63 83.69 80.54DocFormer-base(I+T+S)183 80.76 86.09 83.34DocFormer-large(T+S)536 81.33 85.44 83.33DocFormer-large(I+T+S)536 82.29 86.94 84.550表1:FUNSD比较:DocFormer优于同样大小的模型,并与更大的模型相比表现良好0图4:预训练样本数量的影响:x轴是所需的预训练样本数量,y轴是FUNSD任务的F1分数。DocFormer-base在仅预训练了5M页的情况下获得了83.34的分数,优于当前SOTA的LayoutLMv2-base的82.76,后者预训练了超过2倍的数据。0随着预训练样本数量的增加,我们的基础模型在只有5M个文档的情况下实现了83.34的F1分数,达到了最先进的性能。之前的最先进方法需要超过2倍的预训练文档(11M)才能达到82.76的性能。此外,DocFormer收敛更快。没有图像的DocFormer性能:请注意,只使用(I+T+S)进行预训练并在FUNSD上进行微调的DocFormer-baseT+S模型的F1为80.54,比纯粹进行预训练和微调的LayoutLMv1(78.66%)高出+1.88%。我们假设在预训练期间,DocFormer融入了视觉特征,比仅文本预训练的模型更好。04.2.文档分类任务0对于这个任务,我们使用汇总特征来预测文档的分类标签。RVL-CDIP[19]数据集包含16个类别的400,000张灰度图像,每个类别有25,000张图像。总共有320,000张训练图像,40,000张验证图像和40,000张测试图像。我们报告测试的性能和评估指标是整体分类准确率。根据之前的研究[55,25],我们使用Textract OCR提取文本和布局信息。0DocFormer-base实现了96.17%的最先进性能。DocFormer在所有现有的基础和大型Transformer变体中表现出更好的性能。一些参数数量超过4倍的模型(TILT-large,780M参数)的性能为94.02%(-2.15%的差距)。0模型#参数(M)准确率(%)0仅基于图像的方法:0CNN集成模型[19]*60 89.80 VGG-16[1] 138 88.33AlexNet[49] 61 90.94 GoogLeNet[9] 1390.70单一视觉模型[10]*140 91.11集成模型[10]-92.21InceptionResNetV2[47] 56 92.63LadderNet[43]-92.770仅基于文本/(文本+空间)特征的方法:0BERT-base [14] 110 89.81 UniLMv2-base [3] 12590.06 LayoutLMv1-base [54] 113 91.78 BROS-base †[25] 139 95.580BERT-large [14] 340 89.92 UniLMv2-large [3] 35590.20 LayoutLMv1-large [54] 343 91.900基于图像+文本+空间特征的方法:0单模态[11] - 93.03 集成[11] - 93.07 TILT-base † [39]230 93.50 LayoutLMv1-base [54] 160 94.42LayoutLMv2-base [55] 200 95.250LayoutLMv1-large [54] 390 94.43 TILT-large † [39]780 94.02 LayoutLMv2-large [55] 426 95.650DocFormer-base(I+T+S)183 96.17DocFormer-large(I+T+S)536 95.500表2:RVL-CDIP数据集[19]比较:我们报告测试集上的分类准确率。DocFormer获得最高的分类准确率,并且超过TILT-large2.15个百分点,几乎是其4倍大小。04.3.实体抽取任务0我们报告了两个不同实体抽取数据集的性能:CORD数据集[45]:包含收据。它定义了4个类别下的30个字段。任务是将每个单词标记到正确的字段。评估指标是实体级别的F1。我们使用提供的OCR注释和边界框进行微调(表3)。DocFormer-基础版在该数据集上取得了96.33%的F1,超过了所有先前的*-base和几乎所有的*-large变体,并与具有更多参数的TILT-large [39]持平。DocFormer-大型版取得了96.99%的最佳性能,超过了所有其他*-large变体,达到了SOTA。Kleister-NDA[16]:数据集包含法律NDA文档。Kleister-NDA数据的任务是提取四个固定标签的值。方法需要学会忽略无关的文本。该数据集具有挑战性,因为它包含一些“诱饵”文本,不应给出任何标签。此外,对于给定的标签可能会给出多个值,需要提取所有值。与先前的研究一致,我们在验证数据上测量F1分数(因为测试数据没有提供真实标签)。同时,我们提取OCR并应用启发式方法来创建OCR的训练/验证基准(表4)。4.4. More ExperimentsFUNSD [17]14983.344.18CORD [45]80096.330.54RVL-CDIP [19]320,00096.1793.95FUNSD [17]14983.3482.93 (-0.41)CORD [45]80096.3396.87 (+0.54)RVL-CDIP [19]320,00096.1796.85 (+0.68)9990模型 #参数(M)精确度 召回率 F10仅基于文本/(文本+空间)特征的方法:0BERT-base [14] 109 88.33 91.07 89.68 UniLMv2-base [3] 125 89.8791.98 90.92 SPADE [28] - - - 91.50 LayoutLMv1-base [54] 113 94.3795.08 94.72 BROS-base † [25] 139 95.58 95.14 95.360BERT-large [14] 340 88.86 91.68 90.25 UniLMv2-large [3] 355 91.2392.89 92.05 LayoutLMv1-large [54] 343 94.32 95.54 94.930基于图像+文本+空间特征的方法:0LayoutLMv2-base [55] 200 94.53 95.39 94.95 TILT-base † [39] 230 - -95.11 LayoutLMv2-large [55] 426 95.65 96.37 96.01 TILT-large † [39]780 - - 96.330DocFormer-base(T+S)149 94.82 95.07 94.95DocFormer-base(I+T+S)183 96.52 96.14 96.33DocFormer-large(T+S)502 96.46 96.14 96.30DocFormer-large(I+T+S)536 97.25 96.74 96.990表3:CORD数据集[45]比较。我们在测试集上提供实体级别的精确度、召回率和F1。0其中,有一些“诱饵”文本,不应给出任何标签。此外,对于给定的标签可能会给出多个值,需要提取所有值。与先前的研究一致,我们在验证数据上测量F1分数(因为测试数据没有提供真实标签)。同时,我们提取OCR并应用启发式方法来创建OCR的训练/验证基准(表4)。0模型 #参数(M)F10仅基于文本/(文本+空间)特征的方法:0LAMBERT [15] - 75.7 RoBERTa [34] 125 76.7BERT-base [14] 110 77.9 UniLMv2-base [3] 12579.5 LayoutLMv1-base [54] 113 82.70BERT-large [14] 340 79.1 UniLMv2-large [3] 35581.8 LayoutLMv1-large [54] 343 83.40基于图像+文本+空间特征的方法:0LayoutLMv2-base [55] 200 83.3LayoutLMv2-large [55] 426 85.20DocFormer -基础版(T+S)149 82.1 DocFormer-基础版(I+T+S)183 85.80表4:Kleister-NDA数据集[ 16]比较:我们在验证集上呈现实体级别的精确度、召回率、F1。DocFormer表现最好,超过了其他具有2.5倍学习能力的*-large模型的性能。0我们对DocFormer在预训练任务、网络结构和空间嵌入权重共享方面进行了进一步分析。04.4. 更多实验0配置数量参数FUNSD(F1)CORD(F1)0共享空间还是独立空间嵌入?我们提出的DocFormer多模态自注意力架构(图2和方程6、7)的一个好处是,在视觉和语言之间共享空间嵌入使模型更容易学习跨模态的特征相关性。我们在表5中对此方面进行了消融研究。0表5:空间权重共享:在没有共享空间的情况下,视觉和语言各自获得自己的空间权重Ws。0我们的预训练任务有帮助吗?预训练对于低到中等数据范围(FUNSD和CORD)是必不可少的。但是,即使对于具有大量训练样本的下游任务(RVL-CDIP),它也有助于提高性能和收敛性(表6)。0数据集训练样本数0先预训练然后100个时期(F1)0没有预训练100个时期(F1)0表6:预训练的影响0更深的投影头有帮助吗?到目前为止,我们在下游评估中使用了一个线性层,这是常见的做法[ 20 , 7 , 5 , 6 , 2],用于与先前的方法进行比较。最近的出版物[ 6 , 2]在自监督方面表明,具有ReLU激活的更深的投影头作为一种单向滤波器可以丰富表示空间。我们采用这种做法,并观察是否更深的投影头(fc � ReLU � Layer- Norm �fc)可以改善下游性能。表7显示,在低到中等数据范围内,添加一个更强大的投影头是有害的,可能导致过拟合。对于中到大的下游任务数据范围,添加更深的投影头是有益的。0数据集训练样本数 线性头(F1) 更深的头(F1)0表7:更深的投影头04.5. 消融研究0由于在整个500万页上进行预训练需要很长时间,并且为了减少环境影响[ 23],我们只使用100万个文档进行5个时期的预训练来进行表8和9中的所有消融实验。在表8和9中,我们除了在表中的前一行之外还显示了性能。添加该组件所带来的影响以括号形式显示。从表8中可以看出,我们的每个预训练任务都对下游任务有所贡献。(a) Ground Truth10000(b) 文本+空间模型[ 54 ]0(c) DocFormer 多模态0图5:DocFormer定性示例:来自FUNSD测试集的DocFormer DocFormer 83.34 F1 vs LayoutLMv1 78.66F1。图例:红色:标题标签,蓝色:问题,绿色:答案。第1行:“TARGET”是一个视觉上非常明显的标题标签。DocFormer正确分类它,而文本+空间模型则会错过这种视觉线索。第2行:这是一个具有挑战性的场景。请注意签名后面的单词“Research”。文本+空间模型会感到困惑,并将“Research”错误地分类为标题,而DocFormer则找出了“Research”是“Marketing ResearchDirector”的一部分,尽管有视觉遮挡。第3行:请注意,“Approvals”部分隐藏在DATE后面。尽管如此,DocFormer正确地将“APPROVALS”标记为问题,而文本+空间模型错误地将其标记为标题。最好以彩色和数字方式查看。片段来自FUNSD文件860797769777、89856243和87125460。0性能。贡献似乎也因下游任务的性质而有所不同。0预训练任务 FUNSD(F1)CORD(F1)0DocFormer + MLM 72.40 90.58 DocFormer + MM-MLM 73.91 (+1.51) 90.98 (+0.4)0+ 学习重构(LTR) 74.68 (+0.77) 92.61 (+1.63)0+ 文本描述图像(TDI) 76.90 (+2.23) 93.36 (+0.75)0最终(DocFormer)76.90 93.360表8:预训练任务消融:我们展示了各种预训练任务对两个下游
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功