LiLT：语言无关结构化文档理解的布局转换器

133 浏览量更新于2023-12-01 收藏 20.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jiapeng Wang1Lianwen Jin∗1,3,4Kai Ding∗2,30LiLT：一种简单而有效的面向语言无关的布局转换器用于结构化文档理解01 华南理工大学，中国广州 2 智能信息股份有限公司，中国上海 3INTSIG-SCUT文档识别与理解联合实验室，中国 4 深圳市鹏城实验室，中国 1eejpwang@mail.scut.edu.cn，eelwjin@scut.edu.cn 2 danny_ding@intsig.net0摘要0结构化文档理解近来引起了相当大的关注并取得了重要进展，这归功于其在智能文档处理中的关键作用。然而，大多数现有的相关模型只能处理预训练集合中包含的特定语言（通常是英语）的文档数据，这非常有限。为了解决这个问题，我们提出了一种简单而有效的面向语言无关的布局转换器（LiLT）用于结构化文档理解。LiLT可以在单一语言的结构化文档上进行预训练，然后使用相应的现成的单语/多语预训练文本模型进行直接微调到其他语言上。在八种语言上的实验结果表明，LiLT在多样化的广泛使用的下游基准测试中可以取得竞争性甚至更好的性能，这使得它能够从文档布局结构的预训练中获得语言无关的好处。代码和模型可在https://github.com/jpWang/LiLT上公开获取。01 引言0结构化文档理解（SDU）旨在阅读和分析扫描/数字化文档中包含的文本和结构化信息。随着数字化进程的加速，它已被视为智能文档处理的重要组成部分，并被许多各行各业的实际应用所需，如金融、医疗和保险。最近，受到纯文本预训练语言模型的快速发展的启发（Devlin等，2019；Liu等，2019b；Bao等，2020；Chi等，2021），许多关于结构化文档预训练（Xu等，2020，2021a，b；Li等，2021a，b，c；Appalaraju等，2021）的研究也已经进行了0� 通讯作者。0(a) 一个表格。0(b) 一张收据。0图1：当布局结构保持不变时，语言的替换并不明显不自然，如(a)表格/(b)收据所示。详细内容已重新合成，以避免敏感信息泄露。最好放大查看。0推动了各种SDU任务的极限。然而，几乎所有这些任务都只关注单一语言（通常是英语）的文档上的预训练和微调，这对其他语言来说非常有限，特别是在缺乏预训练结构化文档数据的情况下。在这方面，我们考虑如何使SDU任务从文档布局结构的预训练中获得语言无关的好处。在这里，我们给出了一个如图1所示的观察结果。当布局结构保持不变时，语言的替换并不明显不自然。这完全激发了我们将不同语言之间的布局不变性解耦并重复使用的动机。基于这一灵感，我们在本文中提出了一种简单而有效的面向语言无关的布局转换器（LiLT）用于结构化文档理解。在我们的框架中，文本和布局信息首先被解耦并在预训练期间进行联合优化，然后在微调中重新耦合。为了确保两种模态具有足够的语言无关交互作用，我们进一步提出了一种新颖的双向注意力补充机制（BiACM）来增强跨模态合作。此外，我们提出了关键点位置（KPL）和跨模态对齐识别（CAI）任务，这些任务与广泛使用的遮蔽视觉0arXiv:2202.13669v1[cs.CL]28Feb20220+v:mala2277获取更多论文0语言建模（MVLM）作为我们的预训练目标。在微调过程中，布局流（LiLT）可以与现成的预训练文本模型（如RoBERTa（Liu等，2019b），XLM-R（Conneau等，2020），InfoXLM（Chi等，2021）等）分离并组合，以处理下游任务。通过这种方式，我们的方法将布局知识从单语言结构化文档中解耦并学习，然后将其推广到多语言文档中。据我们所知，唯一已有的多语言SDU模型是LayoutXLM（Xu等，2021b）。它从网络爬虫中获取了53种语言的多语言PDF文档，并引入了额外的预处理步骤来清理收集到的数据，过滤低质量的文档，并将其分类为不同的语言。然后，它利用启发式分布对2200万个多语言文档进行采样，这些文档进一步与来自IIT-CDIP（Lewis等，2006）数据集的800万个采样的英语文档（1100万个英语文档）相结合，共计3000万个文档与LayoutLMv2（Xu等，2021a）框架一起进行预训练。然而，这个过程耗时且繁琐。相反，LiLT只需使用IIT-CDIP进行预训练，然后适应其他语言。在这方面，LiLT是第一个用于结构化文档理解的语言无关方法。在八种语言上的实验结果表明，LiLT在各种广泛使用的不同语言设置下可以达到竞争性甚至优越的性能，这对众多实际应用中的SDU有很大的益处。我们的主要贡献可以总结如下：0•我们引入了一种简单而有效的语言无关布局Transformer，称为LiLT，用于单语言/多语言结构化文档理解。0•我们提出了BiACM，为文本和非文本流提供了语言无关的跨模态交互，并提出了两个新的预训练目标，即KPL和CAI。0•LiLT在不同设置下的各种不同语言的各种广泛使用的下游基准测试中取得了竞争性甚至优越的性能，充分证明了其有效性。02 LiLT0图2显示了我们方法的整体示意图。给定一个输入文档图像，我们首先使用现成的OCR引擎获取文本边界框和内容。然后，文本和布局信息分别嵌入并输入到相应的基于Transformer的架构中，以获得增强的特征。引入了双向注意力补充机制（BiACM）来实现文本和布局线索的跨模态交互。最后，编码的文本和布局特征被连接起来，并在其上添加额外的头部，用于自监督预训练或下游微调。02.1 模型架构0整个框架可以被视为一个并行的双流Transformer。布局流与文本流具有类似的结构，只是隐藏大小和中间大小减小以实现计算效率。02.1.1 文本嵌入按照常见做法（Devlin等，2019;Xu等，2020），在文本流中，首先对OCR结果中的所有文本字符串进行分词并按照从左上到右下的顺序连接为一个序列St。直观地，特殊标记[CLS]和[SEP]也分别添加在序列的开头和结尾。之后，St将被截断或填充额外的[PAD]标记，直到其长度等于最大序列长度N。最后，我们将St的标记嵌入Etoken和1D位置嵌入P1D相加，得到文本嵌入ET∈RN×dT，如下所示：0E T = LN（E token + P 1D），（1）0其中dT是文本特征维度的数量，LN是层归一化（Ba等人，2016年）。02.1.2布局嵌入至于布局流，我们使用相应的文本边界框构造一个与标记序列S t长度相同的2D位置序列Sl。具体来说，我们将所有框坐标归一化并离散化为范围[0，1000]内的整数，并使用四个嵌入层分别生成x轴，y轴，高度和宽度特征。给定归一化的边界框B =（x min，x max，y min，ymax，width，height），2D0+v:mala2277获取更多论文QTKTVTQLKLVLToken Embedding1D Position Embedding++++++++t1tMt2t4tRt7t6t8132457682D Position Embedding1D Position Embedding++++++++b1b3bRb4b5b7b6bM13245768++(RoBERTa/XLM-R/InfoXLM/...)(LiLT)||MaskedVisual-Language Modeling-t3--t5t7----r2r4---r8Key Point LocationCross-modalAlignment Identification(0:Mis-aligned, 1:Aligned)--0101--13245768Semantic Entity Recognition(H:Header, Q:Question, A:Answer, O:Other)OOHQAQOA--------------------------0-------01--------------000-----0001--Relation Extraction(0:None, 1:Key-Value Pair)…………+||ConcatenateAddDetach (only exists in pre-training)BiACMFigure 2: The overall illustration of our framework. Text and layout information are separately embedded and fedinto the corresponding ﬂow. BiACM is proposed to accomplish the cross-modality interaction. At the model output,text and layout features are concatenated for the self-supervised pre-training or the downstream ﬁne-tuning. Nl isthe number of Transformer layers. The red *M/*R indicates the randomly masked/replaced item for pre-training.t, b and r represent token, box and region, respectively. Best viewed in zoomed-in.0MatMul0MatMul0MaskOut0SoftMax0Transformer层i0MatMul0MatMul0MaskOut0SoftMax0Transformer层i0比例0文本流0布局流0预训练目标0微调任务0OCR引擎0比例0N l ×0位置嵌入P 2D ∈ R N × d L（其中dL是布局特征维度的数量）构造如下：0P 2D = Linear（CAT（E x min，E x max，0E y min，E y max，E width，E height））。（2）0这里，E是嵌入向量。Linear是线性投影层，CAT是通道-wise连接操作。特殊标记[CLS]，[SEP]和[PAD]分别附加为（0,0,0,0,0,0），（1000,1000,1000,1000,0,0）和（0,0,0,0,0,0）。值得一提的是，对于每个标记，我们直接使用其所属文本字符串的边界框，因为一些OCR引擎的结果中并不总是包含细粒度的标记级信息。由于Transformer层是排列不变的，因此我们再次引入1D位置嵌入。得到的布局嵌入EL ∈ R N × d L可以表示为：0E L = LN（P 2D + P 1D）。（3）02.1.3BiACM文本嵌入ET和布局嵌入EL被输入到各自的子模型中生成高级增强特征。然而，如果我们仅仅在编码器输出处简单地组合文本和布局特征，那么它将大大忽略跨模态交互过程。网络还需要全面分析它们0在早期阶段。鉴于此，我们提出了一种新的双向注意力补充机制（BiACM），以加强整个编码流程中的跨模态交互。第3.2节的实验将进一步验证其有效性。Transformer层中的原始自注意机制通过投影这两个向量并计算注意力分数来捕捉查询xi和键x j之间的相关性，如下所示：0α ij =（x i W Q）（x j W K）�0√0d h。（4）0在这里，描述是针对一个具有隐藏大小为dh和投影度量W Q，WK的单个自注意层中的单个头部的。给定位于同一层的同一头部中的文本和布局流的α T ij和α Lij，BiACM将它们共享为公共知识，其公式如下：0αTij = αLij + αTij，(5)0αLij=0αLij + DETACH(αTij) if Pre-train, αLij +αTij if Fine-tune. (6)0为了尽可能保持LiLT与不同的现成文本模型在微调中的合作能力，我们启发性地采用了分离的αTij来代替αLij，以便文本流不受非文本梯度的影响。0+v:mala2277获取更多论文1https://www.textin.com+v:mala2277获取更多论文0在预训练期间，我们使用修改后的注意力分数来保持LiLT的整体一致性。最后，修改后的注意力分数用于加权两个流中后续模块的投影值向量。02.2 预训练任务0我们进行了三个自监督的预训练任务，引导模型自主学习跨模态协作的联合表示。具体细节如下所述。02.2.1 掩码视觉语言建模0这个任务最初来源于（Devlin等，2019年）。MVLM随机屏蔽一些输入标记，并要求模型使用输出的编码特征在整个词汇表中恢复它们，采用交叉熵损失进行驱动。同时，非文本信息保持不变。MVLM通过跨模态信息改进了模型在语言方面的学习。给定的布局嵌入还可以帮助模型更好地捕捉句子间和句子内的关系。我们屏蔽了15%的文本标记，其中80%被特殊标记[MASK]替换，10%被从整个词汇表中随机抽样的标记替换，10%保持不变。02.2.2 关键点位置0我们提出这个任务是为了使模型更好地理解结构化文档中的布局信息。KPL将整个布局均匀地划分为几个区域（默认设置为7×7=49个区域），并随机屏蔽一些输入边界框。模型需要预测每个框的关键点（左上角、右下角和中心点）属于哪个区域，使用单独的头部进行预测。为了处理这个问题，模型需要充分理解文本内容，并知道在给定周围文本的情况下放置特定的单词/句子的位置。我们屏蔽了15%的边界框，其中80%被替换为（0,0,0,0,0,0），10%被同一批次中随机抽样的边界框替换，10%保持不变。采用交叉熵损失。由于OCR引擎的输出可能存在检测错误，我们让模型预测离散的区域（如上所述），而不是精确的位置。这种策略可以在改善模型性能的同时适度放宽惩罚标准。02.2.3 跨模态对齐识别我们收集了MVLM和KPL屏蔽并进一步替换（错位）或保持不变（对齐）的标记-框对的编码特征，并在其上构建了一个额外的头部来识别每个对是否对齐。为了实现这一点，模型需要学习跨模态感知能力。CAI是一个二分类任务，采用交叉熵损失进行训练。02.3 优化策略0对于所有模型参数使用统一的学习率进行端到端的训练是最常见的优化策略。然而，在我们的情况下，这将导致布局流在预训练阶段不断朝着与不断演化的文本流耦合的方向更新，这对于LiLT在微调过程中与不同的现成文本模型合作的能力是有害的。基于这个考虑，我们探索了多个比例，大大减缓了文本流的预训练优化。我们还发现，适当的减小比例比参数冻结更好。请注意，在端到端优化的微调过程中，我们采用统一的学习率。此时，BiACM的DETACH操作也被取消，如方程6所示。03 实验03.1 预训练设置0我们在IIT-CDIP Test Collection1.0（Lewis等，2006）上对LiLT进行预训练，这是一个大规模的扫描文档图像数据集，包含超过600万个文档和超过1100万个扫描文档图像。我们使用TextIn API1获取该数据集的文本边界框和字符串。在本文中，我们使用现有的预训练英文RoBERTaBASE（Liu等，2019b）初始化文本流，将LiLTBASE与预训练的InfoXLMBASE（Chi等，2021）/新的预训练RoBERTaBASE结合起来进行多语言/单语言微调。它们具有相同数量的自注意层、注意力头和最大序列长度，这确保了BiACM的正常工作。在这个基础设置中，LiLT具有一个12层的编码器，隐藏大小为192，前馈滤波器大小为768，注意力头为12，导致1CAT0.67512CAT+Co-Attention (Lu et al., 2019)0.62763CAT+BiACM0.79634CAT+BiACM−DETACH in pre-training0.76825CAT+BiACM+DETACH in ﬁne-tuning0.782210.761620.774830.780940.7963s.LayoutLMBASE40.75970.81550.7866BROSBASE50.80560.81880.8121SelfDoc6--0.8336LayoutLMv2BASE70.80290.85390.8276StrucTexTBASE80.85680.80970.8309DocFormerBASE90.80760.86090.8334⋆LayoutXLMBASE100.79130.81580.80340# 跨模态操作平均F106 仅文本流（InfoXLM BASE，如表6所示） 0.72070(a) BiACM。CAT代表拼接。0# MVLM KPL CAI 平均F10(b) 预训练任务。0# 减速比平均F101 1（无减速） 0.7840 2 500 0.7901 3 800 0.7947 41000 0.7963 5 1200 0.7935 6 + ∞（参数冻结）0.78930(c) 减速比。0表1：LiLT BASE与InfoXLMBASE（Chi等，2021）在FUNSD和XFUND数据集（总共8种语言）上的消融研究。给出了语言特定语义实体识别（SER）任务的平均F1准确率。（a）BiACM。（b）预训练任务。（c）文本流的减速比。0参数设置为6.1M。最大序列长度N设置为512。LiLTBASE使用Adam优化器进行预训练（Kingma和Ba，2015；Loshchilov和Hutter，2018），学习率为2×10-5，权重衰减为1×10-2，(β1，β2)=(0.9，0.999)。学习率在前10%的步骤中线性增加，然后线性衰减。我们将批量大小设置为96，在IIT-CDIP数据集上使用4个NVIDIA A40 48GBGPU对LiLT BASE进行了5个epoch的训练。03.2 消融研究0考虑到完整的预训练需要很长时间，我们从IIT-CDIP中随机抽取了2M个文档，对LiLTBASE进行了5个epoch的预训练，以进行消融实验，如表1所示。我们首先评估了引入Bi-ACM的效果。在设置(a)#1中，文本和布局特征在模型输出处进行了简单的拼接，没有进一步的交互。与(a)#6相比，我们发现这样的简单设计导致了更多的参数。参数数量为6.1M。最大序列长度N设置为512。LiLTBASE使用Adam优化器进行预训练（Kingma和Ba，2015；Loshchilov和Hutter，2018），学习率为2×10-5，权重衰减为1×10-2，(β1，β2)=(0.9，0.999)。学习率在前10%的步骤中线性增加，然后线性衰减。我们将批量大小设置为96，在IIT-CDIP数据集上使用4个NVIDIA A4048GB GPU对LiLT BASE进行了5个epoch的训练。0模型精确率召回率 F10BERT 基础模型 1 0.5469 0.6710 0.6026 RoBERTa基础模型 2 0.6349 0.6975 0.6648 UniLMv2 基础模型 30.6349 0.6975 0.66480LiLT[ EN-R 2 ] 基础模型 0.8721 0.8965 0.8841 � LiLT[InfoXLM 11 ] 基础模型 0.8467 0.8709 0.85860表2：FUNSD（Jaume等，2019）数据集上语义实体识别（SER）任务的比较。粗体表示SOTA，下划线表示第二好。EN-R代表英文RoBERTa。�多语言模型。[]表示用作LiLT文本流的现成文本模型。1（Devlin等，2019）；2（Liu等，02019b）；3（Bao等人，2020）；4（Xu等人，2020）；5（Hong等人，2020）；6（Li等人，2021b）；7（Xu等人，2021a）；8（Li等人，2021c）；9（Appalaraju等人，2021）；10（Xu等人，2021b）；11（Chi等人，2021）。0与仅使用文本流相比，使用文本流和BiACM的组合在性能上表现更差。从（a）＃1到（a）＃3，显著的改进表明是新颖的BiACM使得从“单语”到“多语言”的转换成功。此外，我们还尝试将BiACM替换为在双流Transformer架构中广泛采用的共同注意力机制（Lu等人，2019）。它可以被视为“更深”的跨模态交互，因为每个模态的键和值被作为输入传递给另一个模态的点积注意力计算。然而，我们观察到严重的下降，如（a）＃2与（a）＃1＃3所示。我们将其归因于这种“更深”的交互对预训练优化中文本流的整体一致性的破坏。相比之下，BiACM可以在提供跨模态信息的基础上保持LiLT的跨模型合作能力。此外，通过（a）＃4与（a）＃3的比较证明了预训练中DETACH的必要性。将（a）＃3与（a）＃5进行比较，我们还可以推断出在微调中去除DETACH会导致更好的性能。然后，我们比较了提出的KPL和CAI任务。如表1（b）所示，两个任务都显著提高了模型的性能，而提出的CAI比KPL对模型的改进更大。同时使用两个任务比仅使用其中一个更有效。0+v:mala2277获取更多论文ModelAccuracyVGG-16190.97%Stacked CNN Single291.11%Stacked CNN Ensemble292.21%InceptionResNetV2392.63%LadderNet492.77%Multimodal Single593.03%Multimodal Ensemble593.07%BERTBASE89.81%UniLMv2BASE90.06%LayoutLMBASE (w/ image)94.42%BROSBASE95.58%SelfDoc93.81%TILTBASE93.50%LayoutLMv2BASE95.25%DocFormerBASE96.17%⋆LayoutXLMBASE95.21%LiLT[EN-R]BASE95.68%⋆LiLT[InfoXLM]BASE95.62%Table 5: Comparison on the document classiﬁcation(DC) task of RVL-CDIP (Harley et al., 2015) dataset.1(Afzal et al., 2017);2(Das et al., 2018);3(Szegedy et al.,2017);4(Sarkhel and Nandi, 2019);5(Dauphinee et al.,2019).in (Xu et al., 2021b) to demonstrate the abilityto transfer knowledge among different languages,which are zero-shot transfer learning and multitaskﬁne-tuning, for fair comparisons. Speciﬁcally, (1)language-speciﬁc ﬁne-tuning refers to the typicalﬁne-tuning paradigm of ﬁne-tuning on language Xand testing on language X. (2) Zero-shot transferlearning means the models are ﬁne-tuned on En-glish data only and then evaluated on each targetlanguage. (3) Multitask ﬁne-tuning requires themodel to ﬁne-tune on data in all languages.3.3.1Language-speciﬁc Fine-tuningWe ﬁrst evaluate LiLT on four widely-used mono-lingual datasets - FUNSD (Jaume et al., 2019),CORD (Park et al., 2019), EPHOIE (Wang et al.,2021a) and RVL-CDIP (Lewis et al., 2006), and theresults are shown in Table 2, 3, 4 and 5. We havefound that (1) LiLT is ﬂexible since it can workwith monolingual or multilingual plain text modelsto deal with downstream tasks. (2) Although LiLTis designed for the transfer from “monolingual” to“multilingual”, it can surprisingly cooperate withmonolingual textual models to achieve competi-tive or even superior performance (especially onthe FUNSD dataset with only a few training sam-ples available), compared with existing language-speciﬁc SDU models such as LayoutLMv2 and+v:mala2277获取更多论文0模型精确率召回率 F10BERT BASE 0.8833 0.9107 0.8968 UniLMv2 BASE0.8987 0.9198 0.90920LayoutLM BASE 0.9437 0.9508 0.9472 BROS BASE0.9558 0.9514 0.9536 LAMBERT BASE 1 - - 0.9441TILT BASE 2 - - 0.9511 LayoutLMv2 BASE 0.94530.9539 0.9495 DocFormer BASE 0.9652 0.96140.9633 � LayoutXLM BASE 0.9456 0.9506 0.94810LiLT [EN-R] BASE 0.9598 0.9616 0.96070� LiLT [InfoXLM] BASE 0.9574 0.9581 0.95770表3：CORD（Park等人，2019）数据集的语义实体识别（SER）任务的比较。1（Garncarek等人，2021）；2（Powalski等人，2021）。0模型精确率召回率 F10BiLSTM+CRF 1 - - 0.8910 GraphIE 2 - - 0.9026基于GCN的 3 - - 0.9255 TRIE 4 - - 0.9321 VIES 5 - -0.9523 MatchVIE 6 - - 0.9687 TCPN 7 - - 0.97590RoBERTa BASE 8 0.9405 0.9640 0.95210StrucTexT BASE - - 0.97950� LayoutXLM BASE 0.9699 0.9820 0.97590LiLT [ZH-R 8] BASE 0.9762 0.9833 0.9797 � LiLT[InfoXLM] BASE 0.9699 0.9820 0.97590表4：EPHOIE（Wang等人，2021a）数据集的语义实体识别（SER）任务的比较。“ZH-R”是中文RoBERTa的缩写。1（Lample等人，2016）；2（Qian等人，2019）；3（Liu等人，2019a）；4（Zhang等人，2020）；5（Wang等人，2021a）；6（Tang等人，2021）；7（Wang等人，2021b）；8（Cui等人，2020）。0最后，我们探索了文本流预训练优化的最适合的减速比。在（c）＃1中，减速比等于1表示没有减速，采用统一的学习率。可以发现，随着减速比的增长，F1分数不断上升，并在比例大于1000时开始下降。因此，我们将减速比默认设置为1000。03.3与SOTAs的比较0为了展示LiLT的性能，我们在几个广泛使用的单语数据集和多语言XFUND基准测试（Xu等人，2021b）上进行了实验。除了涉及典型的语言特定微调的实验外，我们还遵循了设计的两个设置。TaskModelPre-training DocsFUNSDXFUNDAvg.LanguageSizeENZHJAESFRITDEPTSERXLM-RoBERTaBASE--0.66700.87740.77610.61050.67430.66870.68140.68180.7047InfoXLMBASE--0.68520.88680.78650.62300.70150.67510.70630.70080.7207LayoutXLMBASEMultilingual30M0.79400.89240.79210.75500.79020.80820.82220.79030.8056LiLT[InfoXLM]BASEEnglish only11M0.84150.89380.79640.79110.79530.83760.82310.82200.8251REXLM-RoBERTaBASE--0.26590.51050.58000.52950.49650.53050.50410.39820.4769InfoXLMBASE--0.29200.52140.60000.55160.49130.52810.52620.41700.4910LayoutXLMBASEMultilingual30M0.54830.70730.69630.68960.63530.64150.65510.57180.6432LiLT[InfoXLM]BASEEnglish only11M0.62760.72970.70370.71950.69650.70430.65580.58740.6781Table 6: Language-speciﬁc ﬁne-tuning F1 accuracy on FUNSD and XFUND (ﬁne-tuning on X, testing on X).“SER” denotes the semantic entity recognition and “RE” denotes the relation extraction. [] indicates the off-the-shelf textual model used as the text ﬂow of LiLT.DocFormer. (3) On these datasets which are widelyadopted for monolingual evaluation, LiLT gener-ally performs better than LayoutXLM. This fullydemonstrates the effectiveness of our pre-trainingframework and indicates that the layout and textinformation can be successfully decoupled in pre-training and re-coupled in ﬁne-tuning.Then we evaluate LiLT on language-speciﬁcﬁne-tuning tasks of FUNSD and the multilingualXFUND (Xu et al., 2021b), and the results areshown in Table 6. Compared with the plain textmodels (XLM-R/InfoXLM) or the LayoutXLMmodel pre-trained with 30M multilingual struc-tured documents, LiLT achieves the highest F1scores on both the SER and RE tasks of each lan-guage while using 11M monolingual data. Thissigniﬁcant improvement shows LiLT’s capabilityto transfer language-independent knowledge frompre-training to downstream tasks.03.3.2 零射击迁移学习0跨语言零射击转移的结果如表7所示。可以观察到，LiLT模型将最多的知识从英语转移到其他语言，并显著优于其竞争对手。这充分验证了LiLT能够捕捉不同语言之间的常见布局不变性。此外，在这种设置下，LiLT在评估之前从未见过非英语文档，而LayoutXLM模型已经在预训练中使用了它们。也就是说，LiLT面临更严格的跨语言零射击转移情景，但取得了更好的性能。03.3.3 多任务微调0表8显示了多任务学习的结果。在这种设置下，预训练的LiLT模型同时与八种语言进行微调，并0对于每种特定语言进行评估。我们观察到，与语言特定的微调相比，这种设置进一步提高了模型的性能，这证实了SDU可以从多语言结构化文档的布局共性中受益。此外，LiLT再次以较大的优势胜过其竞争对手。04 相关工作0在过去的十年中，深度学习方法成为文档理解任务的主流（Yang等，2017；Augusto BorgesOliveira等，2017；Siegel等，2018）。基于网格的方法（Katti等，2018；Denk和Reisswig，2019；Lin等，2021）被提出用于2D文档表示，其中文本像素使用字符或单词嵌入进行编码，并使用卷积神经网络将其分类为特定的字段类型。基于GNN的方法（Liu等，2019a；Yu等，2021；Tang等，2021）采用文本段的多模态特征作为节点来建模文档图，并使用图神经网络在相邻节点之间传播信息以获得更丰富的表示。近年来，自监督预训练取得了巨大的成功。受到预训练语言模型在各种NLP任务中的发展启发，最近关于结构化文档预训练的研究（Xu等，2020，2021a，b；Li等，2021a，b，c；Appalaraju等，2021）推动了极限。LayoutLM（Xu等，2020）通过添加2D空间坐标嵌入修改了BERT（Devlin等，2019）架构。相比之下，我们的LiLT可以被视为一种更强大和灵活的结构化文档理解解决方案。LayoutLMv2（Xu等，2021a）在LayoutLM的基础上进行了改进，通过处理视觉特征0+v:mala2277获取更多论文n X).0任务模型预训练文档 FUNSD XFUND 平均0语言大小 EN ZH JA ES FR IT DE PT0SER0XLM-RoBERTa BASE - - 0.6670 0.4144 0.3023 0.3055 0.3710 0.2767 0.3286 0.3936 0.3824 InfoXLM BASE - - 0.6852 0.4408 0.3603 0.31020.4021 0.2880 0.3587 0.4502 0.4119 LayoutXLM BASE 多语言 30M 0.7940 0.6019 0.4715 0.4565 0.5757 0.4846 0.5252 0.5390 0.55610LiLT[ InfoXLM ] BASE � 仅英语 11M 0.8415 0.6152 0.5184 0.5101 0.5923 0.5371 0.6013 0.6325 0.60610RE0XLM-RoBERTa BASE - - 0.2659 0.1601 0.2611 0.244

下载后可阅读完整内容，剩余1页未读，立即下载