XYLayoutLM：基于布局感知的多模态文档理解方法

5 浏览量更新于2023-10-26 收藏 1.23MB PDF 举报

多模态网络

位置编码

身份认证购VIP最低享 7 折!

30元优惠券

4583--XYLayoutLM：面向可视化丰富文档理解的顾章轩1、2、孟昌华2、王可2、蓝俊2、王伟强2、顾明2、张丽青1*1MoE计算机科学与工程系人工智能重点实验室，上海交通大学、2蚂蚁集团zhangxgu@126.com昌华.mch，kaywang.wk，叶兰.lj，guming.mg @ antgroup.comzhang-lq@cs.sjtu.edu.cn摘要近年来，人们提出了各种多模态视觉丰富文档理解网络（VRDU），通过将视觉和布局信息与文本嵌入相结合，促进了转换器的发展。然而，大多数现有的方法利用位置嵌入来合并序列信息，忽略了由OCR工具获得的噪声不正确的读取顺序。在本文中，我们提出了一个强大的布局感知多模态网络命名为XYLayoutLM捕获和杠杆年龄丰富的布局信息，从适当的阅读顺序产生的增强XY切。此外，本文还提出了一种扩展的一致性位置编码模块来处理可变长度的输入序列，并在生成位置嵌入的同时从文本和视觉模态中提取局部布局信息。实验结果表明，我们的XYLayoutLM取得了竞争力的结果，对文件的理解任务。1. 介绍虽然在自然语言处理和视觉理解方面取得了重大进展[5，7，8，20]，但对其具有挑战性的变体的关注较少多模式文档理解领域。视觉丰富文档理解（VRDU）[28]任务需要结合来自扫描/数字生成文档（图像，PDF等）的丰富图像，文本和布局信息。）该技术可用于报表/单据理解、自动填表、单据关系提取等多种场景。因此，迫切需要有效和高效的VRDU方法。为此，研究人员开发了复杂的*通讯作者。解决这一任务的管道[2，10，16，18，28一般来说，早期的尝试可以分为基于文本的[4，6，10]，基于卷积的[12，15]，24，26，34]和基于GCN的方法[19]基于文本的方法，例如，XLM-RoBERT [6]和InfoXLM [4]，通常依赖于自监督模型的表示能力，如Bert [7]在大型数据集上预训练。基于卷积的方法Chargrid [15]利用一个完全卷积的网络来预测用于文档表示的分割掩码和边界框最近，[19]引入了一种基于图卷积网络的模型，以融合扫描文档的文本和视觉特征。尽管已经做出了像LayoutLM [28]，LayoutLMv2 [30]和LayoutXLM [29]这样的尝试来以多模式方式解决文档理解，但它们仍然面临两个限制：（1）它们依赖于OCR [31]工具的令牌和框，而没有探索阅读顺序的影响。正确的读取顺序是指组织良好的可读令牌序列，其可能不是唯一的。直观地说，输入标记的阅读顺序对许多任务至关重要，例如语言翻译 [27] 和 VQA[33]。例如，当我们打乱单词时，句子的含义可能会改变，从而导致语言翻译过程中的错误。一种常见的解决方案是使用位置嵌入来表示输入标记的这种顺序。然而，我们发现，多模态模型与广泛使用的相对位置嵌入仍然遭受不正确的阅读顺序。正确的读取顺序隐含地包括布局信息，这在VRDU任务中是必需的。(2)它们通常利用变压器中固定长度的绝对/相对位置嵌入。模型一旦训练好，就无法处理较长令牌序列的测试数据虽然双线性插值的位置嵌入可以应用到较长的序列，性能并不令人满意。条件位置编码（Conditional Position Encoding）4584图1. XFUN数据集的示例。阅读顺序由框中的索引表示，而红色的表示它们的顺序不正确。(CPE)[5]提出了处理图像分类任务中可变长度的输入它将输入标记重塑为2D特征，并通过卷积从输入标记中动态提取局部邻居上下文。然而，由于CPE是专为视觉令牌，它不能处理1D文本令牌在VRDU任务。在本文中，我们提出了Lay-outLMv 2 [30]的改进版本XYLayoutLM。XY-LayoutLM不是在大型私人/公共文档理解数据集上进行预训练，而是专注于生成位置嵌入，其中VRDU中有两个未充分探索的限制，即不正确的阅读顺序，以及处理较长序列的能力，如上所述。尽管具有适当的阅读顺序似乎是多模态任务的基本要求，但是由于各种格式，例如，、表和列。具体来说，我们在图1中显示了来自XFUN [29]数据集的表单。默认读取顺序是嘈杂的。基于由OCR工具获得的框，传统的排序方法（诸如以从上到下和从左到右的方式排列令牌）不能令人满意。例如，我们在该图中列出了两个简单的启发式规则，即（a）先按Y轴下降，然后按X轴下降，（b）以符号框的左上点为条件按Y+X下降。然而，图1中的红色索引仍然突出显示具有不正确读取顺序的令牌最后，我们利用XY切割[11]（c）并成功地获得了一个正确的阅读顺序。有趣的是，由于OCR识别中的噪声，同一行中的一些令牌可能具有不同的位置。它失败了两个启发式规则，需要的令牌的准确位置。然而，我们仍然可以获得一系列适当的阅读顺序的培训，我们提出了增强XY切割作为一种增强策略。对于可变长度的输入序列，我们利用一种新的扩张条件位置编码（DCPE）模块，根据输入序列的长度，利用扩张卷积自适应地生成位置嵌入，例如，跟踪本地布局。我们证明，XYLay-outLM可以导致更好的性能比以前的Lay-outLM [28-我们总结我们的贡献如下。• 首次提出了增强XY切割算法，并将其应用于VRDU任务中输入标记的排序，以生成它提取并利用布局信息来实现竞争性能。• 为了处理可变长度的输入序列，我们提出了一个扩张的条件位置编码的位置嵌入生成器，以自适应地处理1D文本和2D视觉令牌。得益于正确的读取顺序，DCPE可以进一步提取具有扩张卷积的输入令牌的丰富的局部布局• 在 VRDU 数据集上进行了综合实验。我们的XYLayoutLM在语义实体识别和关系提取任务上在所有列出的VRDU方法中具有竞争2. 相关作品2.1. 视觉丰富的文档理解最近，基于变换器的方法已被证明在许多计算机视觉[5，8，20]和自然语言处理[4，7，10]领域是有效的。其中，[28-作为我们的基线，LayoutXLM [28]是LayoutLMv2 [30]的多语言版本。他们成功地结合了文本、布局和视觉特征，取得了令人印象深刻的结果。但是，这些方法可能会以OCR工具对复杂文档造成的不正确的读取顺序将输入令牌馈送到Transformer在本文中，我们更多地关注未被探索的挑战，即。输入标记的正确读取顺序对模型的性能有着重要的影响2.2. 位置编码位置编码通常用于合并序列的顺序，因为自注意是置换等价的。现有的研究可以分为两大类：绝对位置编码和相对位置编码。当[27]首次提出基于变换器的模型时，他们设计了一个精细的sin-cos函数作为绝对位置编码。之后，[7]使用了一个可学习的绝对嵌入，这是一个与输入序列相同长度的嵌入。它可以在训练期间与网络权重联合更新。最近，通过考虑令牌之间的距离，[25]提出改变125347610911(a)按（Y，X）递减123487116910(b)按X+Y123465791011(c)基于OCR的XY切割85815234671011894585×我∈ΣΣ.i=11122Hb（ y）=1212我Vb（ x）=12联系我们.位置嵌入由绝对嵌入方式转变为相对嵌入方式。然而，它们不能处理具有固定长度位置编码的较长序列。为此，提出了条件位置编码（CPE）[5]来处理图像分类任务中的可变长度输入序列。它生成以2D卷积层提取的局部上下文为条件的位置嵌入。然而，由于文档理解任务中的1D文本特征，CPE不能用于多模态网络2.3. 读取顺序检测阅读顺序检测[1，3，9，17，21，22]旨在捕获文档的正确阅读顺序。一般来说，人类倾向于从左到右和从上到下阅读文档。然而，这种简单的排序规则可能由于OCR工具在复杂文档上提取的令牌而失败。最近，[35]提出了一种用于阅读顺序检测的多模态网络，其具有由大量复杂文档组成的大型基准。然而，与我们的方法相比，收集500k标准Word文件的劳动力和训练LayoutReader的时间[35]不可忽视。同时，Lay-outReader在阅读顺序检测上的推理时间比我们的方法长得多（见附录）。在本文中，我们提出了一个简单而有效的增强算法的基础上XY切割[11]，以获得不同的适当的阅读顺序。3. 方法3.1. 概述整个XYlayoutLM架构如图2所示。该模型将图像、文本标记和文本位置（框）作为输入。视觉令牌通过自适应池化ResNeXt-101到7 7的特征图来获得。然后，我们将其展平并与文本标记集中，以形成下面[29]的输入标记序列利用两个与基线模型LayoutXLM [29]不同，我们的XYLayoutLM有两个优点：（1）提出了一个增强的XY切割模块，用于对不同正确阅读顺序的输入标记进行排序(2)而不是生成位置嵌入与固定长度的MLP，我们提出了扩张的con-candidate位置编码（DCPE）模块来处理来自文本和图像的可变长度的输入标记。在本节中，我们将首先简要介绍LayoutXLM[29]，然后详细介绍上述组件。3.2. 关于LayoutXLM回想一下，LayoutXLM [29]接受三种形式的输入：文本，图像和布局（即令牌位置）。每个模态的输入被转换为嵌入序列的固定长度的MLP操作的位置索引，如图2所示。文本和图像嵌入被连接起来，加上布局嵌入以获得输入嵌入。在此之后，输入嵌入由Transformer编码，该transformer具有模态内和模态之间的空间感知最后，由Transformer输出的视觉/文本标记由于自我注意层的架构不是我们的主要关注点，我们在这里省略了它，并请读者参考[29，30]了解详细信息。3.3. 正确的阅读顺序如何获得适当的阅读顺序的文件，如表格和收据是一个悬而未决的问题。直观地，可以从投影轮廓推断令牌框如何对齐以及显著的水平和垂直间隙存在于何处因此，令牌盒的投影轮廓可以用于确定读取顺序。在本节中，我们首先介绍令牌盒的投影轮廓，然后介绍增强XY切割算法。投影轮廓。假设我们给出一组令牌盒B =biK，其中每个bi=[xi，yi，xi，yi]Z4表示一个盒，K是提取的OCR的数量代币我们还将B中的最小和最大令牌位置定义为（xmin，ymin）和（xmax，ymax）。然后，框b i的水平映射Hbi被公式化为指示函数：1、i≤i≤ii0，否则其中yZ[ymin，ymax]。对于Y轴上的位置y，Hb（y）有效地表示y是否在投影区间[yi，yi]中。基于Hb，我们可以通过对各个盒子的所有水平映射函数求和来定义集合B的水平投影轮廓：KHB（y）= Hbi（y）。（二）i=1HB（y）的值表示有多少个标记框被投影到覆盖输入变量y的Y轴上。类似于HB（y），B的垂直投影轮廓可以表示如下：KVB（x）= Vbi（x），（3）i=1哪里1，xi≤x≤xii0，否则是bi上的垂直映射，x∈Z[xmin，xmax]。（一）（四）4586∈····-||||1i=12i=1--∪ ∪ ∪ ∪ ∪图2. XYLayoutLM的概述。与LayoutXLM不同，我们的XYLayoutLM提出了增强XY剪切和DCPE提取和利用布局信息的多模态文档理解。最好在Adobe Acrobat DC中查看。投影纵断面中的谷为了简单起见，让我们以水平投影轮廓HB为例。如前所述，在我们将标记盒B投影到Y轴以获得相应的区间[yi，yi]K之后，HB（y）就像是用于计算覆盖y的区间的直方图。因此，在他的togram中可能会有一些山谷。这里的谷被定义为满足条件HB （y_max ）= 0的y_max_Z[y_min ，y_max]。山谷里没有代币盒。因此，投影轮廓的谷可以确定必须在何处进行分割。增强XY切割算法。传统的XY切割是一种启发式分治算法，[23]根据每个像素的值将句子分割成词。在1995年，[11]利用它来分解文档（如报纸），通过在连接的组件上应用XY Cut。然而，目前还没有研究在多模态模型或其他深度学习转换器中探索XY切割以获得正确的阅读顺序。如在引言中所提到的，令牌位置通常利用噪声来识别。而不是昂贵的人类注释的阅读顺序，我们提出了一个增强策略，这些嘈杂的位置，在网络训练过程中产生不同的正确的阅读顺序。我们相信正确的阅读顺序隐含着重要的布局信息，对文档理解任务有很大的帮助.我们只执行传统的XY切割作为推理阶段的预处理。利用上面定义的投影轮廓和谷，增强XY切割可以解释如下。为了更好地介绍它，我们构建了一个XY树，用于记录阅读顺序，同时执行增强XY切割。如算法1和图2（b）所示，我们将盒子集B作为输入，算法将输出一个索引ar-射线O={s（i）}K作为一个正确的阅读顺序。起初，我们创建一个没有任何索引的根节点。然后，与传统的XY切割不同，我们提出了一种基于三个阈值的增强策略：λx，λy，θ。具体地，λx（λy）是确定我们是否在X轴（Y轴）上移动框的阈值。如果是这样，我们将在一个方向上移动一个具有θ vx（θ vy）像素的对于每个盒子，我们从N（1，1）生成两个随机值vx，vy。如果vx>λx（vy>λy），则此框将根据v x（v y）的符号以θ vx（θ vy）个像素的方向移位。在本文中，我们将超参数设置为0。5，0。5，根据实验结果默认为5在每个步骤中，在水平或垂直方向上计算投影轮廓然后在相应的投影轮廓中的谷处进行划分以获得若干聚类。它们的标记框将按降序作为XY树的新子节点聚集为了获得长度K的适当阅读顺序，现在将每个簇中的子任务以盒子的数量作为序列长度。递归地重复该过程，直到在两个轮廓中没有留下足够的谷。如果一个簇有多个盒子，并且它不能被水平和垂直投影轮廓分割，那么这个簇内的阅读顺序将遵循启发式规则，例如。，先沿Y轴下降，然后沿X轴下降。最后，通过收集XY树的叶子上的索引以树高来获得输出读取顺序为了更好地解释XY树的生成，我们以图2（b）为例。在第一步中，我们通过计算水平投影轮廓HB（y）的值将所有七个框水平投影到Y轴。我们发现只有一个谷，然后根据它们在Y轴上的位置进行划分，以降序得到两个聚类（参见图2（b）中的1和2 3 4 5 6 7）。第一集群仅具有一个元素，即，框1，并且因此它是4587--∪ ∪ ∪ ∪ ∪Σ×∪∪ ∪算法1增强的XY切割算法上，DCPE重塑了2D视觉特征，需要：盒：B={bi}K，阈值：λx，λy，θ在CPE之后将其位置嵌入而确保：i=1K对于文本特征，我们利用1D卷积来提取正确的读取顺序：O=s（i）i=1一曰：创建根节点。初始化XY树2：用λx，λy，θ对B进行增广。简体中文3：找到水平（HB）或垂直（VB）投影轮廓的谷。4：在山谷中进行划分。每当进行分割时，创建一个新的子节点。在每个递归级别，水平和垂直划分交替进行。5：递归地执行步骤3-4，直到不可能进行进一步的除法。第六章：收集叶子上的索引作为输出O。1D局部布局。将文本和图像的编码嵌入集中作为最终输出。另一个观察结果是，多模态任务在捕获局部布局时通常需要更大的感受野例如，在句子“he is a veryhandsome boy”中，“he”和“boy”的关系是必不可少的，但由于卷积核大小较小（例如，、3）。为此，我们采用扩张卷积[32]来代替标准卷积，旨在获得具有更大接收域的长程邻居信息。设l为扩张率和扩张的常数-解决方案1可以被公式化为：XY树的第一片叶子第二个簇有6个元素，候选顺序数组为2 34567、因此被输送到具有垂直投影轮廓的第二步骤在（Flk）（p）=s+lt=pF（s）k（t）（5）第二步，检测到两个谷，因此，2和7的阶被确定为XY树的叶子，3 4 5 6还需要进一步的分裂。通过迭代，形成水平和垂直投影，我们可以得到树叶上的最终阅读顺序伪代码见附录。3.4. 扩展条件位置编码条件位置编码（CPE）[5]旨在为图像分类任务中的不同输入生成不同长度的位置嵌入。具体而言，它将展平的输入序列X重新整形为2D视觉空间中的X’。然后，将卷积层重复应用于X’，以产生具有适当内核和填充大小的位置嵌入E，以保持分辨率。最后，位置嵌入E被展平并作为Transformer输入添加到标记嵌入。然而，简单地将LayoutXLM中的MLP替换为CPE会降低VRDU任务的性能。一个原因是由于不正确的读取顺序导致的输入令牌的错误邻居。由于CPE是在卷积的局部上下文上进行的，错误的邻居将损害模型的性能。另一个原因是CPE是专门为图像分类而设计的图像分类的输入视觉标记是16 × 16块，它们可以自然地整形为2D以进行局部上下文提取。然而，在多模态任务中，我们的输入中也有1D文本标记。这些文本标记只有1D关系，因此它们不能被合理地重塑为2D。第一个问题是解决了一个适当的阅读顺序，通过使用我们的增强XY切割。在本节中，我们提出了扩展条件位置编码（DCPE）来解决第二个问题，即如何从文本中提取1D局部布局。如图2（a）所示，我们的DCPE分别处理文本和视觉特征。具体-其中F、k是输入特征图和滤波器。DCPE模块通过对具有不同膨胀率l>1的膨胀卷积进行重复叠加，将更多地关注长距离近邻信息。此外，在相同的核大小下，扩张卷积具有与标准卷积相同的参数，这意味着我们的DCPE不会增加模型的复杂度。注意，DCPE中的新参数由Xavier初始化，并在训练期间随整个模型更新。4. 实验4.1. 设置数据集。根据LayoutXLM [29]，我们在广泛使用的VRDU数据集FUNSD [14]和XFUN [29]上进行实验。FUNSD是扫描文档的表单理解数据集。它包含199个注释形式与31485字。XFUN是一个多语言表单理解的基准，它将FUNSD扩展到其他7种语言，包括中文、日语、西班牙语、法语、意大利语、德语和葡萄牙语，并具有1393个完全注释的表单。每种语言包括199种形式，其中训练集包括149种形式，测试集包括50种形式。这两个数据集提供官方OCR注释（边界框和标记）作为输入。任务我们专注于两个任务，从VRDU，语义实体识别（SER）和关系提取（RE）。具体来说，SER从一组四个预定义的类别中为每个标记分配一个语义标签：问题、答案、标题或其他。对于RE，在[29]之后，我们通过生成所有可能的输入标记对来构造关系候选集。我们利用一个特定的嵌入层为每一对生成令牌类型嵌入作为令牌关系表示。头部和尾部的表示被连接并馈送到双仿射分类器中。F1得分为4588↑↑↑×↑×任务方法XFUN平均ZHJAESFR它DEPT[6]第六话0.70470.87740.77610.61050.67430.66870.68140.6818InfoXLM [4]0.72070.88680.78650.62300.70150.67510.70630.7008SER[29]第二十九话0.80560.89240.79210.75500.79020.80820.82220.7903布局XLM +CPE0.80470.87760.79090.75510.79080.80630.82270.7898XYLayoutLM0.82040.91760.80570.76870.79970.81750.83350.8001[6]第六话0.47690.51050.58000.52950.49650.53050.50410.3982InfoXLM [4]0.49100.52140.60000.55160.49130.52810.52620.4170RE[29]第二十九话0.64320.70730.69630.68960.63530.64150.65510.5718布局XLM +CPE0.63990.70590.69680.68120.62380.63990.64740.5723XYLayoutLM0.67790.74450.70590.72590.65210.65720.67030.5898表1.比较不同方法对XFUN的 F1得分（），其中SER RE表2.不同方法对FUNSDw.r.t F1评分的比较（）。* 表示StructuralLM使用LARGE模型，而其他人使用BASE模型。SER RE表3. XYLayoutLM在XFUN（中文，英文）上针对SER和RE任务的消融研究，F1评分（）。2意味着我们在这个模块中使用了两个卷积层。作为两个任务的评估指标。型号变体。我们使用预训练的LayoutXLM BASE初始化XYLayoutLM的权重。我们设置隐藏大小d=768，并使用12层12头Transformer。可视化主干是ResNeXt101-FPN ，可视化特性来自 FPN 中的 P2 层，遵循LayoutXLM。培训详情。我们在LayoutXLM中使用相同的超参数来对两个数据集进行公平的比较。对表4.基于XFUN（中文，英文）上不同阅读顺序的基线LayoutXLMXFUN，SER任务的学习率和批量大小分别设置为510−5和32。我们用1000次迭代来训练模型以实现收敛。对于RE任务，批量大小为8，具有用于训练的2500次迭代。而在FUNSD上，批量大小为16，我们在[30]之后训练模型4.2. 主要结果在这里，我们将我们的方法与XFUN上基于文本的方法XLM-RoBERT [6]，InfoXLM [4]和LayoutXLM [29]进行了比较。结果示于表1中。从表中，我们可以观察到，XYLayoutLM实现了最好的性能之间列出的方法。更具体地说，在多模态方法中，XYLayoutLM在SER任务的XFUN数据集上的原始LayoutXLM [29]上执行1.48%F1分数。此外，我们的XY- LayoutLM在RE任务中获得了0.6779的F1分数，这比基线LayoutXLM（0.6432）有了明显的改善。如表2所示，FUNSD数据集得出了类似的结论。我们的XYLayoutLM实现方法BERT[7]罗伯特·塔[6]BROS [13][28]第二十八话[29]第二十九话DocFormer [2][第18话][16]第十六话模态Language语言SER0.60260.6648语言0.8121语言+布局+视觉0.7927语言+布局+视觉0.8276语言+布局+视觉0.8334语言+布局+视觉0.8336语言+布局0.8514语言+布局+视觉0.8335方法ZHESZHES默认顺序0.89240.75500.70730.6896移除后嵌入0.88420.74770.69410.6682降序（Y，X）0.88570.74860.72970.7179降序（X，Y）0.85610.73430.68580.6549降序（X+Y）0.88440.75130.72350.7086XY切割0.89030.75620.72810.7175Aug降序（Y，X）0.89250.75430.73310.7212AugXY Cut（0. 5，0。5、1）0.89130.75680.72820.7178AugXY Cut（0. 2，0。（第2、5段）0.90110.75860.73870.7202AugXY Cut（0. 5，0。（第五、五段）0.90230.76000.73890.7213AugXY Cut（0. 七比零。（第7、5段）0.89180.75410.72600.7166方法ZHESZHES布局XLM0.89240.75500.70730.6896+ CPE0.87760.73060.70590.6812+2×CPE+2×DCPE+ XY切割0.88190.89520.89030.74120.75480.75620.70820.70970.72810.68200.68430.7175+ 8月XY切割0.90230.75700.73890.7213+ 8月XY切割CPE0.90370.75970.74010.7236+ 8月XY切割DCPE0.91760.76870.74450.72594589↑××DCPE SER RE文本图像ZHESZHESConv2dConv2d0.90370.75970.70590.6812Conv1dConv1d0.90910.76130.70660.6832Conv1dConv2d0.91400.76250.72560.7106D-Conv1dConv2d0.91630.76690.74400.7244Conv1dD-Conv2d0.91490.76420.74270.7211D-Conv1dD-Conv2d0.91760.76870.74450.7259表5. XYLayoutLM基于XFUN上不同DCPE架构的F1得分（）（中文，英文）。性能与最新方法（如Doc- Former [2]和SelfDoc [18]）相当。请注意，StructuralLM*[16]使用LARGE模型获得最佳性能，而本表中的其他方法仅使用BASE模型。另一个观察结果是，仅在LayoutXLM上使用CPE [5]来生成位置嵌入会损害所有任务的性能。这一观察结果验证了我们在3.4节中提到的多模式网络CPE的弱点。4.3. 消融研究我们在XFUN数据集的中文和英文子集上进行SER实验，用于消融研究。首先，我们展示了逐步集成不同组件（DCPE和增强XY切割模块）对表3中基线的影响。然后，我们探索不同的设置，每个组件单独。组件分析。如表3所示，我们首先使用CPE来生成位置嵌入，而不是 LayoutXLM 中的 MLP ，这降低了约0.2%F1分数。可以解释的是，由于不合理的读取顺序和错误的邻居，由CPE获得的用于位置嵌入生成的局部上下文是有噪声的。在第三和第四行中，我们用我们提出的具有膨胀卷积的DCPE替换CPE，从而改善了所有任务。注意，2意味着我们在每个模块中堆叠两个卷积层，因为只有一个膨胀卷积可能会丢失孔中的信息。然而，仅使用DCPE的性能增益受到不正确的读取顺序的影响。接下来，我们只将XY Cut添加到基线，导致SER（1%）和RE（3%）任务的F1得分显著提高，这验证了正确阅读顺序的重要作用。此外，当我们只执行增强XY切割（Aug XY在表中简称），其改善是令人满意的。最后两行显示与增强XY切割相关的CPE和DCPE的性能。我们可以观察到，我们的DCPE实现了更好的结果比CPE，因为更大的文本和视觉功能的接受域。此外，受益于增强XY切割，DCPE的改进得到了极大的促进。当在SER任务中，DCPE在默认的错误阅读顺序下适应基线模型，对XFUN中文子集的F1得分仅提高了0.1%然而，在增强XY切割之后，改善达到1.5%。总之，XYLayoutLM在基线LayoutXLM基础上的整体改进表明了我们的两个算法的有效性。贡献，增强XY切割和DCPE。增强XY切割的分析符号阅读顺序是有效的文献理解方法的一个基本要素。因此，为了评估我们提出的增强XY切割所实现的改进，我们基于基线LayoutXLM对具有不同读取顺序的XFUN进行实验，如表4所示。当我们移除第二行中所示的所有位置嵌入时，SER和RE任务的性能下降，这表明位置嵌入对于引入读取顺序的重要性接下来的四行是用于对标记进行排序的规则，即，先Y轴后X轴，先X轴后Y轴，Y+ X基于令牌框的左上点和传统的XY切割。然而，与基线相比，它们的性能并不令人满意。最后，通过使用我们的增强XY切割，模型实现了最佳性能。请注意，我们将超参数λx，λy，θ设置为0。5，0。5，5，因为它的性能比其他选择略好。DCPE的分析。除了处理不同长度输入的能力之外，DCPE模块还在我们的XYLayoutLM中起着因此，我们比较了DCPE模块内部的几种设置，以提高其有效性。如表5所示，通过将标准卷积层替换为文本和视觉令牌的扩张卷积层，网络性能稳步提高，并在对文本和视觉令牌使用扩张卷积时达到峰值F1分数另一个观察结果是，1D卷积可以比2D卷积更好地提取文本特征，这也验证了我们关于CPE在多模式网络中失败的原因的说法。通过这些消融研究，我们得出结论，在XYLay-outLM中：增强XY切割和DCPE模块都在消融过程中发挥重要作用。最后的表演。4.4. 可视化对注意力得分的影响。我们已经证明XYLayoutLM可以比原始的基线LayoutXLM有更好的性能.然而，因为增强XY切割和DCPE在位置嵌入中隐式地提供布局信息，所以看到变压器的注意力权重是有趣给定一个文档，注意力分数的大小是561 561，遵循LayoutXLM（512个文本令牌和49个视觉令牌）。我们在图3中可视化了具有相同阅读顺序的一个样本的不同注意力层的注意力得分矩阵。注意4590第一层第十二层布局XLM第一层第十二层XYLayoutLM图3.基于LayoutXLM和XYLayoutLM的一个样本的注意力分数的可视化。注意力得分图来自第一/第十二注意力层中的第十二注意力头部。最好用彩色观看。默认顺序XY切割图4.输入标记上的增强XY切割的可视化。读取顺序显示为红色索引。Ground-truth LayoutXLM XYLayoutLM图5.用于SER任务的LayoutXLM和XYLayoutLM的预测。红色的字是地面的真理。蓝色和绿色的单词是LayoutXLM和XYLayoutLM，repeat的预测。最好用彩色观看。这些注意力分数图都来自第十二注意力头部而没有归一化。从图3中我们可以得出以下结论。XYLayoutLM的注意力权重在大多数层都大于此外，受益于DCPE，XYLayoutLM可以提取更多的布局信息，从本地邻居，因为在XYLayoutLM的亮线是大胆的。增强XY切割。我们在图4中可视化了我们提出的增强XY切割之前和之后的令牌读取顺序。该图显示了我们的XY Cut成功地以正确的读取顺序对输入标记进行了排序。在 XFUN 上表演。 XFUN 数据集上 XYLay-outLM 和LayoutXLM的可视化如图5所示。此图中的红色表示地面真值，而蓝色和绿色分别表示 LayoutXLM 和XYLayoutLM 的预测类别。该图显示，我们的XYLayoutLM 可以在具有挑战性的情况下比LayoutXLM更好地分类5. 结论在这项工作中，我们介绍了XYLayoutLM，一个简单而有效的多模态网络，用于文档理解。我们的模型包含两个相关的贡献，即。，August- mented XY Cut（用于正确的读取顺序）和DCPE（用于生成具有局部布局信息的各种长度位置嵌入）。此外，它在几个VRDU数据集上取得了有竞争力的结果。我们希望我们的工作可以启发设计新的框架来解决具有挑战性的文档理解任务。6. 确认本研究得到了蚂蚁集团的资助，包括蚂蚁研究实习生项目、上海市科技重大专项（ 20511100300 ，2021SHZDZX0102 ）和国家自然科学基金（62076162）。4591引用[1] M. Aiello和Amw Smeulders。阅读顺序检测的二维关系。2003. 3[2] Srikar Appalaraju ， Bhavan Jasani ， Bhargava UralaKota，Yusshen Xie，and R Manmatha. Docformer：用于文档理解的端到端Transformer。arXiv预印本arXiv：2106.11539，2021。一、六、七[3] M. Ceci，M. Berardi，G. A. Porcelli和D.马勒巴一种用于阅读顺序检测的数据挖掘方法载于ICDAR，2007年。3[4] Zewen Chi，Li Dong，Furu Wei，Nan Yang，SakshamSing-hal，Wenhui Wang，Xia Song，Xian-Ling Mao，Heyan Huang，and Ming Zhou. Infoxlm：一个跨语言语言模型预训练的信息理论框架。在NAACL，2021年。一、二、六[5] 楚翔翔，田智，张波，王新龙，魏晓林，夏华夏，沈春华.视觉变换器的条件位置编码。arXiv预印本arXiv：2102.10882，2021。一二三五七[6] Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishra vChaudhary、GuillaumeWenzek 、FranciscoGuzm'n 、 Edouard Grave 、 Myle Ott 、 Luke Zettlemoyer 和Veselin Stoyanov。无监督跨语言表征学习。在ACL，2020年。1、6[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。一、二、六[8] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. ICLR，2021年。一、二[9] Stefano Ferilli，Domenico Grieco，Domenico Redavid，and Floriana Esposito.阅读顺序检测的抽象论证。在2014年ACM文档工程研讨会上。3[10] Garncarek，Rafaeli Powalski，Tomasz Stanislavawek，Bartosz Topolski，Piotr Halama，Michaeli Turski，andFilip Grali n'ski. Lambert：布局-一种用于信息提取的语言建模在ICDAR，2020年。一、二[11] Jaekyu Ha，Robert M Haralick，and Ihsin T Phillips.递归xy切割使用连接组件的边界框。载于ICDAE，1995年。二、三、四[12] Leipeng Hao，Liangcai Gao，Xiaohan Yi，and Zhi Tang.基于卷积神经网络的pdf文档表格检测方法在DAS，2016年。1[13] Teakgyu Hong ， Donghyun Kim ， Mingi Ji ， WonseokHwang，Daehyun Nam，and Sungrae Park.Bros：一个预先训练的语言模型，专注于文本和布局，以更好地从文档中提取关键信息。arXiv预印本arXiv：2108.04539，2021。6[14] Guillaume Jaume ， Hazim Kemal Ekenel ， and Jean-Philippe Thiran. Funsd：一个数据集，用于在嘈杂的扫描文档中进行形式理解。在ICDARW，2019年。54592[15] Anoop Raveendra Katti，Christian Reisswig，CordulaGuder ， SebastianBrarda ， SteffenBickel ，JohannesHohne 和Jean Baptiste Faddoul。Chargrid：理解2D文档。在EMNLP，2018年。1[16] Chenliang Li ， Bin Bi ， Ming Yan ， Wei Wang ，SongfangHuang ， FeiHuang ， andLuoSi.Structurallm：用于形式理解的结构预训练。arXiv预印本arXiv：2105.11210，2021。一、六、七[17] Liangcheng Li ， Feiyu Gao ， Jiajun Bu ， YongpanWang，Z

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

XYLayoutLM：基于布局感知的多模态文档理解方法

MSRA-万字综述 直击多模态文档理解 .pdf

心理感知 生理感知 多模态

基于信息熵的多模态数据融合

基于神经网络多模态数据融合方法 多个神经网络组合

给我推荐20个比流行的多模态模型

医学图像多模态融合有哪些方法

多模态混合融合方法的缺点

多模态大模型学习路线

多模态特征融合方法有哪些？

基于多模态的网络安全感知系统

多模态知识库中多模态关联用到的技术

QMessageBox::information设置非模态对话框

多模态理论的国内外定义

基于transformer的交通车辆多模态轨迹预测

针对电子商务平台，设计一个基于多模态技术的产品推荐系统，要求给出功能模块图和系统架构图设计。

多模态信息融合有哪几种方法

多模态对话情感识别最新工作

给我推荐20个多模态模型

基于深度学习的多模态融合识别有哪些方法？

你如何理解多模态大模型

最新资源

MSRA-万字综述直击多模态文档理解 .pdf

心理感知生理感知多模态

基于神经网络多模态数据融合方法多个神经网络组合