面向文档理解的多尺度单元布局表示

128 浏览量更新于2023-10-15 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3670面向文档理解的多尺度单元布局表示YuzhiShi1*，MijungKim2，andYeongnamChae21Chubu University2乐天工业shi@mprg.cs.chubu.ac.jp，{mijung.a.kim，yeongnam.chae} @ rakuten.com摘要深度学习技术在文档理解方面取得了显著进展。大多数模型使用坐标来表示组件的绝对或相对空间信息，但它们难以表示文档布局中的潜在规则。这使得学习布局表示更加困难.与以往的研究中使用坐标系、图形或网格来表示文档布局不同，本文提出了一种新的布局表示方法--基于单元格的布局它符合人类阅读习惯，利用细胞信息，即细胞信息。行和列索引，以表示文档中组件的位置，并使文档布局更容易理解。此外，我们提出了多尺度布局来表示层次结构，图1,12,13,14,11,5布局，并开发了一种数据增强方法，以提高性能。实验结果表明，该方法在基于文本的任务（包括表单理解和回执理解）中达到了最佳性能，在基于图像的任务（如文档图像分类）中性能有所提高我们在repoa中发布了代码。1. 介绍文档理解可以从各种文档（如扫描的表单和收据）中解析布局并提取关键信息，这些文档广泛应用于许多行业。然而，由于其跨模态的性质，包括文本，视觉和布局特征，这是一个具有挑战性的任务.随着自然语言处理（NLP）和计算机视觉（CV）技术的发展，文本信息和视觉信息的提取变得越来越容易，而版面信息的利用却受到较少的关注。因此，我们试图开发一个布局表示，*在乐天集团实习期间进行的工作ahttps://github.com/mijungkim-rakuten/基于多尺度单元基于网格单元的布局图1. 三种布局表达：基于图形、网格和单元格的布局。基于单元格的布局中的数字是单元格的[行，列]索引。这些图像取自可持续发展基金会和CORD。符合人类阅读习惯的语音。文档由许多独立的组件组成，如文本块、图形和表格。这些组件的位置通常遵循特定的模式。例如，答案通常是写在右边或右下相应的问题作为一对。此外，上下文相似的组件被写在相同的行或列上。文本成分的这种排列方式使我们能够更容易和快速地阅读，这是文档理解的关键特征之一。以前的工作[24，25，7，13，3]使用从光学字符识别（OCR）模型中提取的绝对由于这些方法与它们的OCR算法相关联，因此坐标受到算法限制的影响。此外，组件之间的关系信息也很难获取.因此，存在混淆模型的可能性，这导致训练组分B组分A组分F组分E组件…组件C组分D3671模型更加困难。为了解决这个问题，我们引入了基于单元格的布局，以改善空间位置的表示。细胞是一个组成单位在用于表示布局的图像中，其对应于边界框。具体地说，我们通过对具有相似y/x坐标的单元格给出相同的行/列索引通过从行/列索引中学习，模型可以了解两个组件是否因此，该模型可以理解文档中组件之间相对更高层次的空间关系。关于布局表示，有两种流行的方式：[26]如图1所示的图形和网格。图模型可以学习所有组件之间的关系，但计算量大。网格将文档图像划分为多个高度和宽度相同的小块。该算法能有效地获取面片间的距离信息，计算量小，但分量的大小并不总是与面片的大小相等有时许多组件被放入一个补丁，有时一个组件被分成几个补丁。为了解决这些问题，我们提出了基于单元的布局，使每个组件在一个单元。通常，文档布局是一种层次结构。例如，一个文本块可以分成几个句子，一个句子可以分成几个单词。为了表示这种复杂的布局，我们提出了多尺度布局，通过使用单词级单元和标记级单元作为输入数据。一个或多个单词组成一个标记，一个命名实体。此外，我们提出了一个数据增强来模拟手写文字和相机运动，随机放大或缩小命名的实体在文档中。我们的贡献如下：1.我们提出了一种新的布局表示文档理解，基于单元格的布局，这是更符合自然的人类阅读习惯。2.我们提出了多尺度布局来学习文档中的层次结构，并提出了一种新的数据增强来改善结果。3.与基线模型相比，我们的方法在FUNSD [8]和CORD [19]数据集上实现了命名实体识别的SoTA性能，并提高了RVL-CDIP [5]数据集上的文档分类性能此外，我们进行了广泛的烧蚀研究，以分析基于多尺度单元的布局的效果。2. 相关工作2.1. 文档理解文档理解的方法可以分为三类：基于规则的启发式方法，传统的机器学习方法和深度学习方法。为了发展基于规则的方法，研究者通过人工观察文档的布局信息总结出一些启发式规则，并对具有固定布局信息的文档进行处理。基于规则的方法[4，11，17，21]包含三种类型的分析方法：自下而上[11，21]，自上而下[4]和hy-桥梁战略[18]。随着传统机器学习的发展[20]将文档布局建模为语法，并基于语法代价函数执行全局搜索以获得最佳解析近年来，深度学习方法已成为解决机器学习问题的主流Doc-former [1]提出了一种新的多模态注意层，能够融合文本，视觉和空间特征。SelfDoc [13]提出了一种模态自适应注意机制，以融合语言和视觉特征。提出了许多新的无监督预训练任务来鼓励多模态特征协作，例如LayoutLMv 2 [25]中的文本-图像对齐任务，其对齐文本行和相应的图像区域。LayoutLMv3 [7]引入了一个单词补丁对齐目标来学习跨模态对齐。通过充分利用跨模态信息来提高模型的文档表示能力也是研究的方向。ViLBERT [15]提出了一种用于学习图像内容和自然语言的任务不可知联合表示的模型。VL-BERT [22]采用trans-former模型作为主干，并将其扩展为将视觉和语言嵌入特征作为输入。2.2. 布局表示对于文档理解，主要研究方向是引入新的预训练目标[24，25，7，26]和注意力机制[13]。PICK [26]为KIE任务引入了一种新的方法，并使用改进的图学习模块来学习布局表示。Chargrid [10]引入了一种新型的文本表示，它是通过将每个文档页面编码为二维字符网格来实现的。[9]学习边界点和文本行中的像素，然后遵循最简单的观察，即在去扭曲之后应当保持水平和垂直方向上的边界和文本行，以引入新颖的网格规则化方案。与之不同的是，我们提出了一种新的布局表示，基于单元格的布局。它不需要广告工具、数据或模块。该方法通过对OCR结果的分析，为每个包围盒生成行索引和列索引，并利用它们对现有方法进行改进3672TLX我∼TLTL3. 方法在本节中，我们首先介绍基于单元格的布局，如图3所示。我们利用行索引和列索引作为空间位置表示，并对输入数据按行/列索引进行排序，然后我们介绍了多尺度布局，它使用单词和标记级别的单元格来学习多尺度文档布局。最后，我们提出了一种数据增强方法来模拟手写文字和相机运动效果。可以突出同一行/列中单元格之间的关系，帮助模型发现文档中的潜在规律。生成基于单元格的布局。首先，我们对边界框的左上角的X坐标和y坐标进行排序，以获得X坐标X tl和y坐标Y tl的序列。第i行ri和列ci的坐标计算如下;r1= min（Y tl）; c1= min（X tl）。然后我们定义两组坐标Yi和Xi，i>13.1. 基于单元格的布局文档理解困难的一个原因是，由于难以学习人类阅读的习惯，模型无法理解组件的空间通常，现有方法从边界框的坐标学习。但且i ∈ N+.TL TLYi={yt l|ytl>ri−1+θH}t 1={xt 1|xtl>ci−1+θ<$W}ri= min（Y i）;如果len（Yi）> 0TL TL由于三个原因，训练文档理解模型是低效的第一个原因是由于OCR技术和真实文字环境的限制，特别是手写文字，检测到的边界框坐标会有偏差。例如，在同一行上检测到的两个单词的y坐标通常相隔几个像素。此外，未被注意到的手写位置偏差也将被放大，导致文档布局的不准确表示。第二个原因是边界框的坐标不能提供与其他边界框的任何关系信息，使得模型必须学习所有坐标信息中的潜在虽然[25，7]在模型中加入了词在相应命名实体中的索引和前边界框之间的距离来解决这个问题，但仍然难以挖掘文档的潜在规则。我们使用行索引和列索引来表示单元格的空间关系，它可以强调同一行或同一列上单元格之间的关系。此外，当前单元格编号通过简单地从行/列索引中减去1间接地指示相同行/列中先前单元格的最大数量。此外，坐标具有很宽的范围，这使得难以收敛，例如，[24，25，7]将坐标的范围归一化为ci=min（Xi）;如果len（Xi）>0，其中H是文档的高度，W是文档的宽度。θ是一个阈值，用于控制文档中单元格的数量，并使基于单元格的布局更清晰。除非另有说明，我们使用0.005作为θ。然后，我们基于其左上角的y坐标ytl和x坐标xtl，为每个边界框提供行索引r索引和列索引c索引r下标=o;如果co≤ytlco+1;f或o∈N+c指数=p;如果cp≤xtlcp+1;f或p∈N+在基于单元格的布局中，我们使用相应行和列的坐标更新边界框左上角图2给出了基于单元的布局的应用的概述我们提出了两种利用细胞信息的方法。空间位置表示。第一种方法是将单元格信息作为空间位置表示的一部分，使骨干模型从单元格信息中学习基于单元格布局的潜在信息。Extl=Embx（xtl）;Eytl=Emby（ytl）范围[1000]。因此，最大数量行/列的数量通常只有几十个。因此，我们认为，Ew=Embw （w）;Eh=Embh （h）基于单元格的布局是文档布局的更有效的表示。第三个原因是坐标不符合人类记忆的基于单元格的布局更符合人类对文档的理解。我们考虑文档布局的信息，例如，同一列上单词的特定含义。在单据中有一定的规则，如项目名称通常在发票的同一列行/列索引Er=Embr（r索引）;Ec=Embc（c索引）SPR=Concat（Extl，Eytl，Ew，Eh，Er，Ec），其中xt1和yt1是左上角的x/y坐标，w和h是边界框的宽度和高度最后，我们结合这些嵌入来表示空间表示。Emb是嵌入层。输入数据的顺序。另一种方法是按行或列索引对单元格序列进行排序。它不需要3673图2. 基于单元的布局的应用概述。我们为每个边界框定义行和列索引，以生成基于单元格的布局。我们使用三种方法来利用细胞信息：A.使用行和列索引作为空间位置表示。B.按列索引对输入数据进行排序。C.按行索引对输入数据进行排序。这些图像取自可持续发展基金会。2 6 745为了更好地理解文档的层次结构，我们提出了多尺度布局来准确地表达文档的多层次结构。既然有给每个边界框一个行和一个列索引6781114基于单元格的布局由于没有足够的注释来学习完整的层次结构，我们将单词级和标记级单元格馈送到模型中，如图4所示。为了方便地将多尺度布局应用于现有方法，我们只修改输入数据，而不改变现有模型的结构或增加计算量。图3. 收据图像的基于单元格的布局示例。基于单元格的布局中的数字是行索引和列索引。图像来自CORD。第具体来说，我们使用令牌中第一个单词的单元格特征作为令牌单元格特征。然后我们将Nw个单词单元和Nt个标记单元输入模型，其中Nw表示单词单元的数量，Nt表示单词单元的数量。字级单元字级单元令牌令牌级单元token细胞的标记单元比单词单元小，因为标记单元可以划分为多个单词单元。对于命名实体识别任务，我们将标记单元的分类结果作为结果。因此，不需要计算令牌特征。多尺度布局可以利用主干模型来学习图4. 多尺度布局。标记中第一个单词的特征被用作标记的特征。该图像是从FUNSD数据集采样的。改变模型结构，可以直接重用已有的模型。通过使用输入数据的特定顺序这些规则很容易被人类发现，并且由于人类的书写习惯，它们出现在大多数文档中3.2. 多尺度布局文档布局可以被认为是一个主要由页眉、内容和页脚组成的层次结构。内容可以分为多个句子，一个句子可以分为多个短语，一个短语可以分为几个词。重要的是要了解多尺度布局，无需额外的计算和模型修改。因此，它可以用于任何使用一系列组件作为输入数据的模型，只要存在相应的注释。基于多尺度单元的布局。同时利用单元信息和多尺度布局实现了基于单元的多尺度布局。多尺度单元布图可以学习基于多尺度布图的层次结构，探索基于单元的潜在布图信息。它是一种自然的布局表示，更容易理解。3.3. 数据增强手写文字很难通过OCR工具进行定位此外，相机运动和拍摄设置会改变文档图像，134589123910121315令牌级单元格字级单元……纽波特高兴纽波特3674原始图像生成图像图5. 拟议的数据扩充示例。红色框表示数据集中的原始边界框这些图像取自可持续发展基金会。现实世界为了模拟这些问题，我们提出了一种数据增强方法，如图5所示，该方法随机放大或缩小边界框以生成新的示例。首先，我们在每个边界框中裁剪图像块，并将所有边界框中的颜色设置为然后，我们放大或缩小这些图像补丁，并把它们放在原来的位置的基础上，左上角的相应包围盒。通过这种方式，基于单元格的布局不会受到影响，因此可以在不改变单元格信息中的潜在规则的情况下增加文档布局的多样性我们使用缩放因子Θ来控制边界框的缩放范围。4. 实验在本节中，我们首先介绍了我们所提出的方法的实现细节和我们在实验中使用的数据集然后，我们与现有的方法进行了比较，并分析了空间位置表示。除此之外，我们还使用FUNSD [8]和CORD [19]数据集上的实验结果来测试命名实体识别任务的性能。此外，我们使用RVL-CDIP [5]数据集来评估所提出的文档分类方法。最后，我们进行了几个烧蚀研究来分析所提出的方法。4.1. 实现细节我们在三个数据集上评估了我们的方法，CORD数据集，FUNSD数据集和RVL-CDIP数据集。FUNSD数据集是从RVL-CDIP数据集采样的文档噪声扫描形式理解数据集。它包含199个文件，其中有9 707个语义实体的全面注释。我们专注于语义实体之间的“问题”，“答案”，“标题”，或“其他”的标签。数据集分为149个样本的训练数据集和50个样本的测试数据集。CORD数据集是收据关键信息提取数据集，具有在4个类别下定义的30个语义标签。它由800个训练样本，100个验证样本和100个测试样本组成。RVL-CDIP数据集是IIT-CDIP集合的子集[12]，标记有16个类别。它包含400，000个文档图像，并分为训练/验证/测试（320，000/40，000/40，000个文档图像）数据集。我们将基于单元的布局应用于基线模型LayoutLMv2/v3 [25，7]，以将其与SoTA性能进行比较并评估我们的方法。基线模型有两个不同的版本，具有不同的参数编号，模型库和型号大号。我们除非另有说明，否则使用LayoutLMv3BASE我们使用基线模型和预训练的基线模型。经过预训练的LayoutLMv 3是在一个大型IIT-CDIP数据集上进行预训练的，该数据集包含约1100万个文档图像，可以拆分为4200万页。由于GPU的限制，我们使用1个GPUb对FUNSD数据集和CORD数据集进行微调，使用4个GPU对RVL-CDIP数据集进行微调对于模型BASE，每个GPU的批量大小为8，而模型LARGE的每个GPU的批量大小为4。4.2. 对多模态任务进行我们比较我们的方法与现有的方法和cat-egorize他们的位置表示如下。P（A）是绝对一维位置，用于保持文档内组件的位置关系。它简单地表示了各构件的位置差，但不能表示构件的空间位置Co（A）表示基于边界框的坐标的绝对位置，诸如边界框的左上角（xtl，ytl）和右下角（xbr，ybr）的坐标、宽度w和高度h。它提供了边界框的详细空间位置，并被许多方法使用[23，24，13]。Co（R）表示基于相邻边界框的坐标的相对位置和距离，例如，从边界框的每个角到相邻边界框中的对应角的欧几里得距离。由于Co（A）不包括边界框之间的关系，因此模型必须从数据集中学习潜在的空间关系Co（R）可以表示空间相邻组件之间的信息。T（R）是语义相对位置，例如单词在相应标记中的索引[25，7]。它利用了小元件在大元件中的顺序，给出了小元件在大元件中的位置。单元格表示基于单元格布局的行索引和列索引它通过强调位于同一行或同一列中的单元格的空间关系来提供丰富的空间信息另一方面，行和列的数量小于坐标的范围，这使得布局更容易理解。我们遵循现有的方法，微调基线模型的三个多模态任务的公共可用bNVIDIA Tesla V100-SXM2-32GB3675表1. 在FUNSD、CORD和RVL-CDIP数据集上与现有方法进行比较。“T/L/I”表示“文本/布局/图像”模态。当仅使用10% RVL-CDIP数据集时，达到分数†，并且由于资源限制，未达到分数。因此，这些分数不能直接与其他分数进行比较。模型参数模态图像嵌入位置表示FUNSD（F1）电线（F1）RVL-CDIP（Acc.）BERTBASE [2]110M不没有一P（A）60.2689.6889.81[14]第十四话125M不没有一P（A）66.4893.5490.06BROS基地 [6]110MT+L没有一Co（R）+P（A）83.0595.73-[23]第二十三话-T+L没有一Co（A）+T（R）88.4196.0795.68*[24]第二十四话160MT+L+I（R）ResNet-101（微调）Co（A）+P（A）79.27-94.42SelfDoc [13]-T+L+I（R）ResNeXt-101钴（A）83.36-92.81乌多克[3]272MT+L+I（R）ResNet-50钴（A）87.9396.8695.05[25]第二十五话200MT+L+I（G）ResNeXt101-FPNCo（A+R）+T（R）+P（A）82.7694.9595.25DocFormerBASE [1]183米T+L+I（G）ResNet-50Co（A+R）+P（A）83.3496.3396.17LMv3BASE布局 [7]133MT+L+I（P）线性Co（A+R）+T（R）+P（A）90.2996.5695.44我们的基地133MT+L+I（P）线性电池+Co（A+R）+T（R）+P（A）93.7697.2390.7†BERTLARGE [2]340M不没有一P（A）65.6390.2589.92[14]第十四话355M不没有一P（A）70.7293.8090.11BROSLARGE [6]340MT+L没有一Co（R）+P（A）84.5297.40-[24]第二十四话343MT+L没有一Co（A）+P（A）77.89-91.90[25]第二十五话426MT+L+I（G）ResNeXt101-FPNCo（A+R）+T（R）+P（A）84.2096.0195.64DocFormerLARGE [1]536MT+L+I（G）ResNet-50Co（A+R）+P（A）84.5596.9995.50LMv3LARGE [7]368MT+L+I（P）线性Co（A+R）+T（R）+P（A）92.0897.4695.93我们的大型368MT+L+I（P）线性电池+Co（A+R）+T（R）+P（A）93.5297.49-‡* LiLT使用ResNeXt 101-FPN主干的图像功能来微调RVL-CDIP。表2. FUNSD数据集的比较。Ours（P）表示建议的位置表示，Ours（R）和Ours（C）表示输入数据按行/列索引排序。方法预训练F1（%）布局LMv3没有21.84我们的（P）没有26.92布局LMv3是的90.29布局LMv3大型是的92.08我们的（P）是的92.39我们的（R）是的92.50我们的（C）是的93.76基准，包括FUNSD上的表单理解、CORD上的接收理解和RVL-CDIP上的文档图像分类结果示于表1中。4.3. 命名实体识别命名实体识别（NER）是信息抽取的一个子任务，其目的是定位文档中提到的命名实体并将其分类到预定义的类别中，如组织和位置。该模型被训练为从输入数据、文档图像、单词和边界框信息中学习，以便预测每个命名实体的分类结果。它可以用于表单理解、收据理解和关键信息提取。我们将基于单元格的布局应用到预训练和原始LayoutLMv3模型中，以改善NER任务的结果。我们报告此任务的F1分数。FUNSD数据集。我们使用LayoutLMv3BASE作为基线模型，在使用CDIP数据集对模型进行预训练后，它达到了90.29%的F1得分。但3676在没有预训练的情况下，仅获得F1分数的21.84%，因为FUNSD数据集只有149个文档图像用于训练。预训练可以大大提高基线模型的性能。通过使用我们提出的位置嵌入，未经预训练的Lay-outLMv 3可以达到F1分数26.92%。F1评分可提高5.08%。此外，我们使用预训练的LayoutLMv3BASE测试了我们的方法。在微调阶段，我们将细胞信息放入空间位置嵌入层中。结果，所提出的位置嵌入达到了f1分数的92.39%，使LayoutLMv3BASE提高了2.1%。它比LayoutLMv3LARGE的性能更好。此外，通过对输入数据按行索引或列索引进行排序，我们分别达到92.5%和93.76%。因此，这三种利用细胞信息的方法可以改进基线模型。基于单元格的布局可以提高LayoutLM-v3在有预训练和无预训练的FUNSD数据集上的性能值得注意的是，我们没有使用我们的方法预训练LayoutLMv3，我们只在微调阶段使用单元格信息。CORD数据集。为了证明我们的方法的通用性，我们使用LayoutLMBASE在CORD数据集上评估了我们的方法。LayoutLMv3在没有预训练的情况下达到了53.13% 的 F1 分数。虽然性能低于预训练的LayoutLMv3，但由于有800个文档图像用于训练，因此性能如表3所示，使用基于多尺度单元格的布局将F1分数推到85.25%此外，所提出的空间位置表示将F1评分提高了16.41%。按行索引和列索引对输入数据进行排序，F1因为3677表3. 在CORD数据集上进行比较。Ours（P）表示建议的位置表示，Ours（R）和Ours（C）表示输入数据按行/列索引排序我们的（M）表示多尺度布局。方法预训练F1（%）布局LMv3没有62.56我们的（P）没有69.54我们的（R）没有66.89我们的（C）没有65.17我们的（M+P）没有85.25布局LMv3是的96.56我们的（P）是的96.97我们的（M）是的97.01我们的（M+P）是的97.23表4.文档分类任务的RVL-CDIP数据集结果。我们随机选取了0.1%、10%的样本进行评价。Ours（P）表示建议的位置表示，Ours（R）和Ours（C）表示输入数据按行/列索引排序。方法预训练Num. 样本Acc.（%）布局LMv3没有400人（0.1%）27.50我们的（P）没有400人（0.1%）40.00布局LMv3没有40，000（10%） 77.32我们的（P）没有40，000（10%） 77.89我们的（R）没有40，000（10%） 77.67我们的（C）没有40，000（10%） 77.82我们的（P+R）没有40，000（10%） 78.69我们的（P+C）没有40，000（10%） 78.24布局LMv3是的400人（0.1%）62.50我们的（P）是的400人（0.1%）70.00我们的（R）是的400人（0.1%）70.00我们的（C）是的400人（0.1%）70.00布局LMv3是的40，000（10%） 90.22我们的（P）是的40，000（10%） 90.70我们的（R）是的40，000（10%） 90.62我们的（C）是的40，000（10%） 90.34基于单元格的布局包含了潜在的规则和足够多的样本，可以更准确地分析收据数据集上的布局。此外，我们使用预训练的Lay-outLMv 3评估多尺度布局和建议的位置表示。因此，如表3所示，使用多尺度和拟议空间位置表示，F1评分增加了0.67%。它表明基于多尺度单元的布局可以使LayoutLMv3和预训练的LayoutLMv3受益于NER任务。4.4. 文档分类为了证明基于单元格的布局从多模态域到视觉域的通用性文档分类任务旨在预测视觉丰富的文档图像的类别。我们在RVL-CDIP数据集上进行实验，并使用tesseract 4.1.1c提取文本和布局信息。评估指标是测试数据集上的总体分类准确度。请注意，我们使用不同的OCR工具与布局LMv3，由于资源限制，我们使用4GPU和高达10%的数据集的例子。为了进行详细分析，我们使用不同数量的样本评估模型，如表4所示。您可以观察到，我们的方法使用包含400个文档样本的RVL-CDIP数据集的0.1%将准确度提高了7.5%当使用10%的样本时，所提出的空间位置表示可以将性能提高0.48%。在使用10%样本和LayoutLMv 3的情况下，该方法的准确率可达78.69%，比基线模型提高了1.37%.我们从实验结果中观察到两个趋势。首先，当使用更多的样本时，改进将更少。我们认为文档分类是一个相对简单的任务。与潜在的版面信息相比，直观的文本信息和图像信息更有助于文档的理解。通过使用更多的文档样本，该模型有更多的文本和图像信息学习，并达到显着的性能，即使基于单元格的布局提供了更好的布局表示。第二个趋势是预训练的模型更难改进，这也可以在其他实验结果中观察到考虑到预训练模型具有来自IIT-CDIP数据集的先验知识，以及在预训练阶段未使用的基于单元格的布局，我们认为这是合理的现象。4.5. 消融研究我们使用消融研究来分析我们的方法的效率和普遍性。补充资料中提供了更广泛的消融研究空间位置表征的比较为了分析空间位置表示的效率，我们比较了不同的空间位置表示，如表5所示。我们使用LayoutLMv3BASE作为基线模型，并在CORD数据集上进行产品实验.PR1通过在空间位置表示中插入行/列索引来达到最佳性能。F1分数提高了16.01%，但嵌入大小和参数数量也增加了。为了评估参数数的影响，我们发展了PR2chttps://github.com/tesseract-ocr/tesseract3678†表5. 使用不同的空间位置表示（SPR）比较结果。xt1和yt1表示边界框的左上角的坐标，xbr和ybr表示边界框的右下角1表示固定值1。W表6. 比较结果是否使用数据增强。比例因子Θ用于控制数据扩充的水平。“更新bbox”控件，如果使用调整大小的边界框信息。h表示边界框的高度和宽度 r和c表示行索引和列索引。坐标意味着坐标根据3.1节中提到的行/列索引进行更新TLTL BR BPR1x tl† ， y tl† ， x br ， y br ， h ， w ， r ， c102469.71 PR2x tl†，y tl†，x br，y br，h，w，1，1102452.20 PR 3x tl†，y tl†，x br，y br，h，w，h，w1024 51.74 PR4x tl†，y tl†，x br，ybr，r，c78658.87PR5x tl†，y tl†，h，w，r，c786六十九点五四PR3比较PR2使用固定值1来模拟行索引和列索引。考虑到固定值可能会给训练带来不良影响，我们再次使用高度和宽度信息来增加输入的多样性，PR3。结果，PR2和PR3达到了比基线模型更差的结果。此外，我们通过用行/列索引信息替换边界框的高度和宽度来开发PR4PR4使基础模型的性能提高了5.74%。然而，没有高度和宽度信息，性能相比PR1降低了10.84%。因此，如果没有适当和有用的信息，增加参数就不能提高性能行/列索引可以为空间位置表示提供更重要的信息。在LayoutLMv3中，xtl和xbr共享相同的嵌入层，并且ytl和ybr共享相同的嵌入层。考虑到xtl和ytl是左上角的坐标，它们应该与xbr和ybr提供不同的信息。共享相同的嵌入层会混淆两个角的信息。因此，我们重新移动xtl和ytl，并将行/列索引添加到位置表示以开发PR5。PR5的F1得分为69.54%，接近PR1。通过移除xtl和ytl并增加行/列索引，总嵌入大小将不会改变。因此，PR5可以很容易地被现有的预训练模型使用。通过在位置表示中插入单元信息，模型可以从基于单元的布局中学习潜在的布局信息，从而达到更好的效果。数据扩充。如表6所示，数据扩充可改善结果。我们使用LayoutLMv3BASE作为基线模型，并在CORD数据集上评估该方法。基本上，当边界框不随组件的大小而更新时，表7. 使用具有/不具有小区信息的LayoutLMv 2的比较结果。方法F1评分布局LMv2基础82.76我们的基础83.09你的更好。精确的包围盒可以使模型过拟合训练测试提供的布局信息使用与文档图像中边界框的实际大小不同的边界框信息不会改变基于单元格的布局，而只会改变边界框的大小。有助于抑制训练中的过拟合现象，提高运动成绩。对其他型号的评价。为了评估基于单元格的布局的通用性，我们使用另一个基线模型LayoutLMv2 [25]对其进行测试。我们将所提出的空间位置表示应用于基线模型，并使用FUNSD数据集进行评估。如表7所示，当使用所提出的方法时，F1分数提高了0.33%。因此，我们认为基于单元的布局可以提高其他方法的性能。5. 结论在本文中，我们提出了一种新的和自然的布局表示的文档理解任务，即。多尺度单元布局。与图和网格方法不同，它为文档理解提供了自然和有效的空间表示。我们相信，它可以很容易地适应其他需要空间信息的任务，如图像检测。此外，我们提出了一种数据增强方法来改善结果。我们使用2个基线模型，3个公共数据集和2个任务，命名实体识别和文档分类来评估该方法。在GPU资源有限的情况下，基于多尺度单元的布局提高了性能，在FUNSD和CORD数据集上达到了SoTA图案比例因子Θ更新bboxF1分数布局LMv3--53.70DA0.2是的53.67DA0.3是的53.41DA0.2没有53.79DA0.3没有53.95DA0.4没有54.07方法SPRE. 大小F1（%）3679引用[1] Srikar Appalaraju ， Bhavan Jasani ， Bhargava UralaKota，Yusshen Xie，and R Manmatha. Docformer：用于文档理解的端到端Transformer。在国际计算机视觉会议上，第993-1003页[2] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中：HumanLanguageTechnologies，NAACL-HLT2019，Minneapolis，MN，USA，2019年6月2日至7日，第1卷（长论文和短论文），第4171-4186页，2019年。[3] Jiuxiang Gu ， Jason Kuen ， Vlad I Morariu ， HandongZhao，Rajiv Jain，Nikolaos Barmpalios，Ani Nenkova，and Tong Sun. Unidoc：用于文档理解的统一预培训框架。神经信息处理系统的进展，第39-50页，2021年[4] Jaekyu Ha，Robert M Haralick，and Ihsin T Phillips.递归xy切割使用的边界框连接组件。第三届国际文件分析和识别会议论文集，第952-955页，1995年[5] Adam W Harley ， Alex Ufkes ， and Konstantinos GDerpanis.用于文档图像分类和检索的深度卷积网络的评估。在国际文件分析和识别会议（ICDAR），第991-995页[6] Teakgyu Hong ， Donghyun Kim ， Mingi Ji ， WonseokHwang，Daehyun Nam，and Sungrae Park.Bros：一个预先训练的语言模型，专注于文本和布局，以更好地从文档中提取关键在AAAI人工智能会议论文集，第10767-10775页[7] Yupan Huang，Tengchao Lv，Lei Cui，Yutong Lu，andFuru Wei. Layoutlmv3：使用统一的文本和图像掩码对文档ai进行预训练。arXiv预印本arXiv：2204.08387，2022。[8] Guillaume Jaume ， Hazim Kemal Ekenel ， and Jean-Philippe Thiran. Funsd：一个数据集，用于在嘈杂的扫描文档中进行形式理解。在国际会议文件分析和识别研讨会（ICDARW），第1-6页[9] Xiangwei Jiang，Rujiao Long，Nan Xue，Zhibo Yang，Cong Yao，and Gui-Song Xia.再论网格正则化的文档图像在计算机视觉和模式识别，第4543-4552页[10] Anoop R Katti ， Christian Reisswig ， Cordula Guder ，Sebas-tianBrarda，Stef fenBick el，JohannesH ？ hne和JeanBap-tiste Faddoul。Chargrid：理解2D文档。在自然语言处理经验方法会议论文集，第4459[11] 弗兰克·勒布尔奇，兹比格涅夫·布布林斯基，和休伯特·恩普托兹。一种从无约束文档中提取文本、段落和图形的快速有效方法.第11届IAPR模式识别国际会议卷二. 会议B：模式识别方法和系统，第272-273页，1992年。[12] 大卫·刘易斯、加迪·阿甘、什洛莫·阿加蒙、奥菲尔·弗里德、大卫·格罗斯曼和杰斐逊·赫德。为复杂文档信息处理构建测试集合。在2006年第29届年度国际ACMSIGIR信息检索研究与开发会议的会议记录中，第665-666页[13] 李培昭，顾久祥，权健，赵汉东，贾殷，万荣，刘宏福.Selfdoc：自我监督的文档表示学习。在计算机视觉和模式识别，第5652- 5660页[14] Yinhan Liu ， Myle Ott ， Naman Goyal ， Jingfei Du ，Mandar Joshi，Danqi Chen，Omer Levy，Mike Lewis，Luke Zettle-moyer，and Veselin Stoyanov.Roberta：一种鲁棒优化的 bert 预训练方法。 arXiv 预印本 arXiv ：1907.11692，2019。[15] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.Vil-bert：视觉和语言任务的预训练任务不可知的视觉语言神经信息处理系统的进展，第13-23页，2019年[16] 西蒙娜·马里纳伊，马可·哥里，乔瓦尼·索达。用于文档分析和识别的计算机神经网络。IEEE Transactions onPattern Analysis and Machine Intelligence，第23-35页[17] 劳伦斯·奥戈尔曼用于版面分析的文档谱.IEEE模式分析和机器智能学报，第1162-1173页[18] 冈本雅之和高桥诚。一种混合式页面分割方法。在第二届文件分析和识别国际会议论文集（IC-DAR[19] 朴胜贤，胜信，李百多，李俊烨，苏宰兴，徐敏俊，李华锡. Cord：一个用于ocr后解析的整合收据数据集。在2019年NeurIPS2019的文档智能研讨会上。[20] Michael Shilman，Percy Liang，and Paul Viola.学习用于文档分析的非生成语法模型国际计算机视觉会议，第962- 969页，2005年[21] Ani ko'Simon，J-CPret和APeterJohnson。一种自底向上文档布局分析的快速 IEEE Trans- actions on PatternAnalysis and Machine Intelligence，第273-277页[22] Weijie Su，Xizhou Zhu，Y

下载后可阅读完整内容，剩余1页未读，立即下载