文档搜索：新方法MONOMER优于基线算法，结合视觉、文本和空间上下文进行一次性片段检测

139 浏览量更新于2023-10-16 收藏 3.39MB PDF 举报

文档搜索

结构化文档

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5437一次性文档嗅探器检测：在文本之外的文档中进行搜索Abhinav JavaJardin、Shripad DeshmukhJardin、Milan Aggarwal、Surgan Jandial、MausoomSarkar和Balaji KrishnamurthyAdobe Media and Data Science Research Labs，Noida，印度{ajava，shdeshmu，milaggar，jandial，msarkar，kbalaji}@ adobe.com摘要数字文档的积极消费为包括搜索在内的各种应用的研究提供了空间。传统上，在文档中搜索被视为文本匹配问题，忽略了结构化文档、表单等中常见的丰富布局和视觉提示。为此，我们提出了一个基本上未被探索的问题：“给定文档片段的单个查询实例，我们能否搜索目标文档页面中存在的其他类似片段？“.我们提出MONOMER来解决这个问题，作为一个一次性的片段检测任务。MONOMER融合了片段和文档的视觉、文本和空间模态的上下文，以在目标文档中找到查询片段。我们进行了广泛的消融和实验，显示MONOMER优于单次目标检测（BHRL）、模板匹配和文档理解（LayoutLMv3）的几个基线。由于手头任务的相关数据稀缺，我们在编程生成的数据上训练MONOMER，这些数据具有许多视觉上相似的查询片段和来自两个数据集的目标文档对-Flamingo Forms和PubLayNet。我们还进行了一项人体研究，以验证生成的数据。1. 介绍文档一直是学术界、公共办公室、私营企业、印刷媒体等存储和交流信息的主要媒介[23]。随着全球向数字优先生态系统过渡，持续的大流行[1]所带来的挑战加速了这一进程，文档使用的趋势正在从被动模式（如阅读/共享）转向更主动的模式（如创作文档、编辑样式、自定义表格等）。然而，文档内的搜索功能大多限于定位页面中包含与*这些作者对这项工作图1：通过单次片段检测在文档中搜索的新范例给出文本查询[6，9，35]。将搜索限制到文本模态限制了几个用例。例如，考虑这样的场景：用户想要搜索无边框表格以在编辑文档时添加边框，或者贷款表单的作者想要搜索包含二进制性别选项的模式以查看个人细节部分中的周围上下文字段这些sce- narios强调需要更先进的搜索能力的基础上，文件片段。因此，允许在页面中选择矩形片段并在目标文档中找到其他类似片段的实用程序将是增强这种搜索体验的垫脚石。为了实现这一点，我们将其建模为一次性文档片段检测任务，即检测目标文档页面中与给定片段相似的区域（如图所示）。①的人。现有的基于文本的搜索工具[13]无法检测视觉上相似的片段，因为它们缺乏整合视觉和布局线索的机制。另5438另一方面，文档结构提取方法[3，21，38]被训练来识别文档中预定义的通用类结构（例如段落），因此不能直接应用于检测任意片段模式。此外，文档图像检索任务，如标志检测[4]，签名字段检索[17]等。被设计为分别提取任务特定的实体，如徽标和标志字段。为了实现文档中的“带片段搜索”功能，我们将问题描述为一次片段检测任务，并设计了一种我们提出了一个多模态框架-然后通过特征金字塔网络处理融合的表示，然后进行区域建议预测，以识别目标文档中与查询片段相似的区域的边界我们比较了我们的方法与当前国家的最先进的方法，在单次目标检测-BHRL[39]以及表2中的最佳性能文档分析方法的特定于任务的扩展-LayoutLMv 3 [16]我们表明，MONOMER的表现优于上述基线（第5.4节），突出了我们提出的框架的有效性在第5.5节中，我们通过使用各种模式组合进行广泛消融来证明使用所有三种模式的优势相关数据的稀缺给解决这一问题带来了额外的挑战。图像、文本和布局形式的文档然而，文档片段的注释数据及其在其他文档中的相关此外，不同的形式，如视觉，布局和文本暗示相似性在一个高度主观的方式。这使得获取大规模的人类注释数据以进行片段搜索极具挑战性。为了使问题易于处理，我们设计了一个编程的方式来获得类似的查询片段和目标文档对通过定义相似性的基础上对齐它们的基本组成结构的布局。更具体地说，我们对组成结构（如文本、表格、可填充区域等）进行排序。在文档片段中，根据自然阅读顺序，然后根据排序的顺序创建布局字符串。同样，我们获得了语料库中每个文档对应的布局字符串。该代码片段与其布局字符串具有至少一个与该代码片段的布局字符串对齐的连续子序列的文档相关联。因此，我们提出了一个以布局为中心的相似性定义，强制两个片段的布局之间的对齐我们选择火烈鸟的形式[34] 和PubLayNet文档[43]作为基础corpora来创建两个相似性匹配数据集。我们详细讨论了数据生成过程，其次是它的价值-通过第3.2节中的人体研究进行验证总之，我们的贡献可以列举如下：• 我们制定了一个镜头的文档片段检测的任务，在文档领域超越传统的基于文本的搜索。• 我们定义了基于布局的文档片段相似性，它允许以完全编程的方式生成大规模的相似性匹配数据，其有效性得到了广泛的人类研究的支持。我们计划发布一部分引入的数据集。• 我们提出了MONOMER，一个多模态的框架，用于片段检测，其性能优于单次对象检测和多模态文档分析基线。此外，MONOMER能够在培训期间未看到的布局模式上表现良好。2. 相关工作2.1. 文档理解理解文档需要理解文档页面中的内容，即图像、文本和任何其他多模态数据，以及内容的布局、结构、放置、空白空间等。对于理解内容，先前的研究工作已经设计了诸如DocVQA [35]、InfographicsVQA [24]等任务，而布局理解已经通过文档布局分析[2，7]进行了正式研究。布局分析已经被公式化为对象检测任务[42]，以提取标题、表格、文本块等结构。从文档图像。这样的方法广泛地使用最先进的物体检测头（例如，[29]第29话：你是谁？通常用于自然图像领域。方法如HighResNet [34]，MFCN[40]等方法将版面分析作为文档图像的像素级分割。随后，DocFormer [5]，LayoutLM [38]，DiT [19]等最近的几个作品提出了大规模的预训练技术来满足文档理解任务。由这些模型学习的表示在许多下游任务中非常有用，无论是对于内容理解还是布局解析。在这项工作中，我们利用这样的表示开发基于片段的搜索工具的文件。2.2. 模板匹配模板匹配是指在目标（通常较大）图像中检测和定位给定查询图像的任务。种子模板匹配文献利用了诸如归一化互相关（NCC）[41]和平方差和（SSD）[14]等透明计算机视觉技术进行搜索。尽管它们获得了广泛的成功，但上述技术在匹配模板方面具有明显的局限性，所述匹配模板是目标图像中存在的实例的复杂变换因为在-5439DD}∈ XX→−RS ∈ DS{|∈ X∈ XD在这种情况下，NCC/SSD可能会由于规模变化大、遮挡等原因而失败。因此，提出了基于特征匹配的技术，如SIFT [37]和SURF [28]，以允许匹配图像之间的局部特征，以解决尺度不变性。通常，这些方法在图像中找到局部关键点。然而，图像质量、闪电、实时使用等问题严重限制了这些方法的适用性。最近深度学习的兴起使研究人员能够开发更复杂的技术，如QATM [11]，DeepOneClass [33]，这些技术可以在自然图像的深度特征之间执行Siamese匹配，以完成GPS定位等任务。QATM [11]提出了一个可学习的匹配层，与标准的暹罗匹配相比，它可以在自然图像中实现更好的匹配。然而，我们注意到，由于文档中包含的布局、视觉结构和文本内容的多样性和复杂性，文档内的匹配模板是一项不同的（与自然图像不同）且具有细微差别的非平凡任务。2.3. 单次目标检测（OSOD）OSOD旨在检测测试图像内的新类（在训练期间未看到）的实例，给出了未看到/新类的单个实例。在高级别上，大多数OSOD技术执行查询（新颖类的示例）和目标图像（新颖类实例存在的测试图像）的深度特征之间的对齐。近年来，COAE [15]、AIT [10]等方法被广泛应用。已经表明，学习的基于注意力的相关性可以胜过标准的暹罗匹配[18，25]，因为它们通过全局和局部注意力更好地捕获多尺度上下文。流行的OSOD技术[22]已被证明在明确指定类定义的自然图像上表现良好。然而，由于文档数据的复杂性和缺乏一个定义良好但详尽的布局模式集，它是不可能枚举一个有限的类集最近，[39]提出了一种技术来学习目标和查询中的对象建议之间的层次关系（BHRL）虽然BHRL显示了深刻的印象，图2：代码段和对应的布局字符串A）Flamingo表单，B）PubLayNet文档。pets.我们定义了相似性准则g sim：2，其采用两个文档片段A 、B ，并输出相似性得分s=g sim（A，B）。g sim函数可以根据人类的相似性概念来定义，或者作为一个完全可编程的相似性标准。使用gsim从文档语料库中挖掘查询-目标对（Q，T），使得Q和目标文档T包含非空的片段集合qt=SiSi，g sim（Si，Q）> th sim，i = 1，2，.， n; th_sim是相似性分数上的阈值。收集（Q，T）对以创建数据集。任务定义。给定一个使用oraclegsim生成的查询-目标对数据集（之后不可访问），我们的任务是找到qt对于每对（Q，T）.设f θ是一个带参数θ的模型，它预测g i ven（Q，T）对的相似片段S <$qt，损失L是Sqt和S<$qt之间的误差度量. 然后，文档片段检测任务变为如下所示的最小化L的虽然它在自然图像上的性能非常出色，但它没有利用对文档剪切至关重要的多模态信息，minθ<$（Q<$，T）∈DL（Sqt，Sqt）宠物检测与现有的方法相反，我们杠杆-老化不同查询和目标模态之间的所有可能的相关性，并表明我们能够在现有方法通常失败的复杂文档数据上实现更好的整体性能。3. 一次性文档嗅探器检测3.1. 问题公式化我们首先概述了数据集创建和任务制定的概述，然后是它们的细节。数据集创建。设X是所有文档片段的集合，3.2. 摘要-文档数据集在本节中，我们将详细讨论如何使用不同片段和文档的布局在文档上下文中定义相似性，以生成以下通过人类研究来验证生成数据的质量。3.2.1数据集生成由于文档相似性取决于各种因素并且非常容易主观化，因此通过人工注释获得大量的（Q，T）对变得相当困难。5440g（A，B）=1−（1）QB图3：为-A）Flamingo Forms和B）PubLayNet文档以编程方式提取的类似代码段挑战性为此，我们决定以编程方式定义gsim标准如下：d（lstra，lstrb）SIM长度（lstra）其中lstra和lstrb分别表示片段A和B的布局字符串，d表示编辑距离[26]。为了获得片段或完整文档页面的布局字符串，我们对其组成结构（如文本，表格，可填充区域等）进行排序。1根据自然阅读顺序（上下和左右）。我们将符号与每个组成元素类型相关联图2示出了片段及其对应的布局串的示例。给定从某个文档中随机提取的片段，我们提供其布局字符串作为等式中的参数lstra1.一、为了识别语料库中的某个其他文档是否包含类似区域，我们考虑其布局字符串的所有可能的连续序列作为候选，并提供子序列作为等式中的输入lstrb1.一、我们过滤符合相似度阈值th sim为0的候选人。92（根据观察结果确定）vation）以生成查询-目标对。尺寸和间距：此外，为了解决与跨度和垂直水平间距有关的问题&，我们对等式提取的阳性应用了大小过滤器。1，这确保目标中的正区域的大小与查询片段的大小相似（在阈值内）。此外，希望不要在大小上过拟合，并且允许查询区域和目标区域之间的一些允许的变化，因为我们希望它们在结构上和视觉上相似，但不完全相同。这允许针对相同布局结合关于组成元件的比例和相对布置的微小变化最后，在表格的情况下，空白空间主要以可填充区域的形式存在，即1基本元素的边界要么存在于数据集中，要么可以使用PDF工具的自动标记功能提取。数据集（Q，T）对唯一布局字符串火车测试火车测试火烈鸟1020652457663651911PubLayNet204256157343523表1：片段-文档对数据集的PubLayNet中唯一布局字符串的数量较少，表明组织结构的组合有限。“widgets”，我们在创建布局字符串进行匹配时会将其考虑在内。图3示出了使用所提出的gsim识别的类似片段。基础数据集：我们分别从两个多模态文档语料库中获得两个相似性搜索数据集-Flamingo表单数据集[34]和PubLayNet文档数据集2[43]。选择它们的基本原理是，a）表单数据包含具有各种层次的不同布局结构对于Flamingo数据集，我们使用小部件（可填充区域）和文本块来创建布局字符串，对于PubLayNet，我们将文本块，图形，列表，表格和标题视为布局符号。表1总结了获得的样品数量。我们在这里发布数据集。视觉和布局相似性的依据：在估计编辑距离时，我们不考虑文本，以避免目标文档包含具有与查询片段相似但结构非常不同的文本的区域的情况。具体来说，考虑这样的情况，其中文本在段落中是相似的，并且基于文本相似性修改我们的数据集生成方法的表可能导致将两个不同的结构标记为相似。为了避免这种情况，我们将这项工作的范围限制在视觉上相似的区域，其中文本可能相似也可能不相似。数据创建启发式的局限性有关详细信息和2https://developer.ibm.com/exchanges/data/all/公共新闻网一5441∼∼VVTTSS查询嗅探器协同注意模块Fsim检测头目标交叉注意模块图4：拟议的单体办法的结构。示例，请参阅补充资料（第4节）。3.2.2对生成数据确认所产生数据的质量，即：为了评估程序生成的查询-目标对与人类相似性概念的一致程度，我们进行了涉及12个评估者3的人类研究。我们评估了从使用表单生成的数据集中随机抽取的160个片段目标文档对，这些样本被分为4批，每批40个样本。然后由3个评估者基于以下标准评估一批中的所有样品-给定目标文档中的区域，计算1）被突出显示为相似且实际上相似的区域的数量，2）相似但未突出显示的区域的数量，3）突出显示为与片段相似但不完全相同的片段。评估者也会被问到代码片段的布局模式是否是硬的。基于以上，我们-评估批量指标，如精确度、召回率等。并报告批次间的平均值4.计算结果表明，其精度为87. 96%，即在88%的情况下，通过我们的方法突出显示为与查询片段相似的目标文档片段实际上是相似的;召回率为81。07%，这表明我们的方法突出显示了81%据了解，87。48%的相似匹配是目标文档区域与片段不完全相同的匹配，这表明我们的技术3名评价员因评价任务4请参阅补充资料（第二节）。2)有关批量详细信息，大多数识别相似的但不是微不足道的精确匹配。最后，据观察，48。12%的代码片段包含复杂且难以搜索的布局模式。与真实数据上的性能相关我们的方法与数据创建启发式算法（作为人类注释数据的基线）的比较的讨论和实验，请参阅补充资料（第3节）。4. 单体由于文档中的信息主要以图像、文本和布局的形式存在，因此同时利用所有形式的范例已经被证明是可行的。例如，文档分析方法，如 DocFormer [5]，SelfDoc [20]，LayoutLMv3 [16]等。已经开发出预训练的多模态架构，在诸如布局提取、文本识别、文档图像分类等各种各样的任务上取得了很好的效果。受此启发，我们设计了我们的框架，目的是使它能够从各种文档模态池上下文，以执行一次性片段检测任务。利用多模态上下文的一种可能方法是直接使用上述预训练模型之一来分别获得查询片段和目标文档的多模态嵌入。然而，这样做限制了查询片段和目标页面之间的相互连接的各个模态。我们在表2中通过将我们的方法与微调预训练的多模态基线进行比较来实证这种直觉，用于文档片段检测。5442−−E∈R× ××× × × × × × × ××Q序列1KVQKV输出序列序列2图5：对称注意力模块的架构（放大以获得更好的视图）因此，我们分别使用图像、文本和布局编码器为片段和目标文档嵌入每个模态，并通过模态之间的互连注意力进一步处理它们我们现在详细讨论我们的体系结构（图4）。特征提取。为了对片段和目标文档图像进行编码，我们使用DiT [19]，这是一种仅限视觉的文档分析模型。查询和目标中的文本使用基于BERT [12]的文本编码器进行编码。此外，我们还生成了片段组成元素（按照阅读顺序排列）的边界框信息的特征。具体来说，我们使用一个Transformer[36]基于仅编码器的模块，其标记框坐标并嵌入边界序列。以前，像[30，38]这样的方法已经使用这种方法来处理各种类型的顺序数据。因此，我们总共生成6种类型的嵌入（查询的3种模态三是目标明确）。视觉，文字和水疗-查询片段的tial嵌入表示为Qv，Qt和Qs，同样，对于目标文档，我们有Tv，Tt和Ts。顺便说一句，文档的视觉和空间嵌入是高度互连的，因为文档实体的边界框决定了页面的视觉外观。此外，来自仅视觉模型（如DiT）的视觉嵌入已经证明了在下游任务中检测和识别文本的能力[19]，这意味着视觉特征也包含有关文档文本内容的信息基于这种直觉，我们相应地组合提取的特征。查询-目标特征融合特征Qv、Qt、Qs、Tv、Tt和Ts是由相应的基于Transformer的编码器输出的令牌序列的形式。我们策略性地在这些to- ken序列之间应用对称注意力[10]。两个序列的对称注意力涉及i）计算第一序列的多头注意力[36]作为查询，第二序列作为键和值，ii）计算第二序列的多头注意力作为查询，第一序列的多头注意力作为键和值，iii）沿着特征轴连接注意力输出以获得最终序列输出。图中描绘了同样的情况。五、我们使用共同注意力（即，相同模态的序列之间的对称注意力）之间和QsTs，以分别生成输出序列VV、TT和SSVV、TT和SS包含关于同一模态的查询和目标特征之间的相关性的信息。基于我们关于不同模态之间的相互连接的初始直觉，我们首先计算Qs-Tv和 Ts-Qv之间的交叉注意力（即，不同模态的序列之间的对称注意力）如前所述，Tv包含关于Tt的信息，同样，Qv和Qt也是如此。因此，为了利用这些关系，我们分别计算Sq Vt和St Vq与Tt和Qt的交叉注意力。最后，我们得到了空间-空间-文本编码SqVt Tt和StVqTq。检测相似的片段。最后，我们有5个token序列（每个token序列的最大长度和特征维数为1024）- 3个Co-Attention序列：V V、SS、TT和2个交叉注意序列：Sq V t T t和S t V q T q。这些序列沿着最后一个维度简单地级联以形成特征量FsimBS×1024×5120，其中BS表示批次的大小，1024是最大序列长度（超参数）。我们认为，这个功能卷包含所有必要的信息，以找到目标内的相关片段。我们在Fsim上应用线性投影，并将其转换为形状向量BS×1024×4096，其被重塑为特征体积Ffeat ∈RBS ×1024×64×64。conv层的序列，每个层的内核大小为1，然后是LeakyReLU激活（斜率= 0）。1），过程F适于在4个不同级别输出特征，具有形状-BS256 64 64，BS512 6464，BS1024 64 64，64 .第六十四章.分层特征通过标准FPN体系结构进行子处理然后是FasterRCNN RPN和RoI头[31]，以获得最终的边界框。有关FPN和RPN模块、其他模块的隐藏维度、通过注意力获得的中间向量的大小等的更多详细信息，请参阅附录。5. 实验和分析5.1. 实现细节我们使用标准的对象检测损失来训练MONOMER，即建议匹配+边界框（用于Faster-RCNN）[31]，批量大小为48（每个GPU6个，总共8个 GPU）。使用动量为0的SGD [32]进行优化。9和重量衰减1e2。初始学习速率设置为5e2，并使用余弦退火调度器进行更新.检测头的输出以置信度阈值0进行处理。4关于预测和NMS[27]阈值为0。45在lou对于所有的实验，我们统一使用8个Nvidia A-100 GPU。5443模型Flamingo表格PubLayNet文档AP50AP75AR50AR75地图AP50AP75AR50AR75地图SSD--0.00000.000.00--0.010.000.00NCC29.4124.825.160.002.7746.0929.9418.600.047.36BHRL（CVPR58.0951.0038.6730.2835.4536.7426.1854.5528.6922.47布局LMv3（MM51.4543.2158.8838.8045.5135.9516.5065.3818.3121.46单体（我们的）78.1673.9356.6551.1166.9564.3039.8364.1832.9536.61表2：在一次性文档片段检测任务中，比较MONOMER与其他方法的性能。(Note：连字符表示未检测到框，这在mAP和召回中也有所反映。）单体变体Flamingo表格PubLayNet文档AP50AP75AR50AR75地图AP50AP75AR50AR75地图图像67.3362.4059.4949.9563.7353.4330.1360.2923.9823.75图片+文字72.4667.6057.9750.2564.3162.0836.5358.0327.2733.00图像+边界70.3765.5057.3049.0663.3057.6734.1069.2132.3332.91图片+文字+边框78.1673.9356.6551.1166.9564.3039.8364.1832.9536.61表3：使用不同模式组合的MONOMER变体的性能分析5.2. 基线我们从应用标准模板匹配方法开始：归一化互相关（NCC）和平方差和（SSD）检测相似片段。此外，由于所提出的任务与一次性目标检测（OSOD）设置的相似性此外，我们还实现了一种使用高性能文档分析模型LayoutLMv36的方法，其中查询目标被单独嵌入以生成多模态特征，这些特征通过对称注意和检测头进行处理我们在补充材料（第1.4节）中添加了与上述基线相比的模型尺寸的详细信息。5.3. 评估指标我们采用来自一次性对象检测的度量来评估一次性文档片段检测的各种方法的性能。具体来说，我们在IoU阈值为0时测量平均精确度（AP）和平均召回率（AR）。50和0。75，其分别由AP50、AP75、AR50和AR75表示。此外，我们通过从0开始对IoU阈值处的AP进行平均来计算预测的平均平均精度（mAP）[22]。50和增加的步骤0。5点到0点。九十五5.4. 结果表2显示了不同方法在文档片段检测任务中的结果。我们看到模板匹配5https://github.com/hero-y/BHRL6https://huggingface.co/docs/transformers/model_doc/layoutlmv3算法在该任务上执行得非常差，原因是它们不能适应类似片段中的变换，BHRL在模板匹配方面表现出了显著的改进，但由于缺乏对文档中文本和布局信息的理解，其性能过早地趋于稳定。LayoutLMv3以其丰富的文档表示展示了对上述技术的改进在LayoutLMv3的扩展中直接使用多模态嵌入MONOMER在处理信息流方面具有更大的灵活性，在两种数据设置下都能提供更好的mAP。定性可视化。我们讨论了单体产生的质量产出与其他强基线之间的主要差异。结果总结如图所示。6. 查询snip- PET包含某些布局模式，其在目标文档中的对应匹配由地面真值列中的绿色边界示出。正如我们所观察到的，查询与地面实况中标记的区域并不完全相同，因此使检测任务变得不平凡。我们注意到，MONOMER能够检测形式中的几种例如，图1中的左上角（第1行，Flamingo-Forms）示例。图6表明，虽然BHRL能够检测到大多数真阳性，但它也检测到两个区域为假阳性。我们将BHRL的这种行为归因于其对有限数量的类的过度依赖（检测所有类似选择的模式，而不是类似的布局）。此外，LayoutLMv3还预测了许多与地面实况不匹配的无关边界框。同样，在左下角5444查询Flamingo表格PubLayNet文档QueryGround TruthBHRLLayoutLMv3 MONOMERGround TruthBHRLLayoutLMv3单体图6：BHRL、LayoutLMv3和MONOMER之间的定性比较（放大以获得更好的视图）在图6（第2行，Flamingo Forms）中，可以观察到MONOMER优于LayoutLMv3 和BHRL的精确度。此外，MONOMER即使在PubLayNet数据集中也能产生更好的质量检测，如图所示。6（右）。我们注意到BHRL和LayoutLMv3经常无法预测PubLayNet数据集中的边界框，而MONOMER始终预测它们。我们的方法对LayoutLMv3和BHRL的有效性可以在图中观察到。6（行2，PubLayNet），其中LayoutLMv3产生假阳性，BHRL不产生任何预测。更多定性分析请参见补充资料5.5. 消融和分析不同模式下的性能。我们量化通过消融研究（我们以不同的组合打开/关闭模态信息），单个文档模态在MONOMER 性能中发挥的作用。首先，我们考虑MONOMER的仅图像变量。在这个模型中，我们分别添加了文本和绑定框模态，以获得两个MONOMER变体。表3比较了这些变体相对于在图像、文本和边界上训练的MONOMER的性能。模型处理所有模态显著优于其他变体，强调了在架构中纳入文档特定细微差别的有用性。对不可见布局字符串的性能。现在，我们评估了各种方法检测在训练过程中没有遇到的片段模式的能力。这将测试方法的一次性检测能力。我们通过检查testset中的布局字符串模式是否出现在trainset中来区分可见和不可见的类。Flamingo的测试集包含1558个可见布局模式和353个不可见布局模式;同样，PubLayNet测试集包括17个可见和6个不可见模型火烈鸟PubLayNet看到看不见看到看不见NCC0.000.000.010.00SSD0.811.950.377.00BHRL47.5042.3016.1016.00布局LMv353.9842.0324.4818.44单体71.3357.8231.8631.27表4：在单次设置中各种方法的泛化能力的研究（以mAP为单位的数字）。布局模式。当对可见-不可见分裂分别进行推断时，我们得到如表4所示的结果这些数字描绘了MONOMER6. 结论和未来工作在这项工作中，我们提出了一个多模式的一杆检测，灰设置，以提高搜索文件。讨论了文档上下文中的相似性，提出了一种相似性准则，该准则允许生成测试不同方法所需的大量数据然后，我们提出了一个基于交叉注意力的解决方案，该解决方案是建立在对查询片段和目标文档的各种文档模态是如何相互关联的见解之上的。我们的方法显示出更好的性能相比，其他方法和它自己的单一模态变量的任务，一杆文档片段检测。在未来，我们希望将这项工作扩展到其他多模态内容，如信息图形，广告传单等。这将进一步增强文档搜索能力。5445引用[1] 经合组织2020年。2019冠状病毒病时代的数字化转型：建设复原力和弥合分歧。数字经济《2020年展望补编》，经合组织，巴黎，www.oecd.org/digital/digital-economy-outlook-covid.pdf，2020年。[2] Milan Aggarwal，Hiresh Gupta，Mausoom Sarkar，andBalaji Krishnamurthy.Form2Seq：高阶表单结构提取框架。在2020年自然语言处理经验方法会议（EMNLP）的会议记录中，第3830-3840页，在线，11月。2020.计算语言学协会。[3] 米兰·阿加瓦尔，莫苏姆·萨卡，海雷什·古普塔，和巴阿吉·克里希那穆尔蒂.基于多模态关联的表格结构提取分组。在IEEE/CVF计算机视觉应用冬季会议论文集，第2075-2084页[4] 阿里雷扎·阿莱和马蒂厄·德拉兰德一个完整的标志检测/识别系统的文件图像。2014年第11届IAPR文件分析系统国际研讨会，第324-328页[5] Srikar Appalaraju ， Bhavan Jasani ， Bhargava UralaKota，Yusshen Xie，and R Manmatha. Docformer：用于文档理解的端到端Transformer。在IEEE/CVF计算机视觉国际会议论文集，第993-1003页[6] MichaelW. 贝瑞和马卢·卡斯特拉诺斯。文本挖掘概述：聚类、分类和检索.2007年[7] 加拉尔湾Binmakhashen和Sabri A. Mahmoud. 文档布局分析：全面调查。ACM计算监视器，52（6），2019年10月。[8] 格伦·A·鲍文文献分析作为一种定性研究方法。2009年《质性研究杂志》[9] 克劳迪奥·卡皮内托和乔瓦尼·罗马诺。信息检索中自动查询扩展研究综述ACM计算。监视器，44（1），2012年1月。[10] Ding-Jie Chen，He-Yen Hsieh，and Tyng-Luh Liu. 用于单次目标检测的自适应图像Transformer在IEEE/CVF计算机视觉和模式识别会议论文集，第12247-12256页，2021年[11] 郑佳欣，吴跃，瓦埃勒·阿卜杜勒·阿尔马吉德，和普莱姆库-马尔·纳塔拉詹. Qatm：用于深度学习的质量感知模板匹配。在IEEE/CVF计算机视觉和模式识别集，第11553[12] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[13] Adobe Document Cloud 。搜索 PDF 2021. 出版商：Adobe。[14] M.B.放大图片作者：A. A. Nazren和N.M.瓦菲使用sum进行模板匹配平方差和标准化互相关。在2015年IEEE研究与开发学生会议（SCOReD），第100-104页[15] Ting-I Hsieh ， Yi-Chen Lo ， Hwann-Tzong Chen ， andTyng- Luh Liu.具有共同注意和共同激励的单次目标检测。神经信息处理系统的进展，32，2019。[16] Yupan Huang，Tengchao Lv，Lei Cui，Yutong Lu，andFuru Wei. Layoutlmv3：使用统一的文本和图像掩码对文档ai进行预训练。arXiv预印本arXiv：2204.08387，2022。[17] P Kiran ， BD Parameshachari ， J Yashwanth 和 KNBharath。利用图像处理技术和反向传播神经网络系统进行脱机签名识别。SN Computer Science，2（3）：1[18] Boli，Junjie Yan，Wei Wu，Zheng Zhu，and Xiaolin Hu.基于暹罗区域投影网络的高性能视觉跟踪。在IEEE计算机视觉和模式识别会议论文集，第8971-8980页，2018年。[19] 李俊龙，徐一恒，吕腾超，崔磊，张查，魏福如。Dit：文档图像Transformer的自监督预训练，2022。[20] 李培昭，顾久祥，权健，赵汉东，贾殷，万荣，刘宏福.Selfdoc：自我监督的文档表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第5652-5660页[21] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[23] 基思·麦克唐纳。使用文件12. 社会生活研究，2001年，第194页。[24] MineshMathew ， VirajBagal ， Rube`nTito ，DimosthenisKaratzas，Ernest Valveny，and CV Jawahar.信息图表在IEEE/CVF计算机视觉应用冬季会议论文集，第1697-1706页[25] Iaroslav Melekhov Juho Kannala和Esa Rahtu。用于图像匹配的连体网络特征。在2016年第23届国际模式识别会议（ICPR）上，第378383. IEEE，2016.[26] 作者：Frederic P. Miller，Agnes F.范多姆和约翰·麦克布鲁斯特。Levenshtein距离：信息论，计算机科学，弦（计算机科学），弦度量，Dam- erau？Levenshtein距离，拼写检查器，汉明距离。Alpha Press，2009.[27] Alexander Neubeck和Luc Van Gool。有效的非最大抑制。在第18届模式识别国际会议（ICPRIEEE，2006年。[28] 爱德华·奥亚隆和朱利安·拉宾Surf方法的分析。ImageProcessing On Line，5：1765446[29] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页[30] Scott Reed ， Konrad Zolna ， Emilio Parisotto ， SergioGomez Colmenarejo，Alexander Novikov，Gabriel Barth-Maron，Mai Gimenez，Yury Sulsky，Jackie Kay，JostTobias Springenberg，et al.一个多面手。arXiv预印本arXiv：2205.06175，2022。[31] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，2015年28日。[32] 塞巴斯蒂安·鲁德。梯度下降优化算法概述arXiv预印本arXiv：1609.04747，2016。[33] Lukas Ruff ， Robert Vandermeulen ， Nico Goernitz ，Lucas Deecke ， Shoaib Ahmed Siddiqui ， AlexanderBinder，Em-manuelMüller，andMariusKloft. 深度一级分类。国际机器学习会议，第4393-4402页PMLR，2018。[34] Mausoom Sarkar、Milan Aggarwal、Arneh Jain、HireshGupta和Balaji Krishnamurthy。利用基于先验的高分辨率分层语义分割进行文档结构提取.欧洲计算机视觉会议，第649-666页Springer，2020年。[35] Rube` nTito ， MineshMathew， CVJaw ahar， ErnestValveny，and Dimosthenis Karatzas.Icdar 2021文档可视化问答竞赛。在国际文件分析和识别会议上，第635- 649页。斯普林格，2021年。[36] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polos

下载后可阅读完整内容，剩余1页未读，立即下载