PubTables-1M：非结构化文档中的全面表格提取

146 浏览量更新于2023-10-25 收藏 14.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

46340PubTables-1M：从非结构化文档中实现全面的表格提取0Brandon Smock Rohith Pesala Robin AbrahamMicrosoft Redmond, WA0brsmock,ropesala,robin.abraham@microsoft.com0摘要0最近，在将机器学习应用于从非结构化文档中推断和提取表格结构的问题上取得了重大进展。然而，最大的挑战之一仍然是在规模上创建具有完整、明确的基准真实性的数据集。为了解决这个问题，我们开发了一个新的更全面的表格提取数据集，称为PubTables-1M。PubTables-1M包含来自科学文章的近一百万个表格，支持多种输入模式，并包含详细的表格结构的标题和位置信息，使其适用于各种建模方法。它还使用一种新颖的规范化过程解决了先前数据集中观察到的基准真实性不一致性的一个重要来源，称为过分分割。我们证明了这些改进导致了训练性能的显著提高，并且在表格结构识别的评估中获得了更可靠的模型性能估计。此外，我们还展示了在PubTables-1M上训练的基于transformer的目标检测模型在检测、结构识别和功能分析的三个任务上都能产生出色的结果，而无需对这些任务进行任何特殊的定制。数据和代码将在https://github.com/microsoft/table-transformer上发布。01. 引言0表格是一种紧凑、结构化的表示形式，用于存储和传递文档和其他方式中的数据。然而，在其呈现形式中，例如图1中的表格，可能不会明确表示其逻辑结构。这是一个重要问题，因为大量的数据是通过文档进行传递的，缺乏结构信息可能会妨碍数据的使用。从表格的呈现中推断其结构并将其转换为结构化形式被称为表格提取（TE）。TE包括三个子任务[5]，我们在此进行说明。0图1. 一个示例呈现表格，其底层逻辑结构缺失，需要推断。0图2：表格检测（TD），用于定位表格；表格结构识别（TSR），用于识别表格的行、列和单元格；功能分析（FA），用于识别表格的键和值。由于呈现的表格具有各种各样的格式、样式和布局，因此自动化系统在TE方面具有挑战性[8,11, 16,22]。最近，研究文献中的研究方法从传统的基于规则的方法[3, 10, 17]转向基于深度学习（DL）[13, 16,21]的数据驱动方法。DL方法的主要优势在于它们可以学习更加适应各种表格呈现格式的鲁棒性。然而，为了进行TSR，手动注释表格是一个困难且耗时的过程[6]。为了克服这个问题，研究人员最近开始使用众包来构建更大的数据集[8,21,22]。这些数据集是由成千上万的作者创建的文档组装而成，每个表格的结构和内容都以HTML、XML或LaTeX等标记格式进行注释。虽然众包解决了数据集大小的问题，但是将意图用于TE的注释重新用于自动转换为基准真实性时，会面临信息的完整性、一致性、质量和明确性方面的挑战。例如，标记不会为单元格编码空间坐标，并且通过布局等线索隐含地编码逻辑关系[19]。这种缺乏明确信息的情况不仅限制了潜在的建模方法范围，还限制了可以进行的质量控制以验证注释的正确性。46350图2. PubTables-1M数据集所涉及的表格提取的三个子任务的示意图。0众包标记注释的另一个重要挑战是它们的结构经常出现我们称之为过分分割的问题。过分分割是指当标题中的一个跨越单元格被错误地分割成多个网格单元格时发生的情况。我们在图3中举例说明了这一点。在没有单元格之间的边框的情况下，标记中的过分分割对表格的呈现方式没有影响，因此不会影响其隐含的逻辑结构和解释。然而，当用作模型训练和评估的基本事实时，过分分割可能会导致重大问题。第一个问题是过分分割的注释与表格的逻辑解释相矛盾，而表格的呈现形式则暗示其文本适用于多行，例如图3中第1列第3行的单元格。这对于用作训练机器学习模型解释表格结构的基本事实是有问题的。即使过分分割的注释被认为是表格结构的有效解释，允许它们也会导致基本事实的不一致，因为对于表格结构存在多个可能的有效解释，如图3所示。这违反了标准建模假设，即每个表格都有一个正确的基本事实。因此，包含过分分割注释的数据集会导致训练过程中出现不一致、矛盾的反馈，并低估评估过程中的性能。为了解决这些和其他挑战，我们开发了一个名为PubTables-1M的新的大规模表格提取数据集。PubTables-1M包含来自PubMedCentral开放获取1（PMCOA）的近一百万篇科学文章中的表格。01 https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/0数据库。我们的贡献之一：0•PubTables-1M几乎是当前最大的可比较数据集的两倍大，并涵盖了表格检测（TD）、表格结构识别（TSR）和功能分析（FA）的所有三个任务。0•与之前的数据集相比，PubTables-1M包含更丰富的注释信息，包括对投影行标题的注释以及所有行、列和单元格的边界框的注释，包括空白单元格。它还包括对它们原始源文档的注释，支持多种输入模态，并支持各种潜在的模型架构。0•我们引入了一种新颖的规范化过程，用于纠正过分分割，并旨在确保每个表格都具有唯一、明确的结构解释。0•为了减少额外的错误来源，我们实施了几个质量验证和控制步骤，并提供了关于基本事实质量的可衡量的保证。0•我们表明，仅通过数据改进就可以显著提高TSR的性能，这既得益于改进的训练，也得益于更可靠的评估性能估计。0•我们首次将检测变换器（DETR）[1]应用于TD、TSR和FA，并展示了如何使用PubTables-1M，这三个任务可以通过基于变换器的目标检测框架来处理，而无需对这些任务进行任何特殊定制。46360(a) 过分分割的结构注释0(b) 规范结构注释0图3.在这个例子中，左侧的结构注释是过分分割的，导致行和列标题中出现额外的空白单元格。右侧的规范结构注释合并了这些单元格，并捕捉到了表格的真实逻辑结构。左上角的空白单元格不属于表格，可以使用任何一致的方案进行结构化。02. 相关工作0结构识别数据集首个解决所有三个TE任务的数据集是ICDAR-2013数据集[5]。由于其质量和相对完整性，它仍然是基准测试的热门选择。然而，作为训练数据源，它是有限的，只包含257个用于TD和TSR的表格和92个用于FA的表格。最近，通过从现有文档中自动收集众包注释，已经创建了更大的TSR数据集[2, 8, 21,22]。我们在表1中总结了这些数据集。每个表格的内容和结构都以HTML等标记格式进行注释。使用各种方法确定每个表格在其所在文档中的空间位置，以创建其标记和呈现之间的对应关系。从那里，数据集通常将TSR任务定义为：给定一个输入表格，输出结构-将单元格分配给行和列-以及每个单元格的文本内容，其中图像和HTML分别用于这些示例输入和输出格式。最近，两个大型数据集FinTabNet和PubTabNet的增强版本已经添加了单元格的位置信息，类似于ICDAR-2013。添加位置信息使得TSR任务可以被定义为输出单元格位置而不是单元格内容，单元格内容提取成为一个简单的后续步骤。这增加了可能的监督建模方法的范围。然而，这些数据集定义的单元格的边界框仅覆盖每个单元格的文本部分，不包括单元格可能包含的任何额外空白。这有一些影响，比如未定义空白单元格的边界框，并且模糊了由空白字符贡献的文本属性，比如缩进和对齐。因此，先前的工作留下了一个问题，即如何定义所有单元格的边界框，包括空白单元格。先前的数据集还未解决与注释完整性和质量相关的其他挑战。就完整性而言，先前的大规模数据集也没有包括行和列的边界框的注释。此外，大多数数据集不注释列标题，也没有大规模数据集指定0表格的行标题。这不仅限制了可以应用于TSR的建模方法的范围，也限制了整体TE任务的完整解决方式。另一个开放性挑战是自动验证和测量注释质量，这是重要的，因为大规模手动验证是不可行的。最后，先前的数据集没有解决过分割注释的问题。这些都是重要问题，因为训练数据中的噪声和错误可能会损害学习，而评估数据中的噪声和错误可能会导致对模型性能的低估。目前尚未探索这些问题对模型训练和评估的影响程度。0建模方法TSR最常见的建模方法之一是将任务框架化为某种形式的目标检测[13, 16,21]。其他方法包括基于图像到文本的方法[8]和基于图的方法[2, 14]。虽然存在一些通用的架构，如FasterR-CNN[15]，用于这些模型模式，但表格的独特特征和相对缺乏训练数据都导致了这些模型在应用于TSR时的普遍性能不佳。为了解决训练数据的不足，一些方法以部分解决方案的方式对TSR进行建模，例如在Deep-DeSRT中进行行和列检测，忽略了跨越多个单元格的单元格，或者在TableBank上训练的模型中，仅进行图像到标记的建模，而不包括文本内容。其他方法使用自定义流程，分支考虑不同情况，例如训练单独的模型来识别带有和不带有可见边框的表格。先前提到的许多方法还使用了经过设计的模型组件或自定义的训练过程，并结合规则或其他未学习的处理阶段，以适应TSR任务，从而减轻了从数据中学习任务的负担。目前，还没有使用简单的监督学习方法和现成架构完全解决TSR任务并实现最先进性能的解决方案。46370表1. 用于表结构识别的众包数据集的比较。0数据集输入模态 # 表格子拓扑格子内容格子位置行和列位置规范结构0TableBank [ 8 ] 图像 145K � SciTSR [ 2 ] PDF� 15K � � PubTabNet [ 21 , 22 ] 图像 510K ‡ � � � †0FinTabNet [ 21 ] PDF� 113K � � � †0PubTables-1M（我们的）PDF� 948K � � � � �0� 可以从带注释的PDF数据中派生多个输入模态，例如图像或文本。 ‡作者发布了他们数据集中总共568K个表中的510K个表的注释。 †对于这些数据集，仅为非空白单元格提供单元格边界框，并排除任何非文本部分。03. PubTables-1M0在本节中，我们将描述用于开发PubTables-1M的过程。为了获得大量的带注释表格来源，我们选择了PMCOA语料库，该语料库包含数百万篇公共科学文章。在PMCOA语料库中，每篇文章以两种形式呈现：作为PDF文档，以视觉方式呈现文章；作为XML文档，提供文档元素的语义描述和分层组织。使用标准HTML标签指定每个表的内容和结构。然而，由于这些数据不是用作表提取建模的基准数据，因此它没有明确标记或保证对于此目的有用的多个事项。例如，尽管相同的表在两个文档中都出现，但没有直接的对应关系，比如每个表的位置。在数据质量方面，虽然表通常可靠地进行了注释，但不能保证完全注释列标题或注释的文本内容与PDF中显示的文本内容完全匹配。最后，某些标签，例如每个表的行标题，根本没有进行注释。我们采取的基本方法是首先尝试从存在的信息中可靠地推断出尽可能多的缺失注释信息（例如，每个表的空间位置），然后验证每个注释是否满足某些一致性要求。在某些情况下，我们会更正注释，以使其更一致，例如合并过分分割的单元格。我们认为某些要求是严格的，违反这些要求的样本将被删除。这提供了一组质量和一致性条件，可以保证注释满足这些条件。在本节的其余部分，我们将描述这些条件以及我们采取的步骤，以获得满足这些条件的基准数据。0对齐 PDF文档中的文本具有位置[x min，y min，x max，ymax]，而XML文档中的文本出现在语义标记的标签内。由于这两者之间的对应关系未给出，第一步是0创建PubTables-1M的第一步是匹配两者的文本内容。我们将PDF文档处理为一个字符序列，每个字符都有其关联的边界框，并使用Needleman-Wunsch算法[9]将其与从每个表HTML中提取的文本字符序列进行对齐。这将将每个HTML标签中的文本连接到其在PDF文档中的位置。对于每个带有文本的单元格，我们计算文本单元格的边界框，即每个字符的边界框的并集。0完成对齐后，我们完成了空间注释，为行、列和整个表定义边界框。表的边界框定义为所有文本单元边界框的并集。每行的边界框的x min和x max定义为表的x min和xmax，使得每行具有相同的水平长度。每行的边界框的ymin和ymax，m，定义为其起始行或结束行为m的每个单元的文本单元的y min和y max的并集。类似地，每列的边界框的ymin和y max定义为表的y min和y max。每列的边界框的xmin和xmax，n，定义为其起始列或结束列为n的每个单元的文本单元的x min和xmax的并集。根据这些定义，每个单元的网格单元定义为单元的行的边界框与其列的边界框的并集相交。与文本单元不同，即使是空白单元，网格单元也有定义。0规范化规范化步骤的主要目标是纠正表格结构注释中的过分分割。为了做到这一点，我们需要对表格的预期结构做出一些假设。由于规范化算法本身相对简单，我们首先描述它，然后详细说明激发它的假设。简而言之，规范化就是在某些条件下合并相邻的单元格。算法如算法1所示。但是，由于它只对表头中的单元格进行操作，HTML没有用于表格行头的标签，我们观察到PMCOA语料库中的表格的列头并不总是正确的。46380矩形，我们还包括了一些推断额外表头单元格的步骤，我们相信这些推断是可靠的。这些额外的步骤显著增加了我们能够纠正的过分分割的单元格的数量。0算法1 PubTables-1M 规范化01: 将单元格添加到列头和行头 2:将每个空白跨越单元格拆分为空白网格单元格03: 如果第一行以一个空白单元格开始，则将第一行添加到列头中04: 如果至少有一行被标记为列头的一部分，则05:当列头中的每一列都没有至少一个只跨越该列的完整单元格时，添加下一行到列头中06: 结束如果07:对于每一行，如果该行不在列头中并且只占据第一列的非空单元格恰好有一个，则将其标记为投影行头08:如果第一列中的任何单元格是跨越单元格或空白的，则将该列（在列头下方）添加到行头中09: 合并单元格 10:对于列头中的每个单元格，递归地将该单元格与上下相邻的跨越相同列的单元格合并011:对于列头中的每个单元格，如果其下方的每个相邻单元格都为空且在列头中，则递归地将该单元格与其下方的空单元格合并012:对于列头中的每个单元格，如果其上方的每个相邻单元格都为空，则递归地将该单元格与其上方的空单元格合并013: 对于每个投影行头，将行中的所有单元格合并为一个单元格014:对于行头中的每个单元格，递归地将该单元格与下方的空白单元格合并0我们首先假设每个表格都有一个符合Wang模型[20]的预期结构，Wang在一项研究中发现，97%的观察到的表格符合这个模型。根据这个模型，表格的每个表头都有一个与之对应的逻辑上的树形结构。我们断言，为了使结构注释与表格的逻辑结构一致，每个树节点应该有且只有一个单元格。我们还假设表格中的每个值都由唯一的键索引。我们解释这一点是指表格主体中的每一列都对应于列头树中的一个唯一叶节点，同样，表格主体中的每一行都对应于行头树中的一个唯一叶节点（如果需要，行或列的索引可以作为键）。这些假设使我们能够确定行或列头是否只有部分注释，如果是的话，可以扩展到其他列或行。然而，为了保持算法的精确性，对于0我们只尝试推断投影行头（PRH，也称为投影多级行头[7]、节标题[12]或超级行[19]）和推断位于表头第一列的单元格。可以使用第7行的规则来识别表格的PRH。完整行头的推断被认为超出了本工作的范围。0我们还假设标题树中的任何内部节点至少有两个子节点。如果没有，表格的逻辑结构可能存在歧义，因为内部节点可以选择拆分为父节点和单个子节点。我们所做的最后假设是关于标记注释中过分分割的根本原因。我们假设只有在过分分割与表格的外观一致的情况下，才会对单元格进行过分分割。在实践中，这意味着具有居中文本的单元格不会在对齐方向上进行过分分割，因为这可能会改变表格的外观。对于非居中文本，我们预期当任一标题中的单元格过分分割时，这将在垂直方向上发生，如图3b所示，而不是水平方向上发生，因为文本填充水平空间之前会填充垂直空间，留下更多未使用的垂直空间。此外，我们预期行标题中的过分分割单元格的文本将是顶部对齐的。最后，我们预期当过分分割投影行标题时，这将发生在水平方向上，而不是垂直方向上，因为投影行标题已经占据了一行。0最后，还有两种额外的情况，我们必须按照惯例处理。一种情况是当一个或多个空白网格单元格的行位于父单元格和其所有子单元格之间的列标题中。在这种情况下，我们可以选择将所有空白单元格与其上方的父单元格合并，或将每个空白单元格与其下方的子单元格合并，我们选择将所有空白单元格与子单元格合并，这发生在第10行。最后一种情况是当一个表格在其左上角有一个空白的 stubhead（根据Wang模型），在这种情况下，空白单元格不是表格的一部分，因此关于表格结构的假设不建议如何对它们进行分组。我们按照惯例选择将同一列中的所有空白单元格合并为一个空白的 stub head，这与第10行的方案一致。0限制条件尽管规范化的目标适用于任何表格结构注释，但我们注意到算法1是专门为PMCOA数据集中的注释而设计的。规范化来自其他数据集的表格可能需要额外的假设，这超出了本工作的范围。最后，应注意规范化不能保证无误注释。剩余的问题将使用下一节中描述的自动化质量控制过程来解决。SciTSR14,9332,6225.709.285.190.77PubTabNet502,887121,6494.1314.055.392.24FinTabNet112,8269,56511.8011.934.361.01PubTables-1M947,642250,9103.7813.415.463.01SciTSR10,4313425415.79%0.52%PubTabNet422,491100,15958,74758.65%13.90%FinTabNet70,02825,63725,34898.87%36.20%PubTables-1M761,262153,70500%0%46390表2. 用于表格结构识别的数据集中表格实例的多样性和复杂性。0数据集 # 表格 ‡ # 唯一单元格拓扑平均每个拓扑的表格数平均每个表格的行数平均每个表格的列数平均每个表格的跨越单元格数0‡ 我们能够成功读取和处理的数据集中的地面真实表格数。0表3. 通过数据集估计的投影行标题（PRH）的过分分割度量。由于PRH只是可以过分分割的单元格类型之一，因此这是对这些数据集中总过分分割的部分调查。0数据集总调查表格数 †0具有PRH的总表格数 � 具有过分分割的PRH的表格数0总%（具有PRH的总数）%（总调查数）0† 我们排除少于五行的表格；为了避免列标题行，我们在搜索PRH时跳过前四行。� PRH = projected rowheader；在没有任何先前的行或列标题注释的数据集中，可以可靠地检测到这些。0质量控制由于PubTables-1M太大，无法进行手动验证，因此我们通过自动检查错误并从数据中过滤掉这些错误来进行质量控制。首先，由于从标记中呈现的表格不应包含重叠的行或列，我们丢弃任何出现这种情况的表格，因为这很可能是源标记中的错误或对齐过程中引入的错误。接下来，为了确保文本注释的质量，我们比较原始XML注释中每个单元格的非空白文本与从网格单元格边界框内提取的文本之间的编辑距离。我们过滤掉任何平均每个单元格之间的标准化编辑距离超过0.05的表格。我们不强制每个文本完全相等，因为即使一切都被正确注释，PDF文本也可能不同，比如换行可能会添加不在表格源文本中的连字符。当存在差异时，我们选择将PDF文本视为基本事实。由于具有正确位置信息的表格为表格中的所有单词提供了明确的分配，我们还计算了每个单词在表格边界内的最重叠网格单元格之间的平均重叠分数，并丢弃平均重叠分数低于0.9的表格。最后，我们计算表格中对象的数量（在第4节中定义），并删除具有超过100个对象的异常值，这丢弃了不到0.1%的表格。PubTables-1M是第一个在单元格级别验证注释并为基本事实提供可衡量的一致性保证的数据集。因此，提高信息的明确性在一定程度上是有价值的，因为它为捕捉数据中嵌入的不一致性和错误提供了更多的机会。0数据集统计和划分总共，PubTables-1M包含947,642个TSR表格，其中52.7%是复杂的（至少有一个跨越单元格）。在规范化之前，40.1%的表格最初被注释为复杂。规范化对所有表格的注释进行了某种方式的调整，对于所有表格的34.7%，或者对于复杂表格的65.8%。在表2中，我们将PubTables-1M的样本的多样性和复杂性与其他数据集进行了比较。为了衡量多样性，我们计算了每个数据集中唯一的表格结构布局（或单元格拓扑）。可以看到，与之前的数据集相比，PubTables-1M每个样本包含更多的多样性，更广泛的表格结构，以及更复杂的布局。在表3中，我们试图衡量并比较每个数据集中存在的过分分割的数量。精确测量这一点需要行和列标题的注释。但是因为其他数据集缺乏这些注释，我们只测量了过分分割的投影行标题（PRHs），可以在不使用显式注释的情况下可靠地检测到，使用第7行的规则。为了考虑缺失的列标题注释，我们直到第五行才开始寻找PRHs，这假设列标题最多占据四行，并且我们简单地排除任何少于五行的表格。如果存在未注释的页脚，我们还不计算任何被检测到的PRHs，这些PRHs是表格的最后几行。如果PRH的行包含空单元格，则被检测到的PRH是过分分割的。可以看到，众包数据集中存在大量的过分分割，这些数据集尚未规范化。虽然具有过分分割的数据集可以是自洽的，例如FinTab-Net，但是合并具有不同注释方案的数据集TDFaster R-CNN0.8250.9850.9270.866DETR0.9700.9950.9890.985TSR + FAFaster R-CNN0.7220.8150.7850.762DETR0.9120.9710.9480.942GriTSf(A, B) =2 · �|A| + |B|.(1)46400图4.一个示例表格，显示了用于联合建模表格结构识别和功能分析的不同对象类别的膨胀边界框注释。0可能会加剧不一致性甚至导致过拟合。我们将PubTables-1M随机分成训练集、验证集和测试集，以文档级别进行80/10/10的划分。对于TSR和FA，这导致训练集有758,849个表格；验证集有94,959个表格；测试集有93,834个表格。对于TD，训练集有460,589个包含表格的页面；验证集有57,591个页面；测试集有57,125个页面。请注意，这些表格每个只跨越一页，跨越多个页面的表格被认为超出了本研究的范围。04. 提出的模型0我们将TD、TSR和FA的三个任务都建模为以图像为输入的目标检测任务。对于TD，我们使用两个目标类别：table和table rotated。tablerotated类别对应于逆时针旋转90度的表格。0TSR和FA模型我们使用一种新颖的方法，使用六个目标类别同时建模TSR和FA：table、table column、tablerow、table column header、table projected rowheader和table spanningcell。我们在图4中展示了这些类别。每对tablecolumn和tablerow对象的交集可以被视为形成第七个隐式类别table gridcell，这些对象通过物理重叠来建模表格的层次结构。对于TSR和FA模型，我们使用扩张的边界框。为了创建扩张的边界框，对于每对相邻行和每对相邻列，我们扩展它们的边界直到它们相遇在中间位置，这样填充了它们之间的空白空间。类似地，我们扩展其他类别的对象，使它们的边界与所占据的行和列的调整相匹配。之后，行之间、列之间和单元格之间都没有间隙或重叠。0表格4. 使用目标检测指标在PubTables-1M上的模型测试性能。0任务模型 AP AP 50 AP 75 AR0为了展示所提出的数据集和目标检测建模方法，我们将Detection Transformer (DETR) [1]应用于所有三个TE任务。我们为TD训练一个DETR模型，为TSR和FA训练一个DETR模型。为了比较，我们还为相同的任务训练了一个Faster R-CNN [15]基准模型。所有模型都使用在ImageNet上预训练的ResNet-18骨干网络，并冻结了前几层。我们避免为每个任务定制模型和训练过程，尽可能使用默认设置，以便数据驱动结果。05. 实验0在本节中，我们报告了使用PubTables-1M数据训练三个任务的基准模型的结果。我们在表格4中报告了模型在表格检测方面的性能。对于TD，DETR在AP 50方面略优于FasterR-CNN，但在AP方面明显优于后者，表明DETR在表格定位方面具有更好的性能。这种差距表明该数据集并不容易学习，但足够大且一致，使模型能够有效学习。对于TSR和FA，我们训练了三个基准模型：FasterR-CNN和DETR使用规范化数据，以及DETR使用原始的非规范化（NC）注释（DETR-NC）。我们在表格4中使用目标检测指标报告了在规范化数据上训练的模型的结果，该指标同时衡量了TSR和FA的性能，并在表格5中报告了所有模型在仅TSR指标上的结果。我们对DETR-NC在规范化和非规范化测试数据上进行评估。对于评估TSR性能，我们报告了几个指标，包括表格内容准确性指标（AccCon），即每个单元格的文本内容与真实值完全匹配的表格的百分比，有向邻接关系的F-score（DARCon）指标[4]，以及最近提出的GriTS[18]指标，用于部分表格正确性的评估。GriTS使用相同的整体形式评估单元格拓扑识别（GriTS Top），单元格内容识别（GriTSCon）和单元格位置识别（GriTS Loc）。0i，j f ( ˜A i,j , ˜B i,j )0其中A和B分别是网格单元的真实矩阵和预测矩阵。46410表格5. 使用TSR特定指标在PubTables-1M上的TSR + FA模型测试性能。0测试数据模型表类别准确率Con GriTS Top GriTS Con GriTS Loc DAR Con0非规范化 DETR-NC 简单 0.8678 0.9872 0.9859 0.9821 0.98010复杂 0.5360 0.9600 0.9618 0.9444 0.95050全部 0.7336 0.9762 0.9761 0.9668 0.96810规范化 DETR-NC 简单 0.9349 0.9933 0.9920 0.9900 0.98650复杂 0.2712 0.9257 0.9290 0.9044 0.91620全部 0.5851 0.9576 0.9588 0.9449 0.94940Faster R-CNN 简单 0.0867 0.8682 0.8571 0.6869 0.80240复杂 0.1193 0.8556 0.8507 0.7518 0.77340全部 0.1039 0.8616 0.8538 0.7211 0.78710DETR 简单 0.9468 0.9949 0.9938 0.9922 0.98930复杂 0.6944 0.9752 0.9763 0.9654 0.96670全部 0.8138 0.9845 0.9846 0.9781 0.97740我们观察到，DETR在规范化数据上训练可以为TSR和FA提供强大的结果，优于所有其他基线模型。将在NC基准数据上训练和评估的DETR-NC与在规范化基准数据上训练和评估的DETR进行比较，我们观察到使用规范化数据可以提高简单和复杂表格的性能。这在精确匹配准确率上尤为明显，规范化数据将复杂表格的性能从0.5360提升到0.6944。为了考虑规范化对于更可靠评估的影响，我们将在规范化数据上评估的DETR-NC与在NC数据上评估的DETR-NC进行比较。尽管它是在NC数据上训练的，但当DETR-NC在规范化数据上评估时，简单表格的准确率要高得多（0.9349），而在NC数据上评估时为（0.8678）。这清楚地表明规范化数据更少噪音，有助于更可靠的评估。最后，对于DETR-NC，当将评估从NC数据更改为规范化数据时，我们观察到在复杂表格上所有指标都显著下降。抛开每组注释中的自一致性数量不谈，这种差距进一步凸显了这两组数据的差异。在考虑到规范化结构注释更有用的程度时，可以认为在规范化数据上训练的模型也更有用，除了更一致。06. 结论0在本文中，我们介绍了PubTables-1M，这是一个用于非结构化文档中的表格提取的新数据集，解决了在大规模情况下创建完整可靠的基准数据的挑战。我们指出了标记注释中的过分分割导致众包数据集中存在模糊的基准数据的问题，并提出了一种新颖的规范化过程来解决这个问题。我们证明了改进基准数据对模型性能有显著积极影响。最后，我们采用了DETR模型。0对于所有三个表格提取任务，我们首次展示了在标准物体检测框架内实现最先进性能的可能性，而无需对这些任务进行任何特殊定制。虽然我们不认为这项工作会引发任何对社会的负面影响的问题，但我们欢迎就其他人提出的潜在影响进行讨论。07. 未来工作0在未来，我们希望将所提出的方法和规范化从科学文章中的表格扩展到其他领域，如金融文件。我们还希望解决准确注释大规模数据集中行标题的开放挑战，这将为表格提取提供更完整的解决方案。最后，表格提取通常只是文档理解和信息检索更大流程中的一个阶段，而在这些领域开发端到端系统是一个具有挑战性的重要方向。我们希望通过特别发布来自PMCOA语料库的大量详细注释，进一步推动这一领域的进展。08. 致谢0我们要感谢Pramod Sharma，Natalia LariosDelgado，Joseph N. Wilson，Mandar Dixit，JohnCorring，Ching PuiWAN和匿名审稿人在准备本文时提供的有益讨论和反馈。0参考文献0[1] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexander Kirillov和SergeyZagoruyko。使用Transformer的端到端目标检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。2，746420[2] Zewen Chi，Heyan Huang，Heng-Da Xu，Houjin Yu，WanxuanYin和Xian-LingMao。复杂表格结构识别。arXiv预印本arXiv:1908.04729，2019年。3，40[3] Wolfgang Gatterbauer，Paul Bohunsky，MarcusHerzog，Bernhard Krüpl和BernhardPollak。面向领域无关的Web表格信息提取。在第16届国际万维网会议论文集上，第71-80页，2007年。10[4] Max Göbel，Tamir Hassan，Ermelinda Oro和GiorgioOrsi。一种用于评估PDF文档中表格理解算法的方法。在2012年ACM文件工程研讨会论文集上，第45-48页，2012年。70[5] Max Göbel，Tamir Hassan，Ermelinda Oro和GiorgioOrsi。ICDAR2013表格竞赛。在2013年第12届国际文件分析与识别会议上，第1449-1453页。IEEE，2013年。1，30[6] Jianying Hu，Ramanujan Kashi，Daniel Lopresti，GeorgeNagy和GordonWilfong。为什么表格的地面真实性很难确定。在第六届国际文件分析与识别会议上，第129-133页。IEEE，2001年。10[7] Jianying Hu，Ramanujan S Kashi，Daniel PLopresti和GordonWilfong。表结构识别及其评估。在《文档识别和检索VIII》中，第4307卷，第44-55页。国际光学与光子学学会，2000年。50[8] Minghao Li，Lei Cui，Shaohan Huang，Furu Wei，MingZhou和ZhoujunLi。Tablebank：基于图像的表格检测和识别的表格基准。在第12届语言资源和评估会议论文集上，第1918-1925页，2020年。1，3，40[9] Saul B Needleman和Christian DWunsch。一种适用于搜索两个蛋白质氨基酸序列相似性的通用方法。《分子生物学杂志》，48（3）：443-453，1970年。40[10] Ermelinda Oro和MassimoRuffolo。TREX：一种用于识别和提取PDF文档中的表格的方法。在2009年第10届国际文件分析与识别会议上，第906-910页。IEEE，2009年。10[11] Shubham Singh Paliwal，D Vishwanath，RohitRahul，Monika Sharma和LovekeshVig。Tablenet：用于从扫描的文档图像中进行端到端表格检测和表格数据提取的深度学习模型。在2019年国际文件分析与识别会议上，第128-133页。IEEE，2019年。10[12] David Pinto，Andrew McCallum，Xing Wei和W BruceCroft。使用条件随机场的表格提取。在第26届年度国际ACMSIGIR信息检索研究与开发会议论文集上，第235-242页，2003年。50[13] Devashish Prasad，Ayan Gadpal，KshitijKapadni，Manish Visave和KavitaSultanpure。CascadeTabNet：一种用于从基于图像的文档中进行端到端表格检测和结构识别的方法。在IEEE/CVF计算机视觉和模式识别会议论文集中，第572-573页，2020年。1，30[14] Shah Rukh Qasim，Hassan Mahmood和FaisalShafait。重新思考使用图神经网络的表格识别。在02019年国际文件分析与识别会议（ICDAR），第142-147页。IEEE，2019年。30[15] Shaoqing Ren，Kaiming He，Ross Girshick和JianSun。FasterR-CNN：基于区域建议网络的实时目标检测。arXiv预印本arXiv:1506.01497，2015年。3，70[16] Sebastian Schreiber，Stefan Agne，Ivo Wolf，AndreasDengel和SherazAhmed。DeepDeSRT：用于检测和结构识别文档图像中的表格的深度学习。在2017年第14届国际文档分析和识别(IAPR)会议上，卷1，页1162-1167。IEEE，2017年。1，30[17] Alexey O Shigarov。使用规则引擎的表格理解。ExpertSystems with Applications，42(2)：929-937，2015年。10[18] Brandon Smock，Rohith Pesala和RobinAbraham。GriTS：用于表格结构识别的网格表相似度度量。arXiv预印本arXiv:2203.12555，2022年。70[19] Ashwin Tengli，Yiming Yang和Nian LiMa。从示例中学习表格提取。在COLING2004：第20届国际计算语言学会议论文集中，页987-993，2004年。1，50[20] Xinxin Wang。表格抽象，编辑和格式化，1996年。50[21] Xinyi Zheng，Douglas Burdick，Lucian Popa，XuZhong和Nancy Xin RuWang。全局

下载后可阅读完整内容，剩余1页未读，立即下载