TGRNet：一种用于表格结构识别的端到端可训练表图重构网络

139 浏览量更新于2023-10-13 收藏 763KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1295TGRNet：一种用于表格结构识别的薛文源，于宝生<$，王文涛，陶大成<$，李庆勇*北京交通大学交通数据分析与挖掘北京市重点实验室澳大利亚悉尼大学北京JD Explore Academy，中国{wyxue17，wangwen，liqy} @ bjtu.edu.cn，baosheng. sydney.edu.au，dacheng. gmail.com摘要按行和列排列数据的表是一种非常有效的数据结构，在商业和科学研究中得到了广泛的应用。考虑到在线和离线文档中的大规模表格数据，自动表格识别已经引起文档分析社区的越来越多的关注虽然人类可以很容易地理解表的结构，但是对于机器来说理解它仍然是一个挑战，特别是由于各种不同的表布局和样式。现有方法通常将表格建模为标记序列或不同表格单元格之间的邻接矩阵，未能解决表格单元格的逻辑位置的重要性，例如，单元格位于表格的第一行和第二列中。本文将表结构识别问题转化为表图重构问题，提出了一种用于表结构识别的端到端可训练表图重构网络（TGRNet）具体地，所提出的方法具有两个主要分支，小区检测分支和小区逻辑位置分支，以联合预测不同小区的空间位置和逻辑位置。三个流行的表识别数据集和一个新的数据集与表图注释（TableGraph-350 K）的实验结果表明，所提出的TGRNet 表结构识别的有效性。代码和注释将在https://github.com/xuewenyuan/TGRNet上公开提供。1. 介绍表格数据已被广泛用于帮助人们管理和提取许多现实世界场景中的重要信息，包括分析财务文档、空气污染指数和电子病历[19，33]。虽然人类可以很容易地理解不同的*李庆勇和王文为通讯作者。ICCV 2017 Tuesday标题组织者日期附表深度学习Vidal等月22半天对抗模式识别Roli等人月22半天一个问题（例如，哪个教程是由Roli等人提供的半结构化表（例如：，CSV文件非结构化表（例如：、图像文件）令牌（单词、列索引、行索引……）表解析器（例如、TAPAS）输出：答案（例如、“对抗模式识别”）图1.一个表解析的例子显示了本文的主要关注点。在应用表解析器（例如，TAPAS [7]）来回答上表上的问题，表和问题都被表示为标记序列，其中单元逻辑位置（即，列/行的索引）提供表结构信息。虽然单元逻辑位置可以直接从半结构化表中获取（例如，CSV文件），则需要表结构识别器来从非结构化表中获得这样的重要信息（例如，图像文件）。尽管计算机能够自动识别各种表格的布局和样式，但是对于机器来说，自动识别各种表格的结构仍然是一个巨大的挑战考虑到以非结构化格式（例如，图像和PDF文件），且大多数表分析方法集中于半结构化表（例如，CSV文件）[7，33，19，32]，社区将显著受益于自动表格识别系统，促进大规模表格数据分析，如表格解析[7，32]，患者治疗预测[33，34]和信用卡欺诈检测[19]。要理解不同表的结构，单元格的空间位置和逻辑位置都非常重要1296输入单元边界框单元逻辑位置忽略单元格逻辑位置。线路：\hline\cline{1 − 5}输入LaTex标记单元逻辑位置需要额外的后处理。一对多转录输入邻接关系方法1单元逻辑位置需要其他算法。11在许多应用中。作为图2中所示的表解析示例，1，在应用表解析器（例如，TAPAS [7]）来回答表上的问题，表和问题都被标记化，并且单元逻辑位置（即，列/行的索引）提供表结构信息。如果表格以图像形式呈现，而不是以结构化或半结构化格式呈现，则需要表格结构识别器来检测单元空间位置并推断单元逻辑位置。现有的表结构识别方法通常利用具有手工特征的基于规则的或统计的技术[18，23，26]，仅在受约束的设置（例如，具有固定布局的表如图 2，随着深度学习的成功，近来基于深度学习的表结构识别方法可分为三类：1）通过视觉检测和分割方法识别单元格绑定框[25，27，29，28，8]; 2）将表格图像转换为标记序列，例如LaTeX和HTML [10，2];以及3）探索不同表格单元格之间的邻接关系[30，22，11]。虽然每个单元格的逻辑位置可以从表单元格的邻接矩阵中推断出来因此，在现有的表格结构识别方法中，表格单元格的逻辑位置的重要性一直没有得到很好的研究。为了进一步探索不同表单元之间的逻辑关系，我们引入了一种更强大的基于图的表表示，这被称为表图。具体地，每个表的结构可以表示为图：每个节点表示一个表格单元格，并且两个节点之间的边反映了它们在行和列维度上的逻辑关系，所述逻辑关系可以与它们的行和列索引相关。利用所提出的表格图，一个表格单元可以在图像中定位其像素的位置因此，如果模型能够从给定的图像重建这样的表格图，那么它就对表格结构有了很好的理解。如图1所示的表解析示例。1中，表格结构由每个单元格的逻辑位置表示，当输入表格被呈现为图像时，可以从单元格空间位置推断出该逻辑位置。为此，单元格的空间位置和逻辑位置对于表结构识别和进一步的表理解都很重要。本文将表格结构识别问题归结为表格图重构问题，要求模型对单元空间位置和单元逻辑位置进行联合预测。为了解决这个问题，提出了一种端到端的可训练表重构网络具体而言，所提出的方法employs一个基于分割的模块来检测细胞的空间位置，和细胞的逻辑位置预测解决作为一个有序的节点分类问题。我们评估的方法1数据集1$结果1$方法1数据集1$结果1$(a) 单元格边界框检测。方法1数据集1$结果1$(b) 表图像到标记序列。方法1数据集1$结果1$(c) 小区邻接关系检测。图2.现有的三种表结构识别方法在4个数据集上的实验结果表明了该方法在表格结构识别中的有效性。考虑到大多数表格识别数据集不提供单元格逻辑位置注释，我们提供了来自 TABLE2LATEX-450 K数据集[2]的350 K表格图像的表格图注释作为新的基准，TableGraph-350 K。本文的主要贡献如下：• 我们将表结构识别问题转化为表图重构问题，并进一步提出了一个表图重构网络来联合预测表单元的空间和逻辑位置。• 我们贡献了一个新的基准生成的TABLE 2LATEX-450 K数据集与350 K表图注释。2. 相关工作2.1. 细胞检测和分割受最近语义分割和对象检测工作的启发，一些研究人员利用深度学习技术来检测表格单元格。DeepDeSRT [25]是一个双重系统，它将更快的RCNN[24]和FCN [16]应用于表检测和行/列分割。Pali-wal等[20]提出了一种端到端深度模型，其具有用于表分段和列分段的一个编码器和两个解码器。在[8，28，29]中，他们将整个行或列分类为单元格或非单元格类别，而不是按像素分类。 Siddiqui等人 [27]治疗129711$输入表联系我们联系我们认识联系我们转化表格图0 21000210110011我我我我我我方法数据集结果1$行/列识别作为对象检测问题。Prasad等人。 [21]使用级联架构进行表检测和单元格分割。这些工作很好地探索了用于细胞空间位置检测的深度视觉方法，而忽略了细胞逻辑位置。2.2. 表到标记序列从自然语言处理的角度，其他研究人员尝试将表格图像转换为标记序列（例如，LaTeX或HTML）[10，2]。他们通常应用图像到序列模型，该模型包括提取特征的编码器和产生标签序列的解码器。理想情况下，可以通过解析标记序列来识别表的结构。然而，标记序列包含了用于不同样式的多样化命令，这使得表结构可以被转录成不同的标记序列。这种一对多映射给地面实况带来了大量噪声，并阻碍了模型训练。即便如此，他们还是通过从公开的arXiv文章中收集数据，贡献了几个大型数据集。2.3. 邻接关系检测由于单元格检测和分割方法没有考虑单元格的逻辑位置，一些研究开始使用图结构来探索不同表单元格之间的关系。通常，这些方法可以分为边缘分类[1，22，11，30]和节点分类[15]。边缘分类方法识别两个不同的候选单元格是否属于同一单元格、行或列。节点分类方法试图预测类别（例如，例如，在特定域上的候选小区的“日期”或“价格”）。Xue等人 [30]结合了这两种方法。它们利用小区之间的邻居关系来推断小区的逻辑位置。然而，这些方法大多只探索单元的邻接关系。在查找表上的信息时，需要复杂的图优化算法来从成对单元邻接关系推断全局3. 问题公式化在本节中，我们介绍了拟议的表图表示的制定。表格图是图像中表格的结构化表示，其可以被定义为G=（V，A），其中V中的每个节点指示表格单元并且A是邻接矩阵。通常，A中的每个元素代表两个不同节点的关系。然而，对于表，单元之间的逻辑关系可以由它们的逻辑索引来表示。因此，对于每个小区或节点vi，我们将bi和li表示为其两个属性，这两个属性分别指示其空间和逻辑位置bi=（bx，by，bw，bh），（1）标记序列数据库邻接矩阵图3.从表格图到其他数据格式的数据转换为简单起见，显示了三个表格单元格邻接矩阵指示两个单元格是否属于同一列。其中（bx，by）、bw和bh分别表示Vi的边界框的中心点、宽度和高度，并且逻辑位置Li由其四个逻辑索引组成，即，开始行、结束行、开始列和结束列。因为表格单元格在二维空间中排列，所以邻接矩阵A可以基于两个不同节点之间的欧氏距离来表示。这样，我们可以利用流行的图卷积网络学习图的表示，并通过节点分类的方式预测细胞的逻辑位置。对于给定的表格图像，表格结构识别的目的与大多数现有方法不同的是，表图可以被看作是表结构的元数据。结合其他技术，表格图可以在不同的场景中被转换成如图3、利用逻辑位置直接建立邻接矩阵来表示两个单元之间的邻居关系或同行同列关系。在光学字符识别（OCR）引擎之后，表格图形可以被转录成XML文件甚至数据库格式。相反，尽管单元格或标记序列之间的成对关系在一些场景中可能是合适的，但它通常不能泛化，因为需要复杂的算法来推断表上的全局结构4. 方法在这一节中，我们首先描述了用于表结构识别的TGRNet的主要框架。然后，我们介绍TGRNet的两个主要组件：细胞spa-li=（行开始，行结束，列开始，列结束），（2）我我我初始位置检测和小区逻辑位置预测。1298∈∈×∈∈∈E∈R××∈∈UC图4.提出的表格图重构网络或TGRNet的主要框架为了实现从表格图像重构表格图的目的，我们设计了一个表格图重构网络（TGRNet），其主要框架如图1所示。4.第一章具体地，我们首先采用骨干网络，ResNet-50 [6]与FPN [12]，以从输入表图像中提取多尺度特征表示。然后，我们通过两个单独的头部分支以多任务方式联合执行单元空间位置检测和逻辑位置预测。对于细胞的空间定位，我们首先利用广泛使用的基于分割的方法来生成细胞分割图，然后通过计算连接组件的包围盒检测细胞。对于细胞逻辑位置，我们应用图卷积网络（GCN）[9]来学习表图表示，并将其作为有序节点分类问题来解决。此外，我们将典型的有序回归损失与病灶损失[13]结合作为目标函数，以解决细胞逻辑位置预测中的不平衡问题。我们分别在第4.1节和第4.24.1. 小区空间位置检测最近，基于分割的方法由于其沿表格行和列的统计显著性而在表格单元格检测中流行[25，27，28]。因此，我们使用单元空间位置分支的基于分割的模块来检测表格单元的边界框，如下所示。令IR3× H × W表示输入表格图像，其中H和W分别表示输入图像的高度和宽度。我们使用来自ResNet-50的四个特征图f1，f2，f3和f4，步幅s=4，8，16，32来构建特征金字塔[12]：finter=U×4（C（f1，U×2（f2），U×4（f3），U×8（f4），（3）其中µ in×µ（）是上采样比例，（）表示通道级级联操作，所有特征图f1、f2、f3和f4都通过平滑层转换为256个通道。然后，我们将inter1024× H × W的多尺度特征表示作为细胞空间位置分支的输入。为了降低计算复杂度，小区空间定位分支首先将输入信道从1024个减少到1024个到 256使用11卷积层，即，f分段R256×H ×W。考虑到表格数据是按行和列排列的，我们进一步引入了分裂聚合模块来利用行和列表示的统计信息。具体地，行和列方式的特征，f行R256× H和fcolR256× W，分别由1W和H1平均池化层得到。然后扩展行和列方式特征表示frow和fcol以与像素方式特征连接，即，f_full=C（f_row，f_col，f_seg），（4），其然后用于获得分割图RK×H ×W，其中K表示类的数量（即，“background”, 在训练阶段，除了yful 之外，我们还使用frow和fcol来预测按r w和按列的分割图yrowRK×H和ycolRK×W，可看作是一种统计正则化。在测试阶段，通过计算分割图上每个连通分量的最小矩形边界框，仅使用yful来获取细胞空间位置。4.2. 信元逻辑位置预测我们从检测到的单元包围框中选择候选表格单元来初始化表格图G。的曲线图分割图池化带FPN的平滑层扩大拆分-聚合模块空间位置：有序节点分类器罗亚利尼GCN逻辑位置：输入表格图像上采样平滑层池化扩大分类器1299我我∈×我=exp{−ij2（ ·α）}，Σ′−联系我们我一排=exp{−（ij·α）2}，我我我不不∈不∈i、ji、j然后，卷积网络用于学习有效的图表示。考虑到逻辑索引的预测可以被看作是一个排序问题的分类，因此，我们制定的逻辑位置预测的问题作为一个有序节点分类问题。我们详细介绍表图G的构造如下。在训练期间，节点集合V由具有与大于0.5的基础真值表单元格重叠的交集-并集（IoU）的所有候选表单元格组成。第i个节点xi的特征包含0.150.120.090.060.030.000 4 812 16 20 24 28 32 36 40 44 48行索引两部分：1）空间特征x sR256 提取空间位置分支;以及2）根据第i个ta的边界框bi，通过RoIAlign运算[5]从平滑的多尺度特征表示f logR256×H×W获得的具有2 × 2输出大小的x v R 1024。图5. 中行索引的概率分布TableGraph-350 K数据集。可以定义为：ble cell.然后我们有节点特征xi=C（x v，x s）。我我′1′NL（X，Θ）= −ΣΨ（x，Θ），（8）第i个节点和第j个节点之间的无向边（ij）。ri−1i=1T−2为了进一步探索细胞的空间关系Ψ（x′，Θ）=Σlog（pt）+Σlog（1−pt），（9）行和列维度ai，j被定义为一对{arow，acol}，它是基于欧几里得我t=0我我t=ri两个节点之间的距离：.b y −b y其中，N是节点的数量，并且pt指示预r大于t的概率。i、jColi、jHbx−bxW（五）然而，小区逻辑位置的分布是通常是长尾巴的如图5、数量少其中，调整因子α应随不断增长的行数或列数，这会分配一个大的加权到相邻小区的边缘。在初始化表图之后，我们应用GCN进行消息传递，索引的值比大索引的值大得多启发[13，14]，我们解决了长期的问题。以类似的方式加尾小区逻辑位置，ri−1Ψ（x，Θ）=（1−pt）γtlog（pt）+X′=ReLU（GCN（X， A）），（6）′我我我t=0T−2（十）其中X和X指示输入和输出节点要素Σ（1−pt）γtlog（1−pt）），t=ri在我们的实现中，我们使用一对并行GCN来向上-为行和列索引γ=min（2，−（1−λ）2log（λ）+1），（11）预测，分别。利用表格图表示X’，我们然后使用有序分类器来预测单元逻辑位置，如下所示。考虑到li=（rowstart，row end，col start，col end）中的行和列的逻辑索引是其中λt是训练集上逻辑索引t的统计概率。第i个节点的预测逻辑索引是所有T1个二进制分类结果的总和，而不明确确保不同分类器之间的一致性[17]。我我我同样的问题，为了简单起见，我们在描述有序节点分类时不区分它们。设r为0，1，...不1表示第i个节点的逻辑索引标签，其中T是行（或列）的总数。我们首先将ri转换为二进制标签向量qi∈RT−1，如下所示：5. TableGraph-350K现有的表格识别数据集通常具有非常有限的表格数据或缺少单元格逻辑位置标签。因此，为了为表图重构任务构建一个大规模的基准测试，我们从概率密度一对于邻接矩阵A，每个元素ai，j指示邻接矩阵A的N矩阵，分别。由于GCN架构不支持边的多维表示，1300qt=.1，if（tri），（七）TABLE 2LATEX-450 K数据集[2]并提供表格图i0，否则。以这种方式，逻辑索引预测被转换为T-1二元分类子问题。损失函数注释以生成超过350K表，称为TableGraph-350 K。对于评估，我们使用原始数据集提供的相同的train/val/test分割。最后，新数据集包含358，767个1301ΣWAF=i= l，（13）表，包括用于训练的343，988个表、用于验证的7，420个表和用于测试的7，359个表。行和列的最大索引分别为48和27。6. 实验在本节中，我们首先介绍数据集、评估指标和基线方法。然后，我们提出了TGRNet表结构识别的整体性能。到骰子（即，开始行、结束行、开始列和结束列），它们分别被表示为ArowSt、ArowEd、AcolSt和AcolEd。我们还评估了总体准确度A，所有四个逻辑索引都为每个检测到的表单元格正确预测。对于使用F-Score，β被设置为0.5以鼓励实践中更多的候选细胞框（1+ 0。52）·H·A所有证明了所提出的方法的鲁棒性和fur-Fβ=0。5=0的情况。52·H+A所有.（十二）在分析基于邻接关系的评价方法局限性的基础上，分别对不完整表格图和挑战性历史文档进行了实验。最后，我们进行消融研究，以证明TGRNet中的主要组件的有效性。6.1. 数据集• 表格图表-24 K.考虑到训练各种模型的计算复杂度，我们还在第6.6节中，我们还报告了使用基于单元邻接关系的度量的实验结果，即加权平均F分数（WAF）1[3]。对于每个表格单元格，邻接关系是与其在四个方向上的最近邻居生成的，例如，“上”、“下”、“左”和“右”。WAF针对不同IoU阈值下的小区邻接关系计算β=1Σ4IoU i·Fβ=1@IoU i为学术界随机选择一个TableGraph-350 K的子集，称为TableGraph-24 K。具体来说，该子集包含20，000个用于定型的表、2，000个用于验证的表和2，000个用于测试的表。的最大指数4i=1其中IoU ={0. 6，0。七比零。八比零。9}。6.3.基线方法IoUi行和列分别为37和21• CMDD[31].这是一个医学实验室报告数据集，包括476个表格（372个用于培训，104个用于测试）。行和列的最大索引分别为24和5。不存在跨行单元格，并且不为没有文本的空单元格添加注释。• ICDAR 13-表[4]。此数据集由156个表组成，这些表具有跨单元格和其他各种样式。没有文字的空白储存格不会加上注解。行和列的最大索引分别为57和12。由于原始数据集没有指定训练集和测试集，因此我们使用半表进行训练，并按照[30]中的设置使用其他表进行测试• ICDAR19-cTDaR（TrackB1）[3]。该数据集包含750页历史档案文件，从中提取881个表（679个用于训练，202个用于测试）。行和列的最大索引分别为87和43。此数据集中最大的表包括2，000多个单元格。6.2. 评估指标对于细胞空间位置检测，我们使用与最近方法相同的评估度量[25，27，29，28，20]。通过使用精度（P）、召回（R）和Hmean（H），其中IoU阈值为0.5，来评估预测的单元盒。对于单元逻辑位置预测，我们遵循[30]中的方法来计算四个逻辑输入的准确度对于单元逻辑位置预测，我们将所提出的方法与ReS2TIM [30]进行比较。据我们所知，在以前的方法中，ReS2TIM是唯一一个旨在预测单元逻辑位置并报告评估结果的方法。与TGRNet不同，ReS2TIM不包含细胞空间定位模块。对于细胞空间位置检测，最近出现了许多方法，如2.1节中所介绍的。然而，由于缺乏标准的基准，他们中的大多数是在不同的实验设置下进行评估的。例如，DeepDeSRT [25]模型在ICDAR 13-Table的随机子集上进行了评估。Tensmeyer等人。 [29]在私有数据集上训练SPLERGE模型，并通过随机选择一个子集在ICDAR 13-Table上对其进行在文献[28，27]中，在ICDAR 13-Table上使用表格单元格框而不是原始文本级边界框注释对方法进行了评估。请注意，单元格框大于该单元格内文本的边界框。因此，我们没有给出这些方法用于细胞空间位置检测的可比较实验，因为很难进行公平的比较。6.4. 整体性能作为端到端解决方案，我们在本小节中介绍了TGRNet的整体采用ICDAR 13-Table和TableGraph-24 K进行评价。方程中的调整因子α（5）被设置为3。每个输入图像1我们将加权平均F分数简称为WAF，而不是WAvg. [3]中的F1。1302×××表1.TGRNet用于端到端表图重构的整体性能数据集细胞空间定位单元逻辑位置Fβ =0。5PRH争吵争吵阿科斯特AcolEdA所有ICDAR 13-表格0.6820.6520.6670.4450.4450.7000.6920.2750.519TableGraph-24K0.9160.8950.9060.9170.9160.9190.9230.8320.890表2.实验结果用度量A全部进行鲁棒性分析。方法CMDDICDAR 13-表格100%细胞90%的细胞80%细胞100%细胞90%的细胞80%细胞ReS2TIM [30]0.9990.9410.7050.1740.1370.124TGRNet0.9950.9550.8570.3340.3140.314调整为480480像素。因为细胞逻辑-cal位置分支需要从单元空间位置分支中提取单元边界框来提取相应的特征，我们采用预训练策略来加速训练过程。具体来说，在TableGraph-24 K上训练整个模型之前，我们对TGRNet进行了50个epoch的预训练，同时冻结单元格逻辑位置分支。在ICDAR 13-Table上训练时，模型将使用TableGraph-24 K上训练的参数进行初始化。实验结果示于表1中。当F β =0时，该模型分别达到0.519和0.890。ICDAR 13-Table和TableGraph-24 K上分别为5尽管该模型已经在TableGraph-24 K上进行了预训练，但对于 ICDAR 13-Table ， TGRNet 的性能不如TableGraph-24 K。可能的原因是ICDAR 13-Table的数据不足（只有78张表用于训练，其余78张表用于测试）以及ICDAR 13-Table和TableGraph-24 K之间的分布差异。6.5. 鲁棒性分析基于图的方法涉及相邻节点之间的消息传递。如果一些关键节点缺失，则图上的推断将受到影响。对于端到端的表图重建，该模型首先从输入图像中检测单元格框，然后将它们视为节点来预测它们的逻辑位置。然而，实现完美的细胞检测结果并不容易。为了评估TGRNet在不完全表图上的鲁棒性，我们通过从表图中随机删除一些节点来进行实验。使用CMDD和ICDAR 13-表进行评价。这两个数据集都不包含空单元格的注释，这意味着基础事实可能是不完整的表图。CMDD中的表有两种布局，TGRNet可以在该数据集上实现0.991Hmean和0.992A的端到端表图重建。由于ReS2TIM [30]不包含细胞空间位置模块，因此为了公平比较，我们使用细胞空间位置的基础事实。如表2所示，Domly删除实验结果表明，该模型在不完全表图上能保持相对稳定的性能，并优于ReS2TIM。6.6. 逻辑位置与邻接关系如2.3节中所介绍的，一些现有方法将表的结构建模为不同单元格之间的邻接矩阵。我们通过对ICDAR19-cTDaR（TrackB 1）进行实验来论证这种代表的局限性。该数据集中的表格来自存档历史文档，由于拍摄角度以及笔划和表格线之间的重叠引起的变形，这些表格比其他数据集中的表格更具挑战性此外，有些表比其他数据集中的表大图像高度和宽度的平均值分别为3，298和3，149表格中的最大单元格数为2，267。因此，在将表格图像输入模型之前，将其调整为小比例时，将难以区分单元格。由于这些挑战，我们做了一些与之前实验不同的设置：• 考虑到有限的GPU内存，TGRNet被分别训练用于单元空间和逻辑位置预测。同时，输入表格图像的大小被调整为800×800像素。• 在细胞空间位置检测期间，TGRNet在分割图上应用具有3 - 3内核的形态学开运算来分离被挤压的细胞。• 当初始化用于单元逻辑位置预测的表格图时，仅保留具有较高权重的8N个边。调整因子α被设置为10。• 对于ReS2TIM，通过对每个目标单元周围的单元进行采样，将正邻居关系和负邻居关系的比例保持为1：4我们在表 3 中呈现实验结果。 TGRNet 实现了0.828Hmean用于单元空间位置检测和0.267A全部用于单元逻辑位置预测。因为ReS2TIM不包含细胞检测模块，所以它将来自TGRNet的检测到的细胞作为输入，并且结果为0.1381303表3.ICDAR 19-cTDaR（TrackB 1）上细胞逻辑位置和邻接关系的可比结果方法细胞空间定位单元逻辑位置晶片PRH争吵争吵阿科斯特AcolEdA所有ReS2TIM [30]---0.2300.2230.5620.4920.1380.481TGRNet0.8600.7980.8280.5510.5460.5420.5340.2670.283表4.用于逻辑位置预测的消融研究Exp.GCN订单注册焦争吵争吵阿科斯特AcolEdA所有HFβ =0。510.8840.8840.7790.7750.6970.8990.8502✓0.8860.8890.8920.8880.7880.9010.8763✓✓0.9030.9090.9190.9220.8240.8980.8824✓✓✓0.9170.9160.9190.9230.8320.9060.890Aall，低于TGRNet的结果。然后我们基于小区邻接关系度量来比较这两种方法，WAF。得益于精心设计的基于对关系的损失，ReS2TIM实现了良好的结果来预测小区邻接关系。然而，它不能预测小区的逻辑位置。这揭示了在理解全局表结构时单元格邻接关系的局限性。具体地，通常需要复杂的图优化算法来推断所述图。Exp. 1实验21.00.80.6根据成对关系确定小区逻辑位置。而单元邻接关系可以直接从单元逻辑索引中得到此外，TGRNet对Aall和WAF的接近结果表明，在不同的评估指标下，表结构识别的可靠性。6.7.消融研究在本小节中，我们将TGRNet中主要组件的贡献分离出来，并在TableGraph-24 K上进行消融研究。对于表4中所示的所有实验，Exp. 30 246 8 101214161820列索引Exp. 40 246 8 101214161820列索引0.40.20.0骨干网和小区空间位置分支不变。逻辑位置分支的基线由具有交叉熵损失的线性层组成，交叉熵损失被表示为Exp。1.一、然后，我们在Exp中逐步将GCN、顺序2-4.根据实验结果，用于细胞空间位置检测的Hmean在0.900左右。GCN和有序回归损失带来了显着的改善，这导致A都从0.697到0.788和0.824，分别。在图6中，我们可视化热图上的每个逻辑位置的准确度。从四个热图中，我们可以发现基线模型非常适合小的逻辑指数和边界指数。当GCN和有序回归损失加入模型中时，大型逻辑索引的准确性显着增加焦点损失进一步改善了性能。7. 结论本文将表格结构识别问题归结为表格图重构问题，要求模型对单元格的空间位置进行联合图6.中每个逻辑位置的准确性可视化消融研究。用白色遮蔽的位置表示没有单元格在那里开始或结束以及小区逻辑位置。TGRNet被提出来解决这样的问题，其使用基于分割的模块来检测细胞空间位置，并将细胞逻辑位置预测作为有序节点分类问题来解决。在四个数据集上的实验证明了TGRNet的有效性和鲁棒性。此外，我们贡献了一个新的基准测试从TABLE2LATEX-450 K数据集与350 K表格图注释。致谢本研究得到了国家自然科学基金 U2034211 、62006017、中央高校基础研究基金2020JBZD010和北京市自然科学基金L191016的资助。于宝生博士得到ARC项目FL-170100117的支持。行索引行索引36 32 28 24 20 16 12 84036 32 28 24 20 16 1284 01304引用[1] Zewen Chi，Heyan Huang，Heng-Da Xu，Houjin Yu，Wanx-uan Yin，and Xian-Ling Mao.复杂表结构识别。arXiv预打印arXiv：1908.04729，2019.[2] Yuntian Deng，David Rosenberg，and Gideon Mann.端到端神经科学表格识别的挑战。在2019年文件分析和识别国际会议（ICDAR）的会议记录中，第894-901页[3] LiangcaiGao ， YilunHuang ， Her v'e'D 'e' jean ， Jean-LucMeu-nier，Qinqin Yan，Yu Fang，Florian Kleber，and Eva Lang. ICDAR 2019 桌面检测与识别竞赛（ CTDAR ）。在2019 年文件分析和识别国际会议（ICDAR）的会议记录中，第1510- 1515页[4] MaxGobel ， TamirHassan ， ErmelindaOro ， andGio rgioOrs i. Icdar 2013年桌上比赛。在Proceedings of 2013InternationalConferenceonDocumentAnalysisandRecognition（ICDAR），第1449-1453页[5] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第2961-2969页[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集中，第770-778页，2016年[7] Jonathan Herzig 、 Pawel Krzysztof Nowak 、 ThomasMueller 、 Francesco Piccinno 和 Julian Eisenschlos 。Tapas：通过预训练进行弱监督表解析。在计算语言学协会（ACL）第58届年会的会议记录中，第4320-4333页[8] Saqib Ali Khan 、 Syed Muhammad Daniyal Khalid 、Muhammad Ali Shahzad和Faisal Shafait。用双向选通递归单元网络提取表结构。在2019年文件分析和识别国际会议（ICDAR）的会议记录中，第1366[9] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。第五届学习表征国际会议，2017年。[10] Minghao Li ， Lei Cui ， Shaohan Huang ， Furu Wei ，Ming Zhou，and Zhoujun Li. Tablebank：用于基于图像的表格检测和识别的表格基准。arXiv预打印arXiv：1903.01949，2019年。[11] Yiren Li ，Zheng Huang， Junchi Yan ， Yi Zhou ，FanYe，and Xianhui Liu. Gfte：基于图形的财务表提取。arXiv预打印arXiv：2003.07560，2020。[12] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在 IEEE/CVF 计算机视觉和模式识别会议（CVPR）论文集，第2117-2125页[13] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议（CVPR）的序言中，第2980-2988页，2017年[14] Xin Lin，Changxing Ding，Jinquan Zeng，and DachengTao. GPS-net：用于场景图生成的图形属性传感网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR）集，第3746-3753页[15] Devashish Lohani、Abdel Belaïd和Yolande Belaïd。一种使用图形卷积网络的发票读取系统在亚洲计算机视觉会议（ACCV）的会议记录中，第144-158页[16] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议论文集，第3431-3440页，2015年[17] Zhenxing Niu，Mo Zhou，Le Wang，Xinbo Gao，andGang Hua.年龄估计的多输出cnn序回归。在IEEE/CVF计算机视觉和模式识别会议（CVPR）中，第4920-4928页[18] Ermelinda Oro和Massimo Ruffolo Trex：一种从PDF文档中识别和提取表格在2009年国际文档分析和识别会议（ICDAR）的会议记录中，第906-910页[19] Inkit Padhi、Yair Schiff、Igor Melnyk、Mattia Rigotti、Youssef Mroueh、Pierre Dognin、Jerret Ross、Ravi Nair和Erik Altman。多变量时间序列建模的表格变换器arXiv预打印arXiv：2011.01843，2020。[20] Shubham Singh Paliwal、D Vishwanath、Rohit Rahul、Monika Sharma和Lovekesh Vig。Tablenet：用于从扫描文档图像中进行端到端表格检测和表格数据提取的深度学习模型在2019年文件分析和识别国际会议（ICDAR）的会议记录中，第128-133页[21] Devashish Prasad 、 Ayan Gadpal 、 Kshitij Kapadni 、Manish Visave和Kavita Sultanpure。Cascadetabnet：一种从基于图像的文档中进行端到端表格检测和结构识别的方法。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第572-573页[22] Shah Rukh Qasim Hassan Mahmood和Faisal Shafait。使用图神经网络重新思考表格识别在2019年文件分析和识别国际会议（ICDAR）的会议记录中，第142-147页[23] RoyaRastan，Hye-YoungPaik，andJohnShepherd.Texus：一种基于任务的表格提取和理解方法。2015年ACM文档工程研讨会论文集，第25-34页，2015年[24] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：利用区域建议网络进行实时目标检测。在Proceedings oftheAdvancesinNeuralInformationProcessing

下载后可阅读完整内容，剩余1页未读，立即下载