野外图像表结构解析方法及其在实际应用中的效果评估

27 浏览量更新于2023-10-13 收藏 3.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1在野外龙汝娇*3、王文*1、2、薛楠1、高飞宇3、杨智博3、王永攀3、夏桂松†1、21武汉大学计算机科学学院，中国武汉2LIESMARS，武汉大学，武汉，中国3阿里巴巴集团，杭州，中国https://github.com/wangwen-whu/WTW-Dataset摘要本文研究了野外图像的表结构解析问题。现有的研究主要集中在解析排列良好的表格图像与简单的布局，从扫描的PDF文档，我们的目标是建立一个实用的表格结构解析系统，TEM为现实世界的情况下，表格输入图像采取或扫描严重变形，弯曲或闭塞。为了设计这样一个系统，我们提出了一个名为周期CenterNet的CenterNet顶部的一个新的周期配对模块，同时检测和组成结构化表的表格单元格的方法。在循环配对模块中，提出了一种新的配对损失函数用于网络训练.除了我们的Cycle-CenterNet之外，我们还提供了一个名为Wired Table inthe Wild（WTW）的大规模数据集，其中包括在照片，扫描文件，网页等几个场景中对多个样式表进行的注释良好的结构解析。.在实验中，我们demonstrate，我们的Cycle-CenterNet始终达到最佳的准确性表结构解析的新WTW数据集的24.6%的绝对改善TEDS度量评估。一个更全面的实验分析也验证了我们提出的TSP任务的方法的优势。1. 介绍在日常生活中，表格通常用于记录和总结重要数据，以便快速和更好地可视化信息。随着智能手机和便携式相机的日益普及，利用表格的照片来共享信息是非常普遍的因此，非常需要从野外的照片或图像中自动提取和解析表结构。*同等贡献。†通讯作者。文档中的TSP图像中的TSP图1.直观比较了文档图像和野外拍摄我们利用[19]中提出的用于文档图像的最先进方法和我们提出的用于两个输入图像的Cycle-CenterNet来获得解析结果。给定一幅图像，表结构解析（TSP）的目的是提取图像中的所有表，定位它们的单元格，并获得图像中的行列信息。以前，这个问题被研究为表结构识别集中在文档图像。在这种情况下，禁忌图像是在良好成像条件下拍摄的，并且通常与干净的背景和清晰的台结构水平（或垂直）对准。早期的开创性作品e.G. [7，8，20，6]，通过基于低级线索（例如，线、边界和字区域）。最近，提出了基于深度学习的方法来避免启发式分组方案设计，并诉诸于去944输入标签分割我们的结945开发端到端模型。然而，受用于表结构解析的训练数据集[9，17，2，24，5]的限制，他们仍然在表格图像的良好对齐假设下解决了这个问题。对于从野外手持摄像机拍摄的图像中解析表结构的更实际的要求，现有的现有技术方法[13，14，11，16，17，18，19， 9，23]容易失败，因为表格图像的常用假设不再成立。具体地，广泛使用的数据集中的表格图像（例如ICDAR- 2013 [5]，Tablebank [9]）通常具有干净的背景和清晰的表结构。受此限制，现有的TSP方法只能通过将检测到的小区分组到表中来处理相对简单场景中的表结构解析[11，16，9，23]。此外，对于文本识别中的单元边界的精度问题，为了解决TSP问题在野外，我们提出了一个大规模的数据集在本文中解决数据缺乏的问题。在采集真实场景的表格图像时，我们发现有线表格和无线表格有很大的差异。自然图像中的无线表格由于缺乏感知分组的参考而很难被人类注释者识别。因此，我们主要集中在具有挑战性的有线表注释。我们提出的数据集，野生的有线表格（WTW），包含14，581张图像，其中包含表格ID，表格单元格和相应的行/列信息的注释信息。遵循ICDAR 2019 [3]中使用的数据分割策略，我们将WTW分割为训练/测试子集，分别具有10，970和3611个数据样本。如图1，WTW数据集中的图像与文档图像非常不同，这因此给表结构解析任务提出了新的问题。例如，在自然图像中呈现的非刚性图像变形和复杂的图像背景将挑战用于文档图像的现有方法[14]对表格单元格的检测和分组。随着我们提出的WTW数据集可用，我们解决了表结构解析的问题，在野外提出了一个简单而有效的方法Cycle-CenterNet。该算法同时检测出单元格的顶点和中心点，并通过学习单元格的公共顶点，将单元格组成表格。具体来说，我们发现，中心点和顶点的一个单元格有一个相互导向的关系，船舶，可以用来分组的单元格成表，通过使用- ing的公共顶点，是位于相交的相邻单元格。在此基础上，我们提出了一种称为配对损失的损失函数，用于在训练阶段对细胞进行端到端分组。一旦获得表的结构，我们使用一个简单的后处理算法来检索解析的表的行和列信息在实验中-在 WTW 数据集上，我们评估了所提出的 Cycle-CenterNet与普通Cen-terNet的强基线相比，我们的方法大大提高了物理坐标精度的F1-得分，从73。1%至78。3%，而相邻关系估计的F1得分从84. 8%至92。百分之四在TEDS [24]的度量中，所提出的Cycle-CenterNet也通过以下方式获得了绝对改进：二十四点六分。我们的贡献总结如下：- 我们建立了一个大规模的数据集在野生复杂的场景，这提供了各种新的挑战，表结构解析与几个真实的图像失真。- 我们提出了一种方法Cycle-CenterNet利用的周期配对模块优化提出了一种新的配对损失，这使我们能够精确地将离散单元格分组到结构化的表。- 在实验中，我们的方法提高了性能的表结构解析的WTW数据集上的大幅度。它在ICDAR2019数据集上的表现也优于最先进的方法，并在ICDAR2013数据集上取得了有竞争力的结果。2. 相关工作2.1. 现有数据集有许多数据集，包括 UNLV [17] ， ICDAR-2013[5]，SciTSR [2]，PubTabNet [24]和Table- Bank [9]等，可用于表结构解析。在深度表结构解析方法出现之前，数据集UNLV [17]和ICDAR-2013 [5]被设计用于对表结构识别系统进行基准测试，其中表结构识别系统的数量有限（少于1，000个）。为了满足设计用于表结构解析的数据驱动学习方法的需求，提出了PubTabNet [24]和Table-Bank [9]的大规模数据集，但不完整的注释仍然阻碍了它们的发展。最近，FinTabNet[23]和Sc-iTSR [2]数据集添加了单元格坐标和行列信息，成为表结构解析任务中最完整和最大规模的数据集。尽管表格图像数据集的规模已经有了显著的改进，但是这些数据集特别关注从数字文档获得的文档图像（例如，PDF文档）。出于我们在野外解析表结构的目的，这些数据集不能用于训练具有预期泛化能力的基于学习的方法。最近，新的数据集IC-DAR 2019 [3]引入了从扫描的档案文档而不是数字文档解析表结构的更具挑战性的任务。然而，它只包含750个图像用于表结构解析，这将诱导946训练数据驱动的表结构解析模型也存在同样的问题。此外，ICDAR2019 [3]数据集仍然专注于文档图像。与现有的数据集相比，我们贡献了一个新的大规模表数据集WTW，它包含14，581个复杂的有线表，在多个真实场景，包括摄影，扫描和网页。与现有的数据集不同，我们提出的数据集中的图像通常包含严重的实际图像失真，包括弯曲，倾斜和遮挡等。2.2. 表格结构识别与解析表结构解析问题以前被作为表检测和表结构识别的两个子问题来研究。Kieninger等人[8]提出了第一个表格结构识别系统，该系统通过聚类以启发式方式从表格图像中检测文本块来估计表格结构。在这项工作之后，提出了基于规则的启发式方法[21，18]来从手工制作的视觉线索中识别或解析表结构。最近，基于深度学习的方法被提出来自动学习信息视觉特征[5，2，24，12]。然而，这些方法主要集中在条件良好的文档图像上，其中表[16，23，12，9，23，14]与图像轴良好对齐。由于该假设不适用于更具挑战性的表，一些研究试图摆脱良好对齐的假设，并使用图卷积网络对表结构解析问题进行建模[2，13，24]。然而，它们隐含地使用检测到的细胞之间的相邻关系来构建信息丰富的初始图，然后在训练期间修剪意外的边缘。与这些方法不同，我们提出的Cycle-CenterNet摆脱了使用上述假设，以满足更实际的需求表结构解析在野外。3. WTW数据集本节介绍了我们提出的数据集Wired Tables in theWild（WTW）的详细信息，该数据集在广泛的真实业务场景中总共有14581张图像，以及相应的表格完整注释（包括单元格坐标和行/列信息）。3.1. 图像采集和注释WTW数据集中的图像主要从包含至少一个表的自然图像中收集。由于我们的目的是在不考虑图像源的情况下解析表结构，因此我们另外添加了归档文档图像和打印文档图像。统计上，来自自然场景、档案和打印文档图像的图像部分为50%、30%和20%。在获得所有图像后，我们静态地发现7个挑战病例。如表中所总结。1、我们提出的WTW表1.我们的WTW数据集和现有数据集之间的统计摘要和我们提出的数据集涵盖了所有7种具有挑战性的情况：（1）倾斜表，（2）弯曲表，（3）遮挡表或模糊表（简称Occ。或模糊，（4）极端纵横比表（在Ex. AR）、（5）重叠表、（6）多色表和（7）不规则表。在最后一行中，我们报告了所有这些数据集的样本总数。挑战性的案件表库[9]第一章UNLV[17个]旱獭[第十一届]SciTSR[二]《中国日报》ICDAR-13[五]《中国日报》ICDAR-19[3]第一章WTW（我们的）倾斜-✓---✓✓弯曲------✓发生率或模糊-----✓✓EX. AR------✓覆盖------✓多色不规则✓✓---✓--✓--✓✓✓样本数量145,0004231,00015,00015675014,581数据集覆盖所有具有挑战性的情况，每个情况具有合理的比例。在我们的数据集中，我们为每个图像中呈现的所有表格注释它们的单元格坐标和行/列信息。对于具有多个表的图像，它们的实例信息也被注释。当注释单元格坐标时，我们遵循IC-DAR 2019 [3]的基准，使用内部表格行进行定位。为确保不泄露敏感信息（姓名、电话号码等）我们就把它们都删除了数据分割。为了保证训练数据和测试数据分布近似匹配，随机选取约75%的原始图像作为训练集，其余数据样本用于测试和评价。最后，我们的WTW数据集有10970个训练样本和3611个测试样本。3.2. 基线和基准评估由于我们的数据集包含大量具有变形的表（例如，倾斜的、弯曲的和不规则的表），表的常用矩形表示不能很好地推广到我们的数据集中的那些具有挑战性的情况。因此，直接利用为我们的数据集中的文档设计的最先进的数据驱动方法将是有问题的。因此，我们提出了一个更合适的方式来建立基线的方法，并提供了一个全面的评估协议，以基准的新方法在WTW数据集。基线配置。我们没有将自然图像中的表格结构建模为大矩形，而是首先将表格单元表示为小对象，因为小对象对严重的图像变形更鲁棒。基于此，我们将表结构解析的问题公式化为两个步骤：（1）使用现有技术的对象检测器进行单元检测，以及然后（2）通过启发式地计算空间接近度来将检测到的单元分组到表中。947细胞之间的相似性。在获得表结构之后，将后处理步骤应用于行/列信息*。为了使基线配置更加方便，我们使用四个广泛使用的对象检测器Faster-RCNN [15]，TridenNet [10] ， Cascade-RCNN [1] 和无锚检测器CenterNet [25]作为我们基线中的细胞检测器。表结构分析的评估协议。一个合理的评价方案是重要的定量比较不同的方法。我们从（1）物理结构的正确性和（2）逻辑结构的正确性两个方面来评估给定的表结构解析器，描述如下：- 物理结构估计的精确度、召回率和F分数。我们通过计算精确度，召回率和F1分数来评估细胞检测的准确性与一般的目标检测不同，表格结构分析对表格单元格的精度要求较高，但容忍度较低。因此，检测到的IOU为-低0的小区。9个被认为是假阳性检测。- 精确度，召回率，F分数和TEDS [24]用于相邻关系估计。对于逻辑结构正确性，我们遵循文档图像中使用的评估协议，通过计算单元格邻接[4]和树编辑距离相似性（TEDS）[24]的精确度、召回率和F分数。基线模型的结果。我们在基线中训练单元检测器t，然后用上述后处理方案解析表结构。选项卡. 图2显示了所有基线模型对我们的WTW数据集的测试分割的评估结果。与基于锚点的方法Faster-RCNN、TridenNet和Cascade-RCNN相比随着更准确的细胞检测结果，它也实现了最佳性能的逻辑结构的正确性。为了进一步分析表结构解析在野外的挑战，我们在图1中可视化从具有不同对象检测器的基线模型的不同场景拍摄的两个示例图像的解析结果二、如图所示*启发式分组方案和后处理模块的更多细节和伪代码在补充材料中描述。†培训详情见补充材料。Faster-RCNN TridenNet Cascade-RCNN CenterNet图2. WTW数据集上基线模型的表结构解析结果的可视化模型物理结构邻接关系Teds预处理Rec.F1预处理Rec.F1Faster-RCNN72.161.566.487.161.371.949.5TridenNet64.565.565.085.471.577.847.8Cascade-RCNN77.465.370.989.164.574.953.2CenterNet74.272.173.190.879.784.858.7表2. WTW数据集上的基线模型。物理结构是测量IOU=0.9时单元坐标的精度，邻接关系，TEDS测量行/列结构信息，其中邻接关系基于IOU=0.6如图1所示，当表格与图像域近似对准时，对于基于锚点的方法和无锚点的方法都可以很好地检测单元。相比之下，当利用图像中具有非刚性变形的那些方法时，基于锚的方法将产生不正确的结果。无锚检测器，中心网，比其他的表现更好，同时仍然保留更好的表解析精度的空间。对于更具挑战性的图像，开发一种鲁棒的表结构解析方法将是非常有意义的。4. Cycle-CenterNet在CenterNet的基础上，我们提出的网络添加了一个循环配对模块和配对损失，以在CenterNet的基础上学习相邻细胞之间的公共顶点[25]。通过公共顶点，我们可以将所有单元格拼接在一起，得到一个完整的表结构。最后，使用相同的解析处理来获取行/列信息。我们的Cycle-CenterNet的说明性演示3 .第三章。4.1. 循环配对模块为了识别表格结构，我们提出了一个循环配对模块来定位单元格和学习拼接。948V1V2V3V4P1∈--联系我们ikV∈图3. Cycle-CenterNet的管道。以图像作为输入，我们的模型产生一个2通道关键点热图和一个2通道偏移图。循环配对模块输出两个8通道热图，它们学习中心点和顶点之间的相互定向关系。根据该关系，对单元格进行分组，最后通过解析处理恢复行和列信息的数量。细胞p1中心点V1V3中心到顶点（一）顶点P4顶点到中心（b）第（1）款其四个顶点V={xV，yV}，表示为∆xCik=xCi−xVik，i= 1：NC，k= 1：4，（1）yCik=yCi−yVik其中NC是表格单元格的所有中心点的数量。顶点到中心分支用于单元格分组。将来自主干DLA-34的特征图F作为输入，使用Vertex-DLA-34。HW图4.通过循环配对模块学习到的相互指向关系来说明细胞分组的过程。单元之间的信息交换，由两个分支组成，包括中心到顶点分支和顶点到中心分支。如图3、在中心到顶点到中心的分支预测一个V C映射R 4 × 4 ×8。如图所示在图4（b）中，VC映射对坐标偏移进行编码，在公共顶点V=xV，yV和周围表格单元格的四个中心点P=xC，yC之间的Δx，Δy，表示为分支，我们回归从表格单元格的中心到其顶点的偏移，并遵循Center-.∆xVik=xVi -xC|i = 1 : N , k = 1 : 4,(2)net [25]中，可以获得表格单元格的多边形表示;在顶点到中心分支中，学习公共顶点与其周围单元格中心之间的偏移量最后，在解析处理中推导出表的拼接信息。用于细胞定位的中心到顶点分支。将来自DLA-34 [22]主干的特征图F作为输入，∆yVik=yVi−yCik其中，Nv表示所有公共顶点的数量。如果共享该顶点K的单元的数量小于4，则将剩余位置的回归值设置为0。4.2. 循环配对模块我们设计了一个配对损失来监督网络学习更好的中心偏移，而不是直接在循环配对模块的输出映射上应用损失函数。HW中心到顶点分支预测CV映射R4×4 ×8。如图在图4（a）中，CV图指示中心点P={xC，yC}到顶点和顶点到中心的分支通过成对计算属于期望表中相同单元的表示V2P1V4P1P2V1P3.949PΣPP×××..DDDD≥（a）Dcv = 0 （b）Dcv∈（0，1）（c）Dcv = 1（d）Dcv>1图5. 训练期间中心-顶点对的传统情况的图示对于一对中心c和v的预测偏移，cv=（∆xcv，∆ycv，∆xvc，∆yvc），我们通过下式计算损失函数Lp：Lp=ω（Pcv）（λcv Lcv+λvc Lvc），（3）c，v其中L cv和L vc是预测偏移量与相应的地面实况之间的1损失，λ cv= 1。0且λ vc= 0。ω（cv）是调整这些损失项之间的重要性的超参数，ω（cv）根据回归质量动态地加权动态加权函数ω（cv）。循环配对模块表示顶点和中心点之间的成对指向关系。实际上，只要从一个中心-顶点对中预测中心和顶点，就不必如此精确地回归单元包围盒和公共顶点组所以我们用ω（P_cv）到中心-顶点对的重量损失I_cv和I_vc：ω（Pcv）= 1 −exp（−πDcv），（4）其中Dcv是定义为首先，将每个单元格分成4个边界边缘，然后根据单元格的连接性将上边缘和下边缘合并为水平线，将左边缘和右边缘合并为垂直线接下来，对水平线和垂直线进行排序，并从0开始索引它们。最后，按行索引对单元格进行排序，并输出行/列信息。伪代码在补充材料中给出。4.4.培训详情在Cycle-Centernet的训练过程中，我们使用COCO上的预训练权重，并将训练图像的最大边调整为1024，同时将短边等比例缩放。初始学习率设置为1。2510−3，衰变为1。25 10- 4和1。25 10−5分别在第90和120历元。该模型是用总共150个epochs训练的。所有的实验都在具有8个NVIDIA GTX 1080Ti GPU的工作站上进行。在训练过程中，我们将批处理大小设置为每GPU并行325. 实验我们在建议的WTW数据集上进行了大量的实验，以验证Cycle-CenterNet的有效性。虽然我们主要关注有线表在野外场景中，我们还对广泛使用的ICDAR2013和ICDAR 2019基准进行了实验，以证明：1）WTW数据集覆盖了用于实际应用的广泛的表格图像，并且2）我们提出的Cycle-CenterNet能够识别无线表格。DCV=min（|xcvi−xcvi*|+xvci−x*vci 、1）（5）|xcvi∗|5.1. WTW评价要评估Cycle-Centernet在其中Xcv是从中心到顶点的回归值，而Xvc是顶点到中心。因此，cv定义了每个中心-顶点对的回归误差分数如图5所示，如果cv= 0，则意味着顶点和中心严格地指向彼此而没有任何误差。如果0

下载后可阅读完整内容，剩余1页未读，立即下载