没有合适的资源?快使用搜索试试~ 我知道了~
4533用于表格结构识别的神经协作图机刘昊<$*辛丽*兵刘德强姜银松刘波任腾讯优图实验室{ivanhliu,fujikoli,billbliu,dqiangjiang,jasonysliu,timren}@ tencent.com摘要近年来,在深度图模型的帮助下,表结构识别取得了令人瞩目的进展它们大多利用表格元素的单一视觉线索或通过早期融合将视觉线索与其他模态简单地结合起来来推理它们的图形关系。然而,无论是早期融合还是根据多模态进行单独推理,都不可能适用于具有很大差异性的所有表格结构。相反,期望不同的模态针对不同的表情况以不同的模式彼此协作在社区中,表格结构的内部-内部模态交互的带有表格元素的方 式 1 方式2方式3协作图…协作(c)我们的NCGM✓我们的NCGM的行关系结果真正的推理还未被探索。在本文中,我们定义它为异构表结构识别(Hetero-TSR)问题。为了填补这一空白,我们提出了一种新的神经协作图机(NCGM)配备了堆叠的协作块,交替提取内模态上下文和模型之间的模态交互在一个层次的方式。它能更好地表示表格元素的模态内-模态间关系,显著提高了识别性能。我们还表明,建议的NCGM可以调制不同的模态条件下的内部通道线索的上下文,这是非常重要的多样化表情况下的合作模式。实验结果表明,我们提出的NCGM达到了最先进的性能,并击败了其他当代方法的大幅度,特别是在具有挑战性的情况下。1. 介绍表结构识别(TSR)的目的是识别表的内部结构的机器可读的数据主要有两种格式:逻辑结构[18,46]和物理结构[2,13,20,22,27,30,31,34,35,40,45]。更具体地说,逻辑结构只关注两个表元素是否属于同一行,列或单元格(即,,逻辑关系),而物理关系包含*同等贡献。†联系人。图1.说明拟议国家性别平等机制的动机。(a) 早期融合方法。表元素的多个模态在建模它们的关系之前被融合。(b)后期融合方法。多个模态基于它们的模态内关系建模,然后融合用于最终结果预测。由于缺乏协作,对于扭曲的表的情况,先前的方法不能很好地提取锚元素(黄色)的行关系(c)我们提议的全国金矿开采委员会。不同的模态被构建到具有协作的图中,这很好地适应了扭曲表的情况。不仅是逻辑关系,而且是单元格框的物理坐标。公认的表格结构对于许多下游应用是必不可少的[12,17]。虽然许多以前的算法[2,13,18,20,22,30,31,34,35,40,45,46]在社区中取得了令人印象深刻的进展,TSR仍然是一个具有挑战性的任务,由于复杂的表的两个因素。内部因素是复杂的表结构,生成单元至少占据两列或两行,外部因素是捕获设备引起的表变形。直观地说,表格元素(文本段边界框或表格单元格)通常具有固有的关系和自然的图形结构。因此,最近的方法[2,30,34]试图通过将表元素的视觉线索构建为图并应用深度图模型(如图卷积网络(GCN)[15])来推理它们的关系来解决这个问题。为了引入更丰富的表信息,有几种方法[20,30,34],模式1关系图模态2融合×模态3(a)早期融合方法模式1带有表格元素的模态2融合模态3(b)基于后融合的方法行关系结果锚元素预测连接缺失连接4534将视觉特征与其他形态的特征(例如几何特征)链接,作为图模型的整体输入,如图1(a)所示。然而,不同模态的相对归纳偏差将是高度不一致的,这使得天真的早期融合模态无法处理所有差异巨大的表格结构此外,在推理特定的表结构时,模态内关系会相互影响。例如,在识别规则表格时,表格的坐标将占主导地位,但在处理变形表格情况时,它们将变得不可靠。相反,另一种替代方法是单独建模表格元素之间的模态内关系,并通过后期融合策略将它们组合起来(图1(b))。不幸的是,从通道内交互的角度进行的非纠缠推理会导致通道间交互的缩减。这一困境导致了以下问题:不同的模式是否可以相互合作,而不是在不同的桌面场景下相互干扰?我们将这一实际问题定义为异构表结构识别(Heterogeneous tablestructure recognition,Hetero-TSR),这一问题目前还缺乏研究。在这项工作中,我们提出了一种新的神经协作图机(NCGM)为这个问题量身定制,如图1(c)所示。具体地说,我们采用文本段边界框作为表元素,分别从外观、几何和内容维度提取它们的多模态特征嵌入。为了获得相应的图上下文并探索它们的交互,我们超越了标准的注意力模型,提出了一个具有两个连续模块的基本协作块,即, 自我语境提取器(ECE)和跨语境合成器(CCS).其中,ECE负责动态生成每种模态样本的图形上下文,而CCS负责融合和调制不同表例的模态间交互信息。我们将这个元素块堆叠多次。通过这种方式,模态内上下文生成和模态间协作可以以分层的方式交替进行,这使得模态内-模态间交互能够从低层到高层不断地生成。换句话说,多个模态中的低级上下文信息和高级上下文信息可以在整个网络中相互协作,这类似于人类的识别过程[1,26]。所产生的协作图嵌入使我们的方法能够实现更好的性能相比,其他TSR方法,特别是在更具挑战性的情况下,明确验证了广泛的实验结果。总而言之,我们的贡献有四个方面:• 我们研究了TSR中不同模态之间协作的重要性,并提出了Hetero-TSR问题。据我们所知,第一次研究了用于预测表格结构的模态交互之间的协作模式。• 本 文 提 出 了 一 种 新 的 针 对 Hetero-TSR 问 题 的NCGM,它由多个协作模块组成,以分层的方式交替进行通道内上下文提取• 公共基准测试的实验结果表明,我们的方法显着优于国家的艺术。• 我们发布了一个合成方法,以增加现有的基准更具挑战性的。在更具挑战性的情况下,我们的方法可以实现最多11%的改善比第二个最好的方法。2. 相关工作2.1. 表格结构识别在深度学习蓬勃发展之前,传统的表格结构识别方法依赖于预定义的规则和手工制作的特征[9随着深度学习的发展,表结构识别方法最近在性能上有了很大的进步,可以分为三类:基于边界提取的[13,22,27,35,40],基于生成模型的[18,46],和基于图的方法[2,20,30,34]基 于 边 界 提 取 的 方 法 。 为 了 提 取 细 胞 边 界 ,DeepDeSRT [35]和TableNet [27]通过利用语义分割提出。此外,另一种技术[13]利用双向GRU以上下文驱动的方式建立行和列边界。然而,这些方法在识别跨越多个行和列的单元格时是困难的SPLERGE [40]将表格分割成网格元素,其中相邻元素合并以恢复跨越单元,但它仍然存在边界模糊问题。为了解决这个问题,分层GTE [45]利用聚类算法进行细胞结构识别。Cycle-CenterNet [22]利用循环配对模块同时检测表格单元并将其分组为结构化表格,其重点是野外有线表格的单元边界精度。本着类似的精神,LGPMA [31]在局部和全局特征映射上应用软金字塔掩码学习机制。然而,随后的构造恢复管线在复杂情况下不能实现良好基于生成模型的方法。该方法[18]使用编码器-解码器框架,该框架生成表示行和列的排列以及表格单元格类型的HTML标记序列。此外,另一种生成算法[46],称为EDD,由编码器,结构解码器和单元解码器组成。4535EC.Σ∈∈∈∈图2.我们提出的方法的架构。最好用彩色观看。编码器捕获输入表格图像的视觉特征,而结构解码器重构表格结构并帮助单元格解码器识别单元格内容。基于图形的方法。GraphTSR [2]采用图注意块来学习潜在空间中的顶点和边表示,并将边分类为水平,垂直或不相关。该方法[30]引入DGCNN来预测由外观和几何特征表示的单词之间的关系。同样基于DGCNN,TabStruct-Net [34]提出了一种端到端的网络,以联合的方式训练细胞检测和结构识别网络。此外,FLAG-Net[20]利用了表元素的可模块化密集和稀疏上下文。然而,上述基于图的作品大多是针对表元素之间的交互而设计的,而缺乏不同模态的协作模式的线索。与这些工作相比,我们提出的NCGM利用模态交互来提高复杂场景的多模态表示。2.2. 基于变换器的多模态融合Transformer [42]架构不仅在NLP社区[5,16,21,32,39]中实现了显著的性能提升,而且还产生了几种预训练方法[19,23,44],融合了多模态任务的各种模态。多重嵌入融合。VL-BERT [38]继承自BERT [5],为视觉语言表示引入了额外的视觉特征LayoutLM [44]是一个文档理解预训练模型,它联合建模跨扫描文档图像的文本和布局信息之间的交互。然而,上述算法简单地将早期融合的多个嵌入作为输入,这可能忽略不同模态之间的相互作用,并导致离散化误差和重要细节丢失。共注意力融合。为了更好地利用视觉语言表示,ViLBERT [23]在通过共同注意Transformer层交互的单独流中处理视觉和文本输入。此外,SelfDoc [19]通过以下方式在内容块上建立上下文化:跨模态学习来操纵视觉特征和文本特征。然而,这些先前的基于共同注意力的方法只能处理两种模态。通过比较,我们提出的NCGM侧重于情态协同而不是简单的融合.此外,NCGM不仅可以处理两个以上独立模态之间的交互,还可以交替进行模态内上下文提取和模态间协作,从而利用不同模态提供的更多有用信息。3. 方法3.1. 整体架构所提出的神经协作图机(NCGM)的概述如图2所示。它主要由协作块组成,其中有两个连续的基于多头注意力的模块[42],即、自我上下文提取器(ECE)和跨上下文合成器(CCS)。首先,提取了三种基于表元素的特征嵌入形式(F∈FG,FA,FC),即,几何、外观和内容嵌入。在每个协作块中,提取的特征嵌入被构建为上下文图,其由ECE单独应用以形成之后,CCS选择性地融合来自不同模态的个体注意,我们设置M(0)=F作为CCS的初始输入。该块被堆叠L层以分层方式实现内-间模态列。为了预测最终的表结构,来自模态间流的第l层的输出协作图嵌入被采样为用于单元、行和列分类的对。3.2. 特征提取在该组件中,从表格图像中提取一组表格元素的多模态特征,包括几何嵌入FGRN× d、外观嵌入FARN× d和内容嵌入FCRN× d。N表示文本段边界框的数量。更详细的描述在文献资料中给出表格图像跨模态流协作块1(0协作块2结果行MCMC (MC (协作L(l-1)MCMC MGMGMG(l)InitMG (((MG(l-是CCS(是(是( !是个(l-+是(上特征提取外观几何形状内容FAFGF CCACA((CA(l-CGCG协作图嵌入((CG细CC!(l-(CC2)(CC(l-结构预测模态内流CCSCCS欧洲 欧洲E欧洲 ECE欧洲 ECE4536.{VE}∈∈∥−V E V× V联系我们x∈Np=AddNorm(Q,P),(3).Σ∈··∈∈·OO×O∈·−∈∈·−⃝联系我们3.3. 协作块自我上下文提取器。现在我们详细介绍如何在自我上下文提取器(ECE)的帮助下提取表元素的每个模态内的上下文交互。具体地,输入到ECE的特征的每个提取的模态被构造为个体有向图,GG,GA,GC.在图的每个解耦模态中,每个文本段边界框的对应嵌入被视为节点X=x1,x2,.,XN其通过边缘彼此连接。与文献[30,34]的思想类似,我们采用以下非对称边函数hΘ(xi,xj)=xi(xixj)来将图的边特征组合到每个节点,其可以表 示为Hθ( xi , x j )R(N·(N−1)/2)×d. 在所构造的图中,每个节点可以是 锚 点 或 其他节点的 上 下 文 之一。 在 以 前 使 用DGCNN [30,34]的工作中,只有每个节点的局部上下文被k-Nearest Neighbors算法(KNN)选择以聚合到节点特征中。然而,局部上下文并不通用于表示所有模态的关系。此外,基于DGCNN的方法应用CNN来执行局部上下文聚合。对于图形表示,具有强归纳偏差的CNN(例如, 本地行为)可能不是最佳选择。 为了解决上述问题,我们提出的ECE通过多头注意力(MHA)[42]模块聚集了所有三种模态的全连接图的信息,已经验证了它对输入做了很少的假设,并且可以学习基于输入内容结合局部行为和全局信息[3]。C~(l)Y添加规范FFNP“添加规范MC (MG (是个(CMHAQK、V图表构建P多-Dhea关注K VCMHA CMHAQK、VQK、VQK,VU UUQ内存压缩C~CG C ACC CA(l-XX(l)(l)CG CC(l)12MCMGM一(l-(1 -1)(1 -1)MHA(CMHA)通过引入内存压缩模块来减少[43]中的图像像素数,如图3(b)所示。详细地,压缩操作可以被实现为:MC(H)=Norm(Reshape(x,n)Wh),(一)其 中 , Reshape ( H , n ) 表 示 将 输 入 RM×d 整 形 为xRM×d/n的操作,并且n[0,1]是压缩比。通过这种方法,复杂度可以从(NM)二次降低到(N M)。在默认情况下,我们设置N=N/M,其中N是查询Q. Norm()是层的标准化。 此外,我们还在我们的方法中为CMHA配备了剩余连接,以使查询信息流畅通无阻,可以定义为:Y=AddNorm(FF N(P),P),(2)P=MHA(Q,MC(K),MC(V)),(4)其中最后,通过ECE模块中的CMHA,将上下文图信息烘焙到每个模态内的图节点中,如CCG, CA,CC跨上下文合成器。一旦异构上下文图嵌入获得,我们的目标是融合在一起,在一个协作的方式,并学习不同的模态之间的同样基于CMHA,我们设计了交叉上下文合成器(CCS),如图3(c)所示。具体地说,CCS有三个并行的CMHA模块,每个模块将一个模态作为查询,而另外两个模态共同作为键和值。以图3(c)中的第一分支为例,CMHA将上下文图嵌入的“内容”模态取(a) 自我上下文提取器(b) 压缩多头注意(c) 跨上下文合成器尝试图3(c)、图3.在协作块中提出了自我上下文提取器和交叉上下文合成器模块最好用彩色观看更具体地,第1个ECE将模态内特征C(1 -1)作为查询Q,并且将图边缘组合特征Hθ作为k∈sK和值V,如图1B所示。第3(a)段。注意,对于第一层r,我们输入F作为C(0)。 然而,使用MHA的主要限制是输入K和V的量可能非常大(在我们的情况下为N(N1)/2),这是不可行的。给定QRN× dq,KRM× dk,VRM× dv 当M= N(N1)/2时,注意操作的时间复杂度为(NM),输出为Ndv维,其维数仅与Q有关. 因此,我们可以将MHA扩展到内存效率更高的压缩“在ECE过程中,为了达到类似的本质上,查询模态从另外两个模态探索有用的信息。3.4. 表结构预测在协作块的第l层,CCS的输出被进一步融合为协作图嵌入,其被表示为E= e1,e2,., eNRN× de.基于嵌入E,我们的方法将第i个和第j个样本构造为对,并将它们沿着通道轴连接为向量U={u1,1,u1,2,.,ui,j,.,uN,N} ∈RN 2 ×2de. 然后分别应用三组FC层来预测U的二元类关系,即, 是否4537LLL LLL LLL L LL×−如图2所示,第i个和第j个样本对属于同一行、列或单元。每个FC组由三个具有256个维度的FC层和一个具有softmax层的二维FC组成。3.5. 培训战略我们以端到端的方式训练我们提出的NCGM整个损失函数定义为=cell+col+row,其中cell、col或row表示单元、列和行关系损失。 对于每一个嵌入对,我们采用多任务损失函数λ=λ1class+λ2con来同时满足对比目标和预测输出嵌入对的所属类。con和class分别是对比损失和二进制分类损失函数。补充材料中有更详细的说明。4. 实验4.1. 数据集和评价方案数据集。我们在各种基准数据集上进行了大量的实验。其中,ICDAR-2013 [8]、ICDAR- 2019 [6]、WTW[22]、UNLV [36]、SciTSR [2]和SciTSR-COMP [2]用 于物 理 结 构识 别 , 而 TableBank [18]和PubTabNet [46]用于评估逻辑结构识别性能。需要注意的是,ICDAR-2013和UNLV数据集中没有训练集,因此 我 们 将 这 两 个 数 据 集 扩 展 到 部 分 版 本 , 这 与TabStruct-Net类似[34]。关于公共基准的更详细说明见补充材料。为了进一步研究我们提出的方法在更具挑战性的场景下的能力,我们通过应用两种失真算法将“SciTSR-COMP”数据集扩展补充材料中有更详细的描述。评估设置。一些现有的作品仅适用于表格图像,而其他作品则利用广告信息,包括文本段/单元格边界框或文本内容。为了在统一的协议中进行比较,我们遵循[34]中的两种不同的实验设置:(a)设置- A,其中仅将表格图像作为输入,而没有附加信息;以及(b)设置-B,其中表格图像以及附加特征,例如单元格/文本段边界框和文本内容。为了进行公平比较,我们还将FLAG-Net [20]中的检测结果框和Tesseract [37]的OCR结果合并为Setup-A中的输入评估方案。我们采用精确度,召回率和F1分数[7]作为协议来评估我们的模型识别表物理结构(包括垂直和水平关系)的性能。对于表逻辑结构的识别,利用了[18]中使用的BLEU得分[28]和[46]4.2. 实现细节该框架基于Pytorch [29]构建。我们将输入表格图像缩放到固定大小512 512以引入尺度不变性。默认情况下,协作块的层数设置为3,隐藏大小d设置为64。此外,我们为每个协作块的自我上下文提取器(ECE)和 跨上 下 文 合成 器 (CCS ) 设置 h= 8 , dm= 64 ,dk=dv= 8。在训练过程中,学习率初始化为1e 4,当损失停止减少时除以10。对于训练损失,我们根据经验设置所有权重参数λ1=λ2= 1。对于所有实验,模型都在SciTSR上进行了10个epoch的预训练,然后在不同的基准上进行了50个epoch的微调,这是在具有NvidiaTesla V100 GPU和32 GB内存的平台上进行的。4.3. 与现有技术的物理结构识别的结果。 如Tab所示。1,我们的NCGM优于大多数以前的方法在不同的数据集上的物理结构识别。与强基线FLAG-Net [20]相比,在Setup-A设置和Setup-B设置下,NCGM将所有数据集的平均F1分数提高了约2%当处理具有复杂失真的表格图像(若以畸变数据为训练集,NCGM在两种设置下的性能仍能我们还可视化了图4中扭曲表的行和列物理关系。请注意,其中的不同颜色块只是可视化了归属关系,而不是划分整个框。以图4的右列为例,在逻辑上,可以观察到因此,五列将其各自的颜色归因于通过比较,我们的方法正确地认识到这两种关系,而FLAG-Net表现不令人满意的扭曲表场景。逻辑结构识别结果。为了在逻辑结构识别任务基准上评估我们的模型,即,TableBank和PubTabNet,我们对NCGM的行/列关系的输出结果执行轻量级后处理(参见补充材料)选项卡. 2表明,我们的方法取得了显着的改善与其他方法相比,逻辑结构识别任务。4538计算复杂性。补充材料中有更详细的说明。ICDAR-2013-P方法列车数据集设置-A设置-BP R F1P R F1DGCNN [30]Sci. + IC13-P- -98.6 99.0 98.8TabStr. [34个] Sci. + IC13-P93.0 90.8 91.9 99.1九十九点三九十九点二GTE [45]Pub. + IC13-P94.4 92.7 93.5- -LGPMA [31]Sci. + IC13-P96.7九十九点一九十七点九- -[22]第二十二话WTW + IC1995.5 88.3 91.7- -[20]第二十话Sci. + IC13-P97.999.398.6 99.2九十九点五九十九点三NCGMSci. + IC13-P98.4 99.3 98.8 99.3九十九点九九十九点六ICDAR-2019DGCNN [30]Sci. + IC1980.3 77.8 79.0- -TabStr. [34个] Sci. + IC1982.2 78.7 80.4 97.5 95.8 96.6[22]第二十二话WTW- - 八十点八- -[20]第二十话Sci. + IC1985.283.8 84.5 96.1 96.3 96.2NCGMSci. + IC1984.686.1 85.3 98.9九十八点八九十八点八WTW[22]第二十二话[20]第二十话WTWWTW93.3 91.5 92.491.6 89.5 90.5- -93.2 91.7 92.4NCGMWTW93.7 94.6 94.1 95.8 96.4 96.1UNLV-PDGCNN [30]TabStr. [34个][20]第二十话Sci. + UNLV-PSci. +联合国志愿人员方案+ UNLV-P- -84.9 82.8 83.989.287.3 88.292.1 89.8 90.999.2九十九点四九十九点三98.9九十九点五九十九点二NCGMSci. + UNLV-P 88.988.2 88.599.8九十九点八九十九点八SciTSRDGCNN [30]Sci.- -97.0 98.1 97.6TabStr. [34个] Sci.92.792.098.9九十九点三九十九点一LGPMA [31]Sci.98.2 99.3 98.8- -[20]第二十话Sci.99.799.3 99.599.899.5 99.6NCGMSci.99.7九十九点六九十九点六99.7九十九点八九十九点七SciTSR-COMPDGCNN [30]Sci.- -96.3 97.4 96.9TabStr. [34个] Sci.90.9 88.2 89.5 98.1 98.7 98.4LGPMA [31]Sci.97.3 98.7 98.0- -[20]第二十话Sci.98.4 98.6 98.5 98.6 99.0 98.8NCGMSci.98.7九十八点九九十八点八98.8九十九点三九十九点零SciTSR-COMP-A[20]第二十话[20]第二十话Sci.Sci. + Sci.C-a70.7 66.2 68.482.5 83.0 82.783.3 81.0 82.188.8 87.5 88.1NCGMSci.79.6 78.9 79.2 93.3 94.8 94.0NCGMSci. + Sci.C-a88.4 90.7 89.5 97.2 97.5 97.3表1. ICDAR-2013-P、ICDAR-2019、WTW、UNLV-P、SciTSR、SciTSR-COMP和SciTSR-COMP-A数据集。“-P” means partial datasetand “TabStr.”和4539(a) FLAG-Net在SciTSR-COMP-A数据集上的示例结果。(b) NCGM在SciTSR-COMP-A数据集上的样本结果。图4. FLAG-Net与NCGM之间变形表物理关系的可视化第一列和第二列分别表示行和列的预测属于相同关系的具有错误识别关系的文本段框的边界用红线标记。与FLAG-Net相比,我们的NCGM对具有挑战性的场景表现出更好的耐受性。表库方法列车数据集设置-ABleu[第18话][34]第三十四话[20]第二十话表库SciTSR73.891.693.9NCGMSciTSR94.6PubTabNet方法列车数据集设置-ATedsEDD [46]PubTabNet88.3[34]第三十四话SciTSR90.1GTE [45]PubTabNet93.0LGPMA [31]PubTabNet94.6[20]第二十话SciTSR95.1NCGMSciTSR95.4表2.比较TableBank和PubTabNet数据集上的逻辑结构识别结果。4.4. 消融研究在 本 小 节 中 , 我 们 在 Setup-B 设 置 下 对 SciTSR-COMP基准进行了几次分析实验,以研究模态内和模态间相互作用在我们提出的NCGM中的贡献。模态内相互作用的影响。对于模态内交互,Tab. 3比较了各种提取器的有效性,包括DGCNN [30]和Trans-former [42] , 在 我 们 的 方 法 中 使 用 ECE 。 “Mixed”means all modality features are4540∼∼∼∼上下文提取器分开。选项卡. 3表明ECE在将混合特征或单独特征作为输入时可以对于“DGCNN”,它只聚合来自每个节点的前K个相似节点的信息,而不是所有节点的信息。与“DGCNN”相比,“Transformer”虽然可以部署节点的全局信息,但忽略了节点之间的有向边效应。令人鼓舞的是,我们的CMHA为基础的ECE不仅可以考虑节点之间的有向关系,但也提取上下文信息的所有节点。此外,我们还可以观察到,单个特征可以产生比混合特征更好的结果,这证明了将单个模态彼此解耦确实是解决Hetero-TSR问题的更可取的方法。来自“Transformer-Mixed”[ 42 ]的最后块的多头自注意力图DGCNN的KNN结果表明,一个节点的特征聚合只关注其他节点的前K个相似特征,而不是所有节点,并且依赖于K的选择。Transformer-Mixed的注意力图呈现均衡状态,缺乏稀疏性和多样性。相比之下,采用混合特征的此外,“ECE-Individual”生成的注意力地图显示了具体而言,ECE更倾向于在全局范围内提取外观和几何特征的交互,而内容特征带来更多的局部焦点模式。0的情况。70的情况。60的情况。50的情况。40的情况。3表3. SciTSR-COMP数据集上的NCGM消融研究。“内部”和分别代表通道内交互和通道间交互。“混合”和是“混合”和“个人”的缩写“DG”和“Tr.”表示“DGCNN”和“Transformer”。“骗局”表示0的情况。20的情况。10的情况。01 2 3 4 5 6 7 8头模态间相互作用的影响。我们将建议的CCS与Tab中多模态特征的3 .第三章。可以观察到,与经由级联直接后期融合的多个模型特征相比,CCS提高了预测邻接关系的准确性。这证实了CCS的好处,使一个模态积极地与其他人合作,并可以捕捉复杂的隐式模态关系。此外,还证明CCS模块与ECE相结合可以进一步提高性能。4.5. 对协作块欧洲经委会从内部模式中学到了什么?正如最近关于解释注意机制的工作[24,25,33为了探索ECE在协作块中学习到的通道内交互,我们在图6中可视化了ECE最后块为了比较,我们还将图5.不同模态的注意力地图的分布有或没有CCS。实线(w/ CCS)表示当一个模态特征被视为查询而其他模态特征被视为键/值时,注意在CCS中的多样性分布。虚线(不含综合服务)表示欧洲经委会对每种模式的注意力权重的多样性。不同的模式如何相互协作?为了研究CCS的工作模式,我们采用Jensen-Shannon Divergence [4](见补充材料)来测量CCS中注意力地图的平均多样性,当模型也采用图6所示的输入表图像时。如图5所示,实线(w/ CCS)表示当一个模态特征被视为查询而其他模态特征被视为键/值时的多样性分布。在移除CCS之后,ECE中针对每种模态的注意力权重的多样性 对于具有CCS的那些,较高的值指示查询模态与其他模态更紧密地协作。其中,外观形态与其他形态的协作关系最强,几何形态与其他形态的协作关系最弱相比之下,幼儿教育中注意力权重的多样性也遵循类似的趋势,但平均值较低。应用程序(带CCS)Geom w/CCS连续,带CCS应用程序(不含CCS)Geomw/o CCSCont w/o CCS多样性融合方法输入内部中间截留设置-B混合. 印第安纳DG Tr. 欧洲经委Con. CCSPRF1早期融合✓✗✓✗✓✗✓✗ ✗✗ ✓ ✗✗ ✗ ✓✗✗✗✗✗✗96.395.197.897.495.698.396.895.398.0后期融合✗✗✗✓✓✓✓✗ ✗✗ ✓ ✗✗ ✗ ✓✓✗✓✗✓✗96.994.998.498.296.198.297.595.598.34541DGCNN-混合混合特征X轴:候选物Y轴:探针输入混合变压器混合特征混合欧洲经委会混合特征欧洲经委会-个人外观特征几何特征内容特征图6.DGCNN生成的热图和来自Transformer和ECE的多头注意力图的可视化Y轴(红色)和X轴(蓝色)分别是对于ECE,探针是图节点特征,候选者是边组合特征。对于Transformer和DGCNN,探测和候选都是非图形特征。DGCNN的热图显示了一种基于上下文的局部硬选择方法。而Transformer生成的注意力地图缺乏稀疏性和多样性。相比之下,ECE-Mixed呈现了更多样化的注意力地图,ECE-Individual则根据不同的特征提取了全局或局部模式的交互。最好用彩色观看。1 .一、000的情况。950的情况。90网络的速度越来越慢。特别是,我们观察到,当超过7个块的NCGM被训练超过50个epoch时,F1分数急剧下降,这表明更多的块更容易导致模型训练崩溃问题。基于上述观察,我们将其设置为3作为默认值。0的情况。850的情况。800 10 20 30时代40 50 605. 结论和局限性我们提出了一种新的基于图的方法,图7. NCGM的块数与SciTSR-COMP数据集上F1评分之间的关系。协作块越多,性能越好为了进一步探索协作块数对NCGM性能的影响,我们分别进行了一组设置块数从1到9的从图7可以看出,这是一个权衡问题。较小的块数可以使模型更快地收敛。随着块数的增加,性能不断提高,直到块数增加到5,但收敛性通过学习通道内通道间的协作来识别新的表格结构。在公共基准测试上的大量实验证明了它优于最先进的方法,特别是在挑战场景下。但是,存在两个局限性,可以在未来的改进。第一个问题是引入多模态和解耦处理带来的计算复杂度增加。第二个原因是,块越深的NCGM越容易出现训练崩溃问题。我们可以在注意力模型中引入更多的归纳偏差来解决这个问题。1块3块5块7块9块F14542引用[1] 约翰·安德森。认知心理学及其启示。麦克米伦出版社,2005年。2[2] Zewen Chi,Heyan Huang,Heng-Da Xu,Houjin Yu,Wanx-uan Yin,and Xian-Ling Mao.复杂表结构识别。arXiv预印本arXiv:1908.04729,2019。一、二、三、五[3] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。在第八届国际学习代表大会-ICLR 2020,编号CONF,2020。4[4] GoncaloMCorreia,VladNiculae,andAndre´FTMar-tins.自适应稀疏变压器。arXiv预印本arXiv:1909.00015,2019。7[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。3[6] LiangcaiGao , YilunHuang , Herve ′De′ jean , Jean-LucMeu-nier,Qinqin Yan,Yu Fang,Florian Kleber,and Eva Lang. Icdar 2019 competition on table detectionand recognition(ctdar).2019年国际文件分析与识别会议(ICDAR),第1510IEEE,2019。5[7] MaxGobel , TamirHassan , ErmelindaOro , andGio rgioOrs i. PDF文档中表格理解算法的评价方法2012年ACM文档工程研讨会论文集,第45-48页,2012年5[8] MaxGobel , TamirHassan , ErmelindaOro , andGio rgioOrs i. Icdar 2013年桌上比赛。2013年第12届国际文档分析和识别会议,第1449-1453页。IEEE,2013。5[9] E Green和M Krishnamoorthy。使用表格文法识别表格在Proceedings of the Fourth Annual Symphony on DocumentAnalysis and Information Retrieval,第261-278页,1995中。2[10] 平山由纪一种利用dp匹配进行表结构分析的方法。第三届国际文档分析与识别会议论文集,第2卷,第583-586页。IEEE,1995年。2[11] 系德克彦基于文本块排列和格线位置的表格结构识别。第 二 届 国 际 文 献 分 析 与 识 别 会 议 论 文 集(ICDARIEEE,1993年。2[12] Sujay Kumar Jauhar,Peter Turney,Eduard Hovy.表格作为问答的半结构化知识。在Proceedings of the 54 thAnnual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers)中,第474-483页,2016年。1[13] Saqib Ali Khan 、 Syed Muhammad Daniyal Khalid 、Muhammad Ali Shahzad和Faisal Shafait。用双向选通递归单元网络提取表结构。2019年国际文件分析与识别会议(ICDAR),第1366-1371页。IEEE,2019。一、二[14] 托马斯·基宁格和安德烈亚斯·登格尔。t-recs表格识别与分析系统。在国际文件分析系统研讨会上,第255-270页。Springer,1998年。2[15] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv:1609.02907,2016。1[16] Zhenzhong Lan ,Mingda Chen , Sebastian Goodman ,Kevin Gimpel , Piyush Sharma , and Radu Soricut.Albert:一个用于语言表示的自我监督学习的arXiv预印本arXiv:1909.11942,2019。3[17] Jiwei Li , Will Monroe , Alan Ritter , Dan Jurafsky ,Michel Galley,and Jianfeng Gao.用于对话生成的深度强化 学 习 。 在 Proceedings of the 2016 Conference onEmpirical Methods in Natural Language Processing,第1192-1202页,2016年。1[18] Minghao Li , Lei Cui , Shaohan Huang , Furu Wei ,Ming Zhou,and Zhoujun Li. Tablebank:用于基于图像的表格检测和识别的表格基准。第12届语言资源和评估会议论文集,第1918-1925页,2020年。一、二、五、六[19] 李培昭,顾久祥,权健,赵汉东,贾殷,万荣,刘宏福.Selfdoc:自我监督的文档表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第5652-5660页,2021年。3[20] Hao Liu,Xin Li,Bing Liu,Deqiang Jiang,YinsongLiu,Bo Ren,and Rongrong Ji.显示、读取和推理:使用灵活的上下文聚合器进行表结构识别在第29届ACM多时间点,第1084-1092页,202
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功