没有合适的资源?快使用搜索试试~ 我知道了~
12915跨域文档对象检测:基准套件和方法Kai Li1,Curtis Wigington2,Chris Tensmeyer2,Handong Zhao2,Nikolaos Barmpalios3,Vlad I.Morariu2,Varun Manjunatha2,Tong Sun2,Yun Fu11东北大学、2Adobe Research、3Adobe Document Cloud{kaili,yunfu}@ ece.neu.edu{wigingto,tensmeye,hazhao,barmpali,morariu,vmanjuna,tsun}@ adobe.com摘要将文档页面的图像分解成高级语义区域(例如,图、表格、段落),文档对象检测(DOD)是智能文档编辑和理解等下游任务的基础。DOD仍然是一个具有挑战性的问题,因为文档对象在布局、大小、纵横比、纹理等方面变化很大。在实践中出现了额外的挑战,因为大型标记的训练数据集仅适用于与目标域不同的域。我们研究跨域DOD,其中的目标是学习一个检测器的目标域使用标记的数据从源域和只有未标记的数据从目标域。来自这两个领域的文档在布局、语言和体裁上可能会有很大的不同。我们建立了一个由不同类型的PDF文档数据集组成的基准套件,可用于跨域DOD模型的训练和评估。对于每个数据集,我们提供页面图像、边界框注释、PDF文件以及从PDF文件中提取的渲染层此外,我们提出了一种新的跨域DOD模型,该模型建立在标准检测模型的基础上,并通过合并三个新的对齐模块来处理域偏移:特征金字塔对齐(FPA)模块、区域对齐(RA)模块和渲染层对齐(RLA)模块。在基准测试套件上的大量实验证实了这三个模块的有效性,所提出的方法显着优于基线方法。项目页面位于https://github.com/kailigo/cddod。1. 介绍文档对象检测(DOD)是将文档页面图像自动分解为其结构和逻辑单元(例如,图、表、段)。DOD对于各种文档图像分析应用(诸如文档编辑、文档编辑、文档分析、文档分析等)是至关重要的。结构分析和内容理解[31,1,30]。两种流行的文档格式,图像(例如,扫描和相机捕获的文档)和PDF,不明确编码文档结构:图像由像素组成,而PDF由矢量、光栅和文本标记操作组成,这些操作允许文档在设备上被忠实地再现(例如,打印机和显示器)。虽然最近在自然场景图像的对象检测方面的进展令人印象深刻[27,21],但由于较大的域差异,直接将相同的模型应用于文档图像可能是次优的。例如,文档对象在纵横比和比例上比自然场景对象更多样化:表格可以占据整个页面,页码可以小到个位数,并且跨越页面的单行文本具有极端的纵横比。文档对象的类内方差通常也大于自然场景对象的类内方差。文本可以具有任意字体、样式、位置、方向和大小。表格单元格可以填充任意内容,只要它们在网格布局中对齐即可。文档布局和对象也是模块化的实体,因此,例如,检查段落的左半部分几乎不能提供有关段落宽度的信息相比之下,自然物体和场景的缺失部分可以根据周围的上下文合理地进行补绘[26]。另一个关键挑战是,许多因素影响文档的外观,例如文档类型(例如,菜单、科学文章)、布局(例如,纵向与横向或单/多列),和书面语言。虽然学习一个可以处理所有文档的单一模型Because labeled datais not available for every kind of document collection, weare motivated to ex- amine cross-domain DOD. 在 跨 域DOD中,我们利用源域中的标记数据和目标域中的未标记数据来训练目标域的检测器。为了促进这一领域的进步,我们建立了一个基准套件,跨域国防部模型可以训练和评估。基准测试套件由不同类型的文档数据集组成;每个数据集都充当一个do-12916main.每个数据集由以下组件组成。(1)文档页面图像和边界框注释。这些是检测模型训练和评估的基本数据。(2)用于生成页面图像的原始PDF文件。原始PDF文件保留了将PDF页面转换为图像时丢失的信息,如文本和一些元数据。这些额外的信息源可以补充视觉信息,并有利于检测任务。(3)PDF渲染层。PDF页面实际上是文本、矢量和光栅内容的混合体。这三种内容类型可以呈现到PDF页面的单独层中,每个层包含仅由一种内容类型(文本、矢量或光栅)产生的像素呈现这些渲染层提供了PDF页面的结构抽象,因此也有助于检测任务。除了基准测试套件之外,我们还提出了一种新的跨域DOD模型,该模型建立在特征金字塔网络(FPN)对象检测器[21]之上,并通过引入三个新模块来解决域偏移问题第一个模块是特征金字塔对齐(FPA)模块。FPA在源域和目标域的特征金字塔之间执行密集的逐像素对齐。由于金字塔的每一层都混合了高级和低级特征,因此显式地将跨域特征金字塔层推得更靠近彼此实现了低级和高级语义的联合第二个模块是区域对齐(RA)模块。RA旨在增强来自两个域的语义上有意义的前期区域的对齐,并显式地推动从两个域提取的区域彼此更接近我们将焦点损失[22]纳入我们的目标函数中,以更加关注难以对齐的样本。最后一个模块是渲染层对齐(RLA)模块。我们利用我们的基准套件中的PDF渲染层,并为每个页面生成一个指定每个像素所属的渲染层的掩码。RLA将掩码作为页面的一种分割图,并训练辅助分割任务以进一步对齐域,从两个域的图像预测掩模。本文的贡献有三个方面:• 我们建立了一个跨领域的国防部模型训练和评估的基准套件据我们所知,我们是最早研究这个问题的,基准是这方面的第一个。• 我们提出了一个新的跨域DOD模型,它引入了三个新的模块来处理域转移问题。这三个模块相互补充,并从一般图像的角度和特定的文档图像的角度对齐域。• 我们的模型有效地缓解了域转移问题,并显着提高了基准测试套件的基线性能。2. 相关工作我们的工作涉及到文档对象检测和跨域对象检测自然场景图像。2.1. 文档对象检测大多数现有的文档对象检测方法集中于某些类型的对象,表格、图形或数学公式。早期的作品依赖于各种分类规则来从文档图像中提取和识别这些对象这些方法通常涉及一组超参数,难以适应新的文档域。最近的工作通常是数据驱动的,并与机器学习技术,或启发式规则和学习模型的混合解决问题利用自然场景图像上对象检测的令人印象深刻的进展,许多作品通过考虑文档图像的独特性来适应自然图像对象检测器[30,11]。他等人[13]提出了一种两阶段的方法来检测表格和图形。在第一阶段,使用多尺度、多任务全卷积神经网络预测每个像素的类别标签。然后在第二阶段中,启发式规则应用于逐像素类预测以获得对象框。Gao等人[8]使用结合CNN和RNN的模型来提取PDF文件的元数据信息并检测一些作品在一个框架中联合检测多种类型的文档对象Yi et al. [34] adapt theregion proposal ap- proach andredesign the CNNarchitecture of common ob- ject detectors by consideringthe uniqueness of document objects. [20]首先进行深层结构预测,并从每个列区域中获得原始区域建议。然后,将原始提议聚类,并且将同一聚类内的那些提议合并为单个对象实例。2.2. 跨域目标检测现有的跨域目标检测方法大致可以分为两类:一种是基于特征对齐,另一种是基于自我训练。前一类中的方法训练模型,从中可以获得来自两个域的图像的域不可知特征表示为了实现这一点,这些方法通常以对抗的方式训练域分类器和特征提取模型,直到域分类器不能区分从中提取特征的图像的域。不同之处在于领域分类器使用的位置和方式。后一类方法通过为目标图像生成伪边界框标签并使用生成的伪标签更新模型来反复训练模型[18,16,17,28]。不同的方法在如何生成伪标签或更新模型方面有所不同。这两类方法都得益于风格转换技术12917图1.来自Chn数据集的样本彩色边界框是地面实况标签:其首先训练风格转移模型(例如,CycleGAN [36])使用来自两个域的图像,然后应用该模型将来自源域的图像转换为目标域的风格。使用这种方法,可以获得与目标结构域相似风格的标记图像,这有助于进一步的结构域比对[16,19]。我们的跨域DOD模型继承了最近的跨域目标检测器的优点,自然场景图像。我们遵循的方法,明确执行功能对齐地址做主要的变化。但是,我们不是对齐低级特征[29]或高级特征[3,37],或者分别对齐它们[15],而是将它们与特征金字塔联合对齐,因为每个层都是低级和高级特征的混合物。此外,我们提出了一个基于焦点损失的区域前景对齐模块,旨在提高前景区域的对齐。该模块与之前平等对待所有区域建议的方法[3,15]不同,而是更多地关注难以对齐的建议。此外,我们利用渲染层数据可用于文档数据集,并从它们生成的分割掩模的源和目标图像。我们使用掩码作为额外的线索,通过训练辅助分割任务来对齐域。3. 基准测试套件有一些现有的数据集用于文档对象检测。然而,这些数据集通常仅包括针对某些类型的对象的注释,例如,表[12,5]或数学公式[23]。[7]建立了一个数据集,其中包含三种类型的对象的注释:表格、图形和数学公式。但是,该数据集不再公开。此外,现有最大的数据集仅包含2000页图像[7],这对于现代深度物体探测器来说太小了。最近,[35]发布了一个用于文档对象检测的大规模数据集它包含从医学期刊文章中提取的超过36万页图像中超过350万个对象实例的注释。注释对象涵盖5类:文本、标题、列表、表格和图形。注释通过以下方式自动获得:将发布者创建的XML表示与PDF内容进行我们利用这个数据集,随机选择一个子集,在这项工作中称为PubMedPubMed包含12871张图像和257830个边界框注释。我们将数据集随机分为9653张图像用于训练,3218张图像用于测试。请注意,[35]中的“list”类的定义此定义与基准测试套件中的其他数据集的定义不一致。因此,我们在[35]中对“list”的注释进行预处理基准测试套件中包含的另一个数据集是Chn,一个合成的中文文档数据集。它是由一个工具生成的,该工具抓取中文维基百科页面并将内容转换为看起来自然的标记良好的PDF文件(可以从标记中获得边界框注释)。具体来说,该工具通过(a)随机定义一个布局来安排文档页面中的HTML内容,以及(b)选择该内容的样式,将每个Wikipedia HTML页面转换为文档。布局生成由一组布局参数控制,这些布局参数定义整体外观,并包括边距、列数、列之间的空白以及页眉/页脚的存在。内容根据定义的布局进行排列,这会产生文档对象模型(DOM),其中大多数DOM元素对应于最终PDF中生成的标签。样式参数,它定义了段落,标题等的外观和感觉,包括字体(系列、大小和样式),以及线条的着色方案表)。应该注意的是,样式参数遵循分层模式;例如,定义基本字体的大小会自动设置所有标题(h1,h2等)的字体大小。最后,为了使生成的文档看起来尽可能自然,布局和样式参数从使用真实世界文档统计数据计算的分布中随机采样在过滤掉低质量的样本后,我们获得了8005个页面图像,与PubMed相同的5个类的203456个边界框注释。我们进一步随机选择5000和3005页图像进行训练和测试,列表、表、文本、图得双曲正航向。12918目标源RAFPNRPNGRLr区域一级的协调目标x转换GRLGRLGRLGRLFPAConv…类D1D2D3D4BBox检测物镜RLA像素级对准物镜隔离区净分割目标图2.拟议方法摘要我们建立在FPN [21]的基础上,并引入了三个新的模块(以浅粉色掩蔽)来对齐不同的文档域(本例中为英文和中文)。特征金字塔对齐(FPA)模块包括四个二进制域分类器{D1,D2,D3,D4},对应于金字塔的四个特征层。这些Dj中的每一个通过图像域对像素进行分类。区域对齐(RA)模块是二元域分类器Di,用于对区域提议进行分类。渲染层对齐(RLA)模块是一个分割网络,它从FPN层预测渲染层掩码。所有二进制域分类器都遵循梯度反转层(GRL)[6],该层在训练期间反转损失梯度,并有助于在每次反向传播中实现最小-最大优化。分别为。图1显示了数据集中的一些示例对于上面的两个数据集,除了图像和相应的边界框注释外,我们还提供了用于生成页面图像的原始PDF文件。大多数元数据在将PDF页面转换为图像时丢失。因此,我们在我们的基准测试套件中提供源PDF文件,以使未来的研究能够利用这些元数据并推进检测任务或其他相关任务,如Yang et. [33]我做的。结果表明,当PDF文件中的文本信息与视觉图像适当结合时,有助于文档语义结构的提取。我们还相信文本信息也可以有益于多模态(视觉+文本)方法的检测任务此外,我们还提供了与PDF页面相关的PDF渲染层。PDF页面实际上是由文本绘图、矢量绘图和光栅绘图混合呈现的。相同类型的绘图位于同一渲染层中,我们可以从PDF文件中提取这些层。这些渲染层提供PDF页面的结构抽象,因此也有助于检测任务。我们还利用人类注释的数据集进行性能评估。该数据集包括19355个页面图像和257830个法律报告的边界框注释我们随机选择9684张图像进行训练,剩下的 这个数据集使用与其他两个数据集相同的5个类进行注释,我们还在这项工作中使用了渲染层。我们将在将来使用时将此数据集视为合法数据集模块和渲染层对齐(RLA)模块。4.1. 特征金字塔网络FPN利用卷积神经网络的金字塔特征层次结构,为所有层构建一个高层语义的特征金字塔。它独立于主干卷积架构(我们采用标准ResNet-101 [14]作为主干)。利用来自ResNet-101的layer 1、layer 2、layer 3和layer 4输出的特征层次{C1、C2、C3、C4},FPN从粗特征图迭代,将其上采样2倍以获得空间分辨率,并将其(通过逐元素添加)与前一个图合并,前一个图已经经历了1×1卷积以减少通道维度。合并后的特征图然后通过3×3卷积进行平滑,以产生最终的特征图。该迭代过程输出特征金字塔{P1,P2,P3,P4},其中Pi=conv3(上采样(Pi+1)+conv1(Ci)),i=1,2,3,4,(一)其中conv1、conv3和up sample分别是1×1、3×3和请注 意 , P5 是 C4 上 1×1 卷 积 的 结 果 , 即 , P5=conv1(C4)。通过区域建议网络(RPN)从所有特征金字塔层{P1,P2,P3,P4}中然后将所获得的区域提议转发到特征提取模块以获得每个提议的特征向量。对于来自源数据集的图像,我们使用边界框地面实况计算检测损失:4. 方法图2说明了我们提出的方法。 它是基于s检测 =Lreg (xs,ys)+LCLS(xs,ys),(2)在特征金字塔网络(FPN)的基础上,提出了三个新的域对齐模块,即特征金字塔对齐(FPA)模块、区域对齐(RA)模块和区域对齐(RA)模块.其中xs和ys分别是图像和地面实况注释。第一项是边界框回归损失,第二项是分类损失。L12919i,w,h我我RRi=1ii文本图层矢量图层 栅格图层图3.从PDF页面生成渲染层蒙版。给定一个PDF页面,我们首先使用一个工具来生成文本、光栅和矢量渲染层,然后将其二值化以将前景与背景分离。接下来,我们合并三个层的二进制映射并获得原始掩码。最后,我们执行形态膨胀和关闭操作,以填补字符之间的差距和光栅图纸中的漏洞。4.2. 特征金字塔对齐正如我们在上面看到的,金字塔中的特征映射是高级和低级特征的混合;因此,对准来自不同域的特征金字塔导致低级和高级语义的联合对准。这优于仅对低级特征[29]或仅对高级此外,由于建立在FPN的基础上,我们继承了其检测大范围大小的对象的强度,这对于检测文档图像中的对象是重要的,因为它们的大小可以显著变化。例如,“文本”对象可以占据几乎整个页面(例如,长的段落),而其它的可以小到几个字符或数字(例如,页码或短节标题)。具体地,FPA包括对应于{P1,P2,P3,P4}的4个二进制域分类器{D1,D2,D3,D4}。这些分类器预测特征图中像素的域标签(源或我们以对抗的方式训练分类器和FPN,使得一旦域分类器不能分辨像素是来自源还是目标,则FPN是域不可知的。为此,我们将前景和背景区域。然而,我们对前景区域更感兴趣,因为它们对检测任务更有语义意义。区域预匹配是指可能的前景区域,因此我们对它们进行如[29]所示,来自不同域的图像的焦点损失[22]被引入到域分类器中,以在损失函数中为易于对齐的图像提供较少的权重。受此启发,我们在区域提案域分类器中包含焦点损失,以更多地关注难以对齐的提案。虽然[29]在图像级别应用此策略,但我们在区域建议级别这样做,以强调前景区域的对齐。应该注意的是,虽然在[3]中已经研究了区域提案对齐,但它平等地对待所有区域提案,这可能导致易于对齐的提案占主导地位,从而导致不理想的对齐结果。随着焦点损失的引入,我们的区域对齐-项目目标如下:ΣLr= −1(1−Dr(rs))γlog(Dr(rs))−1RRi=1ii(4)相对于{P1,P2,P3,P4}的梯度来优化每个独立反向传播中的最小-最大问题[6]。损失函数如下:(Dr(rt))γlog(1 −Dr(rt)),其中R是提取的区域建议的数量;项r s和r t是第i个区域建议,1Σ4公司简介刘希Lp= −4瓦小时i=1w=1h=1 log(Di(Ps))−源图像和目标图像;D r是二进制数1Σ4Wtht测试域分类器;而γ控制着难以4WtHti=1w=1h=1log(1−Di(Pi,w,h)),(三)调整提议。与FPA一样,我们反转了关于提案的梯度,并执行以下内容的对抗性训练:其中,Ws、Hs、Wt和Ht是源和目标特征图。Ps和Pt分别是源金字塔和目标金字塔的第i层。4.3. 区域对齐上述FPA模块执行特征图的逐像素密集对齐,这对分类器和FPN在每个单独的反向传播。4.4. 渲染层对齐PDF页面被渲染成三个单独的层,其中每个层包含由单一类型的内容产生的像素:文本、矢量或光栅。这些图层提供有关PDF页面内容的更重要的是,它们对于两个源都12920=−i,ci,ci,ci,c文本列表标题表图地图FRCNN(仅来源)[29]第二十九话61.766.044.923.375.281.072.085.165.471.463.865.3SWDA+RLA(我们的)67.4 48.682.985.359.368.7表1.添加建议的RLA模块对现有工作的影响。最佳结果以粗体和目标图像。因此,它们可以用作额外的监督线索,以弥合域差距。RLA利用了这一点,并利用渲染层为每个页面生成一个指定每个像素所属的绘图类型的掩码。图3说明了这个过程。掩码可以被看作是页面图像的分割图,我们可以学习一个模型来从图像中预测地图。因此,RLA模块是一个分割神经网络,它以特征图C4作为输入,并输出每个像素的绘制类型的密集可能性图页面掩码用作地面实况。因此,渲染层分割目标如下:Σ ssΣ表2.关于申报组件有效性的消融研究。最佳结果以粗体显示。结构,但不是重量。我们采用与[29]类似的卷积层的内核大小ReLU激活函数应用于前两个卷积层的输出,Sigmoid用于最后一个卷积层的输出。RA模块由三个FC层组成。ReLU和Dropout应用于前两个FC层的输出 。 对 于 RLA 模 块 中 的 分 割 网 络 , 我 们 使 用 与DeepLab-V2 [2]相同的结构,并从特征图中预测分割掩码。我们使用SGD优化器训练网络,初始学习率为0.001,每次学习后除以10,1SWS HS CWmHmi=1Cc=1 yi,c logps−总共12个时期中的8个时期我们所有的实验,M姆贝特tΣ(五)1Wt Ht CWmHmi=1Cc=1 yi,clogpt,设λ1= λ2= 0。1,λ3= 0。01. [29]第29话Mm焦点损失参数设置为γ = 5。0的情况。其中Ws,Hs,Wt和Ht宽度和高度在所有跨域实验中,我们使用训练嗯嗯嗯源和图像的掩模;p s用于训练和评估的源数据集和目标数据集的分割pt是第i个像素被分类的概率评估目标数据集的测试拆分。 在训练期间c; y i,c是地面真值标签;C是类的个数。我们发现矢量绘图类是不可靠的,因为矢量绘图通常太薄,没有具体的语义意义。因此,我们将其合并到背景类中,并保留“背景”、“文本”和“光栅”类,即,C=3。4.5. 模型训练与推理该模型通过最小化上述损失的总和进行端到端训练:只有源数据集的标签可用。 我们设定图 像 的 短 边 为 600 像 素 。 并 报 告 平 均 精 密 度(MAP),阈值为0.5,以评估不同的方法。我们使用PyTorch实现了所有方法[25]。5.1. 消融研究为了解决域偏移问题,我们在标准目标检测模型的基础上提出了三个新的模块,即特征金字塔对齐(FPA)模块、区域对齐(RA)模块和渲染层Sdet +λ1Lp+λ2Lr+λ3Ls,(6)校准(RLA)模块。效能评估其中λ1、λ2和λ3是三个超参数。对于模型推理,我们删除了FPA、RA和RLA模块,仅保留标准FPN。然后,推断过程与标准检测模型相同:图像被馈送到模型,并且检测边界框是输出。5. 实验实作详细数据。如上所述,我们建立在标准的特征金字塔网络(FPN),并提出了三个新的模块来解决域转移问题。对于FPN,我们遵循最常见的做法,并使用ResNet-101作为主干。在FPA模块中有四个领域分类器;它们共享相同的以及这三个模块的影响,我们对法律和PubMed的改编进行了消融研究。RLA。RLA将源域和目标域中可用的渲染层作为额外的对齐线索,并使用辅助分割任务训练网络。为了评估其有效性,我们首先将其附加到最近的跨域对象检测模型SWDA [29]并评估所产生的性能。表1中的结果表明,添加该模块后,MAP提高了3.2个点。此外,如表2所示,当用作我们提出的方法的组成部分时,RLA将MAP从68.6提高到70.7。这些一致的性能增益证实了RLA平安险FPA通过将来自不同域的图像的特征金字塔推到更接近的位置来LL= L文本列表标题表图地图FPN(仅源代码)60.9 51.574.669.6 67.864.9FPN + FPA68.4 51.983.468.1 60.566.5FPN + FPA + RA65.8 52.582.374.8 67.468.6FPN + FPA + RA +RLA67.5 53.682.176.6 73.970.712921法律→中国中国→法律文本列表标题表图地图文本列表标题表图地图Oracle90.589.990.588.990.590.184.588.882.478.671.981.3FRCNN(仅来源)73.757.974.866.276.569.860.750.930.747.224.142.7FPN(仅源代码)75.067.380.365.185.274.659.054.526.453.224.743.6[29]第二十九话74.967.773.874.086.675.452.251.131.958.129.944.6SWDA + RLA(建议)75.473.279.178.787.778.859.257.033.056.028.946.8提出76.875.579.272.588.278.562.762.335.557.926.949.1表3.Legal到Chn之间的跨域检测结果。“Oracle”结果是通过用目标域的标记训练数据训练的FPN获得的最佳结果以粗体显示。中国→PubMedPubMed→中国文本列表标题表图地图文本列表标题表图地图Oracle90.668.390.390.790.786.190.589.990.588.990.590.1FRCNN(仅来源)41.314.345.467.457.445.226.617.719.645.551.932.3FPN(仅源代码)47.219.547.164.364.748.638.425.026.745.928.732.9[29]第二十九话56.020.352.281.244.550.953.018.535.064.764.347.1SWDA + RLA(建议)50.624.350.574.659.251.848.925.339.860.074.349.7提出55.828.654.179.652.554.136.744.442.164.379.453.4表4.PubMed与中国之间的跨域检测结果。法律→PubMedPubMed→法律文本列表标题表图地图文本列表标题表图地图Oracle90.668.390.390.790.786.184.588.882.478.671.981.5FRCNN(仅来源)61.744.975.272.065.463.837.337.327.129.88.328.0FPN(仅源代码)60.951.574.669.667.864.935.341.428.530.53.727.8[29]第二十九话66.023.381.085.171.465.337.336.144.048.510.535.3SWDA + RLA(建议)67.448.682.985.359.368.736.839.043.450.711.936.4提出67.553.682.176.673.970.737.149.642.531.112.034.5表5.Legal和PubMed之间的跨域检测结果。在一起由于每一层的功能金字塔incorpo-率低和高的功能,FPA因此联合对齐低和高层次的语义。表2显示FPA导致相对于FPN基线的1.6 MAP的增益。RA. RA通过对齐提取的区域建议来增强前景区域的对齐,具有基于焦点损失的学习目标,以更多地关注难以对齐的区域。表2显示它将MAP从66.5提高到68.6。5.2. 比较结果我们在三个数据集,中国,法律和PubMed之间进行跨域评估。第一个是中文文档数据集,后两个是英文数据集。我们首先进行跨语言的性能评估之间的中国和法律,中国和PubMed。表3和表4显示了实验结果。由于Le gal和PubMed属于不同的英文文献分类体系,两者之间存在着领域鸿沟因此,我们还在这两个数据集之间进行跨类别检测评估。表5示出了结果。我们在三个表中观察到类似的行为FPN基线通常优于FRCNN基线。这是因为文档对象的大小变化很大SWDA建立在的FRCNN,导致一致的性能增益。这表明,某些域自适应技术适用于各种图像类型。将文档特定对齐模块RLA添加到SWDA,可为所有情况带来一致的性能增益。这证实了RLA减轻域移位问题的我们提出的方法建立在FPN的基础上,并引入了三个新的组件。这些表格表明,它在几乎所有情况下都显著优于FPN基线和 SWDA 。 此 外 , 与 RLA 模 块 , 我 们 的 方 法 超 过SWDA几乎所有的实验。这表明我们提出的FPA和RA模块优于SWDA中的对应模块尽管有这些改进,结果仍然远远低于其中FPN在来自目标域的标记数据上训练的oracle设置这表明,领域转移确实是国防部的一个严重问题,而且还没有得到充分解决。从表4中可以注意到,当将PubMed调整为Chn时,SWDA的性能比FRCNN基线有很大的提高:MAP从32.3到47.1。同样,在表5中,当将PubMed调整为Legal时,SWDA将FRCNN基线的MAP从28.0提高到35.3。我们认为,如此巨大的收益的原因是,PubMed是由科学的页面图像12922图4.样品检测结果。基蒂→城市景观 城市景观→基蒂[29]第二十九话41.870.6提出42.973.3表6.自然场景图像的跨域检测结果共享类似格式模板的期刊文章因此,该数据集的多样性是有限的。使用该数据集的标记数据训练的模型应该能够有效地处理数据集中的其他数据,如高oracle结果所证明的,但不太可能推广到其他数据集。对于其他两个数据集,Chn和Legal,这个问题并不严重,因为在合成Chn和选择Legal的数据进行注释时仔细考虑了多样性。因此,当将PubMed数据集用作源域时,域适应的影响比其他两个数据集更显著。5.3. 进一步分析gions,具有很高的定位精度和非常不同大小的物体的自信的分类分数。例如,在第一个图像中,覆盖页面约三分之二的大表格和微小的分页都被完美地检测到。然而,所提出的方法倾向于犯错误的歧义对象,其语义可以正确地确定只有在上下文。例如,在第四幅(最右边)图像中,有一个由六个子图组成的合成图。每个子图形单独是图形实例。但是当考虑上下文时,将它们单独检测为对象实例是错误的。类似的情况也出现在第三幅图中。6. 结论我们研究跨域文档对象检测提出了一个基准套件和一种新的方法。基准测试套件包括不同类型的数据集,跨域文档对象检测器可以在这些数据集上进行测试。自然图像实验。 如果没有拟议RLA模块是专门为国防部任务设计的我们的方法(FPN加上FPA和RA模块)也可以遵循严格的方法[3,15],我们对Cityscape [4]和Kitti [10]数据集进行跨域Kitti数据集中有14999张图像,我们在训练集中选择了7481张图像进行适应和评估。Cityscape数据集有3475张图像,我们使用2975张图像进行适应训练,剩下的500张图像用于评估。表6中的结果表明,我们的方法在自然场景图像跨域检测任务中的性能也优于SDWA,特别是对于Cityscape和Kitti的适应,我们在汽车AP方面实现了2.7%的改进。这组实验进一步证实了所提出的自适应模块的有效性。检测结果的可视化。 图4显示了来自Chn和PubMed的一些检测结果。我们可以看到,在大多数情况下,所提出的方法可以成功地将一个复杂的页面分解成语义上有意义的重新组合。培训和评估。对于每个数据集,我们不仅提供基本组件,页面图像和边界框注释,还提供辅助组件,原始PDF文件和PDF渲染层。该模型建立在标准目标检测模型的基础上,具有三个新的域对齐模块,即特征金字塔对齐(FPA)模块、区域对齐(RA)模块和渲染层对齐(RLA)模块。基准测试集上的实验证实了所提出的新组件的有效性,并且所提出的方法显著优于基线方法。此外,该方法还改进了现有的跨域自然场景图像目标检测方法。鸣谢:这项工作部分是在第一作者在Adobe Research实习期间完成的,部分由Adobe Research资助。我们感谢Richard Cohn和Kana Sethu对该工具进行编码,并指导如何使用它来合成文档。12923引用[1] Roldano Cattoni,Tarcisio Coianiz,Stefano Messelodi,and Carla Maria Modena.用于文档图像理解的几何布局分 析 技 术 : 审 查 . ITC-irst Technical Report , 9703(09),1998.[2] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[3] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR,2018年。[4] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。[5] 方静,陶欣,唐智,邱瑞恒,刘颖。用于表检测评估的数据集、地面实况和性能指标。在DAS,2012年。[6] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML,2015。[7] Liangcai Gao , Xiaohan Yi , Zhuoren Jiang , LeipengHao,and Zhi Tang.Icdar2017网页对象检测竞赛。在ICDAR,2017年。[8] 高良才,易晓涵,袁辽,蒋卓仁,严左玉,唐志。一种基于深度学习的pdf文档公式在ICDAR,2017年。[9] 乌特帕尔·加雷恩文档图像中数学表达式的识别。载于ICDAR,2009年。[10] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集。The InternationalJournal of Robotics Research ,32(11):1231-1237,2013.[11] 阿兹卡·吉拉尼、沙鲁克·卡西姆、伊姆兰·马利克和费萨尔·沙菲特。使用深度学习进行表格检测。在ICDAR,2017年。[12] MaxGobel , TamirHassan , ErmelindaOro , andGio rgioOrs i. Icdar 2013年桌上比赛。载于ICDAR,2013年。[13] Dafang He,Scott Cohen,Brian Price,Daniel Kifer,and C Lee Giles.用于语义页面分割和表检测的多尺度多任务fcn。在ICDAR,2017年。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[15] 何振伟和张磊。多对抗faster-rcnn用于无限制目标检测。在ICCV,2019年。[16] 井上直人,古田良介,山崎俊彦,相泽贵治.跨域弱监督对象检测通过渐进域适应。在CVPR,2018年。[17] Mehran Khodabandeh,Arash Vahdat,Mani Ranjbar,and William G Macready.域自适应目标检测的鲁棒学习方法在ICCV,2019年。[18] Seunghyeon Kim,Jaehoon Choi,Taekyung Kim,andChang- ick Kim.用于无监督域自适应一阶段对象检测的自训练和对抗背景正则化。在ICCV,2019年。[19] Taekyung Kim、Minki Jeong、Seunhyeon Kim、SeokeonChoi和Changick Kim。多样化和匹配:一种用于目标检测的领域自适应表示学习范例。在CVPR,2019年。[20] Xiao-Hui Li,Fei Yin,and Cheng-Lin Liu.基于深度结构化 预 测 和 监 督 聚 类 的 pdf 文 档 图 像 页 面 对 象 检 测InICPR,2018.[21] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。[22] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密 集 目 标 检 测 的焦面损失。InICCV,2017.[23] Xiaoyan Lin,Liangcai Gao,Zhi Tang,Xiaofan Lin,and Xuan Hu. pdf 文 档 中 的 数 学 公 式 识 别 。 载 于ICDAR,2011年。[24] Ning Liu ,Dongxiang Zhang,Xing Xu,Long Guo,Lijiang Chen,Wenju Liu,and Dengfeng Ke.降质中文文档图像中的鲁棒数学公式识别。在
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功