基于多模态全卷积神经网络的文档语义结构提取方法

66 浏览量更新于2023-10-15 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于多模态全卷积神经网络杨肖，Ersin Yumer<$，Paul Asente<$，Mike Kraley<$，Daniel KiferZhao，C.李·贾尔斯宾夕法尼亚州立大学Adobe Researchxuy111@psu.edu{yumer，asente，mkraley} @ adobe.comdkifer@cse.psu.edugiles@ist.psu.edu摘要我们提出了一个端到端的，多模态的，完全卷积的网络，从文档图像中提取语义结构我们认为文档的语义结构提取作为一个像素明智的分割任务，并提出了一个统一的模型，分类像素的基础上，不仅在他们的视觉外观，在传统的页面分割任务，但也对底层文本的内容。此外，我们提出了一个有效的合成文档生成过程，我们使用它来生成我们的网络的预训练数据。一旦网络在大量合成文档上进行了训练，我们就使用半监督方法在未标记的真实文档上对网络进行微调我们系统地研究了最优网络结构，并表明我们的多模态方法和合成数据预训练都显着提高了性能。1. 介绍文档语义结构提取（DSSE）是一个致力于理解文档图像的活跃研究领域目标是将文档图像分割成感兴趣的区域，并识别每个区域的作用。通常分为两个步骤：第一步通常被称为页面分割，是基于外观的，并且试图将文本区域与像图形、表格和线段的区域区分开。第二步，通常被称为逻辑结构分析，是基于语义的，并将每个区域归类为语义相关的类，如段落和标题。在这项工作中，我们提出了一个统一的多模态全卷积网络（MFCN），同时识别基于外观和基于语义的类。它是一种通用的页面分割模型，还可以对文本区域进行细粒度识别：文本区域基于它们在文档中的语义功能被分配特定的标签。我们的方法简化了DSSE，更好地支持文档图像理解。我们将DSSE视为逐像素分割问题：每个像素被标记为背景、图形、表格图1：（a）仅根据文本难以识别的示例。相同的名称可以是标题、作者或图片说明。(b)仅根据视觉外观难以识别的示例。大字体的文本可能会被错误地标记为章节标题。带有破折号的文本可能会被错误地标记为列表。段落、章节标题、列表、标题等。我们表明，我们的MFCN模型在文档图像上以端到端，像素到像素的方式训练，大大超过了最先进的水平。它消除了设计复杂的启发式规则和提取手工特征的需要[30，22，21，46，4]。在许多情况下，像章节标题或标题这样的区域可以在视觉上识别。在图1（a）中，可以容易地识别相同名称的不同角色。然而，一个强大的DSSE系统需要文本的语义信息来消除可能的错误识别。例如，在Fig. 1（b），大字体的文本可能看起来像章节标题，但它并不起作用;以短划线开始的行可能被错误地标记为列表。为此，我们的多模态全卷积网络也被设计为利用文档中的文本信息。为了将文本信息整合到基于CNN的架构中，我们构建了一个文本嵌入映射并将其馈送到MFCN。更具体地说，我们嵌入每个句子，并将嵌入映射到文档中表示句子的相应像素。图2总结了所提出的MFCN模型的架构我们53155316图2：所提出的多模态全卷积神经网络的架构。它由四个部分组成：一个学习特征表示层次的编码器，一个输出分割掩码的解码器，一个用于无监督重建的辅助解码器，以及一个合并视觉表示和文本表示的桥。辅助解码器仅在训练期间存在。模型由四部分组成：学习特征表示的体系结构的编码器、输出分段掩码的解码器、用于在训练期间重构的辅助解码器、以及合并视觉表示和文本表示的桥接器。我们假设文档文本已被预提取。对于文档图像，这可以通过现代OCR引擎来完成[47，1，2]。训练完全卷积网络的瓶颈之一是需要像素级的地面实况数据。先前的文档理解数据集[31，44，50，6]受到其小尺寸和缺乏细粒度语义标签（如章节标题，列表或图和表格标题）的限制。为了解决这些问题，我们提出了一个有效的合成文档生成过程，并使用它来为我们的网络生成大规模的预训练数据。此外，我们提出了两个无监督的任务，以更好地生成真实文档：重建和一致性任务。前者通过重建输入图像实现更好的表示学习，而后者鼓励属于相同区域的像素具有相似的表示。我们的主要贡献总结如下：• 我们提出了一个端到端，统一的网络来解决文档语义结构的提取。与以前的两步过程不同，我们同时识别基于外观和基于语义的类。• 我们的网络支持对文档的图像和文本进行监督训练，以及无监督辅助训练，以实现更好的表示学习。• 我们提出了一个合成数据生成过程，并使用它来合成一个大规模的数据集，用于训练我们的深度MFCN模型的监督部分。2. 背景页面分割。大多数关于页面分割的早期作品[30，22，21，46，4，45]分为两类：自下而上和自上而下的方法。自下而上的方法[30，46，4]首先根据局部特征（白/黑像素或连接组件）检测单词然而，这种方法的缺点是连接组件的识别自上而下的方法[22，21]迭代地将页面拆分为列，块，文本行和单词。使用这两种方法，很难正确分割具有复杂布局的文档，例如具有非矩形图形的文档[38]。随着深度卷积神经网络的最新进展，已经提出了几种基于神经的模型。Chen等人[12]应用了卷积自动编码器来从裁剪的文档图像块中学习特征，然后使用这些特征来训练SVM [15]分类器。沃埃等人[52]提出使用FCN来检测手写文档图像中的线条。然而，这些方法都严格限制于视觉线索，因此不能发现潜在文本的语义意义。逻辑结构分析。逻辑结构被定义为文档中逻辑组件的层次结构，例如章节标题，段落和列表[38]。逻辑结构发现的早期工作[18，29，24，14]集中于使用一组基于每个句子的位置、字体和文本的启发式规则。Shilman等人[45]将文档布局建模为语法，并使用机器学习来最小化无效解析的成本。Luong等人[35]提出使用条件随机场模型联合5317根据几个手工制作的特征标记每个句子。然而，这些方法的性能受限于它们依赖于手工制作的特征，其不能捕获高度语义的上下文。语义分割。大规模注释[32]和深度神经网络方法（如全卷积网络（FCN）[33]）的发展导致语义分割准确性的快速提高[13，42，41，54]。然而，最初提出的FCN模型有几个局限性，如忽略小对象和错误标记大对象，由于固定的接收场大小。为了解决这个问题，Noh等人[41]建议使用unpooling，这是一种在上采样阶段重新使用合并的“位置”的技术。Pinheiro等人[43]尝试使用跳过连接来细化分割边界。我们的模型通过使用扩张块来解决这个问题，灵感来自扩张卷积[54]和最近的工作[49，23]，将几个层组合在一起。我们进一步研究了不同方法优化网络架构的有效性。为数千或数百万的图像收集像素级注释需要大量的劳动力和成本。为此，已经提出了几种方法[42，56，34]来利用神经网络训练中的弱注释（边界框级别或图像级别注释）我们的一致性损失依赖于类似的直觉，但不需要每个边界框的无监督学习已经提出了几种方法来使用无监督学习来改进监督学习任务。Mairal等人[36]提出了一种稀疏编码方法，通过稀疏约束重构损失函数来学习稀疏局部特征。Zhao等人[58]提出了一种堆叠的What-Where自动编码器，其在重建期间使用解池。通过将噪声注入输入和中间特征，去噪自动编码器[51]可以学习恢复未损坏输入的鲁棒滤波器。无监督学习的主要焦点是图像级分类和生成方法，而在本文中，我们将探索这种方法用于像素语义分割的潜力Wen等人[53]最近提出了一种中心损失，鼓励具有相同标签的数据样本具有相似的视觉表示。类似地，我们引入了一个类内一致性约束。然而，每个类别在其损失的“中心”由整个数据集的数据样本确定，而在我们的语言与视觉一些联合学习任务，如图像字幕[16，28]，视觉问题回答[5，20，37]和一次性学习[19，48，11]已经证明了在联合框架中使用文本和视觉表示的显著影响。我们的工作是独特的，因为我们使用文本嵌入直接为一个分段-mentation任务的第一次，我们表明，我们的ap-proach改善了传统的分割ap-proaches，只使用视觉线索的结果。3. 方法我们的方法使用专门的多模态全卷积网络进行监督训练，用于像素分割，该网络使用文本嵌入图与视觉提示。此外，我们的MFCN架构还支持两个无监督学习任务，以改进学习的文档表示：基于辅助解码器的重构任务和在主解码器分支中评估的一致性任务以及每像素分段丢失。3.1. 多模态全卷积网络如图2、我们的MFCN模型有四个部分：一个编码器、两个解码器和一个桥。编码器和解码器部分大致遵循Noh等人提出的架构指南。[41]。然而，为了更好地解决文档分割问题，已经做出了一些改变。首先，我们观察到几个基于语义的类，如节标题和标题通常占据相对较小的区域。此外，正确识别某些区域通常依赖于小的视觉线索，例如通过每个项目前面的小项目符号或数字来这表明需要使用低级功能然而，由于最大池在下采样过程中自然会丢失信息，FCN通常对小对象表现不佳。Long等人[33]试图使用跳过连接来避免这个问题。然而，简单地平均基于不同尺度的特征的独立预测并不能提供令人满意的解决方案。低层次表征受局部感受野的限制，不能感知客体层次的语义信息;另一方面，高级特征不一定与对象边界一致地对齐，因为CNN模型对平移是不变的。我们提出了一种替代的跳过连接实现，如图中的蓝色箭头所示2，类似于独立作品SharpMask[43]中使用的。然而，他们使用双线性上采样后跳过连接，而我们使用去池，以保留更多的空间信息。我们还注意到，需要更广泛的上下文信息来识别某些对象。例如，仅仅看一个列表和几个段落的一部分，往往很难区分它们。在图3中，为了正确地分割列表的右侧部分，感受域必须足够大以捕获左侧的子弹。受Inception架构[49]和扩张卷积[54]的启发，我们提出了一个扩张卷积块，示于图4（左）。每个扩张卷积块由5个扩张卷积组成，核大小为3×3，扩张d=1，2，4，8，16。5318wiW图3：我们的模型生成请注意，列表的右上角是黄色而不是青色，表明它被错误地标记为段落。3.2. 文本嵌入贴图传统的图像语义分割模型学习图4：左：包含具有不同扩张d的5个扩张卷积层的扩张块。批处理-为简洁起见，未显示归一化和非线性。右图：单词嵌入的skip-gram模型。在给定输入字wi的情况下，使用softmax来定义wo从视觉的角度来理解物体的语义然而，我们的任务还需要理解文本，′P（w |w）= exp（vwo⊤（vwi）（二）从语言学的角度看。因此，我们构建了一个文本嵌入映射，并将其提供给我们的多模态模型，o iVw=1′exp（v′v）利用视觉和文字的表现。我们把句子看作是表达一定语义的最小单位，用一个低维向量来表示它。我们的句子嵌入是通过对单个单词的平均嵌入来构建的。这是一种简单而有效的方法，已被证明在许多应用中非常有用，包括情感分析[26]和文本分类[27]。使用这样的嵌入，我们创建一个文本嵌入映射，如下所示：对于句子区域内的每个像素，我们使用相应的句子嵌入作为输入。因此，属于相同句子的像素像素不属于任何句子将被填充零向量。对于大小为H×W的文档图像，如果学习的句子嵌入是N维向量，则该过程导致大小为N×H×W的嵌入映射。嵌入-丁地图稍后与沿通道数维度的特征响应相连接2）的情况。具体来说，我们的单词嵌入是使用skip-gram模型学习的[39，40]。图4（右）显示基本其中vw和vw 是“输入”和“输出”N-W的维向量表示。3.3. 无监督任务虽然我们的合成文件（Sec。4）提供大量的标记数据用于训练，它们在布局的变化为此，我们定义了两个无监督损失函数，以利用真实文档并鼓励更好的表示学习。重建任务。已经证明，重构可以帮助学习更好的表示，从而提高监督任务的性能[58，57]。因此，我们引入了第二解码器路径（图1）。2轴解码器），表示为D_rec，并且定义中间特征处的重构损失。该辅助解码器仅在训练阶段存在。设a1，l=1，2，···L是编码器的第l层的激活，并且a0是输入图像。对于前馈卷积网络，al是大小为Cl×Hl×Wl的特征映射。我们的辅助解码器Drec试图重建一个特征映射的层次结构{a}。重建损失L（l）图表。设V是词汇表中的单词的数量，并且w是表示L因此，对于特定的L，定义为recWord. 训练目标是找到一个N维的L（l）=1a−a（NV）每个有用单词的向量表示recC1 H1 W1 1 12来预测相邻的单词。更正式地说，鉴于一个单词序列[w1，w2，···，wT]，我们最大化平均对数概率一致性任务。逐像素注释的获得是劳动密集型的，然而，获得文档中检测到的对象的边界框集合相对容易。对于PDF格式的文档，可以通过以下方式找到边界框：1ΣT不Σlog P（wt+j|（1）分析PDF文件中的渲染命令（典型示例见补充文档）。甚至t=1−C ≤j ≤C，j/=0其中T是序列的长度，C是上下文窗口的大小。输出单词的概率如果它们的标签仍然未知，这些边界框仍然是有益的：它们提供了文档的哪些部分属于相同对象的知识，因此不应被分割成不同的片段。5319¨B通过建立在属于相同对象的区域应该具有相似特征表示的直觉上，我们将一致性任务损失Lcons定义如下。设p（i，j）（i=1，2，···H，j=1，2，···W）为在10 - 12点的激活在大小为C×H×W的特征图中的阳离子（i，j），并且b是边界框中的矩形区域。设每个矩形区域b的大小为Hb×Wb。然后，对于每个b∈B，Lcons将由下式给出：三栏PDF。候选人物包括使用网络图像搜索下载的学术风格的人物和图形图纸，以及来自MS COCO的自然图像[32]，其将每个图像与几个标题相关联。坎迪-日期表下载使用网络图像搜索。不同的查询用于增加下载表的多样性。由于我们的MFCN模型依赖于文本的语义来进行预测，Lcons=1HbWb¨¨¨（i，j）∈b（i，j）¨2-p（b）¨2（四）必须仔细选择区域（段落、章节标题、列表、标题）：• 对于段落，我们从一个p（b）= 1Hb WbΣ（i，j）∈bp（i，j）（五）2016英语维基百科dump [3].• 对于章节标题，我们只对句子进行抽样，最小化一致性损失Lcons鼓励区域内一致性。一致性损失Lcons是可微的，可以使用随机梯度下降进行优化Lcons关于p（i，j）的梯度为作为章节或子章节标题的短语“Contents” block in a Wikipedia• 对于列表，我们确保列表中的所有条目都来自同一个维基百科页面。• 对于标题，我们可以使用相关的标题（用于Lcons=2（pH2W2（i，j）−p（b））（HbWb-1）+图像来自MS COCO）或图像标题在网络图像搜索中，可以在span中找到，（i，j）B b2Σ（p（b）−p）（6）类名称H2W2（u，v）b b（u，v）∈b（u，v）=（i，j）由于HbWb≥1，对于效率，它可以近似为：为了进一步增加生成文档的复杂性我们收集并标注了271份具有不同，复杂布局的文档然后，我们随机将每个元素替换为独立的段落，图，表，L缺点cup（i，j）2公司简介.p（i，j）−pΣ（b）第（1）款.（七）标题、章节标题或如上所述生成的列表。总的来说，我们的合成数据集包含135，000个文档图像。我们的合成文件的例子显示我们使用无监督一致性损失Lcons作为损失层，这是评估在主解码器分支（图中的蓝色分支。2）伴随着监督分割损失。4. 综合文档数据由于我们的MFCN的目标是生成整个文档图像的分割掩模，因此监督任务需要像素级注释。虽然有几个公开的页面分割数据集[44，50，6]，但每个数据集只有几百到几千个页面。此外，标签的类型是有限的，例如文本，图形和表格，但我们的目标是执行更细粒度的分割。为了解决这些问题，我们创建了一个合成数据引擎，能够生成大规模的像素级注释文档。我们的合成文档引擎使用两种方法来生成文档。第一种方法是对从网络上抓取的部分数据进行完全自动化和随机布局。更具体地说，我们生成LaTeX源文件，其中段落，图表，表格，标题，章节标题和列表随机排列，以组成单，双，或pΣB5320在图5中。有关生成过程中使用的合成文件和单个元素的更多示例，请参阅我们的补充文件。5. 实现细节图2总结了我们模型的架构。辅助解码器只存在于训练阶段。所有卷积层都有一个3×3的内核大小和一个步长1.一、池化（在编码器中）和解池化（在解码器中）的内核大小为2×2。我们在每次卷积之后和之前立即采用批处理归一化[25所有非线性函数。我们执行每通道平均减法并调整每个输入图像的大小，使其长边小于384像素。不应用其他预处理。我们使用Adadelta [55]，小批量大小为2。在半监督训练期间，交替使用合成文档和真实文档的小批量。对于合成文档，每像素分类损失和无监督损失在反向传播时都是活跃的，而对于真实文档，只有无监督损失是活跃的。由于标签是不平衡的（例如，段落的区域是5321列表图5：合成文档、原始分割和可选后处理后的结果示例（第（五）。分割标签颜色为：比字幕的大得多），根据训练集中每个类中的像素总数，不同地设置用于每像素分类损失的类权重。对于文本嵌入，我们将每个单词表示为128维向量，并在2016年英文维基百科转储上训练skip-gram模型[3] 。根据 Bojanowski et al.[9] 的文件。我们使用Tesseract [47]作为我们的OCR引擎。后期处理。我们应用一个可选的后处理步骤作为片段掩码的清理策略。对于PDF格式的文档，通过分析PDF格式的元素框，得到一组候选然后，我们首先计算属于同一个盒子的像素的平均类概率，然后将最有可能的标签分配给这些像素，从而改进分割掩码。6. 实验我们使用三个数据集进行评估：ICDAR 2015 [6]，SectLabel [35] 和我们名为 DSSE-200 的新数据集。ICDAR 2015 [6]是两年一度的IC-DAR页面分割竞赛[7]中使用的数据集，更多地关注基于外观的区域。IC-DAR 2015的评估集由来自当代杂志和技术文章的70个样本页面组成SectLabel [35]包括计算机科学领域的40篇学术论文，共347页。这些论文中的每一行文本都被手动分配了一个基于语义的标签，如文本、章节标题或列表项。除了这两个数据集，我们介绍DSSE-2001，它提供了基于外观和基于语义的标签。DSSE-200包含200页杂志和学术论文。页面中的区域从以下字典中分配标签：图，表，节，标题，列表和段落。请注意，DSSE-200比以前发布的基准数据集具有更细粒度的分割。性能以像素为单位1http://personal.psu.edu/xuy111/projects/cvpr2017_doc.html。，段。交集合并（IoU），这在语义分割任务中是标准的。我们基于DSSE-200数据集优化了MFCN模型的架构，它包含基于外观和基于语义的标签。秒6.4将我们的结果与ICDAR 2015和SectLabel数据集上的最新方法进行了比较。6.1. 模型结构烧蚀试验我们首先系统地评估不同的网络架构的有效性。结果示于表1中。请注意，这些结果不包括文本信息或无监督学习任务。这个实验的目的是找到最好的所有模型都是从头开始训练的，并在DSSE-200数据集上进行评估。作为一个简单的基线（表1模型1），我们训练了一个普通的编码器-解码器风格的模型来进行文档分割。它包括一个前馈卷积网络作为编码器，和一个解码器实现了一个完全卷积的网络。上采样是通过双线性插值。该模型的平均IoU为61.4%。接下来，我们将跳过连接添加到模型中，从而生成Model2。请注意，此模型类似于SharpMask模型。我们观察到平均IoU为65.4%，比基础模型好4%。这些改进对于小对象（如标题）来说更为重要。我们进一步评估了用非池化代替双线性上采样的有效性，给出了模型3。模型2中的所有上采样层都被取消池化所取代，而其他部分保持不变。这样做可以显著改善平均IoU（65.4% vs. 71.2%）。这表明在解码期间不应丢弃池化索引。当在解码器中构造分段掩码时，这些索引有助于消除位置信息的歧义。最后，我们研究了扩张卷积的使用。模型3等效于使用扩张卷积，d=1.模型4设置d=8，而模型5使用图1所示的扩张块4（左）。调整输出通道的数量，使得参数的总数图，桌章节标题，字幕5322列表图6：示例真实文档及其相应的分割。上图：DSSE-200。中：ICDAR2015。底部：SectLabel。由于这些文档不是PDF格式，因此在Sec. 5不能使用。可以考虑利用CRF [13]来细化分割，但这超出了本文的主要重点分段标号颜色是：，段。型号扩张上采样skipBKG图表部分字幕列表段是说11双线性没有80.375.462.750.033.857.370.461.421双线性是的82.176.774.451.842.458.774.465.431解卷是的84.181.277.654.660.365.974.871.248解卷是的83.974.969.757.260.264.676.169.55块解卷是的84.683.379.458.361.066.777.173.0表1：DSSE-200数据集上的消融实验。每个模型的结构特点是在卷积层的膨胀，上采样的方式和使用跳过连接。报告IoU评分（%）他们是相似的。比较这三个模型的结果，我们可以看到模型4的IoU对于每个类都与模型3相当或更差，而模型5对于所有类都优于模型3和模型4。6.2. 添加文本信息我们现在调查的重要性，文本信息在我们的多模态模型。我们采用最好的架构Model5作为我们的纯视觉模型，并通过图中所示的桥模块合并文本嵌入映射二、该组合模型在我们的合成文档上进行了微调。如表2所示，使用文本也可以提高文本类的性能。节标题、标题、列表和段落的准确率分别提高了1.1%、0.1%、1.7%和2.2%图，桌章节标题，字幕5323我们依靠现有的OCR引擎[47]来提取文本，但对于低质量的扫描文档，它们并不总是可靠的。为了定量分析使用提取文本的效果，我们比较了使用提取文本与真实文本的性能比较是在我们的合成数据集（200张图像）的子集上进行的，因为地面实况文本自然是可用的。如表2所示，使用真实文本导致平均IoU显著提高（6.4%），表明了结合文本信息的有效性。使用OCR提取的文本没有那么有效，但仍然可以提高2.6%。它比DSSE-200数据集上的0.3%的改进更好;我们将此归因于我们的合成数据不像DSSE-200那样复杂，因此提取文本变得更容易。5324基地数据集文本BKG 图表部分字幕列表段是说型号5D没有一84.683.379.458.361.066.777.173.0型号5D提取物83.983.779.759.461.168.479.373.3型号5S没有一87.783.184.370.870.982.383.179.6型号5S提取物88.885.486.673.171.283.687.282.2型号5S房91.290.389.078.475.387.589.686.0表2：使用文本嵌入图的DSSE-200（D）和合成数据集（S）上的IoU分数（%）在合成数据集上，我们进一步研究了在构建文本嵌入映射时使用提取文本与真实文本的效果我们的MFCN模型同时预测基于外观和基于语义的类，而其他表3：在DSSE-200数据集上使用不同训练对象时的IoU评分（%）。cls：逐像素分类任务，rec：重建任务，cons：一致性任务。方法非文本文本Leptonica [8]84.786.8布哈里等人[10个国家]90.690.3我们的（二进制）94.591.0方法图文本Fernandez等人[17个]70.185.8我们的（二进制）77.191.0表 4 ： ICDAR 2015 数据集上页面分割的 IoU 得分（%）。为便于比较，仅显示非文本、文本和图形的然而，我们的模型也可以进行细粒度的预测。方法部分字幕列表段Luong等人[35]第三十五届我们0.9160.9190.7810.8930.7120.7930.9690.969表5：SectLabel数据集上的F1评分。请注意，我们的模型也可以识别非文本类，如图和表。6.3. 无监督学习任务在这里，我们研究了所提出的两个无监督学习任务-重建和一致性任务-如何在训练过程中补充像素分类。我们采用了SEC最好的模型6.2、只改变培训目标。然后，我们的模型以半监督的方式进行微调，如第2节所述。五、结果示于表3中。添加重建任务使平均IoU略微提高了0.6%，而添加一致性任务则提高了1.9%。这些结果证明了我们的假设，利用区域信息是有益的。结合这两项任务，平均IoU为75.9%。6.4. 与现有技术的表4和5显示了与先前在IC-DAR 2015和SectLabel数据集上报告性能的几种方法的比较。值得强调的是-LclsL记录L孔Lrec+con是说73.373.975.475.95325方法不能。ICDAR2015数据集的比较（表4）。以前的逐像素页面分割模型通常解决二进制分割问题，并且不对细粒度的类进行预测。为了公平比较，我们将最后一层的输出通道数更改为3（背景，图形和文本），并微调最后一层。我们的二元MFCN模型在非文本（背景和图形）、文本和图形区域的 IoU得分分别达到94.5%、91.0%和77.1%，优于其他模型。SectLabel数据集的比较（表5）。Luong等. [35]首先使用Omnipage [2]定位和识别文本行，然后预测每行的基于语义的标签报告每个类别的F1评分。为了公平比较，我们使用相同的文本行边界框集，并使用平均像素预测作为每个文本行的标签。我们的模型在章节标题（0.919 VS0.916），标题（0.893 VS 0.781）和列表（0.793 VS0.712）方面取得了更好的F1分数，同时能够识别图表。7. 结论提出了一种用于文档语义结构提取的多模态全卷积网络（MFCN）。该模型使用视觉和文本信息。此外，我们提出了一种有效的合成数据生成方法，产生每像素地面实况。我们的无监督辅助任务有助于提高性能，利用未标记的真实文档，促进更好的表示学习。我们表明，多模态方法和无监督任务都有助于提高性能。我们的研究结果表明，我们已经提高了国家的艺术在以前建立的基准。此外，我们还公开提供了大型合成数据集（135，000页）以及新的基准数据集：DSSE-200。确认这项工作始于肖扬在Adobe Research实习期间。这项工作得到了NSF资助CCF 1317560和Adobe SystemsInc.的支持。5326引用[1] 艾比https://www.abbyy.com/网站。2[2] 全方位https://goo.gl/nDQEpC网站。二、八[3] Wikipedia. https://dumps.wikimedia.org/网站。五、六[4] A. Amin和R.阿秀利用自下而上的方法进行页面分割和分类。国际图像与图形学杂志，1（02）：345-361，2001. 一、二[5] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在Proceedings of the IEEE International Conference onComputer Vision，第2425-2433页，2015年。3[6] A. 安东纳科普洛斯，D. 布赖森，C. 帕帕多普洛斯，S.普莱查彻用于文档布局分析性能评估的真实数据集2009年第10届国际文件分析和识别会议，第296IEEE，2009年。二、五、六[7] A. 安东纳科普洛斯角克劳斯纳角帕帕多普洛斯，S.普莱查彻icdar2015复杂布局文件识别竞赛。在文档分析和识别（ICDAR），2015年第13届国际会议上，第1151-1155页。IEEE，2015年。6[8] D. S. Bloomberg 和 L. 文森特文档图像应用程序。Morphologie Mathmatique，2007. 8[9] P. Bojanowski，E.Grave，A.Joulin和T.米科洛夫用子词信息丰富词向量。arXiv预印本arXiv：1607.04606，2016。6[10] S. S.布哈里F. Shafait和T. M.布鲁尔改进的多分辨率形态学文本图像分割算法。在IS T/SPIE电子成像中，第78740 D-78740 D页。国际光学与光子学学会，2011年。8[11] S. Changpinyo，W.- L. Chao湾Gong和F.煞用于零射击学习的合成分类器。arXiv预印本arXiv：1603.00550，2016年。3[12] K. Chen，M. Seuret，M. Liwicki，J. Hennebert，and R.在-金。使用卷积自动编码器对历史文档图像进行页面分割。在文档分析和识别（ICDAR），2015年第13届国际会议上，第1011-1015页。IEEE，2015年。2[13] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv预印本arXiv：1412.7062，2014。三、七[14] A. 康威页面语法和页面解析。文档布局识别的句法在文档分析和识别，1993年，《第二届国际会议记录》，第761-764页。IEEE，1993年。2[15] C. Cortes 和 V. 瓦普尼克支持向量网络。 Machinelearning，20（3）：273-297，1995. 2[16] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在IEEE计算机视觉和模式识别会议论文集，第2625-2634页，2015年。3[17] F. C. Fern a'ndez和O. R. 我错了使用相对位置特征的文档分段在模式识别5327（ICPR），2012年第21届国际会议，第1562- 1565页。IEEE，2012。8[18] J. L. 费雪。分割文档图像的逻辑结构描述文件分析和识别国际会议论文集，第302-310页，1991年。2[19] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。神经信息处理系统的进展，第2121-2129页，2013年。3[20] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在跟机器说话吗？多语言图像问题的数据集和方法。神经信息处理系统的进展，第2296-2304页，2015年3[21] J. Ha，R. M.哈拉里克和我T.菲利浦通过边界框项目记录页面分解。在文档分析和识别，1995年，第三次国际会议记录，第2卷，第1119-1122页。IEEE，1995年。一、二[22] J. Ha，R. M.哈拉里克和我T.菲利浦使用连接组件的边界框进行递归xy切割。在文档分析和识别，1995年，第三届国际会议记录，第2卷，第952- 955页。IEEE，1995年。一、二[23] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。3[24] R. Ingold和D.阿曼吉尔一种自顶向下的文档分析方法，用于逻辑结构识别。国际文献分析与识别会议，第41-49页，1991年。2[25] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。5[26] M. Iyyer，V.Manjunatha，J.Boeon-Graber和H.道姆三世。深度无序组合可以与文本分类的句法方法相媲美。在计算语言学协会的会议记录，2015年。4[27] A. Joulin、E. Grave，P. Bojanowski，and T.米科洛夫有效的文本分类技巧袋。 arXiv 预印本 arXiv ：1607.01759，2016。4[28] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在IEEE计算机视觉和模式识别会议论文集，第3128-3137页，2015年。3[29] M. Krishnamoorthy，G.Nagy，S.Seth和M.Viswanathan科技期刊数字化页面的句法切分与标注。 IEEETransactionsonPatternAnalysisandMachineIntelligence，15（7）：737-747，1993。2[30] F. Lebourgeal，Z. Bublinski和H. Emptoz。一种从无约束文档中提取文本、段落和图形的快速有效的方法。模式识别，1992年。第二卷。会议B：模式识别方法-第11届IAPR国际会议，第272-276页。IEEE，1992年。一、二[31] J. Liang，R.罗杰斯河M.哈拉里克和我T.菲利浦Uw- isl文档图像分析工具箱：一个实验性的装置。在文档分析和识别，1997年，5328第四届国际会议记录，第2卷IEEE，1997年。2[32] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在欧洲计算机视觉会议上，第740-755页。Springer，2014. 三、五[33] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在 IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页，2015年。3[34] Z. Lu，Z.傅氏T.Xiang，山核桃P.汉湖，澳-地Wang和X.高. 从弱和噪声标签中学习语义分割。2016. 3[35] M.- T. Luong，T. D. Nguyen和M.- Y.堪萨斯州具有丰富文档特征的学术文章中的逻辑结构恢复。数字图书馆系统的多媒体存储和检索创新，270，2012。二、六、八[36] J. Mairal，J.Ponce，G.Sapiro，A.Zisserman和F.R. 巴赫.监督字典学习。神经信息处理系统，第1033-1040页，2009年。3[37] M.马林诺夫斯基，M。Rohrbach和M.弗里茨问问你的神经元：基于神经的方法来回答有关图像的问题。在IEEE国际计算机视觉会议论文集，第1-9页，2015年。3[38] S. Mao、毛萼草A. Rosenfeld和T.卡农戈文档结构分析算法：文献调查在Electronic Imag-ing 2003中，第197-207页。国际光学与光子学学会，2003年。2[39] T. Mikolov，K. Chen，G. Corrado，J。Dean.向量空间中词表示的有效估计。arXiv预印本arXiv：1301.3781，2013。4[40] T. 米科洛夫岛 Sutskever，K. Chen，G. S. 科拉多，还有J·迪恩单词和短语的分布式表示及其组合性。神经信息处理系统的进展，第3111-3119页，2013年。4[41] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集，第1520- 1528页3[42] G.帕潘德里欧湖C. Chen，K. Murphy和A. L.尤尔。基于弱监督和半监督学习的dcnn语义图像分割。arXiv预印本arXiv：1502.02734

下载后可阅读完整内容，剩余1页未读，立即下载