古代手写文档布局分析的高效少样本学习方法

162 浏览量更新于2023-10-16 收藏 2.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3680用于像素精确手写文档布局分析的高效少样本学习Axel De Nardin1，Silvia Zottin1，Matteo Paier1，Gian Luca Foresti1，EmanuelaColombi1，Claudio Piciarelli11乌迪内大学{denardin. zodin.silvia，paier. marteo} @ spes.uniud.it{gianluca.foresti，emanuela.colombi，claudio.piciarelli} @ uniud.it摘要版式分析是古代手写文献分析中最重要的任务，也是简化后续任务（如光学字符识别和自动抄写）的基本步骤。然而，许多解决这个问题的方法依赖于完全监督学习范式。虽然这些系统在此任务上实现了非常好的性能，但缺点是整个训练集的像素精确文本标记是一个非常耗时的过程，这使得这种类型的信息在现实世界的场景中很少可用。在本文中，我们通过提出一个有效的少次学习框架来解决这个问题，该框架在公开可用的DIVA-HisDB数据集上实现了与当前最先进的完全监督方法相当的性能。1. 介绍文献图像版面分析是人文社会对古代手稿研究的一项非常重要的任务[21]。特别地，将给定文档图像的页面分割成语义上有意义的区域（例如，主文本、注释、装饰和背景）允许他们更容易和更快地学习文档，并且代表了简化后续任务（例如光学字符识别[16]和自动转录[11]）的基本步骤。当参考历史手稿时，文档布局分析是一项特别具有挑战性的任务。与机器印刷的文献[19]相比，古代文献表现出许多变化，如布局结构，装饰和不同的写作风格。例如，在许多手稿中，正文与增补、更正和边缘或线间的注释[21]，通常由不同的作者在不同的时间。此外，历史文档页面经常由于老化、墨水污渍、噪音、划痕和保存不良而遭受高度退化[9]。除了所有这些因素之外，即使是古代文本的图像采集也可能不适合照明问题或不一致性和扫描曲线问题[2]。由于图像的不均匀性和完整性，许多用于解决该问题的方法依赖于完全监督的学习范式[15，24，18]。虽然这些系统在此任务上实现了非常好的性能这些注释所代表的地面实况（GT）对于训练和评估文档分析方法至关重要缺点是，历史文档页面的整个数据集的像素精确注释需要特定的领域知识，并且是非常耗时的过程，使得这种类型的信息在现实世界场景中很少可用尽管如此，少数镜头学习方法仍然在文献中探索这项任务。本文解决了所有上述问题，提出了一种新的少拍学习框架，有效的像素精确的布局分割的历史文件。特别是，我们提出了两个原始贡献：首先是动态实例生成过程，其目的在于提供一种有效地利用在这种情况下可用的有限数据的方法，其次是分段图细化过程，其提供一种提高由所采用的模型提供的注释预测的精度的方法。通过将这两个组件与强大的DeepCNN骨干网络相结合，我们能够实现与当前最先进的完全监督方法所获得的性能相当的性能。本文的其余部分组织如下。第23681(a) CSG18页码（b）CSG863页码（c）CB55页码(d)CSG18详细信息（e）CSG863详细信息（f）CB55详细信息图1：DIVA-HisDB数据集中的3份手稿（CSG 18、CSG 863和CB 55）样本[22]。图1a- 1c示出了每个手稿的完整页面，而图1a-1c示出了每个手稿的完整页面，而图1a-1c示出了每个手稿的完整页面。图1d-1f显示了从其中每一个中提取的细节。给出了一个概述的一些相关工作，页面分割的历史文档图像。第三节描述了定义拟议框架的三个组成部分。第4节报告了我们的实验设置的细节，以及提供了所获得的结果的概述最后，在第五节中，对本文的工作进行了总结，并对今后的工作进行了展望。2. 相关工作已经提出了许多不同的方法来处理布局分析，特别是手写的历史文档。本节回顾了一些具有代表性的历史文档图像分割的最新方法。一般来说，用于文档布局分析的技术通常分为三类：自下而上、自上而下和混合[3]。自底向上策略从较小粒度的数据级别（如像素和连接组件）动态地导出文档分析。然后，分析增长以形成更大的文档区域，并且一旦它达到页面分割成具有统一元素的不同区域就停止。这些技术是灵活的，并且不需要布局结构的任何先验知识。然而，通常，它们需要许多标记的训练数据，而这些数据通常是不可用的，特别是在历史文档领域。需要高度专业化的专业知识来标记数据。相反，自顶向下的方法假设页面具有定义良好的结构和布局。然后考虑文档页面结构的各种特征，例如文本区域之间的空白、文本块的大小然后，页面分割过程从整个页面开始，并将其切割成区域以产生小的均匀区域。一般来说，自顶向下的方法很容易应用，但不适合复杂的布局，如手写的历史文档。此外，这些方法依赖于文档的布局结构，因此它们具有较低的泛化能力。尽管对该技术的研究已经很成熟，但仍然存在许多具有挑战性的问题，无论是自下而上还是自上而下的策略都无法适当解决。出于这个原因，混合战略已经被确定，并从其他两个主要类别的整合中衍生出来多年来，从经典的计算机视觉算法到深度学习方法，已经使用了许多技术来解决这一任务Chen等人[5]使用卷积自动编码器直接从像素强度值学习特征。然后，利用这些特征训练支持向量机，得到高质量的分割结果，3682文档布局的特定拓扑和形状的任何假设。Mehri等人提出了一种不同的方法，该方法也允许执行布局分析。[15]该方法基于纹理特征的学习。该方法利用简单的线性迭代聚类超像素、Ga-bor描述子、灰度共生矩阵和支持向量机对像素进行前景和背景分类。超像素是共享相似空间和强度信息的像素集合。许多研究人员将页面分割问题视为像素标记问题，如Chen等人的工作。[4]的文件。在本文中，通过使用堆叠卷积自编码器，直接从随机选择的图像块中学习特征。利用超像素中心像素的特征训练SVM，将图像分割为四个区域。最后，利用基于连通域的平滑方法对分割结果进行细化.作者表明，通过使用超像素作为标记单元，该方法的速度得到了提高。根据[4]的相同思想，在Chenet al. [6]出于初始标记的目的，以无监督的方式利用堆叠卷积自动编码器来学习局部特征。然后采用条件随机场模型对局部信息和上下文信息进行联合建模，以提高分割效果。图节点由超像素表示，因此每个像素的标签由其所属的超像素的标签确定。另一个有趣的方法是由Xuet(a) 原始页（b）屏蔽页图2：显示来自CB 55手稿类2a的样本实例以及通过Sauvola阈值算法从其提取的相应二值化过滤器对其进行掩蔽而获得的相应al. [24]采用基于全卷积网络的多任务布局分析框架，解决页面分割问题，分割、文本行分割和基线检测问题。该框架训练一个多任务全卷积网络来预测像素级类别，并采用基于统计学的后处理来减少噪声和纠正错误分类。四个分支的预测相结合，产生的页面和文本行分割的结果。Davoudi等人[9]提出了一种用于文档布局分析的新方法该方法是一种基于字典的特征学习模型，其中稀疏自动编码器首先在历史文本文档的图像补丁上以无监督的方式进行训练然后，使用图像块的潜在表示来使用前馈神经网络将像素分类最后，Studeret al.[23]通过在来自不同地区的图像上引入和测试预训练模型的使用，然后在历史文档上对其进行微调，解决了注释数据有限的问题作者在ImageNet [10]数据库上选择了一些著名的、预先训练的语义分割网络来进行对象识别（例如，DeepLabV3[7]和SegNet [1]），并在手写文档的文本分割任务上对其进行测试。结果表明，在ImageNet上对一些手稿进行预训练可以提高性能，但在其他手稿上，预训练的网络性能要差得多。3. 该方法在本节中，我们提供了一个框架的大纲，展示了定义其有效性的关键组件。首先，我们介绍了DeepLabV3，这是一种用于分割任务的强大CNN架构，我们将其用作我们框架的支柱然后，我们讨论的动态实例生成方法，我们的训练过程中，它允许以较低的计算成本提高最后，我们介绍了细化过程中，我们应用到的分割图产生的骨干网络，以获得更精确的版本。所提出的框架的视觉表示提供在图。3.第三章。3.1. 骨干网作为所提出的框架的支柱，我们选择了DeepLabV3[7]，这是一种基于ResNet的Deep CNN架构，它采用级联或并行的atrous（扩张）卷积，具有不同的扩张级别，并广泛用于图像语义分割。与严重依赖跨越层和池化层的模型相比，这种方法允许在整个网络架构中为特征图3683×图3：建议框架的分割管道的可视化表示。在训练期间（绿色区域），每个输入图像被分成N个非重叠的大小为kk的块，这些块覆盖其整个表面并用作基线训练集。此外，在每个时期C期间，从图像随机生成输入图像的随机裁剪作为附加训练数据。然后，主干模型为这些补丁中的每一个提供预测的粗分割图，通过应用加权交叉熵损失将其与地面实况进行比较。在推理时，动态实例生成步骤被移除，而分割细化过程被应用于主干架构的输出以获得更精确的分割图。使atrous卷积在语义分割任务中有效的关键方面是，它们允许我们创建更深的网络，同时提供比传统深度CNN架构更大的输出特征图，并且不增加所需的计算量。此外，DeepLabV3网络中采用的Atrous空间金字塔池化（ASPP）模块由于采用了不同的膨胀率，提供了一种有效的方式来捕获原始图像的多个尺度的信息。3.2. 动态增强的训练数据最大限度地利用可用数据是像我们在这项工作中提出的一个少数学习系统的关键步骤。虽然使用整个图像来训练我们的模型将允许捕获关于它的全局上下文信息，但我们相信，大多数上下文信息也可以从文档页面的较小部分中检索出于这个原因，作为提高我们训练设置效率的第一步，我们决定将文档的每个页面分成一组P，该组P由覆盖整个输入图像并代表我们的基线训练集的非重叠、固定大小的补丁组成（图10）。（见第4a段）。虽然第一步允许我们将训练集的大小提高P倍，但其主要限制是单个块的大小必须足够大，以允许从原始图像的相应代表区域捕获上下文信息，从而限制P的值。为此，为了进一步提高(a) （b）随机选择的作物图4：实例生成过程的表示：4a显示了基线非重叠补丁，而4b显示了一组随机生成的裁剪。我们的训练过程在试图增强我们模型的泛化能力的同时，我们引入了一个动态实例生成过程，该过程在每个时期检索一组C个随机选择的作物，其大小与基线数据集块相同，这些作物与相应的分割图一起第4b段）。这种方法的另一个好处是，它避免了事先生成大量可能不必要的数据。特别是，这种策略背后的直觉是，我们试图生成与数据集复杂度成比例的实例数量一个复杂的数据集需要生成大量的实例才能完全表示3684它的数据的异质性，而对于一个简单的数据集，他们的数量较少就足够了。此外，仅在训练期间采用允许在仅基线补丁用于分割过程时在推断时间处维持3.3. 细分细化在手写文档分析的背景下，语义分割系统的一个常见问题是系统需要达到的精确度，以便提供文档页面的前景元素文本、装饰）。在历史文献中，这一任务变得更加困难，因为它们受到不同程度的退化，这既降低了前景和背景之间的对比度，也可能导致字符形状不太清晰。为了解决这个问题，我们在我们的推理流水线中引入了基于 Sauvola 阈值技术的分割细化过程 [20] 。Sauvola的阈值可以被看作是对Niblack算法[17]的改进，后者是专门为文档二值化设计的。该技术通过应用等式来计算灰度图像的每个像素处的局部阈值t1向定义其邻域的n×n周围像素t=mN<$（1+k<$（（stdN/R）−1））（1）在上述等式中，mN和stdN分别表示邻域的平均值和标准差，而R表示标准差的动态范围。最后，k是控制局部窗口中的阈值的恒定值，k越高，阈值与局部均值的距离越在实践中，该过程提供了一个二进制掩模，允许有效地分离图像的较暗区域，代表背面，由来自3个不同的中世纪手稿的总共150个高分辨率注释页面组成，这些手稿被识别为CSG18、CSG863和CB 55，其特征在于复杂和异构的布局以及不同程度的退化。每一类手稿的样本页在图中报告。1.在全部图像中，60个通常用于训练，30个用于验证，另外60个用于测试。对于目前的工作，我们只依赖6张图像（每张手稿2张）来训练我们的模型。DIVA-HisDB提供像素级地面实况分割（图5）对于每个页面的布局，它区分了4类元素。数据集的另一个挑战其分布的详细信息见表1。1.一、(a) 原始页（b）GT图5：图像显示：CSG863手稿类的一页（5a）和相应的地面真实掩模（5b）洋红色区域表示主要文本，而黄色和青色区域分别表示注释和装饰。地，从较轻的，代表前景。分割细化过程是通过执行由主干架构提供的分割图（其中背景类表示为0）与由Sauvola算法从相应输入图像中提取的掩模之间的逐像素乘法来执行的。图2我们展示了一个来自数据集的样本页面及其过滤版本。4. 实验在本节中，我们通过强调其特征及其带来的挑战来概述数据集，并详细描述实验采用的训练设置。4.1. 数据集选择用于训练和测试我们的系统的数据集是DIVA-HisDB数据集[22]，这是一个历史文档数据集BG注释装饰文本CB5582.418.36 0.55 8.68CSG1885.16 6.78 1.47 6.59沪公网安备31011502000114号表1：类别分布（%）。4.2. 训练和推理设置网络训练过程通过采用ADAM优化器进行，学习率为1e-3，权重衰减为1e-5。所选择的损失函数是加权交叉熵损失，其中通过在数据集中的类别频率上取1的平方根来确定每个类别的权重（等式10）。2，其中Fi表示相应类别数据集中类别的频率（%）），做出此选择是为了考虑3685.×××−数据集的类别不平衡4.5. 结果W=1iFi（二）首先，我们提出了消融研究的结果，我们进行了不同版本的拟议框架。epoch的最大数量被设置为200，从epoch 50开始，如果网络在过去的20次迭代中没有改进，则引入提前停止由于图像的高分辨率（高达4. 8k6。8kpx），已经执行了一个优化过程以降低模型的计算复杂度，并能够将它们放入 GPU内存中。图像的最终形状为 11201344px。为了训练模型，为每个手稿类选择两个图像，并将其分割为大小为224 - 224px的补丁，从而为每个手稿生成60个补丁的训练集。然后通过为每个图像生成10个相同大小的额外随机裁剪来增强该集合，作为我们动态训练例程的一部分。如果模型需要所有可用的epoch来收敛，则组成训练集的最大最终生成实例数量为4000。至于推理设置，Sauvola阈值算法选择的参数为15像素的窗口大小和k=0。1，为后一个参数选择如此低的值背后的原因是，我们希望尽可能避免将由页面降级表示的背景噪声作为生成的二进制掩码的一部分。4.3. 实验结果在本节中，我们概述了为评估所提出的框架而选择的指标，并提供了消融研究（旨在支持定义所提出的系统的选择的有效性）和与其他流行的语义分割方法（包括当前最先进的文档布局分析）的全面比较4.4. 度量用于评估所提出的方法的性能的指标是精确度，召回率，交集超过联盟（IoU）和F1分数。按照公式[24]中报告的定义，对每个类别单独计算指标。3– 6,where TP, FP and FNTP精密度=（3）TP+FPTP回忆=（4）TP+FNTPIoU=（5）TP+FP+FN特别是在Tab。2我们提供了基线方法之间的比较，该方法包括在补丁级别上运行骨干网络，但没有动态作物生成，也没有分割细化过程，以及改进的版本，其中这些策略被单独使用，并以组合的方式使用我们报告每个班级的分数以及最终的正如我们所看到的，当作为分割流水线的一部分引入时，所提出的两种策略都确定了系统性能的改善特别是，分割图细化过程，我们在图中示出了样本定性结果。6，提供了最重要的贡献，将所有指标的平均得分提高了5.5%到9%。另一方面，动态作物生成在选定指标上提供了2%的额外平均提升。最后，当组合时，这两种策略在指标上平均提高了9%，IoU得分的峰值提高了12.3%。粗体显示的值表示数据集相应类上每个指标的最佳性能系统(a) 地面实况(b) 粗预测(c) 精确预测图6：显示细分细化过程效果的定性结果。图6a示出了原始图像的缩放区域的原始地面实况。图6b示出了通过模型获得的粗分割掩模。最后图图6c示出了由细化过程产生的分割预测。在此之后，我们比较了拟议的ap-F1得分=2×精确度×召回率精确度+召回率（六）使用5种流行的语义分割模型进行处理，这些模型被证明对各种分割都是有效的3686CB55CSG18CSG863是说Prec Rec IoU F1Prec Rec IoU F1Prec Rec IoU F1Prec Rec IoU F1我们的（基线）0.846 0.843 0.757 0.825 0.911 0.918 0.851 0.9041.000 0.913 0.913 0.954 0.919 0.891 0.840 0.894Ours（w/seg.0.9620.930 0.913 0.945 0.982 0.978 0.964 0.980 1.000 0.913 0.913 0.954 0.981 0.940 0.930 0.960Ours（w/ dynamic crop gen.） 0.902 0.908 0.833 0.896 0.935 0.939 0.893 0.933 0.914 0.915 0.844 0.906 0.917 0.921 0.857 0.9120.974 0.974 0.950 0.972 0.985 0.982 0.968 0.9820.9850.984 0.971 0.984 0.981 0.980 0.963 0.980表2：消融研究结果。每行显示了我们系统的不同版本在组成DIVA-HisDB数据集的4类手稿的所有选定指标上的性能。最后四列显示了模型在不同类别中获得的平均分数。跨不同域的任务，即DeepLabV 3的原始版本[7]，其改进，由 DeepLabV 3 + [8] ， FCN [14] ， Lite ReducedAtrous Spa- tial Pyramid Pooling （ LRASPP ） [13] 和Pyramid Scene Parsing Network（PSPNet）[25]代表。此外，我们将我们的模型与当前最先进的古代文献布局分析模型进行了比较，我们将其称为MLA [24]。所有模型，不包括MLA，我们从各自的论文中收集了结果，已经由我们亲自测试，以保持训练和评估设置尽可能一致。在选项卡中。3我们提供了由上述模型得到的最终结果正如我们所看到的，所有报告的方法在精确度和召回率方面都达到了90%以上，在F1得分方面达到了84%以上，在IoU指标方面也达到了84%以上，这可以说是最值得考虑的指标，同时也是最难持续取得良好结果的指标。尽管如此，我们展示了本文中提出的框架如何能够始终如一地大幅改善其他方法获得的结果，排除MLA，同时依赖于一小部分可用的训练数据。特别是，IoU指标实现了最具影响力的改进，我们的系统能够以4.3%的优势超越竞争对手DeepLabV3+的第二个最佳性能模型，所有指标的平均改进为2.9%。此外，当与最先进的MLA（代表最有趣的com-campaign术语）相比时，我们的方法能够有效地缩小与它的差距，精度指标的差距接近0.8%，而在所有指标中平均仅超过1.6%。重要的是要记住，MLA是一个重得多的系统，它是在从可用训练集的所有图像中提取的180.000个补丁上训练的，而所提出的方法依赖于从仅2个可用图像中提取的最多4000个补丁用于其训练过程，从而将所需数据减少了45倍。最后，在图7我们为DeepLabV3+和LRASPP模型提供了一组定性结果。特别是，我们展示了三种模型产生的分割图以及表示属于数据集中存在的三类手稿的三个不同图像的放大部分上的基本事实的那些。正如我们所看到的，这三个模型在对地面真实分割图的保真度方面LRASPP生成的地图虽然正确识别Deeplabv3+提供了更精确的遮罩，特别是对于主要文本（洋红色区域），它能够正确识别字符的边界，同时它仍然在评论和装饰区域中挣扎最后，我们表明，本文提出的方法是能够正确识别所有三类前景组件，同时实现了高度的精度，所有这些跨不同类型的手稿。精确召回IoU F1法国法郎[14] 0.9180.9160.843 0.904LRSAPP [13] 0.9300.9110.854 0.910PSPNet [25] 0.9040.9100.838 0.899[7] 2018年12月0.9150.842 0.903[8] 0.9580.9560.920 0.954[24]0.9890.9950.989 0.995我们的0.9630.980表3：我们的模型和竞争对手获得的结果之间的比较，每个指标的最好和第二好分数分别是粗体和下划线5. 结论在本文中，我们提出了一个完整的框架，少镜头，像素精确的语义分割手写历史文件。特别是，我们引入了两个新的组件，它们代表了在少数学习系统的背景下解决相关挑战的有效方法。这些组件是一个动态实例生成模块，它提供了一个有效的解决方案，3687图7：显示我们的框架和竞争框架之间的定性比较的图像。每一行代表一个放大的区域，属于数据集的一个不同实例，代表其中包含的三类手稿。在第一列中，显示了3个图像的地面真值分割图，而在其余列中，我们分别提供了LRSAPP，DeepLabV3+和Ours三个系统产生的结果。解决了当只有一小组训练数据可用于系统时有效训练样本重命名的问题，以及分割细化模块，通过该模块，与主干分割网络的基线输出相比，我们能够一致地检索实质上更精确的分割图。通过将这些组件组合到最终的分割框架中，我们展示了它如何能够实现比传统设置中在整个数据集上训练的其他流行语义分割方法更好的性能，以及能够实现与之相当的到目前最先进的历史文档文本分割的挑战性DIVA-HisDB数据集上的选定指标。对于未来的工作，我们希望解决当前方法的缺点，即需要通过探索我们认为可以解决这个问题的自动化解决方案来手动选择用于分割细化过程的附加参数，同时进一步提高框架预测的质量3688引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39：2481[2] 亨利·贝尔德。数字图书馆与文献图像分析。第七届文献分析与识别国际会议，2003年。诉讼，第2IEEE，2003年。[3] Galal M Binmakhashen和Sabri A Mahmoud。文档布局分析：全面的调查。 ACM 计算调查（ CSUR ）， 52（6）：1[4] Kai Chen ， Cheng-Lin Liu ， Mathias Seuret ， MarcusLiwicki，Jean Hennebert，and Rolf Ingold.基于超像素分类和无监督特征学习的历史文档图像页面分割在2016年第 12 届 IAPR Work-shop on Document Analysis Systems（DAS），第299IEEE，2016.[5] Kai Chen ， Mathias Seuret ， Marcus Liwicki ， JeanHennebert，and Rolf Ingold.使用卷积自动编码器对历史文档图像进行页面分割2015年第13届国际文件分析和识别会议（ICDAR），第1011-1015页IEEE，2015年。[6] Kai Chen ， Mathias Seuret ， Marcus Liwicki ， JeanHennebert，Cheng-Lin Liu，and Rolf Ingold.使用条件随机场的历史手写文档图像的页面分割。2016年第15届手写识别前沿国际会议（ICFHR），第90- 95页。IEEE，2016.[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在VittorioFerrari ， Martial Hebert ， Cristian Sminchisescu 和 YairWeiss，编辑，计算机视觉施普林格国际出版社.[9] Homa Davoudi，Marco Fiorucci，and Arianna Traviglia.文档布局分析实例：自动编码器满足稀疏编码。2020年第25届国际模式识别会议（ICPR），第5936-5942页。IEEE，2021。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[11] Andreas Fischer，Markus Wuthrich，Marcus Liwicki，Volk-mar Frinken，Horst Bunke，Gabriel Viehhauser，and Michael Stolz.手写中世纪文档的自动转录。2009年第15届虚拟系统和多媒体国际会议，第137-142页。IEEE，2009年。[12] Angelika Garz ， Mathias Seuret ， Fotini Simistira ，Andreas Fischer，and Rolf Ingold.用文档图形和涂鸦交互作用为历史手稿创建基础事实。2016年第12届IAPR文件分析系统研讨会（DAS），第126-131页。IEEE，2016.[13] Andrew Howard ， Mark Sandler ， Bo Chen ， WeijunWang，Liang-Chieh Chen，Mingxing Tan，Grace Chu，Vijay Va- sudevan ， Yukun Zhu ， Ruoming Pang ，Hartwig Adam，and Quoc Le.正在搜索mobilenetv3。在2019年IEEE/CVF计算机视觉国际会议（ICCV）上，第1314-1324页[14] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在2015年IEEE计算机视觉和模式识别会议，第3431-3440页[15] 马鲁阿· 梅赫里、尼巴尔· 纳伊夫、皮埃尔·赫鲁、佩特拉·戈麦斯-克拉梅和雷米·马洛特。学习历史文档图像增强和分割的纹理特征第三届历史文件成像和处理国际研讨会论文集，第47-54页，2015年[16] 卡尔·倪帕特里克·卡利尔和布拉德利·哈奇噪声手写文档中的作者识别。2017年IEEE Winter计算机视觉应用会议（WACV），第1177-1186页。IEEE，2017年。[17] W·尼布莱克数字图像处理导论。1986年，恩格尔伍德悬崖，普伦蒂斯霍尔[18] Sofia Ares Oliveira，Benoit Seguin，and Frederic Kaplan.dhsegment：一种用于文档分割的通用深度学习方法。2018年第16届手写识别前沿国际会议（ICFHR），第7IEEE，2018年。[19] 我是拉梅尔，斯特凡·勒里切，玛丽·卢斯·德莫内和塞巴斯蒂安·布森。利用r-driv en版面分析历史印刷书籍。InternationalJournalofDocumentAnalysisandRecognition（IJDAR），9（2）：243[20] J.Sau v ola和M.亲爱的自适应文档图像二值化。Pattern Recognition，33（2）：225[21] Fotini Simistira 、 Manuel Bouillon 、 Mathias Seuret 、MarcelWürsch 、MicheleAlberti、RolfIngold和MarcusLiwicki。Icdar2017挑战中世纪手稿布局分析竞赛。2017 年第14 届IAPR 国际文件分析与识别会议（ICDAR），第1卷，第1361-1370页IEEE，2017年。[22] Foteini Simistira，Mathias Seuret，Nicole Eichenberger，Angelika Garz，Marcus Liwicki，and Rolf Ingold. Diva-hisdb：一个精确注释的具有挑战性的中世纪手稿的大型数据集。 2016 年第 15 届手写识别前沿国际会议（ICFHR），第471476. IEEE，2016.[23] LindaStuder ， MicheleAlberti ， VinaychandranPondenkan-dath ， Pinar Goktepe ， Thomas Kolonko ，Andreas Fischer，Marcus Liwicki，and Rolf Ingold.历史文献图像分析中imagenet预训练的综合研究2019年国际文件分析与识别会议（ICDAR），第720-725页IEEE，2019。[24] 徐跃，尹飞，张兆祥，刘成林，等.使用全卷积网络对历史手写文档进行多任务布局分析。在IJCAI，第1057-1063页[25] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。2017年IEEE计算机视觉和模式识别会议（CVPR），第6230-6239页

下载后可阅读完整内容，剩余1页未读，立即下载