端到端无监督文本图像盲去噪研究

138 浏览量更新于2023-10-15 收藏 2.82MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7888我我我我我我端到端无监督文本图像盲去噪1*Marcin Plata 2*Hamid R Motahari Nezhad 1Nigel P Duffy11 Ernst& Young（EY）LLP USA2 EY GDS（CS）Poland Sp. z o.o.{Mehrdad.J.Gangeh，Hamid.Motahari，Nigel.P.Duffy} @ ey.comMarcin. gds.ey.com摘要去除扫描页面中的噪声是将其提交给光学字符识别（OCR）系统之前的重要步骤大多数可用的图像去噪方法在需要噪声/干净页面对的情况然而，这种假设在实际环境中很少得到满足此外，目前还没有一种单一的模型能够有效地去除各种噪声从文件中的类型。在这里，我们提出一个统一的端到-最终无监督深度学习模型，首次可以有效地去除多种类型的噪声，包括椒盐噪声，模糊和/或褪色的文本，以及来自各种强度级别的文档的水印。我们证明，该模型显着提高了扫描图像的质量和OCR的几个测试数据集上的页面。1. 介绍在企业的正常业务过程中，要审查数以百万计的电子文档，例如合同和发票。它们中的很大一部分是包含各种类型的噪声的扫描文档，包括椒盐（SP）噪声，模糊或褪色的文本，水印等。文档中的噪声严重降低了光学字符识别（OCR）及其后续数字化和分析的性能自动化文档分析的第一步是使用图像处理技术（如图像去噪和恢复）来提高其质量。大多数文献将注意力放在从图像中去除噪声[25]（例如，自然场景）而不是文本文档。然而，由于文本文档的性质非常不同，这些技术可能不能直接应用。在图像恢复问题中，退化函数和噪声都可能影响图像的质量[8]。示例包括去模糊、衰减和修复。如果在特殊情况下，没有退化函数，则问题将是纯图像去噪问题（例如，S P噪声去除）。目前最先进的（SOTA）解决方案，用于*平等贡献年龄恢复问题是基于卷积神经网络（CNN）的判别模型，自动编码器及其变体，如REDNet（残差编码器解码器网络）[19，7]，DnCNN（去噪卷积神经网络）[29]和RDN（残差密集网络）[30，31]。这些溶液通常可以配制如下：argminΣΣL。f（xj;θ）=y（j，yjΣ（1）J我其中Xj是指从噪声图像Xi中提取的噪声块，yj和yj 分别是目标和预测的干净块，f和θ是指CNN及其参数。半径。然而，这种方法的主要缺点是需要干净的目标图像/文档的可用性，这在现实世界的文档中很难解决。在文献中，噪声/清洁对通常通过向清洁图像/文档添加一些合成噪声来制备。然而，合成噪声并不能完全模拟真实图像/文档上的噪声，因此，在这些合成数据上训练的网络的性能是次优的，并且在真实的噪声图像/文档上严重退化[12，28]。为了解决噪声/干净对的缺乏，已经提出了噪声到噪声（N2 N）[15]、噪声到空隙（N2 V）[13]和噪声到自身（N2 S）[3，14]训练策略。然而，这些解决方案基于噪声是加性零均值和/或在像素之间独立的假设[15，13，14]。这仅涵盖特定种类的去噪问题，因此，不直接适用于一般的图像恢复问题，包括衰减和去模糊。此外，在N2N方法中，需要同一文档页面的至少两个噪声实例，这在真实设置中不容易获得。在设计用于文档图像清理的端到端解决方案时存在若干挑战：1）噪声/干净对不可用，因此，不能采用基于判别模型的标准SOTA解决方案。2)在文档中存在不同强度级别（类内变化）的各种伪影。3)我们更希望有一个基于一个体系结构的单一模型和一个训练策略，即，一个统一的解决方案来解决θ角7889噪声/退化问题（盲去噪/恢复），而不是针对每种噪声类型单独训练的单独模型。训练多个模型提出了将包含特定工件的文档路由到正确的模型以进行图像清理的问题。本文通过引入一种端到端的无监督图像盲去噪算法来解决这些挑战，该算法提出了一个单一的统一模型来去除各种噪声类型，而不需要成对的噪声/干净页面。主要贡献如下：1. 我们提出了一种新的统一架构，通过集成深度混合的专家与周期一致的GAN作为基础网络。我们制定了一个新的损失函数的建议模型。2. 据我们所知，所设计的统一模型是第一个去除各种伪影的模型，包括噪声（诸如S P噪声）和退化（例如，褪色和模糊的文本或水印）（图像盲去噪）。3. 我们在不需要噪声/干净图像的情况下，在实际的噪声文档（而不是具有合成添加噪声的文档）上训练了模型，在几个公共和内部文档数据集上对其进行了评估，并在包含各种伪影的真实文档上展示了其出色的性能。2. 相关工作2.1. 判别方法用于图像去噪的深度学习技术通过判别模型和CNN/自动编码器架构来实现。 Dong等人[6]提出了一个最早的基于CNN的图像去噪模型，在应用中使用几个堆叠的卷积层减少压缩伪影。从那时起，已经提出了各种CNN的架构和修改来改进图像去噪，包括名为残差编码器-解码器（RED- Net）[19，7]的模型中的跳过对称连接，采用批量归一化和残差学习的CNN 去噪（DnCNN）[29]，残差密集网络（RDN）[30，31]，小波CNN [16]，特征注意力[1]和双残差网络（DRN）[17]。例如，使用DRN [17]，作者为每个特定的去噪任务重新设计了一个网络，包括加性高斯噪声去除，去模糊，去雾和雨滴去除。区别性方法的主要问题是它们需要噪声/干净对。2.2. 生成对抗方法基于生成对抗网络（GANs）[9，2]的方法最近被用于以几种不同的方式减轻对噪声/干净对的例如，Chen等人[5]建议从以下估计噪声分布使用GAN平滑有噪声补丁的部分并生成噪声样本。他们通过将估计的噪声样本添加到干净的补丁中来组成噪声/干净的图像对，这些补丁被连续用于训练CNN进行去噪。他们声称GAN估计的噪声比通常在判别方法中添加的合成噪声更真实。Cha等人[4]更进一步，使用GAN估计噪声补丁（而不是噪声样本）。这减轻了对具有干净图像的要求。对于同一块/图像的两个不同的噪声实例，他们使用N2 N训练策略[15]来训练CNN进行图像去噪。两种先前的方法仅适用于噪声是零均值、加性的并且独立于干净图像的情况，这是使它们仅适用于图像恢复问题的子集而不是一般图像恢复问题的强烈要求。2.3. 文档中的图像去噪用于文档图像清理的区别性方法包括用于去模糊的基于CNN的方法[21]，基于U-网[20]的方法，其用交替的卷积层和递归层替换编码器和解码器块之间的跳过连接以用于有效的特征提取[18]，基于CNN的两阶段方法，其中第一阶段是对去模糊的类型进行分类，第二阶段是将其删除[11]，以及条件GANs（cGANs）[26，24]，这是一种有监督的图像到图像转换方法[10]。特别是DE-GAN [24]，最近基于具有修改的损失函数的cGAN提出，在二值化、去模糊和水印去除方面具有有希望的结果。然而，包括DE-GAN在内的所有这些方法都需要通过将损坏添加到干净页面/补丁来生成的噪声/干净对，并为每个工件类型训练一个模型。Sharma等人[22]基于周期一致性GAN的拟议文档这种方法不需要噪声/干净对，但是，他们使用这些对训练模型[22]。此外，他们为每种噪声/伪影类型训练了一个模型，而我们为所有类型的伪影训练了一个模型。3. 方法3.1.问题陈述这里，我们用两个语句来表达文档图像清理的一般问题：问题陈述1-在实际设置中，有许多干净的文档，它们与可用的噪声页面不配对。主要的问题是我们是否可以在我们的解决方案中利用这些干净的文档。我们可以用公式表示这个问题：有两个不成对的文档集合，一个集合由噪声文档（X）组成，另一个集合由干净文档（Y）组成，并且知道这两个集合是不成对的，我们可以将一个集合7890Hi=1Fj=1YX → Y Y → X∈C∈X∈Y∈ X × C∈ Y∈ ∈ XNN--FH∗联系我们我1、…LFH即，我们计算h=Σ（g）K*h，其中h是一个我LF有另一个人的风格这个问题可以被公式化为无监督的图像到图像的翻译。最近，已经有几个解决这个问题的建议，其中最突出的一个是基于周期一致性GANs（或简称周期GANs）[33]。事实上，在该解决方案中，与我们的问题更相关的是将噪声文档的样式转换为干净文档，使得我们从这些文档中去除/恢复噪声/降级，同时保留它们的文本内容。问题陈述2-噪声文档X可以包含若干不同的噪声类型。我们的主要目标是设计一个可以处理所有这些噪声类型的单一模型。在我们的解决方案中，我们提出将深度混合的实验者集成到循环GAN中。对于基本CNN（例如，交叉熵损失），2）浅嵌入网络的交叉熵损失，以及3）选通网络的L13.4. 建议的架构：集成循环- GAN和深层MoE为了设计一个统一的图像清理模型，以消除各种噪声类型的文件，我们建议将深度MoE与cycle-GAN集成为基础模型。图1b描绘了所提出的架构的草图。所提出的体系结构中的基循环GAN的组件包括：两个发生器，即，前向H和后向F发生器，以及两个鉴别器DY和DX。其它组分，即，嵌入器E，3.2. 周期一致性GANs分类器C和门网工作gH*=G{1，…L H}和假设存在分别取自噪声图像和干净图像的两个域的两组未配对的文档图像XiN和yjM。循环GAN [33]由两个生成器组成：前向（H）和后向（F）生成器，以及两个对抗鉴别器DY和DX。生成器将数据从一个域变换到另一个域，即， H：和F：。对抗鉴别器的目的是区分生成器的输出和真实数据，即，DY的目的是区分H（x）和y，而DX试图区分F（y）和x。cycle-GAN中的目标函数基于两个损失：将图像风格从一个域变换到另一个域的GAN损失，以及保留图像内容的循环一致性损失。3.3. 专家的深度混合gF* =G{}（L_H和L_F分别是H和F生成器中的卷积层的数量）构造架构中的深度MoE的元素。3.4.1流水线体系结构公式我们的目标是学习生成器函数，该生成器函数基于输入噪声图像x生成经清理/恢复的图像y。每个噪声图像由一种类型的噪声标记，其由cx 定义。在我们的实验中，噪声/缺陷的类型是S P噪声，模糊，褪色的文本，或水印文件。在流水线训练期间，我们对由噪声图像及其标签（x，cx）和干净的未配对图像y1组成的元组进行采样。管道中的第一步是获取嵌入式-ding向量ex通过应用噪声图像x到嵌入器，即ex=E（x）。接下来，我们计算为了解决问题陈述2，即，设计-选通网络输出gi=Gi（e我）∈RH对于i∈H Hx+使用单个统一模型，可移除不同类型的{1，. . .，L}和gi=Gi（e我）∈RF对于i∈噪声从文件，我们建议使用混合的experts模型。一种简单的方法是将单独训练的循环GAN（针对每种噪声类型）与顶部的集成学习相结合（图1a）。专家的这种模型级组合导致了一个非常复杂的模型，需要与噪声类型数量一样多的循环GAN。在这里，我们提出了一种替代解决方案，具有更低的复杂性，基于专家的深度混合（深度HF Fx+1、. . .，L F，其中N i是指输出的数量。生成器H中的第i个卷积层中的信道。嵌入器网络还基于嵌入向量预测输入图像x 的标签 cx ，即， cx=C（ex）.管道的后续步骤应用门控净工作gH*和gF*分别到循环GAN发生器H和F。这生成了经清理的图像为H（x，g1，. . . ，gLH）和噪声图像为MoEs）[27]。Deep MoE在单个模型和1个HH内运行将每个通道（例如CNN的通道）视为专家。它将标准的单层MoE模型扩展到单个CNN内的多层。Wang等人[27]导出了卷积层中的门控通道与专家的经典混合之间的等价性。深度MoE由三个主要部分组成：1）基本卷积网络，2）浅嵌入网络，以及3）多头稀疏门控网络（关于深度MoE的体系结构，参见[27]中的图1）。用于深MoE的优化函数基于最小化三个损失：（1）损失F（y，g F，. . . ，g）。在这两个生成器中，我们用MoE卷积层替换标准卷积层t+1Ntttt ttoi=1嗨嗨嗨第t个卷积层的输出张量，并且第i个通道上的张量;是卷积算子，并且表示用于第t层和第i通道的核。鉴别器的工作方式与原始-nal cycle-GAN，即 DX（x）∈ [0，1]和DY（y）∈[0，1]。1我们的解决方案在训练期间不需要目标干净图像我们使用一些元数据（噪声类型）来训练嵌入器。7891ΣE[G（E（x））]。xX1LMoEMoe×× ××个FFHHFHΣ(a)（b）第（1）款图1：（a）一个简单的方法，用于混合循环GANs专家（b）拟议统一模式的架构和分别指H和F的第i个卷积层的输出张量扁平矩形是完全连接的层，而其他组件，即DX、DY、E是CNN。3.4.2损失函数公式首先，我们定义两个附加函数来公式化具有深MoE层的循环GAN生成器：此外，我们将训练深度MoE层所需的损失函数公式化如下：LMoE（E，G*，G*，C，X，C）=HMoE（x，x）= H（x，G1（E（x）），. . . ，G LH（E（x），⑵HH和MoE（y，x）= F（y，G1（E（x）），. . . ，GLF（E（x）。（三）Ex，cxX，C[CrossEntropy（C（E（x，cx）））]LH+λGExX[Gl（E（x））1]l=1（八）注意，仅噪声图像X被提供给嵌入处理器。DER和选通网络。同样的论点出现两次在方程。(2)为了保持与Eq.（三）、接下来，我们制定了一个新的损失函数LGAN+λGFLFLFl=1HMoE，DY，X，Y如下：MoE最后，提出了训练目标函数的总体和最终目标函数。集成周期GAN和深MoE层由下式导出：LGAN（H，DY，X，Y）=EyY[logDY（y）]+ExX[1−logDY（HMoE（x，x））]，（4）结合方程中给出的损失(7)和（8）：类似地，我们可以如下定义FMoE的LGANL周期-GAN（HMoE部，女MoE ，DX，DY，X，Y）LGAN（FMoE，DX，Y，X）=ExX[logDX（x）]+λMo ELMo E（E，G*H，G*F，C，X，C）. （九）+EyY，xX[1−logDX（FMoE（y，x））]。（5）另一方面，循环一致性损失循环HMoE和FMoE的定义如下：Lcyc（H，F，X，Y）=4. 实现细节4.1. 模型架构循环GAN网络采用[33]中解释的九个区块的ResNet为ExX[FMoE（HMoE（x，x），x）−x1]（六）用于发电机。鉴别器网络是+EyY，xX[HMoE（F MoE（y，x），x）− y1].70 70Patch-GAN [10]，将70 70个重叠的补丁分类为真实或虚假。嵌入式网络是Cycle-GAN网络的最终目标函数是基于方程中给出的损失组合来制定的。(4)、（5）和（6）：一个7层CNN，内核大小为3 3，批量归一化和ReLU激活功能。作为嵌入器的最后一层的分类器C是具有softmax和交叉熵损失函数的全连接层，用于分类。7892MoEMoeL周期-GAN（HMoE部，女MoE ，DX，DY，X，Y）=基于它们的噪声类型对输入块进行分类（4LGAN（H，DY，X，Y）+LGAN（F，DX，Y，X）+ λcycLcyc（HMoE，FMoE，X，Y）。（七）类）。最后，门控网络是具有ReLU激活函数的全连接网络，其输入来自嵌入器的倒数第二层，即就在分类器C之前。两个有18个门控网络7893L×个×个×个±×个生成器，每个生成器9个，对应于每个生成器的块的数量。这里值得强调的是，这些网络在模型训练过程中至关重要。对于推论，即对于文档图像清理，需要一个最小模型，包括前向生成器HMoE、嵌入器E和与前向生成器HMoE相对应的门网工作gH*。这大大降低了网络复杂性在推理的网络延迟和内存占用方面。4.2. 超参数和模型训练我们的实验表明，与原始的循环GAN [33]相同，使用最小二乘损失代替GAN的负对数似然或Wasserstein损失，结果在文档图像清理应用中具有更稳定的训练和更好的性能，因此我们在训练模型期间采用了这种损失此外，与原始周期GAN相同，如Shrivastava等人所建议的。[23]中，基于50个先前生成的图像的历史而不是仅基于生成器最后生成的图像来更新鉴别器。我们根据经验设定λcyc=10，λMoE=1，并且λ GF=λ GH=0。1 .一、Adamoptimizer的批量大小为32，学习率为2 10−4。我们使用4个Nvidia Tesla V100 GPU来训练模型，大约花了1.5天完成。该模型使用PyTorch框架实现5. 实验装置和结果5.1. 训练数据集有三种主要的文档类型：非结构化（如租赁合同和科学论文）、半结构化（如发票）和结构化（如税务表格）。为了准备训练集，从我们的内部文档中选择各种类型和噪声内容的文档页面。租赁合同上最常见的噪声类型是S P噪声、模糊或褪色的文本，而税务表格和发票大多是包含水印的数字格式。表1中显示了每个类别中的页数以及有关数据集的其他详细信息。从这些页面中提取具有128像素步幅的256256像素的重叠块来训练网络。租赁合同的一组嘈杂和干净的页面是完全不成对的。对于税单和发票，从原始水印页面中提取大小为256 256像素的补丁，结果只有10%的补丁带有水印（因为只有页面的一小部分是水）。标记）。因此，我们综合地将水印添加到具有字体、文本、大小、方向（0，45）、颜色（灰色、浅灰色、红色、紫色和蓝色）和透明度（0.1到0.6的比例）的变化的4 2个干净的税务表格和发票的网格中，从均匀分布中随机选择（示例页面如图4j所示）。虽然这种方法产生了水印/干净页面对，我们在训练所提出的模型时没有使用这种信息，因为补丁是从水印和干净页面的集合中随机选择的，用于训练模型，而不管它们是如何配对的。5.2. 测试数据集为了评估训练的统一模型的性能，使用了三个数据集。数据集I：来自科学论文的100个干净和高质量的页面。这为定量评估提供了更严格控制的条件，因为原始高质量页面上的OCR可以被认为是基础事实。每一页上都用合成的方法加上了水印.数据集II：从Tobacco800数据集中选择100页[32]。这些页面最初是嘈杂的，并使用我们的统一图像清理方法进行清理。数据集III：包含各种噪声类型的300个内部噪声文档的数据集，包括SP噪声、模糊/褪色文本和水印。5.3. 评估指标由于图像清洗的最终目的是提高OCR的性能，因此我们使用OCR的改进作为模型定量评估的度量。我们使用ABBYY FineReader12作为OCR引擎，并且OCRed原始噪声文档页面以及清洁的文档页面（模型的输出）。由于字符的基本事实不可用，我们从每个页面上的字符中提取单词，并使用相对度量：在清洁页面上找到的单词被视为参考，并与嘈杂页面上的单词进行比较。然后计算两者之间的不匹配百分比作为度量以测量改善量。在原始干净页可用的情况下（例如，在数据集I）中，我们将它们作为参考与噪声（在数据集I中加水印）页面以及清洁页面进行比较。然后，我们提供相对度量作为恶化的度量。虽然这不是一个完美的度量，但它在缺乏字符的基础事实的情况下提供了合理的定量评估。我们报告了平均改善/恶化百分比、最大改善/恶化百分比以及改善/恶化超过5%和10%的页面百分比此外，由于对于数据集I，原始的干净和高质量的图像是可用的，我们还提供了峰值信噪比（PSNR）度量。5.4. 消融研究为了证明门控网络的有效性，我们提供了其输出的可视化。在图2a中，Pearson相关系数在前向门控网络的向量输出7894表1：用于训练所提出的模型的数据集的细节。文档类型租赁合约税表发票噪声类型S P模糊褪色水印水印噪声/干净页面663/11251513/1125377/11255416/54161339/1339页面大小/补丁大小调整为面片大小的最接近倍数/256 ×256噪声补丁290,119578,316137,1812,212,729542,121清洁贴片440,159数据增强与128像素(a)（b）第（1）款图2：本文中使用的门控网络对各种噪声类型的有效性。解释见正文通过在单个噪声类型上训练的模型（每个噪声类型一个周期- GAN），除了使用REDNet [19，7]清理中间图像的水印页面。所提出的模型是能够消除所有的噪声类型与-出扭曲的页面内容，有效地作为单独的模型只训练一个噪声类型。此外，对于带水印的页面，所提出的方法能够像REDNet一样好地去除水印，REDNet是一种有监督的方法，并且仅针对水印去除进行训练。5.6.定量结果对于数据集I，原始高质量页面上的OCRgH* 对于包含S P噪声（sp1）的输入图像，以及被认为是地面的真理，和OCR的水印的网页，以及清洁的网页进行了比较包含任何其他噪声类型（SP，模糊，褪色的或加水印的）。对于所有层，包含SP的两个样本之间的相关性接近于1，而这些相关性在SP和其他噪声类型之间低得多。图2b显示了一段闸网gH*的10个用于前向发生器2的第三对流层。对于每种考虑的噪声类型的两个样本，这两幅图都表明，门控网络对相同的输入噪声类型具有相似的响应，对不同的噪声类型具有不同的注意，在图2b中，一些值是0，这是选通网络上的115.5. 定性结果在这里，我们在看不见的测试补丁和页面上为各种噪声和文档类型3呈现训练模型的样本输出。图3描绘了针对四个不同伪像的经清洁的补丁（连同有噪声补丁的对应输入）的样本，所述伪像包括SP噪声、模糊的、褪色的文本和水印。从这些结果可以观察到，所提出的训练模型可以有效地清洁包含各种强度水平的各种伪影的补丁。图4显示了清理页面的样本以及相应的噪声页面输入。最右边的图像是由所提出的方法生成的清洁页面中间的图像是生成的经过清理的页面2补充文件中提供了所有层的响应3补充资料中提供了更多结果这是事实结果在Ta中提供。表2.平均而言，所提出的统一图像清理提高了ABBYY OCR的性能约三倍。当比较原始页面和清洁页面时，OCR质量的相对变化的低百分比表明所提出的算法在去除水印和减少由于页面上的水印而导致的OCR错误方面的有效性。我们将我们提出的方法与REDNet [19，7]和DE-GAN [24]作为两种代表性的判别方法进行比较。我们分别使用表1中指定的带水印的税务表格训练了 REDNet 和 DE-GAN，并在Dataset I上进行了测试，以与我们的结果进行比较。在该比较中，我们应该考虑的是，REDNet和DE-GAN都仅以监督的方式在加水印的税单/干净对上进行了训练，而所提出的方法已经以非监督的方式在所有噪声类型（包括SP、模糊/褪色文本和水印）和所有文档类型上进行了然而，所提出的方法的性能仅略逊于REDNet，优于DE-GAN。所提出的方法优于DE-GAN，主要是因为DE-GAN通过设计从输入中去除颜色。由于页面上的水印可以是彩色的，因此DE-GAN更难去除它们。此外，为了证明MoE在我们提出的训练一个单一模型以去除多种噪声类型的方法中的有效性，我们将所提出的方法与没有深度MoE的标准循环GAN [33，22]进行比较，并且还与我们的方法进行比较。7895(a)（b）第（1）款(c)（d）其他事项图3：对于具有（a）SNP噪声、（b）水印、（c）模糊和（d）褪色文本（以数字格式和放大最佳可见）的补丁，在补丁级的训练模型的噪声输入和清洁输出。(a)(b)（c）第（1）款（d）（e）（f）(g)（h）㈠(j)（k）（l）图4：噪声输入（左图像）、使用单独模型（中间图像）或REDNet（用于加水印的页面）的清洁输出，以及针对具有（a）SNP噪声、（d）模糊文本、（g）褪色文本和（j）水印（以数字格式和放大最佳可见）的页面在页面级提出的统一模型（右图像）。在没有分类器C的情况下的所提出的方法（两者都以与所提出的方法相同的方式表2中的结果表明，所提出的方法也优于这两个网络。这表明，从嵌入器的最后阶段移除分类器C使得训练嵌入器效率较低，并且使模型的整体性能劣化分类器C仅支持训练嵌入器网络E，并且该嵌入具有两个重要功能：（a）允许正向发生器MoE适应各种噪声类型（由（b）向反向生成器MoE通知要添加到其输入干净图像的噪声的类型。在标准循环GAN中，关于噪声的信息存储在去噪图像中。在多种噪声类型的情况下，这会混淆后向生成器，而嵌入器的功能是避免这种混淆。数据集II和III既没有原始的干净页面，也没有地面实况OCR。然而，ABBYY在原始噪声页面和相应的清洁页面上的相对OCR性能用于评估7896表2：在数据集I上使用相对度量和PSNR对所提出的模型进行定量评估的结果。最好的结果，在这种情况下是较低的数字为基于OCR的指标和较高的数字为PSNR，清洁的文件相比，与原来的清洁，突出显示。措施原始vs水印（%）原始与清洁（%）红色-净[7]DE-GAN [24]循环-GAN [22]建议w/o分类器提出平均恶化（%）7.711.843.747.852.542.55最大恶化（%）53.096.9919.7033.3314.739.93Perc. 的页+5%变质70314671210+10%变质27053430PSNR35.6537.6437.4336.5237.9938.33表3：使用数据集II和III的相对度量对所提出的模型进行定量评估的结果最好的结果，在这种情况下是更高的数字，因为清洁的文档与原始的噪声进行比较，突出显示。措施数据集II数据集III清洁与原始（%）清洁与原始（%）循环-GAN [22]cycle-GAN（顺序）提出循环-GAN [22]cycle-GAN（顺序）提出平均改善（%）5.946.037.26.307.109.52最大改善（%）39.0252.5463.0648.1757.9866.94Perc. 的页+5%改善374252525867+10%改善222428374249提出的模型的性能。结果示于表3中。使用所提出的方法平均，OCR分别提高了7.2%和9.52%的数据集II和此外，两个数据集上超过50%的页面在OCR中获得超过5%的改进，这是使用所提出的统一模型清洁页面的结果。至于与其他方法的比较，在文献中没有一个单一的模型，可以消除所有这些噪声类型。此外，像REDNet或DE-GAN这样的判别模型不能用于比较，因为它们需要噪声/干净对进行训练，这在这里不可用。尽管如此，我们将所提出的方法与使用标准循环GAN的两种替代方法进行比较：1）与先前在数据集I上的实验相同，使用由具有各种噪声类型的所有块组成的训练集来训练一个单循环GAN（没有深度MoE）。2)具有顺序训练的标准循环GAN：由于难以使用训练集中的所有噪声类型来训练标准循环GAN，所以我们首先在更难以学习的噪声类型（例如，S P）几个时期。然后，我们停止训练，并再次使用可以更容易去除的噪声类型的补丁（如褪色/模糊的文本）重新开始。虽然这种顺序训练策略与此外，“顺序”训练是启发式的找到最佳的步骤数，以及每个步骤中从表3中可以看出，所提出的模型在提高清理页面的OCR质量方面明显优于替代作为最后一句话，所提出的算法的推理延迟在一个GPU（Nvidia Tesla V100）上进行基准测试。平均而言，清理一个页面需要4.49秒。6. 结论在本文中，我们提出了一个端到端的无监督多文档图像盲去噪，提出了一个统一的模型，以消除各种文物从所有的文档类型，而不需要任何目标配对清洁页。我们制定了损失函数的模型，并证明它可以成功地消除文物，提高OCR的各种文档类型。该模型具有较低的复杂度和推理延迟。在未来的工作中，我们将取代嵌入器和分类器组件的自动编码器为基础的方法，以训练嵌入向量在无监督的方式。免责声明本文所反映的观点是作者的观点，并不一定反映全球安永组织或其成员所的观点7897引用[1] 赛义德·安瓦尔和尼克·巴恩斯。具有特征注意力的真实图像去噪。在IEEE International Conference on ComputerVision（ICCV），第3155-3164页[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein 生成对抗网络第 70 卷， Proceedings ofMachine Learning Research，第214PMLR。[3] Joshua Batson和Loıc Royer。Noise2self：通过自我监督进行盲去噪。在机器学习研究论文集，第2124-2132页[4] Sungmin Cha，Taeeon Park，Byeongjoon Kim，JongdukBaek和Taesup Moon。GAN2GAN：用于单噪声图像盲去噪的生成噪声学习，2021。[5] 陈静雯，陈嘉伟，赵宏阳，杨明。基于生成对抗网络噪声建模的图像盲去噪在IEEE计算机视觉和模式识别会议（CVPR）中，第3155- 3164页[6] Chao Dong ， Yubin Deng ， Chen Change Loy ， andXiaoou Tang.通过深度卷积网络减少压缩伪影。在IEEEInternational Conference on Computer Vision（ICCV），第576-584页[7] Mehrdad J. Gangeh ， Sunil R. 斯里达尔？季亚古拉Dasaratha，Hamid Motahari，and Nigel P.达菲使用自动编码器的文档增强系统。在2019年NeurIPS的文档智能研讨会上[8] 拉斐尔角Gonzalez和Richard E.伍兹. 数字图像处理（第三版）。普伦蒂斯-霍尔公司USA，2006.[9] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville 和 Yoshua Bengio 。生成性对抗网。在Proceedings of the 27th International Conference onNeural Information Processing Systems - Volume 2，NIPS麻省理工学院出版社.[10] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR）中，第5967-5976页[11] Jile Jiao，Jun Sun，Naoi Satoshi.基于卷积神经网络的两级文档去模糊。在International Conference on DocumentAnalysis and Recognition（ICDAR），第01卷，第703-707页[12] Yoonsik Kim ， Jae Woong Soh ， Gu Yong Park ， andNam Ik Cho. 通过自适应实例归一化将学习从合成噪声降噪转移到真实噪声在IEEE计算机视觉和模式识别会议（CVPR）中，第3479-3489页[13] Alexander Krull，Tim-Oliver Buchholz，and Florian Jug.Noise 2 void-从单个噪声图像中学习去噪。在IEEE计算机视觉和模式识别会议中，第2124-2132页[14] Samuli Laine，Tero Karras，Jaakko Lehtinen，and TimoAila.高质量的自监督深度图像去噪。In H. Wallach，H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和R.Garnett，编辑，神经信息进展处理系统，第6970-6980 页。 Curran Associates ， Inc.2019年。[15] Jaakko Lehtinen 、 Jacob Munkberg 、 Jon Hasselgren 、Samuli Laine、Tero Karras、Miika Aittala和Timo Aila。Noise2Noise：学习没有干净数据的图像恢复机器学习研究论文集第80卷，第2965-PMLR。[16] Pengju Liu，Hongzhi Zhang，Kai Zhang，Liang Lin，and Wangmeng Zuo.用于图像恢复的多级小波神经网络。在IEEE计算机视觉和模式识别研讨会（CVPRW）会议上，第886-895页[17] Xing Liu ， Masanori Suganuma ， Zhun Sun ， andTakayuki Okatani.双残差网络利用图像恢复的成对操作在IEEE计算机视觉和模式识别会议（CVPR）中，第7000-7009页[18] Bharat Mamidibathula和Prabir K.比斯瓦斯SVDocNet：用于盲文档去模糊的空间变量U-Net。在2019年NeurIPS的文档智能研讨会上[19] Xiao-Jiao Mao，Chunhua Shen，Yu-Bin Yang.使用具有对称跳跃连接的非常深的卷积编码器-解码器网络的图像恢复。In D.D. 李，M。Sugiyama，U.诉勒克斯堡岛Guyon 和 R.Garnett ，编辑， Advances in NeuralInformation Processing Systems ，第2802-2810 页CurranAssociates，Inc. 2016年。[20] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在N.Navab，J.Hornegger，W.M. Wells和A.F. Frangi，编辑，MedicalImage Computing and Computer-Assisted Intervention（MICCAI），第234施普林格国际出版社.[21] Mi c halHrad is，JanKotera，PavelZem c'ık，andFilipSroubek.用于直接文本去模糊的卷积神经网络。在X. Xie，M.W. Jones和G.K. L. Tam，编辑，英国机器视觉会议（BMVC）论文集，第6.1-6.13页BMVA Press，September 2015.[22] Monika Sharma、Abhishek Verma和Lovekesh Vig。学习清洁：GAN视角。In G.卡内罗和S. You ，编辑， Proceedings of Asian Conference onComputer Vision（ACCV）Workshops，第11367卷，计算机科学讲义，第174-185页[23] Ashish Shrivastava，Tomas Pfister，Oncel Tuzel，JoshuaSusskind，Wenda Wang，and Russell Webb. 通过对抗训练从模拟和无监督图像中在proc IEEE计算机视觉和模式识别会议（CVPR），第2242-2251页，2017年。[24] Mohamed A. Souibgui和Yousri Kessentini。DE-GAN：一个用于文档增强的条件生成对抗网络 IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页[25] Chunwei Tian，Lunke Fei，Wenxian Zheng，Yong Xu，Wang- meng Zuo，and Chia-Wen Lin.图像去噪的深度学习：概述。神经网络，131：251-275，2020。[26] D. Vishwanath，Rohit Rahul，Gunjan Sehgal，Swati，Arindam Chowdhury，Monika Sharma，

下载后可阅读完整内容，剩余1页未读，立即下载