深度阴影去除网络：BEDSR-Net

183 浏览量更新于2023-10-25 收藏 5.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1BEDSR-Net：一种单文档图像深度阴影去除网络林云萱林文钦陈永玉庄*国立台湾大学摘要消除文档图像中的阴影可以提高文档数字副本的视觉质量和可读性。大多数现有的文档图像阴影去除算法使用手工制作的算法，并且对于具有不同特征的文档来说是不鲁棒的。本文提出了背景估计文档阴影去除网络（BEDSR-Net），这是第一个专门为文档图像阴影去除而设计的深度为了充分利用文档图像的特殊性，设计了一个背景估计模块来提取文档的全局背景颜色在估计背景颜色的过程中，该模块还学习关于背景和非背景像素的空间分布的信息。我们将这些信息编码成注意力地图。利用估计的全局背景颜色和注意力图，阴影去除网络可以更好地恢复无阴影图像。我们还表明，在合成图像上训练的模型对真实照片仍然有效，并提供了大量文档的合成阴影图像及其相应的无阴影图像和阴影掩模。大量的定量和定性实验表明，BEDSR-Net在提高文档图像的视觉质量和可读性方面优于1. 介绍文件在我们的日常生活中是不可或缺的，无处不在例子包括报纸、收据、论文、报告和许多其他的东西.经常需要获得文件的数字副本在过去，扫描仪通常用于以优异的质量数字化文档。随着手机的普及和相机的改进，越来越多的人倾向于使用手机相机代替扫描仪来获取文档的数字副本，因为它们容易获得。*这项工作得到了FIH Mobile Limited和科学技术部（MOST）的支持，资助号为107-2221-E-002-147-MY 3和109-2634-F-002-032。(a) 阴影图像(b)Ground Truth（C）Our(d)克利格勒[16](e)巴科[1](f)[28]第二十八话一个去除文档阴影的例子。先前的方法，Kligler等人，s方法[16]，Bakoet al.s方法[1]和ST-CGAN [28]在其结果中表现出诸如阴影边缘（d）、颜色洗出（e）和残留阴影（f）我们的结果(c)具有少得多的伪影并且非常接近地面实况无阴影图像（b）。与扫描仪相比，使用手机摄像头捕获文档通常存在两个问题。首先，文档的几何形状可能由于相机视角而失真并且不是直角的。此外，文档可以折叠或弯曲。存在用于校正和展开捕获的文档的方法，使得它们在形状上变成矩形[18，27，19]。其次，捕获的文档图像容易受到阴影的影响，因为光源经常被相机或用户的手阻挡。即使没有遮光器，在现实世界中拍照时，文档上的照明也常常是不均匀的。因此，手机摄像头拍摄的文档图像通常会出现阴影和不均匀的阴影，导致视觉质量和可读性不佳。用户通常更喜欢具有均匀照明的文档，类似于他们可以使用扫描仪获得的文档，扫描仪在良好控制的照明环境中拍照。本文研究了文档图像的阴影去除问题，以提高捕获文档的质量和可读性。阴影消除是一个重要的计算机视觉问题，因为阴影往往会降低视觉的性能。1290512906解算算法虽然大多数阴影去除方法是针对自然图像提出的，但有些方法是专门针对文档图像设计的。大多数现有的文档阴影去除算法使用一些算法来探索文档图像的特定特征[3，30，22，21、1、16、15]。不幸的是，由于手工制作的图像处理的局限性，它们通常对某些文档图像工作得很好，但对其他文档图像却失败了。因此，他们的结果经常表现出不同类型的文档图像的不同类型的伪影。图1给出了一个示例，其中图1(a) 是输入阴影图像，图1（b）是相应的无阴影图像。图1（d）显示了Kligler等人的结果。的方法[16]，其中一些阴影保留在阴影和非阴影区域之间的边界周围。图1（e）显示了Bako等人的结果。的方法[1]，在该方法中，颜色被洗掉，并且一些浅色阴影边缘保留在去除阴影的结果中。为了解决手工制作的视觉问题，最近，深度学习已被用于许多视觉问题。然而，尚未针对文档阴影去除进行探索，尽管存在相当多的用于自然图像的基于深度学习的阴影去除方法[23，28，13]。ST-CGAN是一种最先进的自然图像阴影去除方法[28]。给定一组阴影图像、无阴影图像和阴影掩模的训练三元组原则上，用于自然图像的阴影去除方法也可以用于文档图像。然而，将深度学习应用于文档阴影去除存在两个问题。首先，它需要大量成对的文档图像进行训练。其次，性能将是次优的，因为这些方法不利用文档图像的特定属性。作为示例，即使在利用阴影/无阴影的文档图像对以及阴影掩模进行训练之后，ST-CGAN仍然无法重新覆盖适当的无阴影图像，如图1（f）所示阴影区域仍然存在，尽管它变得更亮。虽然最近的阴影去除方法[6，17]比ST-CGAN表现更好，但它们通常使用ImageNet上的预训练模型因此，它们在文档图像上与ST-CGAN具有相同的问题。本文提出了第一个基于深度学习的文档图像阴影去除方法。为了解决关于训练数据的第一个问题，我们建议使用合成图像。这样，更容易获得具有很大变化的大规模训练集。通过广泛的实验，我们证明了在合成图像上训练的深度模型对真实世界的图像仍然有效为了利用文档图像的特定特性，灵感来自Bako等人。[1]，我们提出了一个网络模块，用于估计全局背景颜色的因为大多数文档都有一个单一的背景颜色，通常是纸张的颜色。通过探索全局属性，背景估计模块还以注意力图的形式发现关于阴影位置的信息。利用估计的背景颜色和注意力图，我们的阴影去除模块可以更好地执行阴影去除任务。大量的实验表明，该方法不仅在视觉质量上优于现有方法，而且提高了文档的可读性。如图1（c）所示，我们的方法更鲁棒，伪影更少我们的贡献包括：• We propose the first deep learning approach forshadow removal of document images, which outper-forms state-of-the-art methods.通过探索文档图像的特殊属性，我们的模型估计的背景颜色和注意力地图作为第一步。该信息被证明是有用的，在提高图像质量和减少模型参数。此外，通过探索注意力地图，所提出的模型不需要阴影掩模进行训练，从而减少了收集训练数据的工作量，并降低了掩模不准确的风险。• 我们提供了一个大规模的数据集的图像三元组组成的阴影图像，相应的阴影的图像，和阴影掩模。图像是用图形渲染器合成的。源代码、数据集和预训练模型将被发布。• 我们通过对不同研究小组收集的不同特征的真实图像进行彻底的实验，证明了2. 相关工作2.1. 自然图像的阴影去除Finlayson等人提出了照明不变的方法，可以很好地去除阴影，以获得高质量的图像[8，7]。Guo等提出了一种通过寻找具有相似材料的阴影和非阴影区域之间的关系并通过重新照明来消除阴影的方法[11]。Gong等提出了一种使用两个粗略用户输入的高质量阴影去除的交互式方法[9]。 Gryka等人专注于去除软鲱鱼，使用基于学习的方法和用户提供的笔画[10]。最近，已经提出了几种基于深度学习的方法用于自然图像阴影去除，并且它们在该领域实现了最先进的性能[23，28，13，17]。Qu等人提出了Deshad-owNet，它利用多上下文信息来消除图像中的阴影[23]。Hu等人提出了方向感知空间上下文（DSC）模块[13]，该模块应用空间递归神经网络模型[2]，12907i=1背景估计网络（BE-Net）全局最大池RGBConv层梯度图W1W 2W n背景颜色加权和注意力图U-Net发电机阴影图像鉴别器阴影消除网络（SR-Net）无阴影图像图2. BEDSR-Net的架构。它由两个子网组成：BE-Net用于估计文档的全局背景颜色，SR-Net用于去除阴影。给定输入阴影图像，BE-Net预测背景颜色。作为一个副产品，它会生成一个注意力地图，描绘每个像素属于无阴影背景的可能性在注意力地图的帮助下，我们的模型消除了与输入阴影图像一起，估计的背景颜色和注意力图被馈送到SR-Net中，用于确定输入阴影图像的无阴影版本从四个方向获得2D空间上下文然而，由于这些模型[23，13]使用在自然图像上预训练的VGG作为其骨干模型，因此它们不太适合文档图像。Wang等人引入了ST-CGAN，它被训练为同时执行阴影检测和去除任务[28]。ST-CGAN使用堆叠的条件生成对抗网络的架构，其中两个cGAN将相互促进以提高两个任务的性能。最近，自监督学习也被引入到自然图像的阴影去除中，例如ARGAN [6]和Mask- ShadowGAN [12]。虽然有效地消除阴影，在自然图像，他们不是专门为文档图像。因此，如实验所示，即使在对文档图像进行重新训练之后，它们在文档图像阴影去除方面的性能也是次优的。2.2. 文档图像的阴影去除一些方法已经被专门设计用于文档图像的阴影去除。一种方法是基于固有图像的概念，并通过降低具有相似反射分量的区域中的亮度对比度来Jung等人提出了注水方法，其灵感来自于地形表面与水的浸没过程[15]。然而，该方法往往会导致颜色偏移，并且结果比它们应该的要亮得多。Kligler等人提出了一种增强文档图像质量的方法，Oliveiraet al. [22]和Bakoet al. [1]的文件。Bako等人的方法通过计算每个补丁的全局和局部背景颜色之间的比率来获得阴影图，然后使用阴影图调整输入阴影图像[1]。由于这些方法检测背景区域并在其余区域执行插值，因此当文档包含大面积的图形或被大面积的阴影覆盖时，它们会本文提出了第一种从单个文档图像中去除阴影的深度学习方法。通过利用数据的力量，我们的方法比现有的方法更强大。3. 方法本文提出了一种用于去除单个文档图像中阴影的BEDSR-Net（Background Estimation Document ShadowRemoval Network）。训练集D={Si，Ni}N由N个图像对（Si，Ni）组成，其中Si是阴影图像，而Ni是其对应的非阴影图像。经过培训后，BEDSR-Net形成了一个函数BESSR（S），其接受阴影图像S并返回近似于真实非阴影图像N的预测非阴影图像N。图2显示了archi-BEDSR-Net的结构，包括两个子网络，BE-Net（背景估计网络）和SR-Net（阴影消除网络）。给定输入阴影文档-图像S，BE网络，（文档的全局背景颜色为cnb，而es-将图像表示为3D点云，并使用vis-cloud，估计注意力图H它描述了选择要恢复的像素的非线性检测方法[16]。但是，在其结果中通常会保留阴影边缘。在假定背景颜色不变的情况下，采用直接插值法对文档图像进行阴影重构。每个像素属于文档的无阴影背景。给定阴影图像S和BE-Net的输出（b，H），SR-Net，N=SR （S，（b，H）），预测无阴影图像N作为最终输出。129083.1. 背景估计网络（BE Net）灵感来自Bakoet al。[1]，我们还尝试恢复文档的背景颜色，并使用它来辅助阴影去除过程。Bako等人该方法使用颜色分析法通过分析颜色分布来估计背景颜色。当文档被大面积阴影或彩色图形覆盖时，为了解决这些问题，我们使用深度网络来对背景颜色进行更鲁棒的估计。所提出的BE-网络将阴影图像S作为输入，并估计预测的背景颜色Bpb。为了训练BE网络，我们需要识别训练集D中每个文档图像对（Si，Ni）的真实背景颜色bi。这可以通过要求用户手动拾取属于非阴影图像Ni中的背景的区域并计算所拾取区域的平均颜色来实现。为了减轻手工工作，我们使用以下程序自动获得地面实况背景bi。首先，我们将非阴影图像Ni的像素根据它们的强度值聚类成两组。对于聚类，我们采用高斯混合模型（GMM）与期望最大化（EM）。这两组通常分别对应于内容和背景。文档的背景色通常比较亮.因此具有较高强度的簇被作为背景簇。由于图像Ni不包含阴影，我们可以使用背景聚类的平均颜色作为训练集中第i个图像对的背景颜色bi我们发现该程序在经验上运作良好。因此，对于训练集中的每个图像对，我们使用该过程获得其背景颜色bi。该程序是为了加快地面实况收集。如果启发式失败，例如，当文档具有深色背景时，用户可以校正结果。更明亮的背景颜色并不是我们模型本身的假设。给定阴影图像Si及其背景颜色bi，我们可以通过最小化以下成本以监督的方式训练我们的BE网络，在估计背景的过程中，BE-Net还学习了有关无阴影背景和其他背景的空间分布的知识，这为指示阴影的潜在位置提供了额外的为了利用这些信息，我们通过将Grad-CAM方法[25]应用于BE-Net中最后一个卷积层的特征图来提取注意力图。如图2所示，注意力图确实很好地捕捉了阴影图像中无阴影推断的注意力地图还揭示了关于阴影位置的线索，并且可以发挥阴影掩模的作用。在它的帮助下，与其他阴影消除网络（如ST-CGAN）不同，我们的模型不需要地面真实阴影掩模进行训练。它提供了节省制备荫罩的工作量和避免荫罩中潜在误差的优点请注意，阴影蒙版通常是使用一些几何学从阴影和非阴影图像中导出的，因为它不能直接捕获。因此，它可能包含错误。3.2. 阴影消除网络（SR Net）为了从阴影图像中恢复无阴影图像，我们采用了条件生成对抗网络（cGAN）[20]，该网络已在许多任务中显示出有效性，例如图像到图像的转换。cGAN模型由两个参与者组成：发生器G和判别器D。给定一个条件变量，生成器G的目标是产生逼真的图像来欺骗CNOD，而CNOD试图将G生成的图像与数据集中的真实图像区分开来。竞争增强了生成器产生的结果与真实图像无法区分。对于生成器G，我们采用U-Net模型[24]，这是一个完全卷积的神经网络，由编码器和解码器组成。来自解码器的特征将通过在每个空间分辨率处的跳过连接与来自编码器的特征组合我们对编码器和解码器都使用了五级层次结构。生成器G采用阴影图像的级联Si、预测的背景颜色λbi和注意力ZH地图作为输入，然后预测非阴影图像L颜色 =bi−我˜ ˜ ˜i=1从而从阴影图像Si估计的预测背景颜色Bbi=BbE（Si）近似于真实背景颜色Bi。如图2所示，我们的BE-Net由四个卷积层组成，然后是全局最大池化层和全连接层。卷积层从输入阴影形象我们采用全局池机制将每个特征图汇总为一个值。通过使用全局池-Ni = G(Si, bi, Hi). 在劳动力市场方面，马尔可夫链（PatchGAN）[14].D的输入是阴影图像Si和配对的非阴影图像Ni的6通道级联。为了训练SR-Net，使用以下损失，L =λ1L数据+λ2LGAN，（2）其中L数据测量预测的非阴影图像与真实图像的偏差，为了桥接卷积层和全连接层，我们的网络可以处理不同大小的图像L数据 =ESi，NiPdata（Si，Ni）||Ni -尼吉||.（三）12909数据集配对数量特性巴科[1]81 灯光阴影/仅克利格勒[16]300 黑色阴影/彩色符号Jung [15]87 多重投射阴影RDSRD540 复杂内容/阴影SDSRD8,309 合成的，多样化的照明和内容表1. 文档阴影消除数据集：Bako [1]，Kligler [16]，Jung [15]，我们的RDSRD和SDSRD，在图像对和特征的数量方面。LGAN是G和D竞争的GAN损失，LGAN=ESi，NiPdata（Si，Ni）[logD（Si，Ni）]+E[log（1-D（S，N））].（四）SiPdata（Si）i iAdam用于优化。参数经验地设置为λ1=1和λ2=0。01.在训练之后，生成器G用于生成SR-Net的输出，即，G.S.R.4. 数据集虽然目前已有一些文档图像阴影去除的数据集，但它们仅用于评估，且规模较小。表1总结了用于文档阴影去除的数据集。以前的数据集没有大量的图像。然而，训练深度模型需要足够的数据。我们的模型需要成对的阴影和无阴影图像。在现实世界中捕获这样的对是可能的，但耗时，因为它需要仔细控制。此外，受人为努力的限制，它不太可能提供文档内容、照明条件和阴影复杂度变化很大的图像。由于目前的图形算法已经可以真实地渲染阴影，我们探索了使用合成图像进行训练的可能性。4.1. 合成文档阴影消除数据集为了拥有大量变化很大的文档图像，我们使用Blender [5]和Python脚本合成文档图像。为了提供文档类型和内容的变化，我们收集了970个文档图像，大部分来自PRImA布局分析数据集[4]。对于每个文件，我们合成了几个阴影图像使用不同的照明条件和遮挡。由于图像被合成，所以可以容易地获得无阴影图像和阴影掩模。我们合成了总共8，309个阴影图像、无阴影图像和阴影掩模的三元组。他们被分为两组，7,533人接受培训，776人接受测试。我们称之为合成文档阴影消除数据集（SDSRD）。SD-SRD的训练集请注意，训练BEDSR-Net不需要阴影遮罩。我们生成阴影掩模，因为训练 ST-CGAN 需要它们。图 3 给出了SDSRD的示例。图3. 来自SDSRD的示例三联体。它提供的图像在形状和强度上都具有复杂的阴影从上到下，图像分别是无阴影图像、阴影图像和阴影遮罩。图4. 来自RDSRD的示例三元组。这些图像在形状上包含复杂的阴影从上到下，图像是无阴影图像、阴影图像和阴影蒙版。4.2. 真实文档阴影消除数据集为了对具有更多变化的真实图像进行评估，我们还收集了真实文档阴影去除数据集（RDSRD）。这些图像是使用索尼RX 100 m3和手电筒拍摄的，所有这些都是在三脚架上拍摄的，以确保固定的位置。相机通过WiFi使用遥控器触发，以避免在捕获期间触摸相机。该数据集由25个文档的540幅图像组成，包括纸张、报纸和幻灯片，在不同的照明条件和遮挡物下。图4给出了RDSRD的示例。此数据集仅用于评估。5. 实验本文介绍了比较的方法和指标，并从视觉质量和内容保存两个方面对它们进行了比较。12910背景估计网络（BE-Net）跨信道R全球最大G合并BConv层背景颜色G1G2输入图像无阴影图像荫罩ST-CGAN模块图5.ST-CGAN-BE的架构。5.1. 比较方法和评价指标我们比较我们的BEDSR-Net与四个国家的最先进的方法，包括三个传统的文件阴影去除方法由Bako等人。[1]，Kligleret al. [16]和Junget al. [15]和一种最先进的基于深度学习的自然图像阴影去除方法ST-CGAN[28]。为了进行公平的比较，我们使用了作者提供的公开源代码。在这四种方法中，ST-CGAN是唯一一种没有公开源代码的方法。因此，我们自己复制它。该实现已经使用他们的数据集进行了验证，并达到了与他们论文中报告的相似的性能。为了显示背景估计模块的重要性，我们将我们的BE-Net合并到ST-CGAN中，并将其命名为ST-CGAN-BE。图5显示了它的体系结构。ST-CGAN有两个生成器，G1用于阴影检测，G2用于阴影去除。训练G1和G2分别需要阴影遮罩和无阴影图像。估计的背景颜色被馈送到ST-CGAN-BE中的注意，注意力图不包括在ST-CGAN-BE中。所有基于学习的方法都使用SDSRD的训练集进行训练。我们从两个角度对比较的方法进行了视觉质量和内容保存。对于视觉质量，我们使用峰值信噪比（PSNR）和结构相似性（SSIM）指标作为度量。为了评估内容保存，我们测试了光学字符识别（OCR）技术在恢复的无阴影图像上的性能一般来说，如果内容恢复得更好，OCR应该能够识别更多的内容。5.2. 定量评价表2报告了五个数据集上的计算方法的定量比较以及PSNR和SSIM的平均值。我们的BEDSR-Net在大多数数据集上都优于其他数据集。对于RDSRD，SDSRD和Kligler特别是，我们的模型在Kligler的数据集上显著击败了其他方法，该数据集包含非常暗的阴影和彩色文本。对于Bako和Jung的数据集，他们的方法实现了最佳性能。然而，它们在其他数据集上的性能可能很差。例如，Bakoet al.s方法在Jung的数据集上表现不佳另一方面，Junget al.在Bako数据集上的所有比较方法中，P.S.的方法是这些方法都是从统计学中衍生出来的，它们的数据集通常更好地匹配其统计学的特征。我们的模型非常有竞争力，在Bako和Jung的数据集上，只有很小的差距。总的来说，我们的方法比以前的方法更强大，因为它为具有不同特征的图像提供了稳定和我们的模型基于U-Net。作为消融研究，表2报告了在监督设置下在 SDSRD 上训练的 U-Net 的性能。BEDSR-Net的性能远远优于U-Net，这表明我们的性能不仅仅来自U-Net的架构和训练数据。作为另一项消融研究，我们的ST-CGAN-BE与ST-CGAN相比的优越性能此外，从ST-CGAN-BE到BEDSR-Net的显着性能增益表明，预测注意力图提供了比ST-CGAN-BE的第一个生成器生成的阴影掩模更有用的信息。最后，BEDSR-Net实现了更好的性能比ST-CGAN与更少的参数，19.8M的BEDSR-Net，和38.9M的ST-CGAN。5.3. 视觉质量的定性评价对于视觉比较，图6示出了所比较的方法的若干阴影去除结果尽管Bakoet al.的方法在定量评估中表现良好，但它不能恢复具有彩色文本（示例#7）或大面积阴影（示例#3）的图像。Bakoet al.'的方法和Kligler等人 '的方法在存在强阴影时显示剩余的阴影边缘（示例#3和#4）。Jung的方法经常导致结果中的严重颜色偏移。它的结果往往比地面实况无阴影图像显着明亮颜色被洗掉，对比度降低。ST-CGAN在有大阴影时会遇到问题（示例#3和#4）。虽然我们的模型是从单一的主背景颜色的假设，它的效用并不像它出现的限制。由于整个文档作为整体被捕获为图像，因此在内容和背景之间没有明显的区别以图6的示例#7为例，可以以两种方式来解释：（1）在白纸上的十个彩色数字和颜色梯度区域，或者（2）在具有颜色梯度的白纸上的十个彩色数字。对于第二种解释，有多种背景颜色，我们的方法仍然获得了很好的结果。只要文档图像中存在主导均匀颜色，我们的方法仍然可以很好地工作我们认为，具有这样一个特点的文件代表了现实世界的一个显着的一部分作为证据，我们在现有的文档数据集上广泛地测试了我们的方法，独立地，12911图6. 竞争方法的视觉比较：Bako [1]，Kligler [16]，Jung [15]，ST-CGAN [28]，我们的ST-CGAN-BE和BEDSR- Net，在十张图像上，其中（1）-（2）来自Bako，（3）-（7）来自Kligler，（8）来自Jung和（9）-（10）来自SDSRD的测试集12912平均SDSRD RDSRD Bako数据PSNR SSIMPSNRSSIM PSNR SSIM PSNR SSIM输入阴影图像22.03 0.865222.80 0.899221.73 0.809328.45 0.974219.310.842920.35 0.8850巴科[1]30.01 0.923131.55 0.965828.24 0.866435.22 0.982329.660.905123.70 0.9015克利格勒[16]0.808122.03 0.843522.53 0.705626.50 0.838126.450.848124.45 0.8332Jung [15]17.04 0.799017.06 0.822614.45 0.705413.88 0.805919.210.872428.49 0.9108[24]第二十四话0.898533.63 0.972828.35 0.867626.68 0.883323.330.782923.09 0.8399ST-CGAN [28]0.940839.38 0.983430.31 0.901629.12 0.960025.920.906223.71 0.9046ST-CGAN-BE0.952142.98 0.993832.32 0.905433.90 0.980132.500.933826.45 0.9080BEDSR-Net0.953443.59 0.993533.48 0.908435.07 0.980932.900.935427.23 0.9115表2. 使用PSNR和SSIM的视觉质量的定量比较。我们比较我们的模型，BEDSR-Net和ST-CGAN-BE，与四个竞争力的方法。每个数据集的最佳分数以红色粗体标记，而第二个最佳分数以蓝色标记(a) 阴影图像（b）我们的结果图7.一个带有棕褐色背景和大人物的例子。由几个团体收集。我们的方法在所有数据集上都获得了优异的性能，即使其中大部分不是我们收集的。图7给出了具有棕褐色背景和实质性图形的示例。如果没有单一的主色，例如完全具有颜色梯度的纸张，我们的方法可能会然而，这是一种罕见的情况，大多数现有的方法也可能失败。此外，当文档完全处于阴影中，或者存在由多个灯光投射的复杂阴影时，我们的方法可能会失败图8（a）给出了在不受控制的环境中由移动电话捕获的文档图像。图8（b）显示了估计的背景颜色。图8（c）显示了预测的注意力图，其中红色表示无阴影背景，而蓝色表示有阴影的背景和非背景区域。两者都忠实地捕捉输入图像的真实特征。在他们的帮助下，BEDSR-Net成功地恢复了图8（d）中的无阴影图像。5.4. 内容保存评价我们还评估了如何通过报告OCR性能恢复的阴影免费图像的文件的可读性增强。在实验中，使用了188幅带有文本的图像。首先，我们应用开源OCR工具[26]来识别地面真实无阴影图像的文本和比较方法的结果。然后，我们通过使用Levenshtein距离（也称为编辑距离）比较文本字符串来测量OCR性能。(a) 输入（b）背景（c）注意力（d）我们的结果图8。一个真实的例子，在不受控制的环境。我们的BEDSR-Net很好地恢复了无阴影图像，注意力地图表明，地面和非背景像素非常好。方法输入Bako Kligler Jung ST-CGAN BEDSR-Net距离551.9 50.293.292.5133.138.5表3.输入图像的平均编辑距离，Bako等人s方法[1]，Kligleretal.s方法[16]，Junget al.的方法[15]，ST-CGAN [28]和提出的BEDSR-Net。如表3所示，BEDSR-Net的表现优于其他系统，表明它不仅提高了视觉质量，而且通过更好地保留结构和内容提高了文件的可读性。请注意，该测试是为了验证我们的方法如何保留内容并提高文档可读性，而不是达到最先进的OCR性能。6. 结论本文提出了BEDSR-Net，这是第一个用于去除文档图像阴影的深度学习模型 For explor- ing specificpropertiesofdocuments,weproposeBE-Netforbackground color estimation.它还产生一个 attention 地图，这是有效的指示阴影的位置。在估计的背景颜色和注意力图的帮助下，我们的模型在视觉质量上达到了最先进的性能。它还提高了文档图像的可读性。对于具有很大多样性的文档图像的训练，我们使用合成数据集训练我们的模型，并表明训练后的模型适用于真实图像。在未来，我们希望探索非配对训练，处理更复杂背景的文档，并将背景估计模型应用于文档布局识别。12913引用[1] Steve Bako，Soheil Darabi，Eli Shechtman，Jue Wang，Kalyan Sunkavalli，and Pradeep Sen.从文档的图像中去除阴影。在Proceedings of Asian Conference on ComputerVision（ACCV），第173-183页[2] Sean Bell，C Lawrence Zitnick，Kavita Bala，and RossGir- shick.内外网：用跳跃池和递归神经网络检测上下文中的对象。在IEEE计算机视觉和模式识别会议论文集，第2874-2883页[3] Michael S.布朗和尤-查·泰戈尔利用边界元对印刷品图像进行几何和阴影校正。 IEEE Transactions on ImageProcessing，15（6）：1544[4] Christian Clausner ， Apostolos Antonacopoulos ， andStefan Pletschacher. ICDAR 2017关于识别具有复杂布局的文档的竞赛-RDCL 2017。第14届国际文件分析与识别会议（ICDAR）论文集，第1卷，第1404-1410页，2017年。[5] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，2018年。[6] 丁斌，龙承江，张玲，肖春霞。ARGAN：用于阴影检测和去除的注意递归生成对抗在IEEE国际计算机视觉会议（ICCV）的会议中，第10213-10222页[7] 格雷厄姆·D作者：Mark S.德鲁和程璐。熵最小化的阴影消除。国际计算机视觉杂志，85（1）：35[8] 格雷厄姆·D作者：Steven D. Hordley，Cheng Lu，andMark S. Drew. 关于去除图像中的阴影。 IEEETransactionsonPatternAnalysisandMachineIntelligence，28（1）：59[9] 韩功和达伦·科斯克。交互式阴影消除和地面真理的可变场景类别。英国机器视觉会议（BMVC），2014年。[10] Maciej Gryka、Michael Terry和Gabriel J.布罗斯托学习如何去除柔和的阴影。ACM Transactions on Graphics（TOG），34（5）：153，2015。[11] Ruiqi Guo，Qieyun Dai，and Derek Hoiem.用于阴影检测和去除的配对区域 IEEE Transactions on PatternAnalysis and Machine Intelligence ， 35 （ 12 ）： 2956-2967，2012.[12] Xiaowei Hu，Yitong Jiang，Chi-Wing Fu，and Pheng-Ann Heng. Mask-ShadowGAN：学习从未配对的数据中移除阴影。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第2472-2481页，2019年。[13] Xiaowei Hu ， Lei Zhu ，Chi-Wing Fu ，Jing Qin ， andPheng-Ann Heng.用于阴影检测的方向感知空间上下文特征。在IEEE计算机视觉和模式识别会议（CVPR）中，第7454-7462页[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。InProceedings of the IEEE Conference计算机视觉和模式识别（CVPR），第1125-1134页，2017年。[15] Seungjun Jung，Muhammad Abul Hasan，and ChangickKim. 注水：一种有效的数字化文档阴影去除算法. 在亚洲计算机视觉会议（ACCV）的会议记录中，第398-414页[16] Netanel Kligler，Sagi Katz，and Ayellet Tal.文档增强使用可见性检测.在IEEE计算机视觉和模式识别会议（CVPR）的会议中，第2374-2382页[17] Hieu Le和Dimitris Samaras。通过阴影图像分解去除阴影在IEEE国际计算机视觉会议（ICCV）中，第8578-8587页，2019年。[18] 作者：Shijian Lu，Ben M.陈先生及高志忠先生。使用模糊集和形态学运算的文档图像透视校正。Image andVision Computing，23（5）：541[19] 马可，舒志新，白雪，王珏，萨马拉斯.DocUNet：通过堆叠的U-Net进行文档图像解扭曲。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[20] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[21] Daniel Marques Oliveira和Rafael Dueire Lins。一种新的便携式数码相机文档去阴影和二值化方法。第三届基于相机的文档分析和识别国际研讨会论文集，第3-10页，2009年[22] DanielMarques Oliveira，Rafael Dueire Lins，and Gabrielde Fran c. 插图文档的阴影效果。在图像分析和识别国际会议（ICIAR）的会议记录中，第308-317页[23] Liangqiong Qu ， Jiandong Tian ， Shengfeng He ，Yandong Tang，and Rynson W.H.刘DeshadowNet：一个用于阴影消除的多上下文嵌入深度网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第4067-4075页，2017年[24] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-Net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议（MICCAI）论文集，第234-241页。施普林格，2015年。[25] Ramprasaath R Selvaraju，Michael Cogswell，AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra.Grad-CAM：通过基于梯度的本地化从深度网络中进行可视化解释。在 IEEE 国际计算机视觉会议（ICCV）的会议记录中，第618-626页[26] 雷蒙德·史密斯通过制表位检测的混合页面布局分析第10届国际文档分析与识别会议论文集（ICDAR），第241-245页，2009年[27] Yuandong Tian和Srinivasa G.纳拉希姆汉弯曲文档图像的校正和3D重建。在IEEE计算机视觉和模式识别会议（CVPR）上，2011年。12914[28] Jifeng Wang，Xiang Li，and Jian Yang.用于联合学习阴影检测和阴影去除的堆叠条件生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1788-1797页[29] Qingxiong Yang，Kar-Han Tan，and Narendra Ahuja.使用双边滤波去除阴影 IEEE Transactions on Imageprocessing，21（10）：4361[30] 放大图片作者：Li Zhang，Andy M.叶和周林丹使用修补及径向基函数曲面拟合去除相机文档图像中的阴影失真在Proceedings of the 9 th International Conference onDocu- ment Analysis and Recognition（ICDAR），第2卷，第984-988页

下载后可阅读完整内容，剩余1页未读，立即下载