文档去畸变与识别的傅里叶文档恢复网络

63 浏览量更新于2023-10-25 收藏 14.77MB PDF 举报

网络

三维坐标

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Abstract45730用于鲁棒文档去畸变和识别的傅里叶文档恢复0薛楚晖1，田子辰1，詹方能1，陆世健1，白松201南洋理工大学，2字节跳动0xuec0003@e.ntu.edu.sg，{zichen.tian,shijian.lu,fnzhan}@ntu.edu.sg，songbai.site@gmail.com0输入图像通过DewarpNet 通过FDRNet 真值0输入图像0现有流程提出的流程0去畸变0图像0网络0预测的3D坐标0坐标0TPS0输入图像0图像0去畸变0去畸变图像（HF）0损失0网络0损失0摘要0图1.现有的文档去畸变和提出的FDRNet：现有的文档去畸变学习预测相机文档中每个像素的三维坐标以进行去畸变，但在处理具有不规则失真或深度变化较大的文档时经常遇到困难，如右图中第2列所示。相反，FDRNet专注于文档内容的高频分量，并学习使用薄板样条（TPS）变换对整个文档进行去畸变。如右图中第3列所示，它对不规则变形和深度变化具有鲁棒性，并且需要更少的简单注释的训练数据。0最先进的文档去畸变技术学习预测文档的三维信息，但在处理具有不规则失真或深度变化较大的文档时容易出错。本文介绍了FDRNet，一种傅里叶文档恢复网络，可以以可靠且简单的方式恢复具有不同失真的文档，并改善文档识别。FDRNet专注于傅里叶空间中捕捉大部分结构信息但在外观上基本没有退化的高频分量。它通过灵活的薄板样条变换对文档进行去畸变，可以有效处理各种变形，而无需在训练中提供变形注释。这些特点使得FDRNet能够从少量简单标记的训练图像中学习，并且可以学到0该模型可以去畸变具有复杂几何失真的文档，并准确识别恢复的文本。为了促进文档恢复研究，我们创建了一个基准数据集，包含一千多个具有不同类型几何和光度失真的相机文档。广泛的实验证明，FDRNet在去畸变和文本识别任务上的性能大大优于最先进的方法。此外，FDRNet只需要少量简单标记的训练数据，并且易于部署。提出的数据集可在https://sg-vilab.github.io/event/warpdoc/上获得。01. 引言0自动化文档识别在许多应用中至关重要，例如图书馆数字化、办公自动化等45740商业等领域。如果文档经过适当的扫描仪扫描，光学字符识别（OCR）技术可以很好地解决这个问题。但是对于由各种相机传感器捕获的文档图像增加的情况，由于两个主要因素，OCR软件经常遇到各种识别问题。首先，相机捕捉的文档文本经常位于弯曲或折叠的表面上，并且遭受各种几何失真，例如文档弯曲、折叠和透视视图，如图1所示。其次，由相机捕捉的文档文本经常遭受不同类型的光度失真，如不均匀照明、运动、阴影等。相机传感器捕捉的文档文本的准确识别仍然是文档分析和识别研究界面临的重大挑战。0文档恢复已经在通过各种相机传感器捕获的文档的更好识别方面进行了广泛研究。最近的数据驱动方法[8,11]通过预测扭曲文档中每个像素的3D坐标来合成具有各种扭曲的3D文档图像，并学习文档扭曲，取得了非常出色的文档去卷曲任务性能。然而，这些方法面临三个挑战。首先，文档图像中的大多数像素都受到透视或曲率的规则扭曲，而只有很小一部分像素表现出不规则变形（例如褶皱周围的像素）。这种像素级数据不平衡经常导致现有的像素级回归模型在处理具有不规则变形的文档时性能下降，如图1右侧第一行所示。其次，当文档远离相机时，大多数现有的文档去卷曲方法表现不佳，如图1右侧第二行所示。这主要是因为现有方法在预测文档3D坐标时往往难以处理文档深度具有较大变化的情况。第三，大多数现有模型是在大量合成图像上训练的，合成过程复杂，需要通过特殊硬件（例如深度相机）收集3D坐标和大量扫描文档图像（例如[8]中的100,000个合成图像，来自1,000个文档的3D坐标和7,200个扫描图像）。这使得将现有方法推广到新的任务和领域变得具有挑战性。0我们设计了FDRNet，一个端到端可训练的文档恢复网络，专注于文档内容，旨在实现更好的文档识别。FDRNet的设计灵感来自于这样一个观察：文档图像中的几何失真主要可以从傅里叶空间中的高频分量中推断出来，而外观退化主要编码在低频分量中。因此，文档恢复和识别应该专注于捕捉文档结构和内容的高频分量，忽略干扰的低频分量。0因此，我们设计了FDRNet，一个端到端可训练的文档恢复网络，通过专注于整个文档的高频信息而不是每个像素的3D坐标来学习几何失真，从而有效解决了像素级数据不平衡和文档深度变化的挑战。FDRNet采用薄板样条变换来提供动力，这不仅可以显著减少训练数据，还可以消除对3D文档坐标的真实性和复杂数据收集过程的需求。此外，我们还引入了WarpDoc，一个具有不同类型几何和外观退化的一千多个文档图像的基准数据集，这对于更好地验证文档去卷曲模型非常有价值。大量实验证明，FDRNet实现了卓越的文档恢复，如图1所示。本工作的贡献有三个方面。首先，我们设计了FDRNet，一个端到端可训练的文档恢复网络，可以从相机图像中去除几何和外观退化，显著提高文档识别性能。其次，FDRNet通过专注于傅里叶空间中的高频分量来处理文档恢复和识别，从而减少了训练数据，大大提高了模型的泛化能力和可用性。第三，我们创建了一个包含一千多个相机图像的文档数据集，这对于未来研究相机捕获的文档的恢复和识别非常有价值。02. 相关工作02.1. 几何文档恢复0由相机传感器捕获的文档文本通常位于弯曲/折叠的表面上，并且受到各种透视失真的影响，这严重阻碍了文档识别。文档去卷曲已经被广泛研究，以将文档变平为便于识别的形式。传统方法通过重建3D文档形状[5, 15, 29-31, 37, 39,44, 45, 48]或提取2D图像特征[6, 10, 13, 17, 20, 22, 24,25, 28, 34, 38, 40, 41,47]来去卷曲文档。另一方面，提取2D特征通常涉及各种启发式参数，而3D重建则对各种噪声非常敏感且复杂。近年来，一些工作[8, 9,27]利用深度神经网络从2D/3D合成文档图像中学习文档形状。然而，这种数据驱动的方法需要大量复杂且耗时的合成数据。我们提出的FDRNet通过学习2D深度网络特征来去卷曲文档，减少了启发式参数的使用。与使用大量合成数据[8,9, 11,27]不同，它从真实文档图像的高频成分中学习，从而实现了更好的几何文档学习。45750粗略0转换器0输入图像粗网格粗略0去畸变精细网格精细0去畸变0去畸变去畸变0恢复的文档0用于识别0傅里叶0转换器0去畸变去畸变0扫描文档0输入图像（HF）粗略去畸变（HF）精细去畸变（HF）0扫描文档（HF）0傅里叶0转换器0傅里叶0转换器0网络流程0优化流程0训练流程0测试流程0高频HF：0L1损失0网络0运算符0图2. 所提出的FDRNet框架：通过相机捕获的输入图像，FDRNet学习预测控制点（用于去畸变中的薄板样条变换），通过CoarseTransformer和Refinement Transformer使用预测的控制点作为Coarse Mesh和RefinedMesh的节点进行文档去畸变。它使用傅里叶转换器在训练过程中对输入图像的高频信息（由傅里叶转换器产生）和相应的扫描文档进行矫正损失（L1损失）。在推理过程中，去畸变的文档被送入傅里叶转换器进行光度学恢复和识别。0使用少量训练数据的恢复模型。02.2. 光度学文档恢复0由相机设备捕获的文档图像通常受到各种光照噪声的影响，例如摄影师或文档本身引起的遮挡阴影。这些光照噪声使得从文档背景中分割文本变得复杂，这可能会严重降低文本识别性能。已经报道了不同的光度学恢复和文档图像二值化技术[1, 18, 19, 23,36]，用于从各种不均匀照明的文档图像中分割文本。另一方面，大多数现有方法要么计算密集[7,36]，要么对启发式参数敏感[1, 3, 23, 26,35]，并且不适合作为文档识别的预处理步骤。最近，一些基于补丁的网络方法[11,16]通过基于补丁的网络来纠正文档的光照。我们提出的技术通过提取高频文档信息来处理光照噪声，这是高效、稳健且涉及最少启发式的方法。03. 方法论0所提出的FDRNet包括三个组件，包括CoarseTransformer、Refinement Transformer和FourierConverter，如图2所示。Coarse Transformer和RefinementTransformer以粗到细的方式学习对文档进行去畸变。FourierConverter0Converter从文档图像中提取高频信息，以实现有效和高效的网络训练，如图2中的优化流程所示（绿色部分）。此外，它还提取高频内容信息，以实现更好的文档识别，如图2中的网络流程的右端所示（蓝色部分）。03.1. 粗到细转换器0FDRNet通过使用Coarse Transformer和RefinementTransformer以粗到细的方式对文档图像进行去畸变。这两个转换器共享相同的架构Spatial TransformerNetwork（STN）[14]，它将空间变换建模为可学习的网络。具体而言，CoarseTransformer学习定位输入图像中的文档区域，并对定位到的文档区域进行粗略的去畸变。RefinementTransformer接收来自CoarseTransformer的去畸变文档图像，并进一步改善去畸变效果。我们采用Thin-Plate-Spline[4]（TPS）作为文档去畸变中的空间变换。TPS变换由两组控制点确定，每对扭曲和平坦文档图像之间存在一对一的对应关系，并且它计算每个控制点的空间变形函数以预测几何失真。在FDRNet中，我们将控制点定义为网格，并且网络学习预测输入图像中文档区域的网格（即图2中PredictedMesh中的蓝色点）。通过预测的网格，TPS将其转换为规则的网格（即图2中的蓝色点）。 S1kP1Tk00P T00−1·45760TPS0扩张卷积串联0池化卷积全连接0主干网络0输入图像0图3.粗糙变换器和细化变换器的架构，用于粗到细的文档畸变估计和矫正（TPS：薄板样条）0如图2中的粗糙去畸变和细化去畸变，实现文档去畸变。网格可以有不同的大小，我们的研究表明，9×9的网格（81个控制点）足以进行文档去畸变。通过用P = [t1, t2, ...,tk]T表示预测的网格点和P' = [t'1, t'2, ...,t'k]T表示常规网格点，可以确定TPS变换参数如下：0C x =0� P'x 000� , (1)0其中S中的每个元素（S）ij由ϕ(ti -tj)确定，ϕ(r)由∥r∥22log∥r∥22定义。P'x指的是P'的x坐标。类似地，可以通过将P'x替换为P'y来获得Cy。因此，我们可以得到C = [Cx,Cy]。最后，对于输入图像u中文档区域的每个控制点，可以通过以下方式确定去畸变文档中的相应点u'：0u' = C ∙ u. (2)0请注意，在实现中，预测的网格点由常规网格初始化。由于TPS变换中的所有操作符都是可微分的，粗糙变换器和细化变换器可以通过梯度反向传播学习定位文档网格点，而无需任何文档网格的注释。此外，我们在两个变换器中采用了堆叠的扩张卷积[32,46]来扩大网络感受野，因为网格点定位需要关注高级文档内容信息。图3显示了粗糙变换器和细化变换器的详细结构。具体而言，文档特征首先通过主干网络提取，然后经过三个堆叠的扩张卷积层，接着是两个具有不同扩张率的堆叠扩张卷积层[42]。网络最后预测一组控制点（作为图2中预测网格中的文档网格），并将它们传递给TPS进行文档去畸变。0空白纸张0文档图像0β0图4.提出的傅里叶转换器的示意图：傅里叶转换器通过FFT将文档图像和空白纸张图像转换为傅里叶空间。然后，文档图像的低频分量被空白纸张的相应分量替换（如蓝色框所示）。修改后的频谱信号最终通过iFFT转换回空间空间，其中大部分低频外观噪声被去除，对高级内容信息影响较小。03.2. 傅里叶转换器0我们设计了一个傅里叶转换器，用于从相机拍摄的文档图像中提取高频信息。给定如图4所示的文档图像，傅里叶转换器首先通过快速傅里叶变换（FFT）将其转换为傅里叶空间。接下来，文档的低频信息被空白纸张的低频信息替换。修改后的频谱信号最终通过逆快速傅里叶变换（iFFT）转换回空间空间，成功去除了大部分外观噪声，生成了适用于OCR的文档图像。我们在傅里叶转换器中使用一个超参数β，用于网络训练和文档识别任务。如图4所示，β控制着要替换多少低频信息（中心频率最低）。因此，可以使用大小为（H，W）的掩码Mβ提取高频信息，如下所示：0Mβ(h, w) = 0, (h, w) ∈ [-βH: βH, -βW: βW] 1,Otherwise,0其中β∈[0, 1/2]，h∈[-H/2, H/2]，w∈[-W/2,W/2]。用x表示去畸变文档的频谱信号，用xw表示空白纸的频谱信号，可以得到修改后的频谱信号如下：0x′ = Mβ ∙ x + (1 - Mβ) ∙ xw. (3)0我们在网络训练和文档识别中分别将两个傅里叶转换器的β设置为0.06和0.008。由于β是傅里叶空间中的比例，对于不同的图像大小或分辨率，可以直接应用于各种新图像而无需进行调整，更多细节将在后续实验中讨论。L 𝟏M2M1M1M2D1D2M1M2T12T21D1D2L 𝟏45770输入图像0随机0变形0粗糙0变换器0文档网格预测相互0变换0相互转换损失0粗糙0Transformer0共享权重0图5.我们提出的相互转换损失的示意图：每个输入图像随机变形为两个扭曲的图像D1和D2。然后，FDRNet学习预测这两个扭曲图像中文档区域M1和M2的网格，并将它们相互转换，产生T12和T21。计算每个扭曲图像与其转换之间的差异，以指导FDRNet在训练中更好地关注文档失真。0傅里叶转换器有助于有效训练FDRNet。给定输入图像和相应的扫描文档，它首先提取高频信息Input Image(HF)和Scanned Document(HF)，如图2所示。在每个训练批次中，通过粗糙变换器和细化变换器分别将Input Image(HF)进行去畸变，产生Coarse Dewarping (HF)和RefinedDewarping (HF)。FDRNet通过在Scan Document(HF)和Coarse Dewarping (HF) & Refined Dewarping(HF)之间反向传播L1损失来学习。傅里叶转换器从两个方面改善了网络学习。首先，它丢弃了低频外观信息，这些信息通常包含丰富的噪声变化，使网络学习变得更加复杂。由于这种数据清理，FDRNet可以通过使用少量训练数据进行有效和高效的训练。其次，相机捕获的文档和扫描文档之间存在明显的外观差异，这经常影响网络训练的稳定性和收敛性。傅里叶转换器提取了高频信息，最小化了领域差异，并且在训练中可以在两种类型的文档图像之间进行直接损失计算，而无需任何网格网格的注释。在推理阶段进行文档识别时，傅里叶转换器从RefinedDewarping中提取高频信息，该信息通常受到各种外观噪声的影响，这些噪声会严重降低文档识别性能。这有效地去除了各种外观噪声，并显著提高了文档识别性能，如图2所示。03.3. 网络训练0FDRNet只需优化Coarse Transformer和RefinementTransformer进行训练，因为傅里叶转换器在训练中使用经验确定的β被冻结。0我们通过使用L rect损失和相互转换损失来训练CoarseTransformer，具体如下：0Lcoarse = Lrect + λ * Lmutual, (4)0其中L rect是可以直接计算出来的Coarse Dewarping(HF)和Scan Document(HF)之间的L1损失，如图2所示。L1损失适用于CoarseDewarping (HF)和Scan Document(HF)具有相似强度但几乎没有外观噪声和领域差异的情况。参数λ是用于平衡两种损失的权重，我们的网络中将其经验性地设置为0.5。由于由相机捕获的文档图像通常受到严重的几何失真的影响，如果没有文档网格的地面实况注释，网络训练可能无法收敛（仅使用L1损失）。我们设计了一个相互转换损失Lmutual，用于“制造”某种监督来限制和引导网络稳定地学习几何失真。Lmutual的基本思想是，如果正确预测了网格网格，则具有两种不同几何失真的文档可以相互转换。在实现中，首先将输入图像转换为两个新图像（即D1和D2），并进行随机扰动变形[27]，如图5所示。然后将这两个变换后的图像输入FDRNet，预测相应的文档网格M1和M2。因此，D1可以通过TPS变换M1→M2转换为图像T12，D2可以通过M2→M1类似地转换为图像T21。因此，相互转换损失定义如下：0变形描述0其中 m 1 和 m 2 分别指代 M 1 和 M 2内的文档区域。请注意，尽管扰动变形可能会在文档背景周围产生异常扭曲，但FDRNet可以通过同时限制在文档网格内计算损失并忽略文档背景来集中于文档区域。由于粗糙变形器已经定位了文档区域并纠正了大部分几何扭曲，因此细化变形器可以仅使用L1损失进行训练（在图2中显示为Refined Dewarping（HF）和Scan Document（HF）之间）。对于剩余的文档扭曲预测，仅L1损失就足够了。MethodsTraining DataMS-SSIMLDNo.D-GTTypeDocUNet [27]100k✓Synth0.4114.08GBSUM [2]8k✓Synth0.4213.20AGUN [21]40k✓Synth0.4512.06DewarpNet [8]100k✓Synth0.478.95DocTr [11]100k✓Synth0.508.38+3k+RealFDRNet1k✗Real0.509.43GBSUM [2]8k✓Synth0.3429.07DewarpNet [8]100k✓Synth0.3331.15FDRNet130✗Real0.4520.30GBSUM-Crop [2]8k✓Synth0.4123.34DewarpNet-Crop [8]100k✓Synth0.3921.89FDRNet-Crop130✗Real0.4619.11arpDocBenchmarkGBSUM [2]37.9466.48DewarpNet [8]23.9545.82DocTr [11]20.00-FDRNet16.9629.2445780折叠文档上有一个或多个折痕0透视仅具有透视变形0随机具有随机皱褶0弯曲具有曲率变形0不完整具有不完整的变形，但不影响文档内容。0旋转在 -45 到 45 之间的平面旋转0方法训练数据 MS-SSIM LD No. D-GT 类型0表1. WarpDoc Benchmark的详细信息：WarpDocBenchmark包含1,020张相机拍摄的文档图像，包括透视、折叠、弯曲、随机、旋转和不完整等六种不同类型的变形。0表2.DocUNet上的图像相似度（以MS-SSIM和LD表示）：No.：训练图像数量；D-GT：变形地面真实；Synth：合成图像；Real：真实图像。0Net可以通过限制在文档网格内计算损失并同时忽略文档背景，逐渐聚焦于文档区域。细化变形器可以仅使用L1损失进行训练（在图2中显示为Refined Dewarping（HF）和ScanDocument（HF）之间）。由于粗糙变形器已经定位了文档区域并纠正了大部分几何扭曲，因此预测剩余文档扭曲仅需要L1损失。04. 实验04.1. 数据集0我们对两个数据集进行了FDRNet的评估，如下所示：DocUNet [ 27]：DocUNet包含130张不同内容和不同语言文本的纸质文件的图像。这些图像在不同的条件下拍摄，受到各种扭曲的影响。对于每个纸质文件，都收集了一份扫描副本作为地面真实文件。WarpDoc：我们收集了WarpDoc，一个用于评估文档恢复方法的扭曲文档图像数据集。WarpDoc包含1,020张来自科学论文、杂志、信封等的相机图像，这些图像具有不同的纸张材料、页面布局和内容。这些图像是在不同的0方法训练数据 MS-SSIM LD No. D-GT 类型0表3.WarpDoc上的图像相似度（以MS-SSIM和LD表示）：Crop：从WarpDoc基准中紧密裁剪的图像评估；No.：训练图像数量；D-GT：变形地面真实；Synth：合成图像；Real：真实图像。0方法 CER(%)0DocUNet基准0表4. DocUNet和WarpDoc的字符错误率。0在不同照明条件下的不同场景（室内、室外等）中拍摄。在成像之前，我们将1020份印刷文件分别进行了六种类型的扭曲，包括折叠、弯曲、随机、旋转、不完整和透视，如图6的第3-8列所示。有关我们的WarpDoc的更多详细信息，请参阅补充材料。04.2. 评估指标0我们采用了两种广泛使用的评估指标[8, 11, 27,45]，包括：1）多尺度结构相似性（MS-SSIM）[43]和局部失真（LD）[45]，重点关注图像相似性性能；2）字符错误率（CER）用于评估光学字符识别（OCR）性能。更多细节请参阅补充材料。04.3. 实验结果0我们对DocUNet和WarpDoc基准进行交叉验证实验，以定性和定量评估FDRNet的质量。对于每个测试文档图像，FDRNet模型生成两个图像，包括仅进行几何恢复的去除文档图像和进一步进行外观恢复的完全恢复文档图像，如图6的第3和第4行所示。我们使用图像相似性度量评估去除文档图像，并使用OCR准确性评估外观恢复的文档图像。图像相似性：表2显示了所提出的FDRNet以及几种最先进方法在DocUNet和WarpDoc上的MS-SSIM和LD。如表2所示，45790FDRNetDewarpNetFDRNet0（几何恢复）地面实况FDRNet0（用于识别）0图6.FDRNet和DewarpNet对文档的恢复示例：第一行中，第1-2列是来自DocUNet的样本图像，第3-8列是来自WarpDoc的样本图像，第2和第3行分别显示了使用DewarpNet和FDRNet（去除文档）进行去除的图像。第4行显示了FDRNet进行的外观恢复，它去除了各种外观噪声并大大改善了文档识别。FDRNet对大多数几何和光度失真具有鲁棒性，但在文档背景与文档区域具有相似图案的情况下容易混淆，如最后一个样本所示。0FDRNet在文档去除方面的性能与DocUNet相当。另一方面，FDRNet在图像数量（1k对比8k-100k）和图像注释（无对比有变形地面实况）方面使用了更简单的训练数据，超过了最先进的方法。0我们进一步在提出的WarpDoc数据集上评估FDRNet，该数据集中的文档图像通常比Do-cUNet基准中的文档图像遭受更复杂的失真。我们进行了两组实验，以更好地与最先进的方法进行比较。首先，我们将FDRNet与现有的文档去除方法在原始的WarpDoc数据集上进行比较，以评估在存在复杂的几何失真和显著的深度变化的情况下的文档去除。其次，我们裁剪WarpDoc数据集中的图像（按照[27]的方法），以减少原始图像中文档的深度变化。0年龄。因此，我们将FDRNet与现有方法在裁剪图像上进行比较，其中文档的深度变化在很大程度上得到缓解。如表3所示，所提出的FDRNet在仅具有复杂几何失真或附加深度变化的文档去除上优于现有方法，而且所需的训练样本数量更少且更简单。这个结果表明，与最先进的方法相比，所提出的FDRNet对文档去除更具鲁棒性。此外，GBSUM和DewarpNet在去除原始和裁剪文档图像方面表现出非常不同的性能，表明它们对文档深度变化非常敏感。相反，FDRNet在原始和裁剪图像上的去除性能相似，证明了所提出的FDRNet对文档的深度变化比现有方法更具鲁棒性。45800FDRNet组件实验结果0CT FC tr MTL RT FC inf MS-SSIM LD CER（%）0� 无法收敛0� � 0.32 34.16 69.320� � � 0.37 23.47 48.240� � � 0.44 16.35 33.020� � � � 0.50 9.43 23.460� � � � � - - 16.960表5. FDRNet在DocUNet上的消融研究：FC tr -用于训练的傅里叶转换器；CT - 粗糙变换器；MTL -互相转换损失；RT - 细化变换器；FC inf -用于推理的傅里叶转换器。0图6显示了来自DocUNet和WarpDoc的几个样本图像的恢复，这些图像遭受不同类型的扭曲。如图6所示，FDRNet对于具有简单曲率扭曲的文档（第1列中的样本）实现了类似于DewarpNet的恢复。但是对于第2-7列中具有更复杂扭曲的文档，FDRNet通常表现更好，因为它专注于文本行等高频信息，有助于更好地学习几何扭曲。相比之下，DewarpNet等3D方法将每个像素从扭曲的文档回归到平坦的文档。在复杂褶皱周围的像素回归通常很难学习，因为这样的像素比具有简单扭曲的像素少得多。FDRNet通过粗糙网格学习了一种通用的变换，在网络训练期间不太受像素级数据不平衡的影响。OCR性能：我们通过使用PyTesseract（v4.1.1）[33]对FDRNet恢复的文档进行OCR来评估FDRNet在文档识别方面的性能。按照DewarpNet[8]的方法，在DocUNet上对54个文档图像和WarpDoc上的739个文档图像进行OCR。表4显示了实验结果。我们可以观察到，FDRNet在DocUNet和WarpDoc上分别实现了16.96％和29.24％的CER，这在亮度恢复方面超过了最先进的方法。更具体地说，尽管FDRNet和最先进的方法在DocUNet数据集上的图像相似性指标上的表现相当，如表2所示，但FDRNet在CER方面的表现大大超过了这些方法，表明FDRNet对于文档识别任务更加稳健。图6中倒数第二行显示了FDRNet恢复的文档图像。可以看出，FDRNet从去畸变的文档中去除了各种几何和外观扭曲，这对于OCR和文档识别有很大帮助。04.4. 讨论0消融研究：我们研究了我们的FDRNet中不同设计的贡献，包括用于傅里叶转换的转换器0β 0.003 0.005 0.008 0.01 0.020CER（%）18.52 17.84 16.96 17.38 17.720表6.CER随傅里叶转换器中的参数β变化（在第3.2节和图4中描述）。0网络训练FCtr，粗糙变换器CT，互相转换损失MTL，细化变换器RT和用于推理的傅里叶转换器FCinf。表5显示了实验结果。如表5所示，CT单独无法收敛，因为训练过程中不稳定的损失是由相机和扫描仪采集的文档图像之间的大领域差异引起的。通过包含提出的FCtr，FDRNet训练稳定。进一步包括MTL和RT都有助于训练更强大的去畸变模型，明显改善了MS-SSIM和LD，如行3-5所示。在推理过程中，包括傅里叶转换器（即FCinf）大幅提高了OCR的准确性，因为FCinf消除了常常影响文档识别的各种外观噪声，如行6所示。参数β：傅里叶转换器（第3.2节）中的参数β影响FDRNet的网络训练和文档识别（推理）阶段。具体来说，当β位于适当范围内时，FDRNet能够很好地收敛。此外，FDRNet的识别对β也不敏感。如表6所示，当β在一定范围内变化时，训练的FDRNet模型的CER非常稳定。有关模型训练中参数β的更多详细信息，请参见补充材料。约束条件：如果文档背景区域与文档区域具有相似的模式，则提出的FDRNet可能会混淆。在这种情况下，文档背景可能被视为恢复过程中文档区域的一部分，如图6中的最后一个示例所示。05. 结论和未来工作0本文提出了一种用于通过相机捕捉的文档图像更好地识别的文档修复网络FDRNet。FDRNet专注于傅里叶空间中的高频信息，这使得它能够有效地从少量的训练数据中学习。此外，FDRNet可以很好地推广到新数据，因为它丢弃了低频信息，从而大大减小了域间差距。大量实验证明，FDRNet能够去除几何和外观退化，从而显著提高文档识别能力。未来，我们希望研究简单而有效的图像合成，并利用在真实数据和合成数据上训练的进展，实现更强大的文档去翘曲和识别。45810参考文献0[1] Marcos Almeida，Rafael Dueire Lins，RodrigoBernardino，Darlisson Jesus和BrunoLima。历史文档的新二值化算法。《成像杂志》，4（2）：27，2018年3月0[2] Hmrishav Bandyopadhyay，Tanmoy Dasgupta，NibaranDas和MitaNasipuri。用于文档图像去翘曲的门控和分叉堆叠U-Net模块。arXiv预印本arXiv:2007.09824，2020年6月0[3] 苏博兰，陆世健和Chew LimTan。自学习文档二值化框架。在2010年第20届国际模式识别会议论文集中，第3187-3190页。IEEE，2010年3月0[4] Fred L.Bookstein。主要翘曲：薄板样条和变形分解。《IEEE模式分析与机器智能交易》，11（6）：567-585，1989年3月0[5] Michael S Brown和W BrentSeales。使用3D形状进行文档修复：任意翘曲文档的通用去翘曲算法。在第八届IEEE国际计算机视觉会议ICCV2001论文集中，第2卷，第367-374页。IEEE，2001年2月0[6] Frédéric Courteille，Alain Crouzil，Jean-DenisDurou和PierreGurdjos。用于曲面文档数字化的阴影形状。《机器视觉与应用》，18（5）：301-316，2007年2月0[7] Ricardo da Silva Barbosa，Rafael Dueire Lins，Edson DaF De Lira和Antonio Carlos ACamara。后期添加的笔画或用圆珠笔书写的文档中的文本欺诈检测。在2014年第14届国际手写识别前沿会议论文集中，第517-522页。IEEE，2014年3月0[8] Sagnik Das，Ke Ma，Zhixin Shu，Dimitris Samaras和RoyShilkrot。Dewarpnet：使用堆叠的3D和2D回归网络进行单图像文档去翘曲。在IEEE国际计算机视觉会议论文集中，第131-140页，2019年2月6日8日0[9] Sagnik Das，Gaurav Mishra，Akshay Sudharshana和RoyShilkrot。共同折叠：利用四折将印刷文件从单个图像去翘曲。在2017年ACM文件工程研讨会论文集中，第125-128页，2017年2月0[10] Hironori Ezaki，Seiichi Uchida，Akira Asano和HiroakiSakoe。全局优化的文档图像去翘曲。在第八届国际文件分析和识别会议（ICDAR'05）论文集中，第302-306页。IEEE，2005年2月0[11] 冯浩，王越晨，周文刚，邓佳俊，李厚强。Doctr:用于几何去翘曲和光照校正的文档图像转换器。arXiv预印本arXiv:2110.12942，2021年2月3日6日0[12] Matteo Frigo和Steven GJohnson。FFTW：用于FFT的自适应软件架构。在1998年IEEE国际声学、语音和信号处理会议ICASSP'98（Cat. No.98CH36181）论文集中，第3卷，第1381-1384页。IEEE，1998年4月0[13] 付斌，吴明辉，李荣锋，李文鑫，徐卓群，杨春旭。一种基于模型的书籍去翘曲方法0使用文本行检测.在第2届基于相机的文件分析和识别国际研讨会上, Curitiba,Barazil, 页63–70, 2007. 20[14] Max Jaderberg, Karen Simonyan, Andrew Zisserman, 等.空间变换网络. 在神经信息处理系统进展中, 2015年, 页2017–2025. 30[15] Hyung Il Koo, Jinho Kim, and Nam Ik Cho.从两个视图图像中合成去畸变和增强的文档图像.IEEE图像处理交易, 18(7):1551–1562, 2009. 20[16] Xiaoyu Li, Bo Zhang, Jing Liao, and Pedro V Sander.使用基于补丁的CNN进行文档矫正和光照校正.ACM图形学交易(TOG), 38(6):1–11, 2019. 30[17] Jian Liang, Daniel DeMenthon, and David Doermann.相机捕捉的文档图像的几何矫正. IEEE模式分析与机器智能交易,30(4):591–605, 2008. 20[18] Rafael Dueire Lins, Rodrigo Barros Bernardino, DarlissonMarinho de Jesus, and Jos´e M´ario Oliveira.使用便携相机获取的文档图像进行二值化.在2017年第14届IAPR国际文件分析和识别会议(ICDAR)中, 卷6,页45–50. IEEE, 2017. 30[19] Rafael Dueire Lins, Ergina Kavallieratou, Elisa BarneySmith, Rodrigo Barros Bernardino, and Darlisson Marinho deJesus. ICDAR 2019时间质量二值化竞赛.在2019年国际文件分析和识别会议(ICDAR)中, 页1539–1546. IEEE,2019. 30[20] Changsong Liu, Yu Zhang, Baokang Wang, and XiaoqingDing. 恢复相机捕捉的畸变文档图像.国际文件分析和识别期刊(IJDAR), 18(2):111–124, 2015. 20[21] Xiyan Liu, Gaofeng Meng, Bin Fan, Shiming Xiang, andChunhong Pan.使用对抗性门控展开网络对文档图像进行几何矫正. 模式识别,108:107576, 2020. 60[22] Shijian Lu, Ben M Chen, and Chi Chung Ko.用于恢复平面和卷曲文档相机图像的分区方法. 图像与视觉计算,24(8):837–848, 2006. 20[23] Shijian Lu, Bolan Su, and Chew Lim Tan.使用背景估计和笔画边缘对文档图像进行二值化.国际文件分析和识别期刊(IJDAR), 13(4):303–314, 2010. 30[24] Shijian Lu and Chew Lim Tan.通过网格建模和正则化对文档进行平整.在第18届国际模式识别会议(ICPR’06)中, 卷1, 页971–974. IEEE,2006. 20[25] Shijian Lu and Chew Lim Tan. 通过图像分割恢复相机文档.在国际文件分析系统研讨会上, 页484–495. Springer, 2006. 20[26] SJ Lu and Chew Lim Tan.通过阴影估计和补偿对光照不良的文档图像进行二值化.在第九届国际文件分析和识别会议(ICDAR 2007)中, 卷1,页312–316. IEEE, 2007. 345820[27] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and DimitrisSama- ras. Docunet: 通过堆叠的U-Net对文档图像进行展开.在IEEE计算机视觉和模式识别会议上的论文集中, 页4700–4709,2

下载后可阅读完整内容，剩余1页未读，立即下载