文档图像去畸变的新方法及其优势

110 浏览量更新于2023-10-25 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4543再论网格正则化的文档图像去畸变蒋向伟1，2*，龙汝娇3*，薛南1，杨志波3，姚聪3，夏桂松1，2<$1武汉大学计算机学院，武汉，中国2LIESMARS，武汉大学，武汉，中国3Alibaba-Group，杭州，中国摘要针对文档数字化中文档图像的几何失真问题，提出了一种文档图像去畸变我们没有设计一个更好的神经网络来近似输入和输出之间的最佳流场，而是从约束优化的角度考虑文本行和文档边界来追求具体地说，我们提出的方法首先学习边界点和文本行中的像素，然后遵循最简单的观察，即在去扭曲后，水平和垂直方向上的边界和文本行都应该保持，以引入一种新的网格正则化方案。为了获得最终的正向映射去翘曲，我们用我们提出的网格正则化解决了一个优化问题。实验充分证明，我们提出的方法在可读性方面（以字符错误率和编辑距离为度量标准）大大优于现有技术，同时在公开可用的DocUNet基准上保持最佳图像质量。1. 介绍文档数字化（DocDig）技术通过将纸质文档中的信息从物理世界转移到电子设备中，极大地方便了我们的日常生活。由于纸张是薄的、易碎的并且容易变形，因此通常需要用扫描仪仔细地捕获纸张的文档图像，以避免用于数字化的纸张的意外变形这种流水线在某种程度上工作良好，然而，当我们使用手持移动设备时，智能手机，快速，无痛，但准确的文档数字化。因此，计算机视觉和文档分析界一直在努力摆脱DocDig的限制，通过研究文档图像去畸变问题。文件不完整问题有着丰富的历史，*同等贡献†通讯作者(a) 输入图像（b）DocUNet [27]（c）DewarpNet [10](d)几何元素（e）变形网格（f）我们的结果图1.我们的方法利用文本行和文档边界的几何信息来生成变形网格，有效地降低了字符识别的错误率。年龄矫正在早期的开创性工作[2，31，35]中，该问题被公式化为从不同成像配置（包括多视图图像、双目相机以及结构闪电深度传感器）进行的表面重建，在实验室环境中实现了准确的结果，同时还存在实际使用的问题。随后，通过检测边界[5]，文本行[17，18]，结构光[31]等[37]，在前深度学习时代广泛研究了单视图图像中纸张的先验知识由于这些方法依赖于检测到的先验知识，它们受到这些低级别视觉线索的检测质量的限制，因此提出了去扭曲的准确性问题。随着近年来深度学习的复兴，卷积神经网络（ConvNets）也已用于通过在各种超视信号（如合成数据注释[27]）下学习失真输入图像和预期平坦图像之间的变形场来对文档图像进行变形[10，11，21，27，28，39]4544图2. S（x，y）=T（u，v）：等号意味着不同图像中对应位置的像素值相等。属于不同图像的网格彼此对应。S→T是向后映射，而T→S是向前映射。文档的潜在3D形状[10]，高级语义[28]，等等[11，39]。这些基于深度学习的方法将文档图像去扭曲问题定义为学习2维变形场的任务，其可以将像素从原始图像S（源）移动到几何校正图像T（目标），如图1所示二、从图像质量的角度来看，这些深度学习方法显着提高了去扭曲的准确性。然而，由于神经网络的低频特性，这些方法在输出图像的文本区域中仍然存在可读性问题。在本文中，我们重新审视了基于深度学习的文档图像去扭曲方法，并通过网格正则化解决了可读性问题。我们提出的方法利用了前向二维变形场1的固有模式，并使用深度学习来检测文档图像的一些几何信息，如边界和文本行，以完成从单个文档图像去扭曲的任务更准确地说，我们首先通过关键点检测和语义分割分别获得边界点和文本行然后，我们估计的垂直边界的文本行使用它们的几何属性。然后，将这些几何信息离散为二维变形场约束，通过积分网格正则化项使图像变形能量最小化。最后，校正后的图像被重建，这符合我们的几何先验特征（图1）。1）。我们在本文中的贡献如下：• 提出了一种全新的文档图像纠正框架。该框架在传统变形模型的基础上，利用文档边界和文本行构造变形场，• 我们系统地分析了注册会计师的相对优点1我们的工作依赖于最常见情况下的假设，即文本行和文档边界在校正图像中是水平或垂直的。的图像校正方法中使用的术语，并提出了一种新的网格生成方法，更好地优化变形网格的质量。• 该方法在DocUNet基准测试中达到了最先进的性能，证明了网格正则化项的有效性。2. 相关作品基于参数模型的方法。将文档图像视为简单的参数表面，并通过依赖于图像中检测到的几何特征来估计圆柱模型[6，8，19，23]，coons网格[13]和更复杂的可展曲面[3，16，22]一直被选为基础模型。涉及的几何特征包括2D曲线，如文本行[26，34]，文档边界[7]，以及由结构光相机获得的3D曲线 [2，31]。最近，Kim和Kil等人 [17] [18]将参数估计与相机模型相结合，引起了广泛关注。虽然这些参数化模型在具有简单几何失真的文档图像上具有良好的性能，但是这些参数化模型太容易处理现实世界应用中出现的复杂几何失真。基于3D重建的方法通常有两个阶段：估计文档图像的3D形状和预测2D变形场。可以使用许多方法来获得3D点云表面[42]，例如深度相机[37，43]，双目相机，激光扫描仪[43]，多视图图像[42]甚至文本行[35]。随后，可以从点云重建3D表面，然后通过检索表面参数[29，30]恢复相应的2D变形场[4]显然，这类方法中的二维变形场的计算严重依赖于三维表面的估计精度，例如，3D表面的连续性和弯曲的准确性。在现实世界的应用中，当照明条件和背景没有很好地设计时，这些方法通常很快失去它们的效率。基于深度学习的方法。关于文档图像去扭曲的研究可以追溯到[27]中的工作，其通过使用堆叠的U网学习2D变形场来解决该问题。根据3D重建的范例，Das等人。 [10]将3D形状信息添加到网络中以获得对变形场的更好估计。Markovitz等人 [28]使用DewarpNet [10]的3D形状和纹理映射估计中文本行垂直于文本行边界Xie等人。 [39]通过使用相邻光流的相似性来改进前向光流估计。最近[40]，他们进一步提出使用Encode结构来估计更少的点，4545⊂›→›→Laplace网格约束，并利用传统插值算法得到较好的变形场。Li等人 [21]通过对变形场进行划分，预测精确变形场的一系列小部分，并通过积分约束得到全局Das等人 [11]将此思想集成到DewarpNet [10]中，从而形成端到端模型。尽管这些方法[14，25，32]旨在对整个图像进行校正，但它们往往忽略了详细的文本内容，这极大地影响了校正后文档的可读性。3. 再谈文档图像去畸变令S：R3是RGB文档图像，该图像在图像域R2上受到一些几何失真（即，图像网格），文档图像去扭曲的最终目标是追求几何变换：用于重建新的RGB图像T：R3，使得在图像域上没有几何失真表1.关于正则化项的深度学习方法。方法正则化项MS-SSIM↑LD↓DocUNet [27]没有一0.438910.90DewarpNet [10]纸板重建0.46928.98[39]第三十九话邻近流0.43618.50Xie等人 [40]Laplacian网格0.47699.03Li等人 [21]影像分裂--Das等人 [11]图像分割和端到端0.48799.23表2.带边界的传统插值：括号中的B表示变形场的边界我们采用DocUNet [27]和DewarpNet [10]预训练模型来获得表中的结果。同时，我们利用传统的插值算法（TFI，TPS），利用深层模型的变形场的边界点得到其他结果。方法CER（std）↓ED↓MS-SSIM↑LD↓DocUNet [27]0.4872（0.182）2051.840.433212.59DocUNet（B）+TFI0.4537（0.170）1852.660.424012.85DocUNet（B）+TPS0.3861（0.177）1613.360.413311.92DewarpNet [10]0.3097（0.193）1360.510.434010.08DewarpNet（B）+TFI0.3546（0.203）1488.250.437410.02DewarpNet（B）+TPS0.3349（0.194）1488.000.43019.70有限插值读取，T如第2节所述，传统方法容易恢复这种几何变换，c（u，v）=（1 −u，u）.c4（v）c2（v）+（1 − v，v）。c1（u）c3（u）依赖于一些参数化模型与几何cons，-（1 − u，u）.c1（0）c2（0） 1 − v。应变，或通过使用来计算2D变形场，并借助从（1）第（1）v（一）文件图像。这些方法虽然简单，但当源图像S中出现的几何失真较复杂时，例如，本文的案例讨论。基于深度学习的方法不是从单个文档图像中估计几何变换，而是受益于神经网络逼近非线性函数的强大能力，而是提出从大量注释文档图像中学习这种几何变换，并给出其相应的校正版本。在下文中，我们从网格规则化的角度重新审视文档图像去畸变的问题，包括传统方法和基于深度学习的首先，我们回顾传统的插值模型[36]，这是DocDig中广泛使用的基本过程。3.1. 超限插值给定文档图像的四个边界，超限插值模型[36]可以通过使用参数曲线对文档图像进行去扭曲。将c1（t），c2（t），c3（t），c4（t）表示为t参数化的四条边界曲线，c（u，v）表示从畸变域BNS到去畸变域BNT的网格插值，其中u，v为曲面参数，则变换前两个术语对应于直纹面，最后一个术语对应于直纹面。是作为投影变换的校正项。在理想情况下，在CIMT中的输出网格点是均匀的。3.2. 均匀变形网格的意义实际上，文档图像去扭曲存在很强的几何先验例如，校正图像中的像素坐标应该均匀地分布在网格上然而，基于深度学习的方法严重依赖于深度网络的表示能力，并且缺乏有效的方法来集成这种几何约束，这通常会导致不均匀的输出网格。表1总结了自DocUNet [27]以来将网格正则化集成到文档图像变形问题中的方法。可以看出，网格规则化的使用为各种方法的问题带来了显著的改进这促使我们定义一个简单的任务来验证正则化项的有效性。我们使用DocUNet [27]和DewarpNet [10]作为基线，并比较了两种传统的插值算法，即，TransFinite插值（TFI）[15]和薄板样条插值（TPS）[1]。结果报告于表2中。对于没有正则化约束的DocUNet [27]，一个简单的网格正则化方法可以带来显著的改进，即字符错误率（CER）降低了10。百分之一。”[10]《易经》云：“君子之道，焉可诬也？”[11]Σ4546∈ε=（3）ii∈由于受到网格正则化的约束，基于现有的边界条件很难得到好的结果。因此，设计一种能兼容更多几何信息并能集成网格正则化约束的模型是非常有意义的。3.3. 一种统一的文档图像去畸变模型为了激励后续的研究，我们首先从能量最小化的角度重新审视去扭曲函数我们通过最小化方程n中的变换能来近似解。（二）、ε=εε d+λεd，4. 该方法与DocUNet [27]类似，我们通过计算前向2D变形场来解决文档在我们的模型（图3）中，我们首先检测几何元素，如文档的边界和文档图像中的文本行，并将其离散化为点。其次，我们最小化一个目标函数，通过网格正则化来获得最优的变形场。与以往的方法相比，我们的模型利用显式的几何先验去扭曲的文档图像。4.1.带有文本行的n：（x，y）›→（u，v），（x，y）∈ S，（u，v）∈ T.（二）在这一小节中，我们详细介绍了如何使用统一的文档图像变形模型来生成一个定义的文档图像变形模型。ε表示去扭曲系统的总能量;ε表示将源图像S变换为目标图像T的变形，即ε（x，y）=（u，v），其中（x，y）εS是S域中的坐标点，（u，v）εT是T域中的对应坐标点。εd、εd分别表示数据惩罚能量（通常为点位移）和表面变形能量。λ是一个超参数，用于平衡数据惩罚和失真之间的能量。具有最小总能量的解是我们期望的图像变形。我们可以使用这个统一的图像去扭曲模型来总结一些以前的方法，包括传统方法和深度学习方法。令p和q分别表示源坐标点和目标坐标点。εη是根据方程的控制点位移损失。（三）、N22我们的问题的形成网格我们将线的几何条件离散为点的能量形式，并使用正则化项来约束变形网格。文本线和垂直线。我们使用一个通用的语义分割网络，即。UNet，从文档图像中提取文本行，并通过算法1获得文本行的边界。算法1检测文本行的边界输入：文档图像的文本行;超参数：w = 15像素，h = 15像素，θ= arctan（0. 45）;输出量：文本行的边界;1：设A是文本行的左端点d（x，y）的集合，B是右端点的集合。第二章：计算每个端点的垂直方向g这是由三个梯度的平均值决定的与自身i=1对于传统方法，如果取εdϕYY=0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000004547（−R2（Rx2）+2（）x+ （2）dxdy。（xx- -3：对于每个d（x，y）∈A，我们搜索另一个点e ∈a在区域中最靠近点d的点2）dxdy和N= 4，我们将得到投影trans-n。阵超限插值（TFI）也适用于该形式将边界点视为控制点，并使用相同的εd作为投影变换。对于薄板样条（TPS）插值，ε表示边界点的位移，而εd是表示变形程度的积分，如[x w：x+w，y h：y]的线梯度为-在d和e之间，g小于θ。然后连接d和e。4：我们对B做同样的事情，连接线形成连通分量M1。5：将搜索区域更改为[x w：x+w，y：y+h]，求出连通分量M2。∫∫∂2ϕ2∂2ϕ2∂2ϕ26：M1的最终结果是M2，可以有效避免在基于深度学习的方法中，我们将所有点添加到点位移能量ε。对于第二项，Do- cUNet [27]具有λ= 0。而DewarpNet [10]有一个正则化项，使用棋盘进行二进制分类。流估计[39]方法对局部邻接流有约束。Xie等人[40]通过减少控制点的数量（N）源图像中的UV图案。如图4所示，从变形网格的可视化中，我们发现边界的位置在前向映射中具有一些特征：在U映射中，左边界上的点具有0并且位置值从εd=+一些错误的情况。4548联系我们Σ2ϕ2ΣΣ图3.所提出的方法的流水线。以文档图像为输入，DocUNet通过回归检测文档图像边界的向后映射（BM），UNet通过分割检测文本行。得到的几何元素被离散成点，并送入网格正则化模块。提出的正则化模块将边界约束、文本行约束和网格正则化项作为优化条件，计算均匀的前向映射（UV映射）。图4.紫外线模式可以用来开发一些平等的-其中K是每个边界上的点的数量，其中bd为上、左、下、右。如果我们设置（i，j）=（0，0），那么ε bd意味着S中文档图像左边界上的点需要到达T中的左边界。（i，j）=（0，1），（1，0），（1，1）分别表示右边界，上边界和下边界在S中的同一文本行上的点具有以下等式中的能量形式。（六）、J−1UV贴图上的图元约束。在U形图中从左到右与U图相同εl=i（xk，yk）−i（xk+1，yk+1）2，（6）k=1V图中的点分别具有用于顶部边界和底部边界的值0这样的规则具有实际意义，我们可以使S中的边界到达T中的边界。同一垂直线上的点共享相同的u值，而同一文本行上的点具有相同的v值，这可以引导行其中（xk，yk）和（xk+1，yk+1）是同一直线上的两个相邻点。 J是特定文本行中的点数。垂直线也是水平文本行的i= 1，垂直行的i= 0。受TFI和TPS中的正则化项的启发，我们通过方程定义了我们的正则化项。（七）、在文本行旁边水平放置，行垂直放置，∫∫∂2ϕ∂2ϕ2∂2ϕ2在T中垂直于文本行。这些规则可用于在UV贴图上开发一些等式约束。εd=R2（x2+y2）+β（）dxdy。（七）x建立优化问题。我们首先把线离散化为点.因此，我们有边界点，文本线点和垂直线点。为了方便起见，我们将x（x，y）分成两部分：<$（x，y）∈S，<$（x，y）=（<$1（x，y），<$2（x，y））=（u，v）.文档图像边界上的点的能量具有等式11中的形式。（五）、为了使优化问题相容通过对密集控制点的插值，合并了保证网格光滑性的边界点和边界点fixxy保持网格的形状。到目前为止，我们可以将我们的优化问题写在等式中。（8），通过求解该方程，我们可以得到S到T的网格变形图。4N1argminε <$bdk + αε <$lk + λε d。（八）Kk=1k=1εεbd =i（xk，yk）−j2，（5）其中N1是行数，α，λ是参数，k=1平衡不同的能量。4549××Σ›→×Σ。Σ×Σ联系我们图5. V图的计算：对于V图中的每个点a：va =[45]第44章：我的天用于训练的图像大小为512 512。来自Doc3D数据集[10]的UV标签用于扭曲图像和文本行掩码。由于文本行的掩码总是比背景小得多，因此我们使用由像素比例加权的L2损失[41]来训练UNet模型。网格正则化我们将线段离散成512 - 512图像网格上的点。同一文本行上的点之间的间隔为16像素，同一垂直行上的点之间的间隔为10像素。借助于这些离散点的几何形状，可以相应地重新定义我们设置超参数4i=1 wi·vi，其中wi是双线性插值的系数n= 128，α= 10，λ= 2，β = 20，我们解决了分配给四个周围的网格点V1。对于上边界中的点a，我们有va = 0。对于同一文本行中的点b，c，我们有vb−vc= 0。离散化优化问题。为了得到变换能量的离散解，需要对数据惩罚能和表面畸变能进行离散化。对于边界上的点（x，y），可以通过等式n将m（x，y）离散到最近的4个网格点m（xi，yi）。（九）、4n（x，y）=wi·n（xi，yi），（9）i=1其中W1是双线性插值系数，其已被用于将已知条件应用于未知网格点。计算的细节如图2所示五、这种形式也可以应用于线条。畸变能εd可以离散为，优化问题使用交替方向乘法（ADMM）[12]的二次规划（QP）。在求解这一优化问题时，由于网格坐标的特殊性，我们可以优化B1，将问题从一个n×n×2维数问题转化为两个n×n维问题。后期处理。一旦获得了前向映射，我们首先生成后向映射（BM：UV[0，1][0，1]，LinearND），然后通过双线性插值操作对BM进行上采样以获得高分辨率BM。然后，对于所获得的BM中的每个像素，我们从输入im中采样对应的RGB值年龄产生最终结果。5. 实验和分析5.1.数据集和评估指标数据集。对于实验，我们使用DocUNet [27]Σ。[i+1，j]+i、j+β<$[i+1，j+1]−<$[i+1，j]−<$[i，j+1]+<$[i，j]2.i、j4.2.实现细节计算文档边界约束。我们通过使用在Doc3D数据集上训练的DocUNet来获得文档边界[10]。当我们专注于边界信息时，我们对边界添加了一些预处理，例如颜色变化和翻转操作。用于训练的图像大小为128 128。DocUNet的列车损失被定义为预测边界之间的L1距离，即，BDPred，其中BD顶部、底部、左侧、右侧和变形场的地面真实边界BDgt。计算文本行约束。我们训练一个UNet来检测文档图像中的文本行掩码，2图图2显示了地面实况UV地图，而图图5显示了具有最小变形能量的最终UV预测二、和50个带有文本标签的图像[9]，这可以帮助我们分析OCR性能。CER和ED：我们使用CER（字符错误率）和ED（编辑距离）[20]来评估去扭曲方法。具体而言，对于校正后的文档图像，CER计算参考字符串中意外删除、插入和替换的比率，而ED测量来自校正后的图像的OCR结果与地面实况标签之间的不相似性对于ED度量，我们使用PyTesseract（v0.3.8）[33]进行计算。MS-SSIM和LD：对于校正后的文档图像，我们还利用MS-SSIM的基于图像的度量（即，多尺度SSIM）[38]和局部失真（LD）[24]度量，以从全局和局部角度评估结果在实现中，我们使用DocUNet提供的评估代码进行计算。5.2. 与最新技术我们定量和定性地比较我们的方法与S.O.T.A.深度学习方法[10，11，21，27，40]。4550↑↓(a) 原始图像（b）DocUNet（c）DewarpNet（d）几何元素（e）变形网格（f）我们的结果图6.与以往方法的定性比较：我们的方法使用文本线和垂直线来指导变形网格的生成，并且校正后的图像与我们对文档图像中几何元素的期望一致几何元素图像中的绿色线条是文本线条，黄色线条是通过我们的方法提取的垂直线条。表3.在DocUNet基准上对所提出的方法和以前的方法进行定量比较。标准偏差报告在括号中。“ ” indicates the higher thebetter and “ ” means the方法CER（std）↓ED↓MS-SSIM↑LD↓DocUNet [27]0.3955（0.272）DewarpNet [10]0.3136（0.248）1288.600.46928.98[39]第三十九话0.4472（0.274）2000.040.43618.50Xie等人 [40]--0.47699.03Das等人 [11]0.3001（0.14）-0.48799.23我们0.2068（0.141）896.480.49229.36在这些方法中，DocUNet [27]没有使用任何网格正则化，而DewarpNet [10]使用棋盘重建项进行去扭曲。对于基于流的方法，Xie等人 [40]利用拉普拉斯网格来实现更好的性能。我们还将我们的方法与基于分裂的方法进行了比较[11，21]。定量比较。如表3所示，我们提出的方法实现了CER、ED和MS-SSIM指标的最佳性能。受益于具有文本行和边界的正则化公式与其他方法相比，我们的方法将CER降低了9个点，ED降低了30%。对于基于图像的MS-SSIM和LD度量，我们的方法获得了更好的结构相似性，同时保持了可比较的局部失真结果。定性比较。图6示出了与现有技术的定性比较。结果表明，我们提出的方法可以很好地处理严重的畸变。对于校正图像的内部，我们的去扭曲结果比DocUNet和DewarpNet更平滑，因为我们没有在内部区域使用预测的变形场。或者，我们通过优化我们提出的正则化项来获得内部区域此外，我们在图中显示了我们的方法和DewarpNet之间的局部比较。7 .第一次会议。5.3. 消融研究分析了用网格正则化优化器代替传统插值算法的可行性以及几何信息对网格正则化优化器的影响4551×原始图像DewarpNet建议图7.局部比较所提出的方法与Dewarp网络。我们提出的方法获得的文档图像具有更好的可读性。红框显示放大的细节。表4.不同网格正则化项下的烧蚀实验。我们用传统的插值算法（TFI，TPS）代替所提出的网格正则化进行比较。在边界控制点相同的情况下，我们提出的方法在图像质量评价指标上比传统的插值算法能得到稍好的结果。方法CER（标准品）↓ED↓MS-SSIM↑LD↓DocUNet 0.3955（0.272）1684.34 0.4389 10.90边界+TFI 0.3379（0.165）1406.320.48219.74边界+TPS0.3340（0.178）1457.300.48309.42边界+GR 0.3511（0.183）1513.040.48339.42表5.对边界、文本线和垂直线等不同几何元素的决策选择进行消融研究（V）。方法CER （ std ） ↓ED↓MS-SSIM↑LD↓DocUNet0.3955（0.272）边界0.4833 9.42边界+文本线0.2081（0.142）908.840.4907 9.44边界+文本线+V0.2068（0.141）896.480.4922 9.36网格正则化vs.传统插值在烧蚀研究中，我们使用网格正则化方法来取代传统的插值算法。表4中的所有方法都使用我们的方法生成的相同边界点。结果表明，本文提出的网格正则化优化器完全可以取代传统的插值算法. 事实上，通过我们的方法获得的Δ R可以被重新计算。根据文本的几何结构，将其视为两个具有一定变形的直纹TFI曲面由于我们将网格正则化方法看作是一个优化问题，因此其可扩展性优于传统的插值算法，便于在后续算法中加入几何信息。不同几何信息的影响。在本研究探讨了边界线、文字线和垂直线对最终表现的影响。如表5所示，所有这些几何元素对于文档图像去扭曲都是积极的5.4. 限制虽然我们在Do- cUNet基准数据集上获得了令人鼓舞的结果，但我们的方法仍然存在一些问题。首先，由于优化问题的计算复杂性，变形网格单元的大小目前被设置为128 × 128，这限制了离散几何信息的密度，并且使得难以在极小区域中连续拾取点。这可能是图6（f）的第三列中的校正结果具有向上边界移动的一些部分的主要原因。为了得到更精确的校正结果，可以通过进一步追求一些用于能量最小化任务的快速优化器来细化网格其次，我们的方法的当前版本不是端到端的，因此我们可能需要在去扭曲过程中平衡不同的能量项因此，未来的一个方向是开发我们方法的端到端可训练版本，以自动学习所有参数。6. 结论本文研究了文档图像的去畸变问题.通过重新审视基于深度学习的文档图像去扭曲方法，我们解决了在具有文本行和图像边界的几何视角利用所学的几何元素，我们在变形网格上设计网格正则化项，通过求解优化问题来估计2D变形场在我们的实验中，我们证明了我们所提出的方法的有效性与一个新的国家的最先进的性能DocUNet基准。谢谢。本工作得到了国家自然科学基金项目61922065、62101390、41820104006和61871299的资助国家创新型人才博士后流动站项目编号： BX20200248。这项工作也得到了阿里巴巴集团通过阿里巴巴创新研究（AIR）计划的支持。本文的数值计算是在武汉大学超级计算中心的超级计算系统上进行的。4552引用[1] 弗雷德湖布克斯坦主要变形：薄板样条和变形的分解IEEE PAMI，11（6）：567[2] Michael S Brown和W Brent Seales。利用3d形状的文件ICCV，第2卷，第367-374页，2001年。[3] Michael S Brown和W Brent Seales。任意变形文档的图像恢复。IEEE PAMI，26（10）：1295[4] Michael S Brown，Mingxuan Sun，Ruigang Yang，LinYun，and W Brent Seales.从扭曲的文档中恢复2d内容。IEEE PAMI，29（11）：1904[5] Michael S Brown和Y-C Tsoi.利用边界对印刷品图像进行几何和阴影校正IEEE TIP，15（6）：1544[6] 曹怀谷，丁晓青，刘长松。一种用于装订文档图像校正的柱面模型。ICCV，第228-233页，2003年[7] 曹怀谷，丁晓青，刘长松校正相机捕获的绑定文档图像：基于模型的载于ICDAR，第71-75页[8] Fre'de' ricCourteil le ， AlainCrouzil ， Jean-DenisDurou ，andPierre Gurdjos.数字化的阴影形状弯曲的文件。Machine Vision and Applications，18（5）：301[9] 萨尼克·达斯和柯玛doc 3d benchmark 的文本标签，https ： //github 。 com/cvlab-stonybrook/DewarpNet，2019年。[10] Sagnik Das，Ke Ma，Zhixin Shu，Dimitris Samaras，and Roy Shilkrot.Dewarpnet：使用堆叠的3D和2D回归网络进行单图像文档解压缩。2019年10月[11] Sagnik Das ， Kunwar Yashraj Singh ， Jon Wu ， ErhanBas，Vi- jay Mahadevan，Rahul Bhotika，and DimitrisSamaras.文档图像的端到端逐段展开。在ICCV，第4268-4277页[12] 史蒂芬·戴蒙德和史蒂芬·博伊德CVXPY：一种用于凸优化的Python嵌入式建模语言。JMLR，17（83）：1[13] 杰拉德·法林和黛安·汉斯福德。离散的浣熊补丁。CAGD，16（7）：691[14] Hao Feng ， Yuechen Wang ， Wengang Zhou ， JiajunDeng，and Houqiang Li. Doctr：文档图像trans-former的几何unwarping和照明校正。arXiv：2110.12942，2021。[15] William J Gordon和Charles A Hall。超限单元法：任意曲线单元域上的混合函数插值。 NumerischeMathematik，21（2）：109[16] Nail Gumerov，Ali Zandifar，Ramani Duraiswami，andLarry S Davis.单个视图中适用曲面的结构。见ECCV，第482-496页。Springer，2004.[17] Taeho Kil，Wonkyo Seo，Hyung Il Koo，and Nam IkCho.一种基于文本行和线段的文本图像去扭曲方法。在ICDAR，第1卷，第865-870页，2017年。[18] 金范秀，古亨一，赵南益。通过基于文本行的优化进行文档变形。模式识别，48（11）：3600[19] Hyung Il Koo，Jinho Kim，and Nam Ik Cho.从两个视图图像合成去扭曲和增强的文档图像 IEEE TIP ， 18（7）：1551[20] Vladimir I Levenshtein et al. Binary codes capable ofcorrecting deletions，insertions，and reversals.在苏联物理学doklady，第10卷，第707-710页。苏联，1966年。[21] Xiaoyu Li，Bo Zhang，Jing Liao，and Pedro V Sander.基于片的cnn的文档校正和照明校正ACM TOG，38（6）：1[22] Jian Liang，Daniel DeMenthon，and David Doermann.展平图像中的弯曲文档。在CVPR，第2卷，第338-345页[23] Jian Liang，Daniel DeMenthon，and David Doermann.相机捕获的文档图像的几何校正。 IEEE PAMI ， 30（4）：591[24] Ce Liu，Jenny Yuen，and Antonio Torralba.筛流：场景间的密集对应及其应用。IEEE PAMI，33（5）：978[25] Xiyan Liu，Gaofeng Meng，Bin Fan，Shiming Xiang，and Chunhong Pan.使用对抗性门控展开网络进行文档图像的几何校正Pattern Recognition，108：107576，2020.[26] Shijian Lu和Chew Lim Tan。通过网格建模和正则化实现文档扁平化ICPR，第1卷，第971-974页[27] 马可，舒志新，白雪，王珏，萨马拉斯.Docunet：文档图像通过堆叠的U形网展开.在CVPR，2018年6月。[28] Amir Markovitz、Inbal Lavi、Or Perel、Shai Mazor和Roee Litman。你现在能听到我说话吗？使用角度监督的内容感知校正。在Andrea Vedaldi，Horst Bischof，Thomas Brox和Jan-Michael Frahm，编辑，ECCV，第208-223页，Cham，2020年。施普林格国际出版社.[29] 孟高峰，潘春红，向世明，段江永，郑南宁。弯曲文档图像的度量校正。IEEE PAMI，34（4）：707[30] 孟高峰，苏元奇，吴颖，向世明，潘春红。利用向量场对失真文档图像进行几何校正。在ECCV，第172[31] Gaofeng Meng ， Ying Wang ， Shenquan Qu ， ShimingXiang，and Chunhong Pan.通过两个结构化光束对弯曲文档图像进行主动展平。在CVPR，第3890- 3897页[32] Vijaya Kumar Bajjer Ramanna，Syed Saqib Bukhari，andAndreas Dengel.使用深度学习进行文档图像去扭曲。在ICPRAM，2019年。[33] 雷·史密斯 tesseract ocr引擎概述在ICDAR，第2卷，第629-633页[34] NikolaosStamatopoulos ， BasilisGatos ， IoannisPratikakis，and Stavros J Perantonis.基于相机的文档图像的目标导向校正。IEEE TIP，20（4）：910-920，2010年。4553[35] Yuandong Tian和Srinivasa G Narasimhan.弯曲文档图像的校正和3d重建在CVPR，第377-384页[36] 作者声明：Dr.使用边界的多视图在CVPR，第1-8页[37] Adrian Ulges，Christoph H Lampert，and Thomas Breuel.使用立体视觉的文档捕获。ACM文档工程研讨会，第198-200页，2004年[38] Zhou Wang，Alan C Bovik，Hamid R Sheikh，and EeroP Simoncelli.图像质量评价：从误差可见性到结构相似性。IEEE TIP，13（4）：600[39] Guo-Wang Xie ， Fei Yin ， Xu-Yao Zhang ， Cheng-LinLiu.基于全卷积网络的位移流估计的文档图像去畸变。在国际文件分析系统研讨会上，第 131-144 页。Springer，2020年。[40] Guo-Wang Xie ， Fei Yin ， Xu-Yao Zhang ， Cheng-LinLiu.用控制点记录翘曲。载于ICDAR，第466-480页。斯普林格，2021年。[41] 薛竹村，薛楠，夏桂松，沈伟明。学习鱼眼图像校正中的直线校正。在CVPR中，第1643-1651页[42] Shaodi You ， Yasuyuki Matsushita ， Sudipta Sinha ，Yusuke Bou，and Katsushi Ikeuchi.折叠文档的多视图校正IEEE PAMI，40（2）：505[43] 李章，张宇，陈秋。一种改进的基于物理的畸变文档图像几何恢复方法。IEEE PAMI，30（4）：728[44] 张念松和Patrick Yang。Icdar对扫描收据ocr和信息提取的鲁棒阅读挑战，https://github.com/zzzDavid/ICDAR- 2019-SROIE，2019。[45] Xu Zhong ， Jinbian Tang ， and Antonio Jimeno Yepes.pub-laynet：有史以来最大的文档布局分析数据集。在IC

下载后可阅读完整内容，剩余1页未读，立即下载