文档图像的端到端逐段展开：改善移动设备捕获的文档图像质量的可训练方法

84 浏览量更新于2023-10-15 收藏 2.75MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4268文档图像的端到端逐段展开Sagnik Das1，2Kunwar Yashraj Singh1Jon Wu1Erhan Bas1VijayMahadevan1 Rahul Bhotika1Dimitris Samaras21亚马逊AI2石溪大学{sinkunwa，jonwu，erhanbas，vmahad，bhotikar} @ amazon.com，{sadas，samaras} @ cs.stonybrook.edu摘要文档展开试图消除纸张的物理变形，并恢复“平板”扫描的文档图像，用于下游任务，例如OCR。当前的现有技术依赖于文档的全局解扭曲，其对于局部变形变化不鲁棒。此外，全局解扭曲通常在较少扭曲的区域中产生虚假扭曲伪影，以补偿存在于文档的其他部分中的严重扭曲在本文中，我们提出了第一个端到端可训练的分段unwarping1方法，预测局部变形场，并将它们与全局信息缝合在一起，以获得改进的unwarping。所提出的分段公式在多尺度结构相似性（MS-SSIM）方面导致4%的改进，并且与现有技术相比，在OCR指标、字符错误率（CER）和单词错误率（WER）方面1. 介绍使用移动设备捕获的文档图像通常包含由于纸张的物理形状、相机姿态或复杂的照明条件而导致的伪影因此，与使用平板扫描仪以高保真度捕获的图像不同，移动捕获的文档不适合数字化。为了改善下游任务（例如OCR）的图像质量由于相机视角、纸张形状和光照等因素导致的多种失真来源，在野外对文档图像进行解扭曲的任务具有固有的挑战性，并且是文档分析领域中的一个长期研究问题。迄今为止的大多数解决方案首先估计变形的3D形状，然后对图像进行解扭曲以使其成为平面。有大量的工作在3D形状为基础的unwarping，一些依赖于特殊的1项目页号：https://sagniklp.github.io/PiecewiseUnwarp/这个项目是Sagnik Das在AWS实习时发起的图1. （a）我们的方法（左）示出了局部改进，文本行更加对齐（用绿虚线突出显示），并且与右侧的[7]相比，导致边缘上更好的解扭曲（b）原始图像（左）、所提出的方法的结果（中）和全局解扭曲的结果[7]（右）示出了全局解扭曲引入了额外的扭曲（在框中突出显示）。（c）由于在[14]中没有拼接重建损失而导致的伪影，列1、3示出了我们的结果，没有这种伪影。立体[33，28]和结构光[3，23]等特定硬件，或使用2D图像来使用阴影恢复形状[30，35]或多视图图像[27，34]估计3D。关于基于图像的文档展开，传统方法检测文档的边界[4]，或显式预测文本行[26，21]。通常，这些传统的方法不是非常准确，例如：基于文本行的方法只有在（b）第（1）款（c）（一4269形象随着深度学习的发展，大多数最近的方法已经成为端到端和数据驱动的。基于端到端深度学习的文档展开方法，如DocUNet[19]，DewarpNet [7]和CREASE [20]直接预测全局展开图。然而，这些方法主要集中在全局信息，往往忽略局部信息。这导致（1）较不稳健的局部解扭曲，（2）如图1所示的未预期的扭曲。1（a）（b）。有几种方法可以成功地应用局部解扭曲，无论是通过使用补丁[14]还是2D片段[8]。值得注意的是，这些分段方法都不是端到端可训练的，因此难以很好地推广到任意场景，例如纸的大变形。此外，在[14，8]中使用的基于优化的补丁拼接通常导致输出未扭曲图像中的不期望的拼接伪影（参见图1c）。受这些事实的启发，在本文中，我们提出了第一个端到端的可训练的分段unwarping方法，通过一个新的完全可微的特征级缝合模块的局部unwarping地图。我们的目标是利用本地信息来更好地解压缩文档。具体来说，我们认为，学习局部和全局变形，分别通过使用补丁，以及学习适当的补丁拼接将更好地利用局部形状变形。局部方法也由复杂折叠/扭曲的文档是更容易局部近似的多个更简单变形的组合的事实我们的方法包括三个可训练模块：（a）形状网络（SNet），（b）分段展开网络（PUNet），以及（c）全局拼接网络（GSNet）。SNet将图像作为输入并输出纸张的3D形状。PUNet将3D形状补丁作为输入并回归局部解扭曲图。GSNet将局部补丁作为输入，并输出全局解扭曲图以解扭曲输入图像。所有三个网络都是端到端训练的，在局部和全局解扭曲映射回归以及最终的解扭曲图像重建上都有损失。本文的主要贡献是：首先，一种新颖的端到端可训练框架，其以分段方式估计文档展开，专注于局部变形的展开。第二，一个完全可微的拼接网络，以每补丁unwarping地图作为输入，并产生一个全球unwarping地图。该拼接模块是端到端可训练的，并且生成无伪影的未扭曲图像，这改进了现有的基于拼接的工作[14]。第三，我们显示出显着的改善，在本地un-warping质量，与所提出的分段的方法。我们改进了现有技术的图像相似性度量，MS-SSIM和OCR误差度量方面表现出更稳定的性能。2. 相关工作2.1. 非深度学习方法基于参数模型的方法假设文档的变形可以由低维参数表面模型表示，例如圆柱形表面[9]，Coon这些模型是使用视觉线索设计的，例如文本行[21]，内容驱动的矢量场[22]，边界[5，8]或结构光[23]。除了表面模型，样条曲线用于对变形的纸张进行建模，例如NURBS [33]，样条[10]，自然三次样条（NCS）[27]。这些低维参数模型不能模拟具有多个褶皱的非常复杂的表面变形这个缺点限制了它们的使用，仅限于某些情况，如卷曲或透视变形。然而，当复杂形状可以系统地划分为更简单的变形时，这些模型仍然有用[8]。基于网格的方法使用离散表面表示文档形状，主要工作在两个步骤-首先估计形状，然后估计unwarping。他们直接估计网格的每个顶点的位置，并采用不同的3D估计方法，例如立体视觉[28]，点云拟合[3]，激光扫描仪[36]，纹理形状[17，29，26]，多视图成像[34]。估计文档的变形网格依赖于硬件的良好校准和昂贵的设置或对文档内容或多视图图像的重要假设。在所有这些假设下，展开方法的应用在现实场景中变得受限。2.2. 深度学习方法端到端的unwarping方法不作出假设的图像纹理，不需要任何校准的硬件设置。它们易于部署，并且在真实图像上很好地推广。第一种基于深度学习的方法是DocUNet [19]，它直接从变形的文档图像中回归前向映射。然而，该方法是在使用随机2D变形创建的合成图像上训练的，因此不能利用纸张翘曲的3D几何特性，并且在测试中经常生成不切实际的结果这项工作的后继者DewarpNet [7]使用中间3D形状超视来回归解扭曲图，由于解纠缠的3D形状表示，该中间3D形状超视提高了测试中的泛化。另一种基于深度学习的方法CREASE [20]为DewarpNet训练提出了额外的基于内容的损失函数。最近，AGUN [18]提出了一种基于生成式对抗学习的解扭曲方法。非端到端方法首先利用CNN来恢复文档变形，然后采用计算步骤进行解扭曲[8，14]。这些方法通常以分段方式工作Das等人[8]利用4270Ci，jB我LcLpLse补丁三维形状Pred. BM全球经纱||R-R||||r-r||r2Ri、jnnnnbi，j当地经纱图2. 建议的架构：SNet采用图像并生成3D形状图，建议的PUNet采用形状补丁作为输入，并对局部后向映射进行回归。通过使用新的特征金字塔拼接模块GSNet拼接局部BM来回归全局BM。一个额外的全局分支用于引导具有全局对齐和缩放信息的拼接网络。三角形表示损失函数。使用虚线箭头示出了测试时间展开步骤。最终的双线性采样步骤（由“采样”块表示语义分割，以检测折叠线并将文档划分为多个部分。使用Coon补丁[ 11 ]估计每个部分的解扭曲DocProj [14]使用深度网络来估计用于解扭曲的每片矢量流场，然后采用基于图切割的拼接方法。图切割优化目标是不可区分的，因此不是端到端可训练的。与[14]相比，我们的框架由未扭曲图像上的重建损失指导，其在拼接期间自动施加另外，重构损失减少了未扭曲图像中的拼接伪影（参见图1c）。3. 分段整经所提出的分段解翘曲网络由三个子网络组成，所述三个子网络被设计用于3D形状回归、分段解翘曲后向映射（BM）回归和回归翘曲场的拼接。所提出的方法的示意图如图2所示。这些网络相应地被命名为（1）形状网络（SNet）、（2）逐段展开网络（PUNet）和（3）全局拼接网络（GSNet）。和摄像机视角。SNet的设计遵循[7]中提出的3D形状回归网络。我们把任务作为一个图像到图像的翻译问题，并使用UNet风格的编码器-解码器的实施。损失函数。为了训练SNet，我们利用预测的（C）和地面实况（C）3D坐标图之间的L1误差另外，我们在C上应用基于图像梯度的损失项，以更好地重建尖锐的曲率变化，例如褶皱损失函数由下式给出Lc=CC1+CC？1. 在这里， C表示水平和垂直梯度。控制梯度项的权重。3.2. 分段展开网络学习全局解扭曲通常导致次优结果，并且通常网络将不期望的扭曲引入到文档的较小扭曲区域（参见图1（b））。通过分段解扭曲，我们提供了对局部形状变化的鲁棒性。为了实现这一点，3D坐标图（C）和反向图（B）被划分为η2个非重叠的片{Ci，j}和{Bi，j}。3.1.型网络SNet的目标是将输入图像I变换为每像素3D坐标图，其中每个像素值（X，Y，Z）对应于C=i，i+1◆✓j，j+1Σ，0i，jn（1）其中i和j表示补丁的行和列索引。对应的BM_B被划分为：文件的形状。此表示对3D[Bu，Bv]iui+1，jvj+1纸的形状，也隐含地编码相机Bi，j=n-1n n n（二）投影参数，其足以学习向后映射（BM）以用于解扭曲。此外，形状表示使得能够在更多物理约束的域中解决展开任务，而不是从文档纹理、形状、照明否则其中[Bu，Bv]是位置（u，v）处的BM的值，其包含要在（u，v）处采样的I的规范像素坐标。-1值表示不存在于补丁Ci，j中的无效像素。型网络样品网格缝合网络分段展开网络...4271.Σ2n2Rnni、jni、j我们将每个Bi，j相对于t归一化。C ij的规范坐标范围，并且还严格裁剪有效坐标。我们将归一化和裁剪的Bi，j称为局部BM，Bi，0，j。F或valid坐标，归一化操作如下给出b0的为Bu-（i/n）， Bv-（j/n）Σ（3）i、j（i+1）/n-（i/n）（j+1）/n-（j/n）PUNet取补丁Ci，j2 R（w/n）（h/n）3作为输入，并输出局部反向映射Bi0，j二个（ w/n ）（ h/n ） 2.该网络被实现为具有层归一化的DenseNet块的编码器-解码器[2]。使用BatchNorm [12]会导致过拟合，因为批次中的Cij高度相关。损失函数。最初，利用局部BM上的L1损失B10，j和预测的未扭曲图像块Di，j上的L2损失来训练PUNet。在使用地面实况Ci，j作为输入的第一轮训练之后，我们执行PUNet和SNet的端到端训练。对于这一步，我们利用SNet预测Ci，j作为PUNet的输入。 com-用于训练PUNet的完全损失函数被给出为：Lp=||b0的||Di，j - D i，j||2+ Ø 2 L c.||2+Ø2Lc. 其中Di，j-B0图3.局部BM的规范放置。左：红色标记显示图像和纹理（未翘曲）域之间的角对应关系，假设文档是等角四边形。蓝色标记示出了CPM中使用的斑块原点Bi，j右：CPM模块：红色显示角，蓝色显示用于局部面片的全局粗略放置的面片原点。在反规范化步骤之后，我们执行每个局部BM的粗略空间放置假设一个文档是一个四边形，我们可以假设最左上角的图像块C0，0将展开到B的最左上角，依此类推。利用这个空间核心-响应于Ci，j和Bi，j，每个局部BM被放置在B.i，jΣ。我们可以证明n=2的最简单情况，并且D（ i，j）表示使用以下方法未被处理的输入图像块：地面实况BM块Bi0，j和预测BM块Bi0，j。在DewarpNet [7]之后，我们使用Di，j的棋盘图像（更多细节在补充中讨论）。对于PUNet初始训练，Ci，j，Ø2被设置为0。3.3. 全球缝合网络我们提出了一个特征级拼接网络来拼接局部BM回归B，用于解扭曲图像I。虽然可以使用图像配准策略在图像级别设计拼接，但它相反，局部BM上的特征级方法对上述问题是鲁棒的此外，由于局部BM由于I中存在的透视失真而在尺度上不同，因此我们在拼接网络中采用特征金字塔最后，为了确保更好的全局对齐，我们引入全局BM特征分支作为局部BM金字塔特征的残差提出的全局拼接网络（GSNet）由两个子模块组成：（1）规范布局模块（CPM）和（2）网格拼接特征金字塔网络（G-FPN）。GSNet的概述如图5所示。规范放置模块。在eq. 在图3中，每个有效局部BM位置[Bu，Bv] [0，1]对对应图像块Ii，j的规范坐标进行编码。为了解扭曲图像I，[Bu，Bv]值需要被重新缩放到I的规范坐标。因此，在拼接之前，使用等式（1）的逆运算对局部BMB10，j进行去3 .第三章。B（0，0. 5）和B1，1在B（0. 5，0。（五）。联合国的插图-显示了粗略放置步骤之后的扭曲面片在图4中（底行）。去规范化和粗略放置步骤通过将输入[Bu，Bv]值与输出B粗略对准来简化G-FPN的任务。栅格缝合特征金字塔网络。由于图像块的透视差异，输出局部BM处于不同的尺度，例如，更靠近照相机的补片比远离照相机的补片具有更高的比例。因此，更靠近相机的未扭曲的补丁比更远离的补丁具有更高的尺度。这在图4（底行）中示出。我们处理这种规模不匹配采用一个功能金字塔，而缝合。为了在特征空间中执行拼接，我们提出了一种新的特征金字塔编码器[15]，该编码器基于残差通道注意力网络（RCAN）[37]块，最初引入用于图像超分辨率。我们的拼接任务类似于超分辨率，在这个意义上，我们的目标是保留学习的本地BM的高频细节。我们使用stride-s卷积来降低局部BM特征的空间分辨率，在每个特征级别上降低因子s。图5中示出了G-FPN的概述。 G-FPN的主要输入是从CPM获得的η2个为了帮助G-FPN具有一致的全球规模和一致性，在[7]之后引入了额外的全球分支。这分支采用3D坐标图Chw 3作为输入并学习回归B。全局分支的输出用作G-FPN的次级输入所提取的金字塔的每一层的地方特征是关联的-bi，jBi，j图像CPM.....R其中，B0，0被放置在B（0，0）处，B0，1被放置在B（0，0）处。5，0），B1，0在纹理4272FL1FL2FL3FL4LS块FGFlbi，jCFi=1FFR 2 R||-||||-||⇥⇥⇥-LFF2全局扭曲CPMBi，jB图4. 不同面片之间比例不匹配的图示：顶部是输入图像，底部是使用CPM在纹理空间中进行空间放置之后的未扭曲的补丁。将全局特征（F1）与从全局分支提取的全局特征（Fg）-起馈送到全局融合块（f）（在图5中也由F表示）消融实验示出了表2中的全局和局部分支的效果。Fl=nfi;Ff=（Fl+Fg）;B=t（Ff）。这里，fi表示从每个特征级别i提取的局部特征，并且表示逐通道级联操作。是全局融合块的输出。 t表示采用融合特征并输出B的最终块。总之，全局拼接模块的输入是局部BM和全局BM的级联，B〜2hw 2（n+1），并且输出是BM，Bhw2。我们展示了不同的拼接模型的比较评价补充材料中的变体。这些模块在全局融合函数（）和长跳过块（LS块）结构方面有所不同。损失函数。为了训练PUNet，我们利用最终BM和未扭曲图像上的损失。各自的损失函数被给定为：BB1+λDD？2. 表示由G-FPN产生的拼接BM，并且B是关于地面实况。D和D是输入图像未使用B和B相对于V进行描述。λ表示权重与L的第二项相关联。类似于[7]，我们利用棋盘图案图像来获得D和D。3.4. 培训详细信息数据集。为了训练我们的网络，我们使用Doc3D数据集[7]。Doc3D包含使用Blender渲染的100K合成文档图像[1]。该数据集利用大量文档纹理进行渲染，并包含3D形状C和BM，B作为地面实况。我们使用88K和8K分割来训练和验证我们的网络。由于我们所有的训练数据都是合成的，并且每个模块的地面实况都是可用的，因此我们遵循cased网络[31]中的常见做法，即预先训练每个模块，以便在执行端到端训练之前稳定整体训练。隆乳。对于SNet训练，我们将随机亮度、对比度、色调、饱和度偏移应用于输入IM。图5. 建议的GSNet：CPM表示规范放置模块，全局扭曲表示全局BM的全局分支，LS块表示具有全局特征的几个卷积层，F表示局部（Fl）和全局（Fg）特征的特征融合（F），FL i表示金字塔层级i。表示信道级级联。概率为0的年龄。五、此外，我们使用DTD [6]数据集中的随机纹理随机替换这些图像的背景。对于PUNet，我们通过改变[0]中的形状补丁大小来应用增强。四，零。6]。我们还在C周围使用了可变填充。如果没有这些增强步骤，PUNet会出现偏差，并且无法在测试时处理填充变化。我们还注意到，在补丁（Ci，j）中可能只有一个小的文档区域是可见的，这会使训练不稳定。在PUNet的训练过程中，我们利用文档掩码周围的最小外接矩形对图像进行同态变换。超参数。SNet使用256个256大小的图像进行训练。对于PUNet，我们设置n=2，并且输入128个128大小的形状块Ci，j。PUNet输出相同大小的本地BM预测。每个局部BM然后被调整大小为128/n并且用作CPM的输入。CPM的输出和全局纹理拼接模块的输入是128128。我们使用5个残余通道注意力块[37]来构建特征金字塔网络，并在通道注意力块中使用4倍特征为了训练每个网络，我们使用Adam [13]优化器，初始学习率为1e5。如果验证误差在连续5个时期内没有减少，则学习速率减半。SNet和PUNet首先使用地面实况分别训练收敛，并且学习的权重用于初始化联合训练。我们设置损失权重=0。5，Ø1= 0。03和Ø2=0。五、类似地，G-FPN首先用本地训练。从B.稍后，我们冻结SNet的权重和PUNet与最佳模型和微调G-FPN与ц=0。03.我们发现，使用较高的Ø1，ц值会导致测试期间未扭曲图像上出现噪声。4. 实验评价我们用多个实验验证了我们提出的分段去扭曲方法。我们首先评估我们的方法对当前国家的最先进的，然后我们提出FFfConv. 块...G-FPN4273“#图6. DocUNet Benchmark中CER的分布：拟定（CER-PW）与DewarpNet（CER-DW）。具有较低CER（x轴）的文档（y轴）的百分比越高越好。额外的消融实验来评估我们的设计选择。为了评估所提出的方法，我们使用图像相似性度量、多尺度结构相似性（MS-SSIM）和来自DocUNet的130个图像基准上的局部失真（LD）[19]。此外，我们在DocUNet使用字符（CER）和单词错误率（WER）的51个图像基准上评估OCR性能。4.1. 评估指标评估度量的选择遵循先前的文档解扭曲方法[7，19]。最近的论文CREASE [20]根据地面实况（扫描）和预测未扭曲图像中检测到的文本边界框之间的编辑距离（ED）[24]然而，该评估方案需要测试图像的地面实况变形场，因此不适用于真实基准[19]。在这篇文章中，我们将重点放在我们的评价指标，适用于真实图像。图像相似性度量MS-SSIM [32]基于在多个高斯金字塔尺度上计算的未扭曲和扫描（地面实况）图像LD基于未扭曲图像和扫描图像之间的密集SIFT流[16]。关于这些评估指标MS-SSIM、LD、CER和WER的参数设置的详细信息在[7，19]中讨论。我们使用相同的设置进行公平比较。对于OCR评估，我们使用开源Tesseract（4.1.1）[25]和基于LSTM的OCR引擎。4.2. 与先前方法的我们定量和定性地比较了我们的方法与最近基于深度学习的文档解压缩方法 DocUNet [19] ， DocProj[14]，DewarpNet [7]，折痕[20]， ”[18]《礼记》。DocUNet [19]使用合成数据，并利用每像素前向映射回归来以端到端的方式学习解扭曲。DocProj [14]使用基于补丁的方法进行具有全局潜在特征的局部回归。但是由于前向图的基于图切割的拼接而不是端到端可训练的。DewarpNet和CREASE都是使用Doc3D数据集进行训练的，该数据集包含文档的3D形状我们的方法与DewarpNet有很大的不同，因为它的帐户方法MS-SSIM“LD编号CER编号WER编号DocUNet [19] 0.438910.900.3203（0.15）0.4567（0.20）DocProj [14]0.383212.830.3474（0.16）0.4889（0.21）阿根[18]0.4491十二点零六分DewarpNet[20]0.46928.980.3028（0.16）0.4368（0.21）提出0.48799.230.3001（0.14）0.4302（0.18）表1.在DocUNet基准数据集上对所提出的方法和先前的方法进行定量比较。并且分别表示更高和更低。标准偏差报告在括号。无法计算OCR指标，因为图像或模型未公开提供。对于，并纠正，变形在一个局部补丁的水平，不像DewarpNet只执行全球unwarping。这是通过由所提出的模块PUNet、CPM和GSNet组成的本地分支来实现的。AGUN [18]提出了一种基于对抗学习的框架，以使用2D中的合成变形文档来学习定量比较。我们将所提出的分段方法与先前的文档展开方法DewarpNet [7]，AGUN [18]，DocProj [14]和DocUNet [19]进行了比较。我们将CREASE从该比较中排除，因为他们的模型无法公开进行公平的定量比较。定量结果比较见表1所提出的分段方法在MS-SSIM度量方面优于最先进的DewarpNet，并且还示出基于图像相似性的改进是由于扫描的地面实况和未翘曲图像的更好的局部结构对准虽然我们的OCR数字非常接近DewarpNet，但在CER和WER指标方面，采用所提出的分段方法，我们实现了较低的标准差（减少2%为了证明OCR指标的改进，我们在图6中显示了所有OCR测试文档的CER的直方图。我们可以清楚地看到，更多的文件有一个较低的CER与所提出的方法。我们还在图10中显示了与[7]的定性OCR错误比较。我们必须注意，OCR错误率还取决于OCR引擎的准确性，并且我们在补充中讨论了一些情况，其中我们注意到虚假的ED值，尽管图像在解扭曲质量方面非常相似。与DocProj [14]相比，我们的改进更显著，这是因为两个主要原因：（1）[14]假设局部补丁没有背景，以及（2）[14]我们想要强调的是，背景假设在基准测试中存在的真实图像中经常被违反我们的方法显示了一个小的百分比增加，由于全球的不对准和规模不匹配的本地分支的引入，在LD度量然而，这些误差对于文档展开质量来说是微不足道的。我们将在补充材料中详细讨论我们的观察结果。4274（一）（b）第（1）款（c）第（1）款（d）其他事项(a)输入（b）拟议（c）DewarpNet（d）扫描(a)（b）（c）（d）（一）（b）第（1）款（c）第（1）款（d）其他事项（一）（b）第（1）款（c）第（1）款（d）其他事项图7. 分段解扭曲和DewarpNet的定性比较：（a）输入，（b）建议，（b）DewarpNet [7]，（d）扫描gt。突出显示的行清楚地显示了局部改进。图8. 所提出的方法与DewarpNet和CREASE的局部比较：列1和3显示了我们的结果，列2是DewarpNet [7]，列4是CREASE[20]。更高分辨率的未扭曲图像不可用于CREASE。4275⇠⇠（一）（b）第（1）款（一）（b）第（1）款图9.定性比较（a）提出的方法和(b)DocProj [14].[14]假设局部块没有背景，因此无法处理输入图像中的大背景区域。522图10.（左）提出的未扭曲、（中）DewarpNet [7]未扭曲和（右）扫描的OCR的定性比较。我们用红色突出显示OCR错误，识别错误的数量在黄色框中给出。缩放以查看详细信息。定性比较。我们在图7中显示了与DewarpNet的定性结果的比较。为了更好地展示由于分段方法而导致的局部改进，我们在图 8 中示出了与全局解扭曲方法DewarpNet [7]和CREASE [20]的特写比较。我们可以清楚地注意到，我们的分段公式捕捉局部结构，如文本行，图像边界和文本段，比全球战略更好。图7中的水平和垂直提示线突出显示了一些改进。我们还示出了与图9中的DocProj [14]的定性比较，这是一种逐片解扭曲方法，但不是端到端可微的。4.3. 消融研究本节详细介绍了我们架构的设计决策和消融研究。我们要注意的是，除了下面的章节之外，我们还在补充中包括了其他实验。全球和本地BM分支的比较在这个实验中，我们的目的是评估的贡献，全球和当地的BM在全球纹理拼接模块。为了单独评估每个模块，我们在没有全局BM作为输入的情况下训练拼接FPN。在这种情况下，仅局部BM补片被用作网格拼接FPN的输入以合成最终BM。的定量比较方法MS-SSIM“LD#本地0.4552 9.78全球本地+全球0.4879 9.23表2.分段展开模块的比较。我们评估仅具有局部或全局分支以及两者的模型。局部拼接BM、全局BM和这两者的组合在表2中报告。全局分支（对应于DewarpNet的设置）显示出比其他变体更低的LD，因为它实现了与地面实况的更好的全局对齐。另一方面，如图4所示，局部分支独立地遭受在块之间的大视角差异的情况下的全局对准和尺度失配。组合模块补偿这些错误，并实现了5%以上的独立的全球分支基于unwarping MS-SSIM。全局和本地分支之间的性能权衡我们通过使用冻结的、联合训练的SNet和PUNet模块来训练GSNet，获得了最佳的解扭曲结果当这个约束被放松并且SNet、PUNet、GSNet被端到端训练时，我们观察到GSNet使网络偏向于关注全局解扭曲而不是局部解扭曲。在验证中，这会导致PUNet中的L1错误增加2%，而PUNet中的L1错误增加1%。6%的L1错误减少GSNet，从而降低了测试的整体性能。面片重叠的影响。贴片之间的重叠是基于贴片的方法的常见设计选择[14]。然而，我们我们的拼接网络以端到端的方式使用全局重建损失进行训练。它提供了一个足够的学习信号，使我们的模型可以interpolate的补丁，即使在没有任何重叠的情况下。作为非重叠的优点，我们不需要传输冗余信息，并且可以节省在内存和运行时的推理成本。5. 结论和未来工作我们提出了一种新颖的端到端架构，用于文档图像的逐段解扭曲在图像相似性和OCR度量方面，我们已经显示出优于现有技术方法的性能我们明确地建模的unwarping作为一个组合的本地和全球的翘曲领域，导致更好的本地重建。对于未来的工作，可以利用自适应修补策略来更好地结合本地3D信息。此外，拼接网络的局部重构可以扩展到递归结构以处理任意数量的补丁。确认这项工作得到了合作伙伴大学基金，SUNY2020 ITSC和亚马逊AI的部分支持4276引用[1] Blender -3D建模和渲染软件包。五个[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。四个[3] Michael S Brown和W Brent Seales。使用3D形状的文档恢复：一种用于任意扭曲文档的通用去偏斜算法在国际会议计算中目视，2001年。一、二[4] Michael S Brown和Y-C Tsoi.利用边界对印刷品图像进行几何和阴影校正 IEEE Transactions on ImageProcessing，15（6）：15441[5] 曹怀谷，丁晓青，刘长松。一种用于装订文档图像校正的柱面模型在国际会议计算中目视，2003年。二个[6] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。在IEEE Conf. Comput.目视模式识别，2014年。五个[7] Sagnik Das，Ke Ma，Zhixin Shu，Dimitris Samaras，and Roy Shilkrot.DewarpNet：使用堆叠的3D和2D回归网络进行单图像文档解扭曲。在Int. Conf.Comput.目视，2019年。一二三四五六七八[8] Sagnik Das，Gaurav Mishra，Akshay Sudharshana，andRoy Shilkrot.常见的Fold：利用四折叠从单个图像去扭曲打印文档。在2017年ACM文档工程研讨会上，DocEng '17，第125-128页，2017年。二、四[9] Andrei Doncescu，Alain Bouju，and Veronique Quillet.供购书数字化处理：图像扭曲在Proceedings Workshopon Document Image Analysis（DIAIEEE，1997年。二个[10] Hironori Ezaki ， Seiichi Uchida ， Akira Asano ， andHiroaki Sakoe.用全局优化方法对文档图像进行去扭曲。2005. 二个[11] 杰拉德·法林和黛安·汉斯福德。离散的浣熊补丁。计算机辅助几何设计，16（7）：691-700，1999. 二、三[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。四个[13] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun的编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪程序，2015年。五个[14] Xiaoyu Li，Bo Zhang，Jing Liao，and Pedro V.桑德使用基于补丁的 CNN 进行文档校正和照明校正。 ACMTransactions on Graphics（TOG），2019年。一二三六八[15] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。四个[16] Ce Liu，Jenny Yuen，and Antonio Torralba.筛流：场景间的密集对应及其应用。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：978-994，2011. 六个[17] 刘昌松，张宇，王宝康，丁晓青。恢复相机捕获的失真文档图像。International Journal on Document Analysisand Recognition，18（2）：111-124，2015。二个[18] Xiyan Liu，Gaofeng Meng，Bin Fan，Shiming Xiang，and Chunhong Pan.使用对抗性门控展开网络进行文档图像的几何校正Pattern Recognition，108：107576，2020.二、六[19] 马可，舒志新，白雪，王珏，萨马拉斯.DocUNet：通过堆叠的U-Net进行文档图像解扭曲。在IEEE Conf.Comput.目视模式识别，2018年。二、六[20] Amir Markovitz、Inbal Lavi、Or Perel、Shai Mazor和Roee Litman。你现在能听到我说话吗？使用角度监督的内容感知校正。arXiv预印本arXiv：2008.02231，2020。二、六、七、八[21] 孟高峰，潘春红，向世明，段江勇.弯曲文档图像的度量校正。 IEEE Transactions on Pattern Analysis andMachine Intelligence，34（4）：707-722，2012. 一、二[22] 孟高峰，苏元奇，吴颖，向世明，潘春红。利用向量场对失真文档图像进行几何校正。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-187页二个[23] Gaofeng Meng ， Ying Wang ， Shenquan Qu ， ShimingXiang，and Chunhong Pan.通过两个结构化光束对弯曲文档图像进行主动展平在IEEE会议Comput.目视模式识别，2014年。一、二[24] 作者：Frederic P. Miller，Agnes F.范多姆和约翰·麦克布鲁斯特。Levenshtein距离：信息论，计算机科学，弦（计算机科学），弦度量，Dam- erau？Levenshtein距离，拼写检查器，汉明距离。Alpha Press，2009. 六个[25] R.史密斯 Tesseract OCR引擎概述。在ICDAR。IEEE，2007年。六个[26] Yuandong Tian和Srinivasa G Narasimhan.弯曲文档图像的校正和3D重建。在IEEE Conf. Comput.目视模式识别，2011年。一、二[27] 作者声明：Dr.使用边界的多视图文档校正在IEEE会议Comput. 目视模式识别，2007年。一、二[28] 放大图片作者：Adrian Ulges，Christoph H.作者声明：by J.使用立体视觉的文档捕获。2004年ACM文档工程研讨会论文集，Do-cEng'04，第198-200页，2004年。一、二[29] Adrian Ulges ， Christoph H Lampert ， and Thomas MBreuel.使用卷曲文本行的鲁棒估计的文档图像去扭曲。2005. 二个[30] ToshikazuWada ， HiroyukiUkida ， andTakashiMatsuyama.在近端光源下，利用相互反射的阴影形成的形状：展开的书本的无失真复制。International Journalof Computer Vision，24（2）：125-135，1997。一个4277[31] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集，2018。五个[32] Zhou Wang，Eero P Simoncelli，and Alan C Bovik.图像质量评价的多尺度结构相似性。第37届Asilomar信号，系统和计算机会议，2003年。六个[33] Atsushi Yamashita、Atsushi Kawarago、Toru Kaneko和Kenjiro T Miura。用立体视觉系统对非平面文件进行形状重建和图像恢复。在内部会议模式识别中，2004年。一、二[34] Shaodi You ， Yasuyuki Matsushita ， Sudipta Sinha ，Yusuke Bou，and Katsushi Ikeuchi.折叠文档的多视图校正。IEEE Transactions on Pattern Analysis and MachineIntelligence，2017。一、

下载后可阅读完整内容，剩余1页未读，立即下载