DewarpNet：单图像文档解扭曲的堆叠3D和2D回归网络

3 浏览量更新于2023-10-12 收藏 4.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

131DewarpNet：使用堆叠的3D和2D回归网络进行单图像文档解扭曲Sagnik DasZhaoKe MaShiZhixin Shu Dimitris Samaras Roy Shilkrot石溪大学{sadas，kemma，zhshu，samaras，roys}@ cs.stonybrook.edu摘要在非结构化环境中使用手持设备捕获文档图像是当今的常见做法然而，在这项工作中，我们提出了DewarpNet，这是一种用于从单个图像中展开文档图像的深度学习方法。我们的见解是，文件的3D几何形状不仅决定其纹理的翘曲，而且还导致照明效果。因此，我们的新颖性在于端到端流水线中的文档纸的3D形状的显式建模。此外，我们还提供了迄今为止最大和最全面的文档图像展开数据集-Doc 3D。该数据集具有多个地面实况注释，包括3D形状，表面法线，UV贴图，图像等。使用Doc3D进行培训，我们通过广泛的定性和定量评估展示了DewarpNet的最先进性能。我们的网络还显著提高了捕获的文档图像的OCR性能，平均降低了42%的字符错误率。代码和数据集都发布了1。1. 介绍纸质文件承载着宝贵的信息，在我们的日常工作和生活中发挥着不可或缺的作用。数字化文档可以以方便、安全和高效的方式进行存档、检索和共享。随着便携式相机和智能手机的日益一旦捕获，文档图像可以被转换成电子格式，例如PDF文件，用于进一步处理、交换、信息提取和内容分析。在捕获图像时，期望*表示同等贡献。1https：//www.cs.stonybrook.edu/https：//www.cs.stonwww.example.comhttps：//www.cs.ston图1. 文档图像展开。顶行：输入图像。中间行：预测的3D坐标图。底行：预测的未扭曲图像。列从左到右：1）卷曲，2)1倍，3）2倍，4）多倍，OCR置信度以红色（低）到蓝色（高）突出显示。以尽可能高的准确度保存文档上的信息然而，用移动设备捕获的随意照片通常由于不可控因素（诸如纸张的物理变形、变化的相机位置和不受约束的照明条件）而遭受不同程度的失真。因此，这些原始图像通常不适合自动信息提取和内容分析。以往的文献研究了使用各种方法的文档展开问题。传统的方法[26，46]通常依赖于纸张的几何特性来恢复解翘曲。这些方法首先估计纸的3D形状，由一些参数形状表示[9，47]或一些非参数形状表示[35，45]表示之后，他们计算出132（一）(b)（c）第（1）款图2. 比较不同的数据集。（a）显示了来自我们的Doc3D数据集的图像。我们在这里展示了从2个网格渲染的6个图像。每个网格都可以使用各种纹理和照明条件进行渲染。(b)是从[23]复制的合成训练图像。(c)是真实世界的测试图像[45]。使用优化技术从变形图像和估计的形状中获得平坦图像。这些方法的一个共同Ma等人的近期工作。[23]提出了一种深度学习系统，该系统直接从变形的文档图像中回归解扭曲操作。他们的方法显著地提高了文档展开系统的速度然而，他们的方法没有遵循纸张翘曲的3D几何特性纸张折叠发生在3D中：具有不同纹理但具有相同3D形状的纸张可以用相同的变形场来解翘曲。因此，3D形状可以说是恢复未翘曲纸张的最关键线索。基于这一思想，我们提出了DewarpNet，一个新的数据驱动的unwarping框架，利用一个显式的3D形状表示学习unwarping操作。DewarpNet分两个阶段工作，有两个子网：i）“形状网络”消耗变形文档的图像并输出3D坐标图，该3D坐标图已被证明足以用于展开任务[ 45 ]。ii）我们在中间3D形状和最终解扭曲结果上联合训练两个子网络（图1）。①的人。之后，我们提供一个“refinement network” that removes the shading effect为了能够使用显式中间 3D 表示来训练这个unwarping网络，我们创建了Doc 3D数据集-迄今为止用于文档图像unwarping的最大和最全面的数据集。我们以混合方式收集Doc3D，将（1）从自然翘曲的纸张中捕获的3D形状（网格）与（2）大量文档内容的真实感渲染相结合每个数据点都带有丰富的注释，包括3D坐标图、表面法线、UV纹理图和纹理图。Doc3D总共包含大约100，000个注释丰富的真实感图像。我们将我们的贡献总结如下：首先，我们贡献Doc3D数据集。据我们所知，这是第一个也是最大的文档图像数据集，在3D和2D域中都有多个地面实况注释。其次，我们提出了DewarpNet，这是一种用于文档解压缩的新型端到端深度学习架构。该网络能够实现高质量的文档图像实时展开。第三，在Doc3D数据集中使用丰富的注释进行训练，DewarpNet与最近的最新技术相比表现出更优越的性能[23]。通过与真实文档扫描的感知相似度评估，我们将多尺度结构相似度（MS-SSIM）提高了15%，局部失真36%此外，我们证明我们的方法的实际意义是减少了42%的OCR字符错误率。2. 以前的工作基于变形是如何建模的，关于文档展开的两组先前工作是：基于参数形状的模型和基于非参数形状的模型：基于形状的参数化方法假设文档变形由低维参数模型表示，并且这些模型的参数可以是通过视觉线索推断出来的圆柱表面是最流行的参数模型[8，16，19，26，41，46]。其他模型包括非均匀有理B样条（NURBS）[10，44]，分段自然三次样条（NCS）[36]，Coon补丁[9]等。用于估计模型参数的视觉提示包括文本行[25]、文档边界[5]或来自外部设备的激光束[27]。Shafait和Breuel [33]在一个只有透视和卷曲失真的小数据集上报告了几种基于参数形状的方法然而，这种低维模型难以模拟复杂的表面变形。相比之下，基于形状的非参数方法不依赖于低维参数模型。这种方法通常假设用于解的网格表示133深度贴图网格C网格一图3. 数据收集管道。I.工作站安装在台架上的水平深度相机捕获变形的文档。一个引脚救济系统精确地控制翘曲。二. 数据处理.我们将深度图转化为点云来重建网格。使用多个渲染配置，我们渲染了（a）图像，（b）图像映射，（c）UV映射，（d）3D坐标映射，（e）表面法线，(f)深度图形成的文件纸，并直接估计每个顶点在网格上的位置。用于估计顶点位置的方法包括参考图像[29]，文本行[21，35，39]和卷积神经网络（CNN）[30]。许多方法从估计或捕获的3D纸张形状信息重建网格。值得注意的例子是从立体视觉[38]，多视图图像[45]，结构光[4]，激光测距扫描仪[47]等估计的点云。然而，重新排序到外部设备或多视图图像使得该方法不太实用。本地文本行功能无法处理混合了文本和图形的文档。此外，这些方法通常涉及复杂且耗时的优化。最近，Ma等。[23]提出了“DocUNet”，这是第一个通过深度学习解决文档扭曲的数据驱动方法。与现有方法相比，DocUNet在推理过程中更快，但在真实世界的图像上并不总是表现良好，主要是因为合成训练数据集只使用2D变形。3. Doc3D数据集我们以混合方式创建了Doc3D数据集，使用真实文档数据和渲染软件。我们首先捕获了自然变形的真实文档纸张的3D形状（网格）。之后，我们使用路径跟踪[40]在Blender [1]中渲染具有真实文档纹理我们在渲染中使用了不同的相机位置和不同的我们的方法的一个显着的好处是，数据集是在大规模创建与真实感渲染。同时，我们的方法生成多种类型的像素级文档图像地面实况，包括3D坐标图，三维图，法线，深度图和UV图。这种图像形成变化对我们的任务是有用的，但通常在现实世界的采集场景中更难获得与[23]中的数据集相比，其中3D变形仅在2D中建模[28]，我们的数据集以物理接地的方式模拟文档变形。因此，在本发明中，与在[23]的数据集上训练的模型相比，在我们的数据集上训练的深度学习模型在测试真实世界的图像时会更好地泛化。我们在图中直观地比较了数据集样本。二、3.1. 捕获变形的文档3D形状3D点云捕捉。我们的工作站（Fig.3（I））的变形文档形状捕获系统由桌面、机架、深度相机和浮雕支架组成。机架将深度摄像机保持在58 cm的高度，面向桌面。在这个高度，深度相机捕获整个文档，同时仍然保留变形细节。释放支架有64个单独控制的销，提高文件的高度，使其与桌面隔离。高度差异使得从深度图中的背景提取文档更容易。支架模拟文档的复杂搁置表面，并且还支撑变形的文档以保持卷曲或折痕。我们使用校准的英特尔实感D415深度摄像头来捕捉深度图。假设没有遮挡，文档的点云通过X（3D）=K−1[i，j，dij]T获得，其中dij是深度图中pixel位置i，j处的深度值。从照相机读取固有矩阵K我们对6帧进行平均以减少零均值噪声，并应用具有高斯核的移动最小二乘（MLS）[32]来平滑点云。网格创建。我们使用球旋转算法从捕获的点云中提取网格[3]。网格有130，000个顶点和270，000个面覆盖所有顶点。然后，我们将每个网格子采样为100×100的统一网格，以便于网格增强，对齐，和渲染。由于我们的inexpen- sive传感器的精度限制，即使是更高分辨率的网格网格也无法提供更精细的细节，如细微的折痕。每个顶点都有一个UV位置，以指示纹理坐标，用于渲染步骤中的纹理映射 n（u，v）={（0，0），（0，1），（1，0），（1，1）}到点云构形IIFeDCB一我H3（e）(d) 变形纸(e) 销释放系统(c)机架 H2（d）其他事项（c）第（1）款H1（b）第（1）款（一）高1厘米高2厘米高5厘米高3厘米高35厘米(a) 水平照明相机纹理渲染134图4. DewarpNet Framework. I是输入的变形文档图像。Ic是棋盘图案纹理中的I培训流程用黑线表示。两条黑色虚线是指预测的（D）和地面实况（D）未绘制的重建图案。流量以红色虚线表示。三角形表示损失（见第4.2详情）。C和B分别是3D坐标和反向映射的地面实况网格，我们为所有顶点插值UV值[37]。网格增强和对齐。为了进一步利用每个网格，我们首先分别沿x，y，z轴翻转网格，得到8个网格，并随机裁剪出4个小网格，范围从65×65到95×95个不同长宽比的顶点。我们插入了所有网格的分辨率均为100×100。这些ad-mesh显著增加了植物数据集。通过解决绝对方向问题[13]将所有网格与模板网格对齐，以统一缩放、旋转和平移。该步骤确保一个唯一变形具有一个唯一3D坐标表示。我们总共生成了4万个不同的网格。3.2. 文档图像渲染配置. 为了增加数据集的多样性，我们在渲染过程中改变了相机，照明和纹理的配置。对于每张图像，相机被随机放置在一个球形帽上，“ 向上 ” 方向在 [-30 °，30 °]范围内。摄像机方向被约束在虚拟世界附近的一个小区域内，金酒我们使用从Laval Indoor HDR数据集中的2100个环境地图中随机采样的照明环境渲染了70%的图像[12]。我们还使用随机采样的点光源在简单照明条件下渲染了30%的图像。上的纹理网格是从真实世界的文档图像中获得的。我们收集了7，200张学术论文，杂志，海报，书籍等图像在多个布局中包含文本和图形的混合。丰富的注释。对于每个图像，我们生成了3D坐标图、深度图、法线、UV图和反射图。节中4，我们展示了如何将这些地面实况图像纳入我们的网络。4. DewarpNet4.1. 网络架构DewarpNet ，如图所示。 4 ，由两个用于学习unwarping的子网络组成：形状网络和纹理映射网络。此外，我们提出了一个后处理细化模块的照明效果调整，在视觉上提高了未变形的图像。DewarpNet 将变形文档I∈Rh×w×3的图像作为输入，并预测向后映射B∈Rh×w×2（h和w是高度和宽度）。映射B是表示图像变形的流场：B中的每个像素（x，y）表示输入图像I中的像素位置。我们使用双线性采样对I中的像素值进行采样，以生成最终的未变形文档图像D∈Rh×w×3。形状网络。DewarpNet首先回归输入文档图像的3D形状。我们将此回归任务表述为图像到图像的转换问题：给定输入图像I，形状网络将I的每个像素转换为3D坐标图C∈Rh×w×3，其中每个像素值（X，Y，Z）对应于图像的3D坐标。文件形状，如图所示。4.第一章我们使用U-Net [31]样式的编码器-解码器架构，在形状网络中具有跳过连接纹理映射网络。纹理映射网络以3D坐标映射C作为输入，并输出反向映射B。在纹理映射网络中，我们使用具有多个DenseNet [14]块的编码器-解码器架构该任务是从C中的3D坐标到B中的纹理坐标的坐标变换。我们在纹理映射网络中应用坐标卷积（CoordConv），因为它被证明可以提高网络在坐标变换任务中的泛化能力[18，22]。我们的实验表明，这种技术的有效性，在秒。五点五型网络纹理映射网络布拉CIBB^^D^细化双线性采样135）的I和N. A是S预测的后向映射B上的损失项LB和预测的未压缩图像D上的损失项LD：LT=γB−B1+δD−D2（二）`˛¸XLB联系我们LD图5. 提出的精炼网络。 B是预测的反向映射。 NE是正态估计网络，N是预测正态。Id和Nd是基于未封装I和N的其中γ和δ是与LB和LD相关联的权重。L_D是未扭曲图像的重建损失。LB是绝对像素坐标的回归损失我们优化LB和LD以改善解扭曲结果（见第二节）。5.5消融）。在训练期间，对于每个输入图像I，我们将相应的地面实况变形应用于常规检查器，棋盘图案图像D，获得棋盘图像Ic。在B上。SE是阴影估计网络，S是预测的我们使用预测的反向映射Bi到unwarpIc，着色贴图。 Ir是级联（Nddˆ最终无阴影输出，红色虚线箭头表示推理路径。完善网络。细化网络作为我们系统的后处理组件，用于调整校正图像中的照明效果。该网络不仅增强了结果的感知质量，而且还提高了OCR性能（第二节）。5.4）。我们利用额外的地面实况信息（即，表面法线和Rectodo映射）来训练细化网络。细化网络有两个U-Net [31]风格的编码器-解码器，如图所示。5：一个用于预测另一个算法以I和相应的N为输入，估计一个阴影映射S∈Rh×w ×3。S描述着色强度和颜色。然后我们恢复阴影免费基于本征图像分解[2]的图像A：I=AS，其中是Hadamard乘积算子。更多细节将在补充材料中讨论4.2. 训练损失函数培训过程分为两个阶段。在第一阶段，形状网络和纹理映射网络分别进行初始化训练。在第二阶段，两个子网络进行联合训练，以提高解弯曲的结果。为了方便起见，我们将预测变量表示为X，将其地面真值表示为X。形状网工作优化使损失函数（LC）在等式（1）中最小化。 3D坐标上的1得到未被包裹的纸板图像D_D，计算L_D。棋盘纹理的目标是鼓励跨各种输入图像的L D的一致性，而不管文档纹理如何。换句话说，两个图像相同的变形应该以相同的方式展开，而不考虑它们的内容，这意味着相同的LD。请注意，Ic仅用于训练。在第二阶段，形状和纹理映射网-同时以端到端的方式对工作进行培训。这种联合优化使得反向映射损失能够补偿形状网络中的缺陷。用于端到端训练的目标函数L（等式2）（3）ALC（3D坐标）和LT（纹理贴图）。L=αLC+βLT（3）对于阴影去除细化任务，我们使用S和S：L=S −S1。4.3. 培训详细信息我们在包含100，000张图像的Doc3D数据集上训练我们的模型，将其分为训练集和验证集，这样它们就没有共同的网格。在初始化训练的第一阶段中，纹理映射网络将地面实况3D坐标图C作为输入。之后，在联合训练的第二阶段，每个子网络都用最好的单独训练的模型进行初始化。纹理映射网络的输入是预测的3D坐标。图C中定义的。4.1：从形状网络工作中获得的自然地图C。而C的范围在[0，1]。B的范围为[−1，1]LC=<$C<$−C<$1+λ<$$> C<$−<$C <$1（1）其中，λC=λ（λxC，λyC）λ2，λxC和λyC是C的水平和垂直图像梯度，λ控制梯度项图像梯度有助于学习高频细节，如C的脊和谷。训练纹理映射网络以最小化LT由方程式二、该损失被定义为以下各项的线性组合：我们采用多种数据增强方式：我们在训练过程中主动将训练数据的背景替换为来自可描述纹理数据集（DTD）[7]和KTH 2b- tips数据集[6]的图像。每个训练图像的强度和颜色也随机抖动。超参数。首先，我们设置λ= 0。2（等式2）（1）增加0。每50个时期后2个，直到1个。0的情况。我们发现γ = 10。0和δ = 0。5（等式（2）提供足够的吴恩公司SE^/^^解经网NE^^双线性采样136类变形类型(a) 透视平面，带有透视变形。(b) 卷曲弯曲，没有折痕。(c) 一折一个明显的折痕是可见的。(d) 多重折叠页面上的多个折痕(e) 随机容易随机折叠和一些褶皱。(f) 随机硬硬皱，不规则折叠。表1.Doc3D中的样本分类重建质量对于联合训练，我们使用α=β=0的情况。5（等式（3）第三章。我们使用Adam求解器[15]，批量大小为40，重量衰减为5×10−4。学习率最初设定为1×10−4，然后降低0倍。如果损失在5个时期内没有减少，则为55. 实验我们在[23]的130张图像基准上进行了多次实验，并对[45]的真实图像进行了定性结果作为基线，我们在新的Doc3D数据集上训练DocUNet [23此外，我们从文档分析的角度来评估我们的方法的OCR性能最后我们提供详细的烧蚀研究，以显示坐标卷积[22]的使用以及损失LD如何影响解扭曲性能。定性评价如图所示。7 .第一次会议。5.1. 实验装置标杆为了进行定量评估，我们将130张图像基准[23]分为六类，表明六种不同的变形复杂度水平（见表1）。基准数据集包含各种文档，包括图像、图形和多语言文本。评估指标。我们使用两种不同的评估方案的基础上（a）图像相似性和（b）光学字符识别（OCR）的性能。我们使用两个图像相似性度量：多尺度结构相似性（MS-SSIM）[42]和局部失真（LD）[45]作为定量评价标准，遵循[23]。SSIM计算每个图像块内的平均像素值和方差的相似性，并对图像中的所有块进行平均。 MS-SSIM 使用高斯金字塔在多个尺度上应用SSIM，更适合于评估结果和地面实况之间的全局相似性。LD计算从未变形文档到相应文档扫描的密集SIFT流[20]，因此专注于局部细节的校正。LD的参数被设置为[23]提供的实现的默认值为了进行公平的比较，所有未扭曲的输出和目标平板扫描图像都被调整为598400像素区域，如[23]中所建议的。OCR的准确度是根据字符错误率（CER）来计算的。CER通过计算参考文本和识别文本之间的编辑距离（ED）[17]进行评估。ED是给定识别文本，为获得参考文本而进行的替换、插入（i）和删除（d）CER=（s+i+d）/N，其中N是从平板扫描文档图像获得的参考5.2. Doc3D上的DocUNet我们通过在我们的数据集-Doc 3D上训练Do- cUNet[23]中的网络架构来对所提出的Doc 3D数据集进行基线验证。DocUNet是一个3D不可知模型。该架构由两个堆叠的UNet组成。DocUNet将2D图像作为输入，并输出一个正向映射（每个像素表示纹理图像中的坐标）。监控信号仅基于地面实况前向映射。与DewarpNet可以直接输出未变形图像不同，DocUNet需要几个后处理步骤将前向映射转换为后向映射（每个像素代表变形输入图像中的坐标），然后对输入图像进行采样以获得未变形结果。表2中的结果显示，当我们在Doc3D而不是来自[23]的2D合成数据集上训练DocUNet时，DocUNet得到了显着改善。LD的显著降低（14.08至10.85）表明更好的局部细节校正。这种改进是（1）Dewarp-Net架构和（2）与[23]中的2D合成数据集相比，使用更物理基础的Doc 3D数据集进行训练的结果。5.3. 在DocUNet Benchmark我们评估 DewarpNet 和 DewarpNet （ ref ）（即，DewarpNet 增强了后处理细化网络）在 DocUNetBenchmark数据集上。我们提供了（1）整体基准数据集（表2）和（2）基准中的每个类（图3）的比较。（六）。后者提供了详细的见解，我们的方法比以前的方法的改进。从（a）类到（e）类，我们的模型始终改进MM-SSIM和LD超过以前的最先进的。在最具挑战性的类别（f）中，图像通常表现出多个褶皱和随机变形，我们的方法实现了相当的和略好的结果。DewarpNet的时间效率。我们的模型平均需要32ms来处理4K分辨率的图像。与DocUNet [23]相比，这代表了125倍的速度。Dewarp- Net直接输出未扭曲的图像，而DocUNet需要昂贵的单独后处理步骤。137Textur reMappingNet.B上的2D上的SSIMw/oCoordConv4. 73× 10-50. 9260CoordConv3. 99× 10-50. 92810.56DocUNet DocUNet on Doc3DDewarpNet DewarpNet（ref）160.53140.5120.47100.4480.4160.38a b c d e f4a b c d e f图6. 不同变形分类方法的比较。我们根据以下方面评估结果：i）MS-SSIM（越高越好）和ii）LD（越低越好）; x轴上的标签对应于变形类别（a）-（f）（如第2.2节中定义）。5.1）。方法MS-SSIM↑LD↓DocUNet0.4114.08Doc3D上的DocUNet0.438910.90DewarpNet0.46928.98DewarpNet（ref）0.47358.95表2. DewarpNet和DocUNet变体在DocUNet基准上的比较，DewarpNet（ref）是DewarpNet与细化网络的结合。方法ED↓CER（标准）↓原始扭曲图像2558.360.6178（0.295）DocUNet1975.860.4656（0.263）Doc3D上的DocUNet1684.340.3955（0.272）DewarpNet1288.600.3136（0.248）DewarpNet（ref）1114.400.2692（0.234）表3.所有方法之间的OCR比较。1 .一、40×10表4.纹理映射网络中CoordConv和L D的作用5.4. OCR评估我们使用PyTesseract（v0.2.6）[34]作为OCR引擎来评估我们在图像文本识别方面的工作的实用性文本地面实况（参考）是从DocUNet [23]的25张图像中生成的。在所有这些图像中，超过90%的内容是文本。补充材料包含来自我们OCR测试集的一些样本。OCR性能比较（如表3所示）显示了我们的MS-SSIM（越高越好）LD（越低越好）LB−40的情况。8539138方法优于[23]，在所有指标中具有较大的裕度特别是，DewarpNet与DocUNet相比减少了33%的CER，而精化网络减少了42%。5.5. 消融研究坐标卷积（CoordConv）。我们研究CoordConv对纹理映射网络性能的影响。Doc3D验证集上的实验（表4）表明，使用CoordConv可使B上的SSIM误差减少16%，并使D上的SSIM从0.9260略微提高到0.9281。LossLD. 纹理映射网络从使用LD（未翘曲的视觉质量损失）中受益匪浅。如表4中所示，与仅使用绝对像素坐标损失LB相比，使用LB+LD显著地减小了像素坐标损失LB +LD。B超的误差为71%，D超的SSIM提高9%。5.6. 定性评价对于定性评估，我们比较了图中的DewarpNet和DocUNet7、你等。[45]在图。8. [45]的即使只有一张图像，DewarpNet也能显示出有竞争力的解压缩结果。此外，我们表明，该方法是鲁棒的照明变化和摄像机视点的变化图。9 .第九条。为了评估照明鲁棒性，我们在多个图像上进行了测试，这些图像具有固定的相机视点，但是来自文档的前、后、左、右的不同方向照明以及环境照明。我们还在[45]提供的多视图图像序列上测试了DewarpNet对多个相机视点的鲁棒性。结果表明，DewarpNet在所有情况下产生几乎相同的未变形图像。6. 结论和未来工作在这项工作中，我们提出了DewarpNet，这是一种用于文档纸张整理的新型深度学习架构我们139图8. 与你比较。 [45]。从左到右的列：1）原始扭曲图像，2）来自[45]的结果，3）DewarpNet，4）阴影去除后的DewarpNet结果，5）平板扫描图像。图7. DewarpNet结果在Do- cUNet上的定性比较[23]。第1行：原始扭曲图像，第2行：[ 23 ]的结果，第3行：DewarpNet的结果，第4行：去扭曲结果-去除阴影后的网络，第5行：平板扫描图像。红色覆盖标记显示结构变形。该方法对文档内容、光照、阴影或背景具有鲁棒性。通过对3D形状的显式建模，DewarpNet显示出优于传统的最先进的性能。此外，我们还贡献了Doc 3D数据集-用于文档图像展开的最大和最全面的数据集，它带有多个2D和3D地面实况注释。我们的工作存在一些局限性：首先，廉价的深度传感器无法捕捉变形的细节，如纸张褶皱上的细微折痕。因此，我们的数据缺乏具有高度复杂的纸张褶皱的样本。在未来的工作中，我们计划构建一个更好的细节和更复杂的结构的数据集。其次，DewarpNet是相对的，图9. DewarpNet鲁棒性。最上面两行：对照明的稳健性（所示结果为优化步骤后的结果）：第1-4列：文档不同侧面的定向光，即右左上下第5列：环境光。虽然细化网络处理阴影相当不错，它是无法消除硬阴影。下面两行：对摄像机视点的鲁棒性.对闭塞敏感：当成像文档的部分被遮挡时，结果降低。在未来的工作中，我们计划通过数据增强和对抗训练来解决这个困难。鸣谢。这项研究得到了三星全球研究外展（GRO）计划的支持，NSF资助CNS-1718014，IIS-1763981，Nvidia公司的礼物，Adobe Research的礼物，合作伙伴大学基金和SUNY 2020 ITSC。140引用[1] Blender -3D建模和渲染软件包。3[2] Harry Barrow，J Tenenbaum，A Hanson和E Riseman。重新发现场景的内在特征. Comput.目视Syst，2：3-26，1978. 5[3] 福斯托·贝尔纳迪尼，乔舒亚·米特曼，霍莉·拉什梅尔克拉乌迪奥·西尔·瓦和加布里埃尔·陶宾。曲面重构的球投算法IEEE Transactions on Vi- sualization and ComputerGraphics，5（4）：349-359，1999. 3[4] Michael S Brown和W Brent Seales。文件复原using 3D shape：A general deskewing algorithm forarbitrarily warped documents.在Proc.ICCV. IEEE，2001年。3[5] 曹怀谷，丁晓青，刘长松。一个cylin-柱面模型来校正装订文档图像。在Proc.ICCV. IEEE，2003年。2[6] Barbara Caputo，Eric Hayman，and P Mallikarjuna.特定类别的材料分类。在proc ICCV. IEEE，2005年。5[7] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，SammyMohamed和Andrea Vedaldi。描述野外的纹理。在Proc.CVPR. IEEE，2014。5[8] Fre'de' ricCourteil le，AlainCrouzil，Jean-DenisDurou，and皮埃尔·葛乔斯数字化的阴影形状弯曲的文件。Machine Vision and Applications，18（5）：301-316，2007. 2[9] Sagnik Das、Gaurav Mishra、Akshay Sudharshana和Roy希尔克罗常见的Fold：利用四折叠从单个图像去扭曲打印文档。在2017年ACM文档工程研讨会上，DocEng '17，第125-128页。ACM，2017。一、二[10] Hironori Ezaki ， Seiichi Uchida ， Akira Asano ， andHiroaki Sakoe.用全局优化方法对文档图像进行去扭曲。载于《国际荒漠化公约》程序。IEEE，2005年。2[11] 大卫·福赛斯从纹理和可积性的形状在ICCV. IEEE，2001年。3[12] Marc-Andre'Gardner ， KalyanSunkavalli ， ErsinYumer，Xi-aohuiShen，EmilianoGambaretto，ChristianGag ne'，andJean-Fran c oisLalonde. 学习从单一图像预测室内照明 ACM Transactions on Graphics（SIGGRAPH Asia），9（4），2017。4[13] 贝特霍尔德湾P. 号角. 绝对定向函数的封闭解使用单位四元数。光学学会杂志Am. A，4（4）：629-642，1987年4月。4[14] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKil-伊恩·Q·温伯格密集连接的卷积网络。在Proc. CVPR，第2号，2017年。4[15] D Kinga和J Ba Adam。一种随机优化第 2015. 6[16] Hyung Il Koo，Jinho Kim，and Nam Ik Cho. 从两个视图图像合成经矫正和增强的文档图像。 IEEETransactions on Image Processing ， 18 （ 7 ）： 1551-1562，2009。2[17] 诉I. 莱文斯坦二进制码能够纠正Dele-插入和反转。Soviet Physics Doklady，10：707，Feb1966. 6[18] Zhengqin Li，Kalyan Sunkavalli，and Manmohan Chan-德雷克。体量材质：用单个移动电话图像获取SVBRDF。Proc. ECCV，2018。4[19] Jian Liang，Daniel DeMenthon，and David Doermann. 葛-141照相机捕获的文档图像的计量校正。 IEEETransactionsonPatternAnalysisandMachineIntelligence，30（4）：591-605，2008。2[20] Ce Liu，Jenny Yuen，and Antonio Torralba.筛流：致密跨场景的通信及其应用。IEEE Transactions on PatternAnalysis and Machine Intelligence ， 33 （ 5 ）： 978-994，2011。6[21] 刘昌松、张宇、王宝康、小青丁恢复相机捕获的失真文档图像。 InternationalJournal on Document Analysis and Recognition ， 18（2）：111-124，2015。3[22] Rosanne Liu ， Joel Lehman ， Piero Molino ， FelipePetroski比如，埃里克·弗兰克，亚历克斯·谢尔盖夫和杰森·尤辛斯基。卷积神经网络和coordconv解决方案的有趣失败。arXiv预印本arXiv：1807.03247，2018。四、六[23] 柯玛、舒志新、薛白、王爵、迪米特里斯·萨玛--角DocUNet：通过堆叠的U-Net进行文档图像解扭曲。在Proc. CVPR. IEEE，2018年。二三六七八[24] Jitendra Malik和Ruth Rosenholtz。计算局部曲面面方向和曲面纹理的形状。国际计算机视觉杂志，23（2）：149-168，1997年。3[25] 孟高峰、潘春红、向世明、江宇-王端。弯曲文档图像的度量校正。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 34（4）：707-722，2012. 2[26] 孟高峰、苏元奇、吴英、向世明、潘春红利用向量场对失真文档图像进行几何Proc.ECCV，2018。一、二[27] 孟高峰，王颖，曲神泉，向世明，潘春红通过两个结构化光束对弯曲文档图像进行主动展平。在Proc. CVPR. IEEE，2014。2[28] Rahul Narain，Tobias Pfaff，and James F. 奥布莱恩折叠-挤压和挤压自适应床单。 ACM Transactions onGraphics（TOG），32（4）：51：1-51：8，2013. 3[29] JonasOüstlund，AydinV arol，Dat Tien Ngo，and PascalFua.用于单眼3D形状恢复的拉普拉斯网格在procECCV。Springer，2012. 3[30] Albert Pumarola 、 Antonio Agudo 、 Lorenzo Porzi 、Alberto Sanfeliu 、 Vincent Lepetit 和 Francesc Moreno-Noguer。用于从单个视图预测非刚性形状的几何感知网络。在Proc. CVPR. IEEE，2018年。3[31] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-net：卷积网络用于生物医学图像分割。InProc. MICCAI.施普林格，2015年。四、五[32] 斯科特·谢弗特拉维斯·麦克菲尔乔·沃伦基于移动最小二乘法的图像变形。ACM图形交易（TOG），25（3）：533-540，2006年。3[33] Faisal Shafait和Thomas M Breuel。文件图像去-扭曲比赛。基于相机的文档分析和识别研讨会，2007年。2[34] R.史密斯 Tesseract OCR引擎概述。在《国际荒漠化公约》。IEEE，2007年。7[35] Yuandong Tian和Srinivasa G Narasimhan.弯曲文档图像的校正和3D重建。在Proc. CVPR. IEEE，2011年。第1、3条142[36] 作者声明：Dr.使用边界的多视图在Proc. CVPR. IEEE，2007年。2[37] Yochay Tzur和Ayellet Tal。标签：Photogrammet-使用临时图像进行纹理映射在proc ACM SIG-GRAPH. ACM，2009年。4[38] 放大图片作者：Adrian Ulges，Christoph H.作者声明：by J.使用立体视觉的文档捕获。2004年ACM文档工程研讨会论文集，Do-cEng'04，第198-200页。ACM，2004年。3[39] Adrian Ulges，Christoph H Lampert，and Thomas M Breuel.使用卷曲文本行的鲁棒估计的文档图像去扭曲。载于《国际荒漠化公约》程序。IEEE，2005年。3[40] 作者声明：Eric Veach and Leonidas J.Guibas 大都会轻跨-端口在Proc.ACM SIGGRAPH，1997中。3[41] ToshikazuWada ， Hi

下载后可阅读完整内容，剩余1页未读，立即下载