没有合适的资源?快使用搜索试试~ 我知道了~
GS ImagesGS Depth MapsStructure-And-Motion-Aware RS Distortion RenderingSynthesized RS ImagesReal RS ImageStructure-And-Motion-Aware RS Correction NetworkSynthesized RS Camera MotionsSynthesized RS Depth MapsRS Camera MotionRS Depth MapRectified ImageRectification45510学习结构和运动感知的滚动快门校正0Bingbing Zhuang 1 Quoc-Huy Tran 2 Pan Ji 2 Loong-Fah Cheong 1 Manmohan Chandraker 2 , 301 新加坡国立大学 2 美国NEC实验室 3 加利福尼亚大学圣地亚哥分校0摘要0纠正滚动快门(RS)效应的精确方法需要恢复底层几何,即场景结构和扫描线之间或视图之间的相机运动。然而,RS相机的多视图几何比其全局快门(GS)对应物更加复杂,存在各种退化情况。在本文中,我们首先通过展示在纯平移相机运动的情况下,RS两视图几何是退化的,从而做出了理论贡献。鉴于复杂的RS几何,我们提出了一种基于卷积神经网络(CNN)的方法,该方法可以从单个RS图像中学习底层几何(相机运动和场景结构)并进行RS图像校正。我们将该方法称为结构和运动感知的RS校正,因为它推理出扫描线之间以及场景结构之间的隐藏运动。我们的方法从一个大规模的数据集中学习,该数据集以几何意义上一致于相机运动和场景结构的方式生成RS效果。在大量实验证明,我们的方法在单图RS校正和后续的运动结构恢复(SfM)应用中表现出优越的性能。01. 引言0许多消费级相机,如网络摄像头或手机,由于成本优势而采用CMOS传感器。然而,它们具有滚动快门(RS)机制的限制。与全局快门(GS)相比,RS按照从顶部到底部逐行曝光,相邻行之间有恒定的时间延迟。在图像捕获过程中存在相机运动时,第一行和最后一行之间的延迟会导致捕获图像中的显著失真,从而偏离针孔相机模型[16]。作为一种纯几何失真,RS效应可以通过恢复底层几何来进行严格校正。0训练测试0图1.我们方法的概述。通过一组GS图像和相应的GS深度图,我们生成具有相应RS相机运动和RS深度图的合成RS图像,用于训练我们的网络。在测试时,给定一张真实的RS图像,我们的网络预测出准确的RS相机运动和RS深度图,用于校正输入图像中的RS效果。0(即相机运动和3D结构)。然而,由于曝光期间扫描线相机姿态的变化引起的额外未知参数,RS相机的几何问题通常比其GS对应物更加复杂[3, 8,18]。特别是,RS相机的两视图几何需要44个2D点对应关系才能获得线性解[8],在实践中通常难以处理。因此,使用两视图几何来消除RS效应的方法必须施加特殊约束,例如假设微分相机运动并要求非平凡的读出校准[43]。我们在这项工作中的第一个贡献是对RS相机进行几何退化分析。尽管RS相机在许多实际应用中得到广泛应用,但对潜在退化的分析只是最近才出现[4,21]。在本文中,我们展示了在纯平移相机运动的情况下,RS两视图几何是退化的。特别是,在扫描线相机姿态和场景结构的无限组合中,可以根据重投影误差精确解释两个视图中的2D点。这种退化在应用两视图RS几何进行校正时带来了额外的挑战,由于纯平移在实际应用中普遍存在,例如驾驶场景[13, 10]。鉴于使用纯几何方法和45520考虑到深度学习在几何问题上的最近成功[7, 40, 26,12],我们的第二个贡献是一种数据驱动的RS校正方法。具体而言,我们使用基于CNN的方法,从单个RS图像中学习预测相机扫描线速度和深度。尽管单视图深度预测已经得到了广泛研究[11,27],但相机在扫描线之间的速度情况尚未得到解决。尽管乍一看它是不适定的,但我们表明从图像外观的畸变中估计这些相机运动是可行的。其基本 intution是外观畸变代表了由于曝光期间相机运动引起的所有扫描线和场景之间的刚性违反。如果已经学习到了场景和物体的真实几何形状的足够知识,这些知识可以用于识别由RS畸变引起的变形,随后相机运动恢复应该是可能的。所获得的几何形状可以用于图像去畸变。我们的下一个贡献是一种以几何上忠实的方式从GS图像合成RS图像的方法,给定真实的速度和深度。这用于生成大规模的训练数据。最后,我们还确定了在网络训练期间存在的俯仰旋转和图像调整操作之间的进一步歧义。图1概述了我们的方法。我们将我们的方法称为“SMARSC”,简称“结构和运动感知滚动快门校正”,因为它推理了扫描线之间的场景结构和潜在运动。第一个尝试使用CNN进行单视图RS校正的方法是由Rengarajan等人提出的[31]。然而,他们的工作与我们的工作之间存在显著差异。他们的方法只旨在具有视觉吸引力的矫正图像;因此,只建模了每个扫描线的2D变形。具体而言,他们应用了仅具有2个自由度(DOF)的相机运动。对于每个像素(在扫描线上),RS效果仅限于扫描线内的平移和平面旋转。此外,训练中不包括深度信息。相比之下,我们的方法明确考虑了相机运动和场景结构,因此能够产生既视觉上愉悦又几何上一致的矫正图像。总之,我们的贡献包括:0•我们确定并证明了纯平移下RS双视图几何是退化的。这个结果对于理解RS双视图几何估计的固有和算法无关的属性非常重要。0•对于单视图RS校正,我们提出了一种新颖的基于CNN的方法,该方法受到底层几何的强烈控制,实现了良好的性能。0•我们提出了一种几何上有意义的方法来合成大规模的训练数据,并确定了训练中出现的几何歧义。02. 相关工作0滚动快门几何。近年来,有许多研究RS相机几何的工作出现[18, 33, 3, 8, 43,25]。最近,Albl等人[4]讨论了俯仰旋转和两个或多个视图中的平行读出方向可能将重建的场景折叠成一个平面的退化情况。[21]讨论了RS相机在恒定角速度下的关键运动序列。在这项工作中,我们提出了RS双视图几何在纯平移相机运动下的另一种退化情况。[2]中讨论了立体摄像机的类似结果。然而,与[2]只提供直观讨论不同,我们提供了明确界定退化范围和影响的正式证明。例如,我们的证明清楚地表明两个视图中的相机速度和图像/扫描线曝光可以不同,而在[2]中通常不假设这种自由度。多视图RS校正。多视图方法经常利用RS多视图几何(通过图像之间的稀疏/稠密对应)来校正RS效果[15]并同时恢复场景结构[43,37]。它们能够处理不同的相机运动或场景结构。然而,它们需要两个或更多的输入图像[15, 43,37]或非平凡的读出校准[43,37]。单视图RS校正。单视图RS校正本质上是一个不适定的问题。为了使其可行,单视图方法假设简化的相机运动,例如纯旋转[32, 30,24]或特殊的场景结构,例如曼哈顿世界[30]。因此,当相机运动和场景结构的基本假设不成立时,它们无法很好地工作。此外,其中许多方法[32, 30,24]依赖于从输入图像中提取的手工制作的线条/曲线特征,因此无法处理具有非常少或错误检测到的线条/曲线的图像。相比之下,我们的方法使用强大的CNN提取的特征,并采用更通用的6-DOF相机运动模型和深度信息来处理各种相机运动和场景结构。03. RS两视图几何的退化0RS相机建模和符号表示。假设每个RS图像I总共有N个扫描线,表示为L_i,其中i =1,...,N,并且相机具有内在标定。由于RS相机按顺序捕获每个扫描线,我们将L_i的曝光时刻的相机姿态的投影矩阵表示为P_i = [R_i T_i],其中R_i ∈ SO(3)且T_i ∈ R^3。0假设在两个图像I_1和I_2的曝光期间,RS相机沿着由单位范数向量t = [t_X, t_Y, t_Z] �表示的恒定方向进行纯平移运动,因此相对于I_1的P_i(分别是I_2的P_j)可以表示为P_i = [I - p_i t](分别是P_j = [I -q_j t]),其中I是3×3的单位矩阵。纯平移。̸in Li’s and Lj’s camera coordinates respectively.Denoting T ij = [T ijX , T ijY , T ijZ ]⊤ = (qj − pi)t, onecan relate S1 and S2 by S2 = S1 − T ij.Prthis relationship into the 2D image, one gets [ X2Z2 ,[ X1−T ijXZ1−T ij , Y1−T ijYZ1−T ij ]⊤. Subtracting [ T ijXT ij ,where e = [ T ijXT ijZ , T ijYT ijZ ]⊤ = [ tXtZ , tYtZ ]⊤ denotes the epipole,and s1 and s2 are the 2D projections of S1 and S2 respec-tively (i.e. s1 and s2 is a 2D correspondence). Since eremains the same for any pair of scanlines, Eq. (1) indicatesthat all 2D points move along 2D lines radiating from theepipole, as illustrated in Fig. 2(b). This pattern, however, isexactly the same as in a GS camera model, and is the sole cueto recognize a pure translational motion, in which case theepipole is also termed as the focus of expansion (FOE) [16].Therein lies the ambiguity, and in particular, one can explainthe observed 2D point displacements by a GS camera model,with the following perturbations to the real T ijZ and Z1:• replacing all T ijZ with a common TZ (recall that T ij =(qj − pi)t and hence T ijZ = (qj − pi)tZ. One possiblevalue of TZ is q1tZ achieved by setting ∀i : pi = 0 and∀j : qj = q1, as shown in Fig. 2(a)); and,• distorting the depth Z1 to become Z′1=point S; this value is obtained by solvingCamera Translational Direction tp1t = 0p2tpNtq1tq2tqNt1st Image Exposure2nd Image Exposure1st Image Exposure2nd Image Exposure∀i: pit = 0∀j: qjt = q1ts2s1eStarting Image Point (s1)Ending Image Point (s2)2D Displacement VectorEpipolar (e)45530其中p_i和q_j是由相机运动幅度确定的标量,I表示3×3的单位矩阵。退化分析。在这里,我们只讨论t_z ≠ 0的情况(对于t_z =0,请参见补充材料)。我们首先以2D对应关系和深度的形式,对两个图像中一对扫描线L_i和L_j之间的纯平移相机运动进行RS两视图几何建模。让我们考虑I_1的L_i和I_2的L_j两个扫描线,分别具有相机姿态P_i和P_j,以及在两个扫描线上观察到的一个3D点S,分别表示为S_1 = [X_1, Y_1, Z_1] �和S_2 = [X_2, Y_2, Z_2] �。0[Z_2] � =0两边都是[T_ij Z] �0通过上述推导和重新排列,可以得到0s_2 - e = Z_10Z_1 - T_ij Z (s_1 - e), (1)0T_ij z Z_1对于每个0Z'_1 - T Z =0Z_1 - T_ij Z,使得等式(1)仍然成立。0此外,即使已知观察到的2D点运动是由RS相机拍摄的,也无法确定沿平移方向的每个扫描线相机位置,即p_i和q_j。除了全局尺度的模糊性外,显然还存在无限多个虚假的p'_i和q'_j,可以产生物理上可能的(即正的)0T_ij z Z_1,其中T_ij'z = (q'_j - p'_i)t。直观上,在没有旋转的情况下,RS引起的畸变不会影响2D点位移的方向,但会影响其运动幅度。GS的两视图结构运动(SfM)过程仍然可以将其视为纯平移相机运动(没有RS畸变),通过在深度方向上进行适当的修正来补偿RS畸变。0GSRS0(a)0(b)0图2.RS两视图几何的退化。在(a)中,RS和GS的纯平移都会产生2D点的辐射位移。在(b)中,红色/蓝色线表示扫描线。0深度。换句话说,没有任何SfM算法可以仅通过2D对应关系提取出2D图像中的RS效应,即使已知使用了RS相机,由于解的数量是无穷的,SfM算法仍然无法选择正确的相机位置和深度。这种退化也意味着当旋转量很小且图像测量中存在噪声时,SfM在数值上会遇到困难,尽管从理论上讲这种情况并不会退化。根据上述情况,我们得出以下命题:命题。纯平移相机运动的RS两视图几何是退化的,也就是说仅根据2D对应关系无法确定两个图像是由RS相机还是GS相机拍摄的。即使相机事先已知是RS相机,也无法确定沿平移方向的每个扫描线相机位置,即p_i和q_j。我们注意到,这种沿线的相机位置退化也存在于其他SfM问题中,例如具有共线相机运动的平移平均[22, 38, 42]。04. 结构与运动感知的滚动快门校正0在本节中,我们介绍了我们的网络架构(第4.1节)和单视角RS校正的训练数据生成(第4.2节)的详细信息。我们还确定了网络训练过程中出现的一种歧义(第4.3节)。RS图像→GS图像(校正)。我们提出的网络以单个RS图像作为输入,并预测相应的RS相机运动和RS深度图,可以用于执行校正。特别地,对于RS图像中的每个像素,我们可以首先使用估计的深度将其反投影到一个3D点,然后使用估计的每个扫描线相机姿态将3D点投影到GS画布(由第一扫描线的P1定义的平面),从而得到校正后的图像。为了建模RS相机运动,我们采用6自由度运动模型,并假设相机在曝光期间具有恒定的速度,这是一个合理的假设,在许多最近的工作中广泛使用[20, 33, 3, 8, 43, 34]。具体来说,我们用v ∈ R3和w ∈so(3)分别表示每个扫描线的恒定平移速度和旋转速度,并写成Pi = [exp((i-1)w)� - (i-1)v]。RS ImageVelocity-NetDepth-NetRS Depth Mapv, wRS Camera VelocityPhotometric Loss Lp Velocity Losses Lv, LwInverse Depth Loss Ld Conv 256 3x3BatchNormReLUResNet-34Conv 128 3x3BatchNormReLUConv 64 3x3BatchNormReLUConv 32 3x3BatchNormReLUConv 6 1x1Conv 512 3x3BatchNormReLU(a)(c)(b)(d)45540图3. 我们结构与运动感知的RS校正网络的详细架构。04.1. 网络架构0我们的网络由两个子网络组成,即Depth-Net和Velocity-Net,用于从单个图像中学习RS深度图和RS相机运动。根据SfMLearner [41],我们采用DispNet[28]作为我们的Depth-Net,用于单视角RS深度估计。对于我们的Velocity-Net,我们通过删除最后一个平均池化层并添加四个3×3卷积层(每个后面跟着一个BatchNorm层和一个ReLU激活层)来改进ResNet-34架构[17],用于提取特征,并添加一个1×1卷积层(无偏置)来回归6自由度相机速度,即3D平移速度向量v和3D角速度向量w。图3详细显示了我们的网络架构。我们通过使用回归损失Ld来训练我们的Depth-Net。我们回归逆深度(而不是深度)来考虑深度增加时的不确定性增加。对于Velocity-Net,训练损失包括用于评估估计的平移速度和角速度的回归损失Lv和Lw,以及光度损失Lp,该损失最小化校正图像(使用预测的相机速度和地面真实深度图)与相应的地面真实GS图像之间的像素强度差异(在计算Lp之前,像素强度缩放到[0,1])。请注意,我们分别训练这两个网络,因为我们依赖于具有每个网络监督的合成训练数据。对于上述所有损失,我们使用L1范数。04.2. 训练数据生成0与基于几何的方法不同,我们的基于学习的方法需要大量的训练数据,包括具有真实RS相机速度和RS深度图的RS图像。由于很难捕捉到具有真实速度和每像素深度标签的真实RS图像,我们提出了一个基于KITTIRaw数据集[13]的合成训练数据生成流程(请参见补充材料以获取用于训练和测试的序列列表)。GS图像 →RS图像(畸变)。我们将KITTIRaw的左视图作为我们的真实GS图像。我们首先使用[6]的最先进的立体方法从立体图像中计算密集的GS深度图。接下来,我们生成一个6自由度相机速度作为我们的真实RS0图4. 我们训练数据合成的各个步骤的示例输出:(a)原始GS图像,(b) 经由单应性变换的GS图像,(c)(d)插值的RS图像和深度图。0相机运动还给出了每个扫描线相机姿态。我们将GS图像中的每个像素投影到RS画布上,得到RS图像。特别地,由于不知道投影像素将落在哪个RS扫描线上,因此我们使用所有RS扫描线Li(具有相应的每个扫描线相机姿态Pi)投影每个像素sGS(具有相应的深度ZGSs),然后选择最接近假设扫描线的2D投影作为RS图像中对应的图像点。通过以下方式选择扫描线(及其2D投影)0L�i = arg min Li ||[Li]y - [ΠPi(sGS, ZGSs)]y||, (2)0其中ΠPi是与RS图像中的扫描线Li相对应的投影函数,[.]y返回2D投影或扫描线的行索引。由于上述投影在RS图像的网格交点之间产生一组散布的图像点,我们执行插值以完成RS图像中的所有像素。请注意,在上述投影中,我们还获得了RS每像素的深度,为训练我们的Depth-Net提供了真实的地面实况。此外,由于KITTI相机牢固安装在车辆上,因此俯仰和横滚变化很小(当车辆转弯时偏航变化较大),我们在渲染RS图像之前对我们的地面实况GS图像应用了一个小的随机采样的单应性变换来增加俯仰和横滚变化。图4显示了各个步骤的示例输出。我们注意到,由于RS相机在短曝光期间经常发生微小运动,渲染通常能够保持原始GS图像的清晰度,并同时在渲染的RS图像中展示所需的几何失真。此外,由于遮挡边界和不完美的立体深度图引起的误差,生成的图像不可避免地包含一些小的伪影。然而,正如我们在第5节中经验证明的那样,我们的网络能够容忍它们并学习到有用的信息。04.3. wx引起的畸变和垂直图像调整之间的歧义0前面的训练数据生成流程返回不同大小的训练图像,而深度学习工具箱要求它们具有相同的大小以进行高效计算。为了实现这一点,可以裁剪图像或调整大小。在这里,我们表明这两个选项的选择很重要,选择调整大小可能会导致性能下降。特别地,我们表明,由绕x轴小的RS相机旋转引起的畸变(或相应的去畸变)与垂直图像调整引起的变化相似。因此,调整大小可能会撤销或加剧训练数据中实际由wx引起的畸变量,使网络在学习正确的相机运动时感到困惑。具体来说,考虑一个位于扫描线Li(对应于姿态Pi=[exp((i-1)[wx,0,0]�)�0])上的坐标为(x,y)的像素。将将RS图像带回GS图像平面的去畸变流可以写成1100200300400500600700800900Column6005004003002001001Row / Scanline1100200300400500600700800900Column6005004003002001001Row / Scanline�a��b�two options matters and opting for resizing can lead to infe-rior performance. In particular, we show that the distortion(or the corrseponding undistortion) induced by a small RScamera rotation around the x-axis, namely wx, is similar tothe changes caused by a vertical image resizing. Thus, resiz-ing may undo or aggravate the amount of distortion actuallybrought about by the wx in the training data, confusing thenetwork in its learning of the correct camera motion.Specifically, consider a pixel with coordinates (x, y) ina scanline Li (corresponding to the pose Pi = [exp((i −1)[wx, 0, 0]⊤)⊤ 0]). The undistortion flow that will bringthe RS image back to the GS image plane can be written as45550图5.用于补偿RS相机旋转wx引入的畸变的去畸变流(a)和垂直图像调整(b)之间的相似性,混淆了网络训练。0u RS x = -(i-1)wx(x-x0)(y-y0)/f^2,0u RS y = -(i-1)wx(1 + (y-y0)^2/f^2), (3)0其中 (x0, y0)和f分别表示主点和焦距,我们使用Horn[19]的微分表达式来近似由小运动引起的位移。请注意,这种去畸变流将在小到中等视场中由线性项-(i-1)wx主导。当我们在没有正确补偿其在地面真实相机旋转wx中的影响的情况下执行垂直图像调整时,待学习的相机运动将被混淆。这是因为方程(3)与通过将图像垂直调整一个因子(1+wx)(第一行作为参考行)引起的位移场重合。图5中给出了一个例子。请参阅补充材料以获取更多讨论。虽然读者可能会想起这种现象与经典SfM中众所周知的浮雕模糊[1,5,9,36]相似,但请注意,与浮雕模糊不同,这里的wx和水平图像调整之间没有混淆,因为由姿态Pi引起的畸变仅取决于行索引i而不是列索引。05. 实验0训练细节。我们使用来自KITTI Raw[13]的42个序列,总共约有30,000张GS图像,并按照第4.2节的方法生成约30,000张RS图像来训练我们的网络。具体而言,我们随机模拟一个6自由度的相机速度{v,w},使得第一条扫描线和最后一条扫描线之间的总平移幅度,即∥(N-1)v∥,和总旋转幅度,即∥(N-1)w∥,在[0,0.1]米和[0,π]之间。0分别为[0,36]弧度。0并从每个GS图像中渲染出一张RS图像。根据第4.3节的方法,我们将渲染的图像裁剪为320×960像素的相同大小。我们的Depth-Net是从头开始训练的,训练细节与[41]中的类似。对于我们的Velocity-Net,我们使用在ImageNet分类上使用ResNet-34预训练的权重来初始化网络中的公共层,而新添加的层则使用[14]进行随机初始化。我们将平移速度损失Lv的权重设置为0.3,其他损失的权重设置为1.0。我们使用学习率为0.001的ADAM进行训练[23]。我们将批量大小设置为40张图像,并使用pyTorch[29]实现我们的网络。竞争方法。对于单视图RS校正,我们将我们的方法(SMARSC)与最先进的方法[31,30]进行了对比。为了处理单视图RS校正的不适定性,Purkait等人[30]假设纯旋转相机运动和曼哈顿世界,因此我们将他们的方法称为“MH”。Rengarajan等人的工作[31]与我们的方法最接近,也使用CNN从合成的RS图像的大规模数据集中进行学习。然而,他们的方法使用有限的相机运动(在扫描线内的平移加上平面内旋转)并忽略深度,因此我们将他们的方法称为“2DCNN”。为了公平比较,在为训练2DCNN合成RS图像时,我们依赖于我们的数据生成流程中使用的相同的GS图像集,但使用他们的数据生成代码。我们调整了他们代码中的运动生成参数,以产生与我们类似范围的2D扭曲,并从每个GS图像中渲染出一张RS图像。我们还将他们渲染的RS图像裁剪为与我们相同的大小,并调整他们的全连接层以适应新的输入图像大小。05.1. 合成数据05.1.1 图像调整大小与图像裁剪0为了验证第4.3节中结果的实际意义,我们现在演示了裁剪与调整大小作为预处理步骤以获得具有相同大小的训练图像的优势。具体而言,我们首先训练两个版本的网络,一个使用裁剪图像,另一个使用调整大小的图像。然后,我们生成三个图像集,它们的相机运动分别限制为仅w x旋转、仅wy旋转和仅wz旋转,并在每个图像集上评估我们训练的模型。图6显示了w x、w y和wz预测误差(预测误差基于第一条扫描线和最后一条扫描线之间的总旋转,即(N-1)w x、(N-1)w y或(N-1)wz)的累积分布函数(CDF),对于我们的两个模型。从结果可以看出,我们使用调整大小图像训练的模型在wx预测(即左侧红色曲线)方面的性能要差得多,而在wy和wz预测(即中间和右侧红色曲线)方面的性能要好得多,这意味着垂直调整大小和wx引起的失真之间的模糊确实降低了网络学习wx引起的失真的能力。相比之下,我们使用裁剪图像训练的模型在所有图像集上的性能都要好于使用调整大小图像训练的模型。00.020.040.06Wx Error (radians)00.20.40.60.81CDFCroppingResizing00.020.040.06Wy Error (radians)00.20.40.60.81CDFCroppingResizing00.020.040.06Wz Error (radians)00.20.40.60.81CDFCroppingResizing�a��b��c�45560图6. 我们的网络在使用裁剪图像或调整大小图像进行训练,并在仅进行wx旋转(a)、仅进行w y旋转(b)和仅进行wz旋转(c)的图像集上进行测试时的性能。0此外,我们使用裁剪图像训练的模型在w x、w y和wz预测方面都取得了类似的性能(即蓝色曲线)。而且,我们使用裁剪图像训练的模型在所有图像集上始终优于使用调整大小图像训练的模型。05.1.2 单视角RS校正0我们从KITTI Raw[13]的2个测试序列的总共5500多帧中随机选择了200个GS图像(与用于生成训练数据的序列没有重叠),并按照第4.2节的方法合成了200个RS图像(带有6自由度的相机运动)作为我们的测试数据。我们将我们的方法(SMARSC)与MH [30]和2DCNN[31]进行了单视角RS校正的比较。我们首先展示一些定性结果以直观了解各种方法的行为,然后对估计的校正流(将输入的RS图像中的像素映射到地面真实GS图像的流)进行定量比较。定性比较。图7展示了在KITTIRaw中具有典型场景的一个输入RS图像上的定性结果。从结果可以明显看出,我们的方法产生了最好的校正图像,我们的校正流在视觉上与地面真实的校正流非常接近(例如,R2-C3与R1-C3的比较 -“R”和“C”分别代表行和列)。这部分是由于我们准确的深度预测图(例如,R2-C4与R1-C4的比较)。另一方面,2DCNN忽略了深度信息,或者至少假设每个扫描线具有相同的深度,因此它只能校正图像中的一些区域,而将其他区域畸变(例如,在R4-C1中,蓝色框相对较好地校正,而红色框仍然包含明显的RS效果)。对于MH,其性能取决于线条检测和消失点估计的质量(即它假设曼哈顿世界),并且它不建模相机平移,而这在输入图像中存在。MH和2DCNN都不考虑场景深度,因此它们的校正流不反映场景结构(例如,R3-C3和R4-C3)。更多结果请参见补充材料。定量比较。我们现在对每种方法估计的校正流与地面真实校正流进行定量评估。图8(a)展示了在包含6自由度相机运动的200个RS图像的测试集上的校正流误差的CDF(根据每个图像的平均端点误差计算的流误差)。尽管2DCNN和MH都依赖于有限的相机运动模型0els,2DCNN在某种程度上优于MH,主要是因为MH依赖于手工制作的特征和曼哈顿世界。相比之下,我们的方法使用了一个6自由度的相机运动模型,在这个数据集上取得了最好的性能。在某些情况下,相机的平移对于场景的整体深度来说可能是可以忽略的,或者相机仅经历纯旋转[30]。因此,我们另外渲染了一个包含纯旋转的200个RS图像的测试集,并在图8(b)中绘制了该测试集上的定量结果。正如预期的那样,MH的性能略优于2DCNN,可能是因为MH特别设计用于纯旋转。然而,MH仍然不如我们的方法,主要是因为MH依赖于手工制作的特征和曼哈顿世界的假设。我们注意到,我们的方法并没有专门针对纯旋转的RS图像进行训练,但在这种特殊情况下仍然表现良好。对深度估计准确性的敏感性。在这里,我们研究了深度预测需要多准确,以便我们的方法仍然可以从这个额外的线索中受益,与无深度的方法(例如2DCNN)相比。我们在另一个包含纯平移的200个合成RS图像的数据集上进行了这个实验(由旋转引起的畸变与深度无关,因此被排除在外)。我们使用我们估计的相机运动(通过我们的Velocity-Net)以及以下深度信息来源之一进行矫正:1)我们估计的深度(通过我们的Depth-Net),2)“SMARSC-GT-Depth” -我们的地面真实深度,以及3)2)的不同近似版本,即我们将2)的连续深度范围量化为Nb个bin,并且对于每个像素,用其所属bin的中位深度替换2)中的连续深度。我们评估了Nb = 1, 4,16的情况,分别称为“SMARSC-GT-Depth-Nb-Bins”。我们还与2DCNN进行了比较(由于MH不建模平移,因此被忽略)。图8显示了所有方法在这个图像集上的失真流误差的CDF(再次是每个图像的平均端点误差)。从结果可以看出,SMARSC-GT-Depth-Nb-Bins的准确性随着bin数量的减少而下降。然而,即使在Nb =1的情况下,它仍然比2DCNN获得更好的结果。这是合理的,因为在纯平移下(如图2(b)所示),我们Velocity-Net准确的平移估计(或FOE估计)将使失真流限制在其地面真实方向上,因此深度的准确性仅影响失真流的大小,导致整体性能的小幅下降。相比之下,这种深度相关的畸变超出了2DCNN中使用的更简单的2D变形模型所能捕捉到的范围,从而产生了上述性能差距。此外,我们的方法(SMARSC)依赖于我们估计的相机运动和估计的深度,与仅使用我们估计的相机运动和4个粗略深度bin的SMARSC-GT-Depth-4-Bins表现相似。这意味着,当与我们估计的相机运动相结合时,我们估计的深度能够发挥作用。01020304050Undistortion Flow Error (pixels)00.20.40.60.81CDFSMARSCMH2DCNN01020304050Undistortion Flow Error (pixels)00.20.40.60.81CDFSMARSCMH2DCNN�a��b�05101520253035Undistortion Flow Error (pixels)00.20.40.60.81CDFSMARSCSMARSC-GT-DepthSMARSC-GT-Depth-16-BinsSMARSC-GT-Depth-4-BinsSMARSC-GT-Depth-1-Bin2DCNN455702DCNNMHSMARSC输入和GT0图7. 在KITTIRaw中具有典型场景的合成RS图像上的定性比较。第一行显示了输入的RS图像,输入的RS图像与地面真实GS图像叠加(粉色和绿色表示强度差异),真实的去畸变流(根据[35]可视化),以及真实的深度图(明亮和暗色表示小和大的深度值)。接下来的三行分别显示了我们的方法(SMARSC),MH和2DCNN的结果,每行从左到右显示了校正后的图像,校正后的图像与地面真实GS图像叠加,估计的去畸变流和估计的深度图。请注意,由于MH和2DCNN不预测深度,我们改为显示MH的线检测结果,并在2DCNN处留下一个空图。0图8.在合成RS图像上的定量比较:(a)6自由度相机运动和(b)纯旋转。0图9. 对深度估计精度的敏感性。0深度不是非常精确,但在满足令人满意的校正的情况下仍然有益。05.2. 真实数据0我们现在在使用LogitechC920网络摄像头捕获的真实RS图像上进行测试。图像被调整大小和裁剪以匹配训练数据的图像尺寸和内部参数。对于下面的实验,我们完全使用在合成数据上训练的模型,并没有对真实数据进行任何微调。05.2.1 单视图RS校正0由于很难捕捉到具有地面真实GS图像的真实RS图像,因此我们在这个实验中进行了定性比较。图10显示了我们的方法(SMARSC),MH和2DCNN在真实RS图像上的一些定性结果。总体而言,我们的方法实现了最好的整体性能。特别是,我们展示了一个明显的依赖深度的例子。0在I1中的畸变中,附近的电线杆的畸变比背景中的建筑物更明显。对于I1,只有我们的方法能够很好地矫正电线杆和建筑物。此外,我们在图11中绘制了不同方法估计的去畸变流(和深度图),可以看出我们的去畸变流(和深度图)相对较好地反映了场景结构。对于I2,所有方法都能够识别出那些显著的畸变,例如红色和绿色框中突出显示的电线杆和房屋的畸变,然而,只有我们的方法能够纠正蓝色框中的微小畸变。这在I3中也是明显的。特别是,仔细检查将揭示红色框中的汽车实际上是变形的,只有我们的方法能够恢复出一个合理的汽车形状。类似地,在I4中观察到我们的方法的优越性能。对于I5,我们观察到MH返回的结果与我们的结果相似,这是由于具有曼哈顿世界形式和可能由旋转主导的相机运动的丰富线特征。更多结果请参见补充材料。05.2.2 使用RS图像的SfM0我们展示了我们的RS校正方法的另一个潜在应用,即用于RS图像的SfM。为此,我们引入了一个两步法,首先在输入的RS图像上应用我们的RS校正方法(SMARSC),然后在校正后的图像上使用GS SfM系统(这里我们使用VisualSFM[39])。我们将我们的两步法与使用MH或2DCNN进行RS校正的类似两步法以及直接在原始RS图像上应用VisualSFM的朴素方法进行比较。我们使用了一组无序的47个具有显著RS畸变的RS图像,这些图像是从图10中的场景I5中收集的。由于VisualSFM在不同运行中可能返回不同的结果,我们对每种方法运行了10次。I3I4I5I1NaiveSMARSCMH2DCNN45580SMARSC MH 2DCNN 输入0我20图10. 对真实RS图像的定性比较. 第一列显示了不同的输入RS图像,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功