没有合适的资源?快使用搜索试试~ 我知道了~
视觉不平衡立体匹配研究
43212029视觉不平衡立体匹配刘一村13 <$任志浩1张嘉玮1刘建波12林慕德1商汤科技1香港中文大学2哥伦比亚大学3{任思杰,张家伟,林慕德}@ sensetime.com1liujianbo@link.cuhk.edu.hk2yicun. columbia.edu3摘要对人类视觉系统的理解启发了许多计算机视觉算法。立体匹配借鉴了人类立体视觉的思想,在现有的文献中得到然而,很少关注双目输入在性质上不同的典型场景双镜头模块中高分辨率人类验光的最新进展揭示了人类视觉系统在这种视觉不平衡条件下保持粗略立体视的能力。被生物唤醒后,人们自然会质疑:立体声音响也有同样的功能吗?本文对各种不平衡条件对当前流行的立体匹配算法的影响进行了系统的比较。我们表明,类似于人类的视觉系统,这些算法可以处理有限程度的单眼降级,但也容易崩溃超过一定的阈值。为了避免这种崩溃,我们提出了一个解决方案,恢复立体视觉的联合引导视图恢复和立体重建框架。我们展示了我们的框架在KITTI数据集上的优越性及其在现实世界应用中的扩展。1. 介绍在理解和模仿人类视觉系统方面已经取得了显著的进展,许多工作都集中在感知我们周围的3D结构上。在人类计算机视觉中的早期研究者将此问题定义为在不同视图中搜索对应的像素[3]、边缘[1]或补丁[2]。分类和基准后来在[35]中构建。随着大数据集的出现,基于神经网络的立体声算法表现出了优越的性能,*同等缴款。代码将在github.com/ DanyonLau/视觉不平衡-立体声上[2]工作是在商汤科技研究公司实习期间完成的。图1.视觉不平衡场景的图示:(a)输入左视图(b)输入降级右视图,从上到下:单目模糊,具有校正误差的单目模糊,单目噪声。(c)从主流单眼深度(仅左视图作为输入)/立体匹配(立体视图作为输入)算法预测的视差:从上到下是DORN [9],PSMNet [7]和CRL [31]。(d)我们提出的框架产生的差异。[45]。然而,很少有人注意到立体视图之间的不平衡状况。在许多现实世界的情况下,左视图和右视图的视觉质量不能保证匹配。人的立体视觉在双眼视觉中普遍存在不同程度的屈光不正和散光[6,21];或者对于计算机视觉,双镜头模块中的主相机和从相机具有不同的分辨率、镜头模糊、成像模态、噪声容限和校正精度[43]。直到最近,验光学的发现才揭示,对于人类来说,在不平衡的双眼信号下保持体面的立体视锐度是可以实现的。事实上,单目降级危害高空间频率分量的立体声敏锐度,但低频目标(如结构)仅通过称为空间频率调谐的自然过程受到影响[24]。 考虑到这一发现,我们倾向于问:立体声机器能够处理质量不平衡的输入吗?43212030R图2.我们提出的引导视图合成框架背后的直觉:仅基于单个视图预测潜在视图是一个不适定问题,因为存在一堆具有不同差异的合理新颖视图然而,利用降级的右视图中的几何信息作为指导,该任务是可实现的。 即使Ir的高频分量丢失,仍然可以推断出粗糙的对象轮廓,如我们的玩具示例所示。该轮廓为以后的位移预测提供了位置提示我们设计了一个系统的比较来回答这个问题。在受控变量设置中,我们测试了当前主流立体匹配算法(包括基于NN的方法和基于神经网络的方法)上的几种主要单目退化效应。通过选择性地增加单目降级因子的损坏水平,我们表明现有的立体匹配框架抵抗仅仅程度的单目降级。尽管如此,立体匹配的准确性迅速退化的单目降级增加.类似于人类立体视觉,观察到所有测试的算法都在理想情况下,存在缓解这种塌陷的潜在疗法,但每种疗法都有一定的局限性。一种直观的方法是仅基于高质量的单目视图进行深度估计。然而,它不能很好地概括不可见的场景,因为它依赖于对象大小和其他物理属性的先验知识。另一种方法是在较低分辨率上进行立体匹配,作为对降级视图中的信息损失的妥协,但是低分辨率解决方案不能满足用于像肖像散焦的任务的尖锐视差在思想上走弯路,而不是直接从不平衡视图预测视差,更容易的是首先使用主视图中的高质量纹理来恢复损坏的视图With the vague object contour observed inthe corrupted view, human beings are pretty good athallucinating the missing textures by ‘moving’ the objectsfrom the high-quality view to the corresponding positionin the corrupted view.预测不平衡双目输入之间的密集视差图的问题可以分解为两个子问题:利用受损视图中有限的结构信息进行视图恢复,并基于恢复的视图重建立体视觉。对于第一个子问题,我们将其表述为指导视图合成过程,并设计了一个结构感知的位移预测网络来实现这一点。我们的方法实现了前所未有的性能,并在数据集上展示了令人印象深刻的泛化能力现实世界的不平衡因素。我们工作的主要贡献有三个方面:• 我们发现,从不平衡视图中构建立体视觉不仅对人类视觉系统是可行的,但也可用于计算机视觉。这是第一个工作考虑不平衡条件的立体匹配。• 我们探讨了当前立体机器在视觉不平衡立体匹配任务上的潜力模型和各种不平衡条件。• 我们利用了一个引导视图合成框架来重新存储损坏的视图和解决超出‘stereo2. 相关工作深度感知有各种各样的方法被提出来从单个视图[26]、立体视图[27]和多个视图[19]预测深度。在这些变体中,立体匹配是当前流行的低成本深度感知方式。对于传统的立体匹配设置,在[35]中提出了一种代表性的分类法。后来引入了许多综合测试平台,用于不同立体框架的定量评估[10,35]。亚像素校准误差和辐射差异的分析在单视图深度估计中出现了重大进展[9],但是考虑到问题的不适定主体,从单视图估计深度仍然很困难。人类立体视觉双眼视差检测机制的早期理论框架在[41,11]中提出频变空间滤波器在人类的视觉大脑中,然后在[5,4]中提出并发展。为了更好地分析辅助立体视觉的神经网络,已经进行了大部分工作来表征视觉大脑中这些基本运算符的功能属性[32,33,38]。43212031模型所有/估计1X2X3X5X8X10X15X20XSVSD1-bg14.13%15.66%19.53%24.20%62.60%79.49%83.98%89.11%25.18%SGBMD1-fg21.99%22.35%25.36%32.32%58.36%80.16%85.48%90.39%20.77%D1-所有百分之十五点八八16.76%20.49%25.88%61.89%79.60%84.23%89.32%24.44%D1-bg3.09%百分之三点一二3.31%4.69%11.40%百分之二十四点三八89.51%百分之九十八点一六25.18%DispNetCD1-fg3.16%3.21%3.28%4.23%11.08%24.72%89.75%98.35%20.77%D1-所有3.10%百分之三点一三3.30%4.62%11.35%24.44%89.55%百分之九十八点一八24.44%D1-bg3.02%3.05%3.25%4.84%百分之十二点二四29.16%94.47%99.42%25.18%CRLD1-fg2.89%3.00%3.18%4.41%百分之十二点三六28.76%百分之九十五点二七99.66%20.77%D1-所有3.00%3.04%3.24%4.77%12.26%29.09%94.60%99.64%24.44%D1-bg2.36%2.75%5.63%8.23%20.86%91.81%99.32%99.89%25.18%PSMNetD1-fg5.72%5.78%8.42%百分之十点二五百分之十八点八五百分之一百百分之一百百分之一百20.77%D1-所有2.92%3.25%6.21%10.01%20.52%92.93%99.91%百分之九十九点九七24.44%表1.立体算法在不同水平的单眼模糊下的性能:我们将观察到的“转折点”标记为红色。D1- bg/D1-fg/D1-all是指仅在背景/前景/完整区域上的离群值的平均百分比。视力不平衡对于人类的视力来说,患者的双眼视力和对比敏感度不相等是很常见的[6]。在计算机视觉中,从摄像机通常配备比主摄像机更便宜的传感器,导致在颜色、分辨率、对比度和噪声容限方面的性能相对较差两个空间RF可以由2D Ga-bor函数近似描述。相应地,存在两种类型的移位,它们表示两个RF之间的成像关系:位置移位和相移。位置偏移可以用公式表示为两个RF之间的总体位置差[4]:[43]。Stelmach [39]表明,双目望远镜的质量2 2感知由最清晰的图像支配松蒂安[36]示出了非对称退化图像对的感知质量大约是两个感知质量的平均值。Stevenson和Schor [40]证明了人类立体匹配并不精确地遵循极线,其中人类受试者仍然可以在45弧分垂直视差范围内进行精确的近/远图像增强在低层视觉中,存在通过超分辨率或非分辨率来恢复模糊图像的文献。RFL=exp ( −x/σ ) cos ( ωx )(1)RFR=exp(−(x−d)2/σ2)cos(ω(x−d))(2)其中ω是空间频率,σ是空间常数,d是总位置差。此外,阶段偏移可以表示为以原点为中心的Gabor函数的正弦调制之间的相位差:1x2y2年龄不模糊。当前最先进的图像增强技术g(x,y,φ)=2πσ σ exp(−2σ2−2σ2)cos(ω(x+φ))方法[22,25,16,37]通常处理高达5倍的模糊,其中我们的框架专注于更严重的单眼x yx y(三)10倍或以上的模糊。此外,尽管基于GAN的增强方法[22,23]生成视觉上令人愉悦的结果,但立体视图之间的一致性并没有得到加强,这并不非常适合立体匹配。视图合成我们详细的框架设计的最接近的工作是在[17]中提出并在[30,29]中扩展的动态引导过滤代替预测空间变换后的图像,估计变换矩阵本身更有效。那里其中φ是正弦模数的相位参数并且σx和σy是与RF的维度相关的常数。从Eq. 2和Eq。如图3所示,我们可以看到位置视差d可以任意大,而相位视差φ被限制为最大±π/ω。在[8]中提出的从粗到细的视差模型中,具有两个眼睛之间的位置偏移d和相移φ的复合单元的响应可以简化为:rhybridω4A2cos2(ω(D−d)−ωφ)43212032(4)还存在用于从SIN-Q2GLE图像,例如deep3d [44],外观流[48],以及立体放大率[47]。然而,它们中没有一个以引导的方式操作用于不平衡视图恢复。3. 揭秘不平衡立体视觉3.1. 动机和假设在人类视觉系统中,视差信号由负责细胞通过比较来自左右眼的空间感受野(RF)的信号而产生[5]。这些其中D是RFL的参考位置。在不同频率下的视差的优选类型在Eq. 4可以近似为:Dhybrid混合动力车φ+d(5)ω在较高频率(指相位域中较小的搜索范围)下,来自相位视差的响应比来自位置视差的响应更鲁棒。有证据表明,寻找优化的d432120331008060402001X2X3X 5X 8X 10X15X 20X下采样比例(右视图)图3.立体声机的性能衰减:“转折点”主要出现在5X到8X处,错误率为20%-30%,这接近于我们仅使用左侧高质量图像作为输入的基线[26]。事实证明,严格的单目模糊条件使立体机器中的多尺度匹配设计无效,导致错误率>80%的不合理视差预测。VIS表示我们提出的引导视图合成方法,对于严重的单眼降级,该方法仍然可以保持不错的视差精度。和φ在粗到细迭代中进行[8]。它以大尺度开始,并将Δφ设置为全范围以优化位置视差d。 过程将更新d迭代 地 同 时 逐 渐 减 小 搜 索 范 围 。 When the iterationapproaches a microscopic scale within the range of phasedisparity, ∆φ will be optimized based on the responses ofmatching high-frequency textures.如果一个视图降级而丢失了高频分量,则它主要危害相位检测器的精度。然而,位置检测器仍然能够基于低频分量处理粗略视差,并且粗略到精细搜索的相对大规模的初始迭代仅受到影响。类似地,许多立体声机器都嵌入了多尺度匹配机制,其中视差最初以低分辨率估计直到最后的细化步骤,我们期望低频和中频分量足以用于粗略的立体视觉。3.2. 基准和比较我们的下一步是确认先前的假设。我们考虑影响现实世界双镜头相机模块的立体准确度的主要因素之一:单眼模糊。例如,受限智能手机通常配备有高分辨率主相机和低分辨率、相对较便宜的从相机1。在我们的测试配置中,右视图首先通过比例因子进行下采样,然后上采样到其原始分辨率。八个不同的比例适用于细化程度模糊效果:1X,2X,3X,5X,8X,10X,15X和20X。我们使用KITTI1例如Samsung S5KHMX 108MP、S5KGW 1 64MP、SONYIMX58648MP,作为移动双镜头模块的主传感器[28]作为我们的实验平台。分别从几种立体匹配算法(传统方法和基于NN的方法)中收集结果:SGBM[13]、Disp-NetC [27]、CRL [31]和PSMNet [7]。下一个问题是如何定义一个直观的方法是寻找情节的“转折点”。此外,优选设置用于评估“立体塌陷”的基线:我们认为,在到达“转折点”之前,立体声机器至少应该利用受损视图中的低频信息,这意味着如果我们只输入高质量的左视图,它们应该优于结果。从这个角度来看,我们选择最近的基于视图合成的单目深度估计网络[26]作为视差预测的基线。3.3. 含义与讨论如表1和图3所示,立体声机器显示了利用低频数据来建立粗略视差的能力。令人惊讶的是,我们观察到低降级因素下的深层架构的性能衰减。仅使用右视图中原始像素的1/25,立体算法就可以生成误差在30%以内的粗略视差预测。我们的测试表明,从低频结构构建立体视觉的能力是立体机器的普遍但不同的能力。在“立体视差”的限制内然而,即使在人类立体视觉中,并非所有不平衡的双眼条件都导致可靠的视差结果。核心问题是,当纹理信息的大量损失已经超过空间频率调谐的极限时,来自不平衡视图的视差应该是一个不可用的选择。在所有的测试设置中,我们还观察到类似的立体声机上的“立体声崩溃”,这是增加模糊性和高频数据丢失的结果。“立体声崩溃”的转折点从5倍到8倍不等。超过这些阈值,立体声机器倾向于预测不合理的差异。4. 超越塌陷的4.1. 问题公式化为了在“立体重建”的基础上重建立体视觉,一种可行的方法是首先恢复受损图像。虽然没有证据表明人类视觉系统能够做到这一点,但基于学习的恢复模型已经广泛应用于计算机视觉。在具有相对小基线的双相机模块中,大多数对象区域出现在两个视图中,并且其中只有少数被遮挡。诚然,严重的单眼降级带来了相当大的模糊性,但物体的粗糙轮廓仍然可以识别。有了这样的物体轮廓,接下来SGBMDispNetCRLPSMNetVISSVS准确度(1- D1-所有)43212034图4.动态位移滤波器的图示:基于视图合成网络生成的两个大小为H×W×Lh和H×W× Lv的滤波体进行包裹分别 如等式6中所定义,hadamard乘积计算滤波器体积和图像平面以执行逐像素2D位移。与此玩具示例中的唯一“1”不同问题是如何正确地移动和填充纹理从未损坏的视图到损坏的视图使用轮廓提示。在许多3D视觉任务中,这种移动和填充可以通过各种类型的1D或2D变换来描述。如图2所示,我们的想法是通过估计每个像素区域的空间变化变换来描绘一个鲁棒的解决方案,以便移动纹理以正确地恢复损坏的视图。为了简化表示法,我们将左视图IL作为完整视图并且将右视图Ir作为损坏视图。一般来说,我们提出的框架有两个步骤1. 引导视图合成:由损坏的右视图Ir中的对象轮廓和低频分量引导,估计空间变化变换以将纹理从左视图I L扭曲到潜在的完整视图I R。2. 立体重建:基于恢复的右视图R和原始左视图L来估计视差d。4.2. 动态位移过滤层我们引入了受动态滤波网络(DFN)启发的动态位移滤波如图4所示,每个位移滤波器可以被认为是一个学习的内核,与图像平面的特定局部区域进行卷积动态位移过滤层的工作是使用破裂的右视图Ir作为位置引导将左视图Il中的高质量纹理包裹到适当的位置。原始的动态滤波器被设计为二维的. 如果我们想估算垂直位移-以 近 似 2D 滤 波 器 。 该 设 计 仅 占 用 O ( H×W×(Lh+Lv))内存,空间复杂度降低O(n)。给恢复的右视图中的像素,一维线性位移滤波器Kh(i,j)和Kv(i,j)的网络预测。我们可以将IL与位移滤波器卷积以实现到右图像平面IR的空间变换:I<$R(i,j)=(Kh(i,j)×Kv (i,j)T)<$PL(i,j)(六)其中,Kh(i,j)的大小为Lh,Kv(i,j)的大小为Lv。向量Kh(i,j)和向量Kv(i,j)T的叉积近似2D位移滤波器。PL表示低-cal图像块的大小为Lh×Lv,其是左图像IL中以IL(i,j)为中心的邻域区域。不同-从一般卷积中导出,其中核元应用于整个图像,这里Kh(i,j)和Kv(i,j)仅应用于局部块,这意味着每个像素将具有相应的位移滤波器来处理其相应局部块的空间变换。4.3. 深层引导过滤层如果我们以Lh为轴对水平位移体Kh取一个大小为H×W×Lh的切片,我们将得到Lh切片,对应于从1到Lh的位移。理想地,如果一个对象具有从左视图IL到右视图IR的位移d,则对应的第d个切片Kh [ d ]应当反映该对象的形状然而,该对象的背景可能是具有复杂纹理的复杂区域,对于RGB数据来说,精确地将对象与背景区分开可能是具有挑战性的置换贴图中的对象形状可能是部分完整的,具有显著的凹口和剩余。细化边缘的一种方式是使用IL中的对象形状知识来对滤波体积进行引导滤波。原始引导图像滤波由[12]提出它是引导图像G和滤波器输出O之间的局部线性模型。我们假设O是G在以像素k为中心的窗口ωk中的线性变换:Oi=akGi+bk,∈ωk(7)其中i是像素的索引,k是局部方形窗口ω的索引。线性系数(ak,bk)在窗口wk中假定为常数.局部线性模型确保仅当G具有边时O具有边,因为O=a·G。此外,滤波器输出Oi应类似于输入Pi,约束为:Lv和水平位移Lh的分量,一个2D dy,ΣE( a,b)=((O-P)2+A2),(8)动态滤波器需要O(H×W×Lh×Lv)的内存。当处理具有大位移的高分辨率图像时,图像消耗可以任意大。相反,在-受[30]的启发,我们的网络预测了两个1D线性滤波器K我爱你k:i∈ωk其中,k是正则化参数。通过最小化E(ak,bk),我们可以得到滤波后的输出O。在我们的43212035任务中43212036图5.视觉不平衡立体匹配任务的网络架构:设计包含两个子网络。上一个是我们的引导视图合成网络,其目的是通过移动和变形左视图IL中的对象来恢复高质量的右视图IR。这种移位和变形操作由第一网络预测的动态滤波器处理 滤波体积将由深度引导滤波层处理,其利用来自IL的形状知识来进行边缘感知细化。下一个是立体重建网络,其基于IL和恢复的右视图IR来预测视差。我们使用左视图IL作为引导G,并且使用滤波器体积Kh[d]的第d个切片作为O。如果我们认为图像中的所有win-pixel都要被滤波,则线性变换可以写为:预测每像素位移Kh和Kv。如图5所示,我们的导视合成网络在最后几层有两个分支,分别估计水平位移和垂直位移。1(IL)i= Σ(ak·(Kh[d])i+bk)=ai(Kh[d])i+bi在最后一个上采样层之后,我们获得大小为H×W×Lh或H×W×Lv的特征图,并将它们用作hor。|k:i ∈ω k|k:i∈ωk(九)水平过滤体积和垂直过滤体积。然后我们在最后添加一个深度引导过滤层来细化其中位移体积切片中的梯度对于优化的a_k和b_k,k_k(K_h[d])应该与引导图像的梯度一致。为了将这种设计作为一个可区分的层嵌入到我们的网络中,我们支持-提出应用深度引导滤波器[42]作为我们网络中位移体积后的层,这是[12]的加速和完全可微版本。4.4. 导视合成网络所提出的导视合成网络的任务是以被破坏的右视图Ir为指导,通过选择移动存储高质量的右视图将纹理从左视图移动到右视图中的适当位置引导视图合成网络输入未损坏的左视图IL和损坏的右视图Ir,并预测位移滤波器体积Kh和Kv。 整个网络架构如图5所示,其中顶部是指我们的指导视图合成框架,而下部是指立体声恢复网络。我们使用具有跳过连接的瓶颈设计用于引导视图合成网络,这类似于[34]中提出的U-Net。我们的指导视图合成网络背后的直觉如图2所示。在IL和双线性上采样Ir级联作为输入的情况下,网络使用两个图像来估计空间差异,过滤体积的形状。最后,对两个过滤体进行叉积,并利用Hadamard积对左视图进行变形,得到潜在的右视图作为网络输出。4.5. 立体重建网络我们选择DispNet [27]基于左视图L和恢复的右视图R进行立体重建。我们进一步遵循[31]中所做的修改,用于全分辨率视差输出的DispFulNet结构在该网络中,IL和IRR首先被传递到多个节点。具有共享权重的解层。然后将得到的特征图通过相关层进行处理,该相关层将几何线索嵌入到不同水平块的相关性由相关层输出的特征图将与来自左图像IL的更高级特征图级联。接着是编码器-解码器结构,网络进一步细化特征图并输出最终视差图d。4.6. 损失函数对于我们的引导视图合成网络,虽然我们的网络旨在学习位移体积KH和KV,但我们不直接监督动态位移滤波器。其中一个原因是,虽然立体声对很容易ob-o-43272037¨图6.各种降级因素的定性评价:(a)降级右视图(从上到下:单眼模糊10倍,单眼模糊15倍,高斯噪声,σ =0.5,σ =1,单眼模糊10倍和最大0.5度校正误差,单眼模糊10倍和最大1.0度校正误差)。从左到右,其余列是由(b)PSMNet [7](c)CRL [31](d)DORN [9](伪视差,可视化从深度转换)(e)VIS(我们的框架)。由于双镜头相机的存在,位移地面实况很难收集,因为它是一个多对多的匹配问题。莱姆相反,我们考虑两种类型的损失函数,它们测量恢复的右视图的差值,调解结果。ΣNL位移=n=1d地面实况 第一个损失是光度损失,l1范数和MS-SSIM的支持where dˆn and dn are the estimated disparity and groundL=α·I−I+(1−α)·(I、(10)真值差距分别为n级。像素R R1RRMS−SSIM5. 实验其中α是平衡两项的超参数其被设置为0。84在我们的实验中建议[46]。另一个损失函数是[18]中提出的感知损失 它被定义为特征表示之间的l2IR和IR的句子:在本节中,我们介绍了我们的实验和相应的结果。在我们的实验中,我们扩展了不平衡条件的范围,以考虑双镜头相机中的单目模糊、校正误差和传感器噪声L=1(I)−(I¨(11)我们使用KITTI raw [28]进行训练,它总共包含从61个场景中捕获的42382个校正的立体声对我们壮举CjHjWjjRJR¨2在KITTI 2015立体数据集上对所有模型进行基准测试。其中,Rj()表示来自第j个VGG-19卷积层的特征图,并且Cj、Hj、Wj分别是特征图的数目、高度和宽度如[29]中所建议的,我们使用从VGG-19的relu44生成的特征图来计算感知损失。整体亏损引导视图合成框架的功能是:5.1. 实现细节对于所有不平衡sce- narios中的训练和测试步骤,仅启用水平位移内核,并且禁用垂直位移内核。我们使用Adam[20]来优化β1= 0的网络。9和β2= 0。999 对于我们的培训策略,L同步 =β·L 像素 +(1−β)·L壮举、(十二)速率被设置为1e-5并乘以0。每五个时期后9次。我们训练我们的框架100个epoch。其中β是平衡两个损失的超参数在我们的实验中,β被设置为0。五、对于立体重建网络,在训练步骤中,使用如等式(1)中所示的l1损失十三岁为了保证训练的顺利进行,我们还采用了多尺度视差损失来监督训练间的差异。432720385.2. 实验细节在这个实验中,我们认为我们的测试图像是很好的纠正,因此我们只使用水平动态位移过滤器,并设置其最大大小为201。我们测试我们的框架与单眼模糊尺度较大43282039图7.在15倍单色模糊下对恢复视图进行定性评价比先前发现的“立体声崩溃”阈值更高。我们使用光度标准来评估引导视图合成网络,只要视差误差来评估整个框架的视差预测。结果如表2和图6所示。我们的方法比第3节中测试的所有其他立体匹配模型实现了更合理的视差预测和更低的视差误差。值得注意的是,即使没有端到端的微调,我们的框架仍然可以从超过“立体声”转折点的严重单眼模糊中生成可靠的结果作为参考,其他立体匹配性能如表1所示。VIS:10倍VIS:15倍VIS:20倍CRL:10倍PSNR19.06618.03017.213N/ASSIM0.82490.78910.7785N/AD1-bg百分之十五点二四百分之十六点七二18.97%29.16%D1-fg18.61%20.52%22.78%28.76%D1-所有百分之十六点七二18.32%21.90%29.09%表2.单目模糊作为不平衡因素。CRL [31]列表示直接立体匹配的性能。PSNR和SSIM基于关于右视图地面实况的恢复的右视图图像来计算。校正误差在本实验中,我们引入校正误差作为不平衡因素,这广泛存在于移动双镜头模块意外跌落或长时间使用后为了解决从属相机的低分辨率,我们为降级的右视图输入保持10倍的单眼模糊我们将水平过滤器大小设置为201。我们通过在其X、Y和Z轴上最大程度地旋转右视图(从镜头)来模拟校正误差注意,这种旋转违反了所有其他立体匹配算法中的1D搜索问题的公式,因此即使旋转0.5度也会导致大于70%的dispar- ity误差。然而,如表3所示,我们提出的框架仍然能够修复此纠正错误并产生rec,图8.对移动数据集2的定性评价:(a)高分辨率左主相机视图,(b)低分辨率右从相机视图。从像存在严重的单目模糊,存在一定的校正误差。CRL [31]导致(d)中的失败结果。我们的框架首先估计恢复的视图(c)并在(e)中重建立体视觉。高质量的右视图图像。此外,我们在真实世界的双镜头数据集上测试了我们的框架。图8中提供了示例人像立体声对。VIS:0.5DVIS:1.0DCRL:0.5DPSNR17.91617.732N/ASSIM0.77290.7663N/AD1-bg18.63%百分之二十点一四99.10%D1-fg21.35%24.20%百分之九十九点四三D1-所有百分之十九点四七21.94%百分之九十九点二四表3.校正误差为不平衡因素。除校正误差外,测试用例具有10倍单眼模糊。CRL [31]列表示直接立体匹配的性能。传感器噪声在这个实验中,我们使用高斯噪声来合成低光环境下由于噪声而导致的单目降级。我们将水平过滤器大小设置为201。我们控制高斯分布中的方差σ,并使用σ值0.5和1.0中的两个。VIS:σ=0.5VIS:σ=1.0DispNet:σ=0.5PSNR20.21719.142N/ASSIM0.84050.8261N/AD1-bg13.97%百分之十五点八二21.19%D1-fg百分之十六点六四20.10%22.36%D1-所有百分之十五点三九18.91%21.78%表4.单目噪声作为不平衡因素。 DispNet[27]列指示直接立体匹配的性能。6. 结论本文定义了视觉不平衡立体匹配问题。我们首先讨论人类的视觉系统,说明不平衡的双目输入下的立体能力背后的机制。有了这样的证据在手,我们质疑立体机器中存在类似的现象,并进行了系统的比较,以确认是否以及何时“立体崩溃”通常发生在当前的立体匹配算法。此外,我们提出了一个实用的解决方案,重建立体视觉,以支持计算机视觉立体系统的操作超过这样的阈值。实验表明,该框架可以有效地避免立体塌陷,在某种意义上,优于人类的立体视觉。432820402由于图像在横向模式下水平拍摄,在纵向模式下垂直显示,因此右视图中的对象位置较高。43282041引用[1] H Harlyn Baker和Thomas O Binford。基于边缘和强度的立体声的深度。载于IJCAI,1981年。[2] Simon Baker,Richard Szeliski,and P Anandan.立体重建的分层方法。在CVPR,1998年。[3] 斯坦·伯奇菲尔德和卡洛·托马西。一个像素相异度测量,是不敏感的图像采样。TPAMI,1998年。[4] 伦道夫·布莱克和休·威尔逊。双眼视觉。视觉研究,2011年。[5] 伦道夫·布莱克和休·威尔逊。立体视觉的神经模型。神经科学趋势,1991年。[6] Brian Brown和Maurice KH Yap。眼睛之间的视力差异:确定临床人群中的正常限值。眼科和生理光学,1995年。[7] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR,2018年。[8] 陈玉芝和宁倩。一个由粗到细的视差能量模型,具有相移和位置偏移的感受野机制。Neural Computation,2004.[9] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR,2018年。[10] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。CVPR,2012。[11] 冈萨雷斯和佩雷斯。立体视觉的神经机制。神经生物学进展,1998年。[12] K.他,孙杰,还有X。唐引导图像滤波。TPAMI,2013年。[13] 海科·赫什穆勒利用半全局匹配和互信息进行立体处理。TPAMI,2008年。[14] 海科·赫希穆勒和斯特凡·格里克。存在亚像素校准误差时的立体匹配。CVPR,2009。[15] 海科·赫施穆勒和丹尼尔·沙尔斯坦。具有辐射差异的图像 上 的 立 体 匹 配 代 价 的 评 估 。 IEEE transactions onpattern analysis and machine intelligence,2008。[16] Daniel S Jeon,Seung-Hwan Baek,Inchang Choi,andMin H Kim.利用视差先验增强立体图像的空间分辨率在CVPR,2018年。[17] Xu Jia,Bert De Brabandere,Tinne Tuytelaars,and LucV Gool.动态过滤网络。在NIPS,2016年。[18] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。[19] AbhishekKa r,ChristianHaene,andJitendraMalik. 学习多视角立体机。在NIPS,2017年。[20] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。ICLR,2015年。[21] Andrew KC Lam,Apries SY Chau,WY Lam,GloriaYO Leung,and Becky SH Man.双眼自然视力差异对立体视敏度的影响。眼科和生理光学,1996年。[22] Chris tianLedig , LucasTheis , FerencHusza´r , JoseCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew Aitken,43282042Alykhan Tejani,Johannes Totz,Zehan Wang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR,2017年。[23] 李仁汉,潘金山,赖伟胜,高长新,桑农,杨明轩。学习一种判别先验的盲图像去模糊方法。在CVPR,2018年。[24] Roger W Li , Kayee So , Thomas H Wu , Ashley PCraven , Truyet T Tran , Kevin M Gustafson , andDennis M Levi.单眼模糊改变立体视觉的空间频率和大小的调谐特性英国皇家学会开放科学,2016年。[25] Bee Lim , Sanghyun Son , Heewon Kim , SeungjunNah,and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络在CVPR研讨会,2017。[26] Yue Luo , Jimmy Ren , Mude Lin , Jiahao Pang ,Wenxiu Sun,Hongsheng Li,and Liang Lin.单视图立体匹配。在CVPR,2018年。[27] Nikolaus Mayer , Eddy Ilg , Philip Hausser , PhilippFischer , Daniel Cremers , Alexey Dosovitskiy , andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在CVPR,2016年。[28] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR,2015。[29] 西蒙·尼克劳斯、龙迈、风流。基于自适应卷积的视频帧在CVPR,2017年。[30] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧InICCV,2017.[31] Jiahao Pang , Wenxiu Sun , Jimmy SJ Ren , ChengxiYang,and Qiong Yan.Cascade residual learning:A two-stage convolutional neural network for stereo matching.在ICCVW,2017年。[32] SaumilSPatel , MichaelTUkwade , ScottBStevenson,Harold E Bedell,Vanitha Sampath和HalukOgmen。来自斜相位视差的立体深度知觉。视觉研究,2003年。[33] Simon JD Prince和Richard A Eagle一维伽柏刺激的立体声对应。视觉研究,2000年。[34] Olaf Ronneberger , Philipp Fischer , and ThomasBrox.U-网:用于生物医学图像分割的卷积网络2015年医学图像计算和计算机辅助干预国际会议[35] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评价。IJCV,2002年。[36] PieterSeuntiens , LydiaMeesters , andWijdomIjsselsteijn.压缩立体图像的感知质量:对称与非对称jpeg编码与摄影机分离之影响。ACM Transactions onApplied Perception(TAP),2006年。[37] Vivek Sharma 、 Ali Diba 、 Davy Neven 、 Michael SBrown、Luc Van Gool和Rainer Stiefelhagen。分类驱动的动态图像增强。在CVPR,2018年。[38] 哈维·S·斯莫曼和唐纳德·IA·麦克劳德。对比度阈值下立体视觉中的大小视差相关性JOSA A,1994年。[39] 卢·B·斯泰尔马赫、瓦·詹姆斯·谭、丹尼尔·V·米根、安德烈·文森特和菲利普·科里沃。人对不匹配立体3d输入的感知。200
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功