没有合适的资源?快使用搜索试试~ 我知道了~
2691UltraStereo:主动立体声系统中基于学习的有效匹配Sean Ryan Fanello饰 Julien Valentin饰 Christoph Rhemann饰AdarshKowdle 菲利普·戴维森·沙赫拉姆·伊扎迪感知IO摘要从立体图像对中有效地估计深度是计算机视觉的核心问题之一我们使用一种新的基于学习的算法有效地解决了主动照明这种类型的“主动”立体声,即其中通过有源光投影仪增强场景纹理的立体匹配被证明是设计深度相机的关键,这主要是由于与飞行时间或传统结构光技术相比提高了鲁棒性。我们的算法使用了一个unsupervised贪婪的优化方案,学习的特点,是歧视性的估计对应红外图像。所提出的方法优化了一系列稀疏超平面,用于在测试时重新映射到一个紧凑的二进制表示在O(1)的所有图像补丁。所提出的算法是在PatchMatch立体声框架中进行的,以500Hz的频率产生深度图。与标准的结构光方法相比,我们的方法一般化到不同的场景,不需要繁琐的每个摄像机校准程序,并且不会受到来自重叠传感器的干扰的不利影响。广泛的评估表明,我们超越了质量,克服了当前深度传感技术的局限性1. 介绍深度相机已经成为解决复杂的计算机视觉任务的关键,包括人类捕获[10],3D场景重建[28],对象识别[51]和机器人[13]。已经提出了许多不同的深度感测技术和工艺:从门控[12,2]或连续波(例如,KinectV2)飞行时间(ToF),到基于三角测量的空间[19,52]或时间[21]结构光(SL)系统。ToF相机最近由于广泛的商业可用性(例如,来自In-tel、Microsoft、PMD和Sony的产品)。ToF传感器在不同的主动照明下捕获同一场景的多个图像作者同样为这项工作做出了贡献。使用这些图像,估计单个深度图。例如,Kinect V2传感器以300Hz捕获原始红外(IR)帧,以生成30Hz的深度图[48]。这需要定制的高速图像传感器,价格昂贵且分辨率低。所产生的深度图可能遭受运动伪影,因为它们是在时间窗口上构造的ToF相机的另一个重要限制是多径干扰(MPI)。当在单个相机曝光期间发射的光从多个表面散射和反射并且被收集为单个卷积传感器测量时,发生这种情况。尽管在MPI [29,20,5,37]上做出了重大努力,但是如果一般场景需要精确的深度,则对于该问题没有商业上可行的解决方案SL系统[43,21]分为两组:空间的或时间的。时间系统(例如Intel SR 300)是计算高效的,但需要跨时间窗口的多次捕获此外,最大范围非常短(高达120厘米)。大多数系统还需要定制的基于MEMS的照明器来产生动态图案而不是静态图案,这可能是昂贵的并且需要更多的功率。 空间SL系统更简单,使用衍射光学元件(DOE)[19]或基于掩模的[22]用于产生伪随机图案的照明器,以及现成的成像传感器。然而,这些都受到鲁棒性问题的影响:模式需要先验地知道如果发射光的波长漂移,例如,如果激光器不是热稳定的,或者如果两个或更多个投影仪重叠在同一场景上,从而导致传感器之间的干扰克服这些挑战的一种方法是使用主动立体声设置[31]。这些系统使用两个校准的相机,并将图案投射到场景中以提供用于匹配的纹理。尽管该技术在20世纪80年代的开创性工作中已有描述[38],但利用该方法的广泛可用的商业产品直到最近才出现[1]。有源立体声系统是引人注目的,因为:(1)它们可以在无纹理区域中操作,这是无源立体声技术的主要缺点[7];(2)它们减轻了ToF中固有的多径反射的挑战[20];以及2692(3)通过消除投射已知结构光图案的需要以及避免传感器之间的干扰,它们提供了比传统的基于三角测量的结构光系统更强的鲁棒性[8]。然而,这种类型的深度感测带来了一个关键挑战:用于寻找立体图像之间的对应以进行视差(以及因此深度)估计的计算开销。主流技术通常在左(或右)图像中的给定像素周围取匹配窗口,并且给定核线约束在另一图像中找到最合适的匹配块。这需要大量的计算来估计每个像素的深度。社区已经花费了大量的努力来克服这个计算瓶颈。局部立体匹配技术已经提出了与匹配窗口大小无关的解决方案,例如,[42,34,30]或差距的范围[7,4]。然而,这些方法在计算上仍然是昂贵的,特别是当考虑商业可行性或与ToF或时间SL中使用的基于查找的方法进行比较时。因此,大多数算法必须以分辨率和准确性换取速度,以达到实时场景。即使这样,这些系统也只能达到30Hz。最近的方法已经被提出,可以独立于窗口大小和视差范围进行缩放。然而,这些方法依赖于昂贵的步骤,例如计算超像素[35,33],使其无法用于实时场景。在本文中,我们解决了这个基本问题的立体匹配下,主动照明使用一个新的学习为基础的算法框架,称为UltraStereo。我们的核心贡献是一个无监督的机器学习算法,使昂贵的匹配成本计算服从O(1)的复杂度。我们展示了如何学习一个紧凑而有效的表示,可以推广到不同的传感器,并且当场景中存在多个有源照明器时 不会受到最后 ,我们展示了 如何在类似PatchMatch Stereo的框架[7]中投射所提出的算法,以便在像素之间有效地传播匹配。为了证明我们的方法的好处,我们构建了一个原型系统,该系统具有能够以超过200Hz的频率生成深度图像的现成硬件。我们还证明了该算法可以运行在单摄像机投影仪系统,如Kinect V1,超越了这个商业系统所使用的深度估计算法的质量详尽的评估表明,我们的算法提供了最先进的结果在高帧率和高图像分辨率。我们展示了如何学习表示可以推广到不同的传感器和场景。与标准结构光方法相比,我们的方法不需要繁琐的相机照明器校准,并且当多个传感器在同一空间中操作时不会受到干扰的不利影响虽然相关诸如HyperDepth [16]的基于学习的算法已经克服了结构光系统中的质量和速度限制,这些方法需要繁琐的校准和昂贵的数据收集阶段。更根本地,这些不能缩放到立体(两个或更多个)相机匹配的情况。这是因为像HyperDepth这样的方法假设匹配发生在一个相机对象和保持恒定而不依赖于场景深度的固定图案上,而主动立体的问题固有地假设图案将在两个相机上被不同地观察到,并且两个观察到的图案将基于深度而改变。2. 相关工作立体深度估计是近30年来计算机视觉领域最活跃的研究课题之一。最简单的设置涉及两个校准和校正的相机,其中的问题是建立对应的像素是,在两个图像中相同的扫描线。如[ 45 ]所述,立体声算法的主要步骤是:匹配成本计算、成本聚合、视差优化,随后是视差细化步骤。方法可以分为局部[54,42,7,35],全局[17,4,32,33]或半全局[26,6],这取决于用于解决管道每个步骤的技术。对应搜索问题是系统中最需要解决的部分 给定L个可能标签的视差空间,简单的蛮力方法(例如,块匹配)的每像素复杂度为O(LW),其中W是用于计算补丁之间相关性的窗口大小(对于1.3M分辨率图像,通常为9 × 9)。 为了减少这种计算负担,大多数方法,文献试图去除对窗口大小W或视差数量L的线性依赖性。许多相关函数可以实现为具有与滤波器大小无关的计算复杂度的例如,绝对差和(SAD)对应于一个简单的箱式滤波器[45],可以优化计算性能。最近的实时立体方法集中在基于图像边缘为相关窗口内的每个像素设置权重的滤波器上,例如,基于双边滤波[50,40]或引导图像滤波[24]。此外,已经提出了几种方法用于指导成本体积过滤[42,34,30]。由于它们的运行时成本是O(L)每像素,这些方法显示良好的计算性能,只有当视差的数量是小的。其他最近的工作利用PatchMatch Stereo的框架[7,4]。PatchMatch Stereo在随机深度生成和深度传播之间交替。然而,该算法的运行时性能取决于相关窗口大小W,总运行时成本为O(WlogL)。最近尝试消除窗口大小和标签空间的线性依赖性2693D在[35]中。这种方法强烈依赖于超像素,这需要不可忽略的计算量来估计。此外,超像素对于RGB图像是很好定义的,但在IR图像中表征并不简单。[56]等机器学习方法使用深度神经网络来计算匹配成本,增加了整体复杂性。此外,这些方法仍然需要多视差假设进行评估。其他人[11,44]试图从单个图像预测深度,但其适用性仅限于非常特定的场景。[14]使用漫射红外光从红外强度到深度的阴影映射中学习形状,但该技术仅适用于非常有限范围内的手和脸。最近,[16]使用机器学习来学习结构光系统(如KinectV1)中使用的参考图案,并展示了最先进的结果。然而,该方法不能应用于立体设置,因为它需要每个摄像机训练,并且在存在图案干扰的情况下失败(见图2)。(八)。与以前的工作相比,我们使用无监督机器学习技术来计算O(1)的匹配成本,消除了对窗口大小W的依赖。利用PatchMatch框架[3]来执行视差优化和细化导致所提出的方法具有每像素O(logL)的总复杂度。在实验中,我们证明了该方法不需要每个摄像机的训练,推广到多个场景,不受干扰。3. UltraStereo算法我们的方法被设计为与商业上可用的空间结构光系统(例如,Kinect V1)以及活动立体摄像头设置。Kinect V1硬件由一个DOE投影仪和一个摄像头组成,这是主动立体声的一个特殊情况,其中一个摄像头 固定的参考图像。这种特定的设置需要繁琐的校准过程,因为需要估计参考图案和相机-投影仪之间的相对位置(详见[36])。为了证明我们的方法的全部潜力,我们建立了一个硬件原型,包括两个红外相机在立体配置。我们使用具有1280×1024空间分辨率的单色Ximea相机,能够以210Hz捕获原始图像。的使用标准的多视图校准方法[23]来校准和校正相机。在本文的其余部分中,我们假设这对图像将被纠正。因此,左图像L中的每个像素p =(x,y)在右图像R中具有对应匹配,该对应匹配位于线y上,但是在不同的坐标x,y处。差异d=x-x被称为视差,并且它与深度Z=bf成反比,其中b是立体声系统的基线和f焦距。主要的计算挑战是在不依赖于风的情况下解决对应问题(找到x= y)。大 小 W 和 视 差 标 签 空 间 的 大 小 L 。 后 者 可 以 使 用PatchMatch框架的变体来删除[41]。使用UltraStereo,我们将展示如何消除对窗口大小的依赖3.1. 图像块的紧凑表示为了评估单个视差假设,传统立体算法通过分析所有每像素差异来计算大小为W的图像块之间的成本。常见的相关函数包括绝对差和(SAD)和归一化交叉评估(NCC)。即使使用小贴片(例如,W= 5×5),这些函数需要大量的运算才能实现。在两个补丁之间保持匹配成本[27]UltraStereo背后的主要直觉是,标准相关函数,如SAD和NCC是不必要的昂贵捕获的判别数据中包含的积极illuminated模式。 实际上,给定高频图案,诸如由DOE投影的图案,建立鲁棒匹配所需的信息属于比IR贴片的空间低得多的维度的空间。因此,我们设计了一个函数y=f(x),x ∈RW在紧二元表示y∈ {0,1}b中bW。特别是,典型值为W= 11×11和b= 32。出于计算原因,我们建议使用线性映射将数据从RW转换为{0,1}b:y=f(x)=sign(xT·Z−θ)(1)其中Z∈RW×b,θ∈ Rb.为了消除对窗口大小W的依赖性,在映射Z的每列中仅允许kW个非零元素。实际上,使用密集超平面对最终结果的影响很小。类似地,使用y ∈ R b(通过丢弃等式中的符号)。 1)与使用y∈ {0,1}b产生类似的结果。 受这些观察结果以及汉明距离在许多现代GPU中以O(1)计算的事实的启发,我们自然地选择在特征空间y∈ {0,1}b中执行成本计算。3.2. 无监督二进制表示映射函数f必须是数据相关的,以便学习由有源照明器生成的补丁的子空间。我们的目标是找到一个保持输入信号相似性的映射Z。 为此,在每一步计算最佳超平面z的贪婪方法。这自然会导致在训练决策树时普遍使用的优化方案。二叉树是用于进行稀疏和二进制预测的合适模型,并且它们已经通过使用非常简单和稀疏的分裂函数证明了许多问题的最新结果,包括逐像素标记[46,14],回归任务[47,15]和对应搜索问题[53决策树中的每个节点都包含一组2694图1. UltraStereo框架。 我们构建了一个主动立体声原型(左上),能够以210 Hz采集原始图像。 我们使用两个红外摄像头和一个Kinect DOE进行主动照明。该算法也适用于空间结构光系统,如KinectV1和Primesense传感器。给定两个校正后的输入图像,我们使用一个有效的O(1)映射将图像块转换到一个新的二进制空间y. 然后使用这种紧凑的表示计算匹配成本,并使用PatchMatch Stereo推断来推断视差。详情见正文学习参数δ=(z,θ),其定义到达该节点的数据的二进制分裂基于xTz−θ的符号,样本被路由到当前节点二进制分裂的总数b等于树中的节点数。在我们的例子中,我们设置b= 32,这相当于一棵树的高度为5。为了学习树的分裂参数,必须定义一个合适的目标函数。在[16]中,作者使用了一个基于分类的目标函数,旨在最小化所有标签上的熵。然而,我们的目标是尽可能通用,以避免每台相机的训练,因此我们依赖于一个无监督的目标函数,类似于密度森林[9]中使用的目标函数。给定在任意场景中收集的N个未标记的图像块xi我们的目标是接近潜在的生成模型,红外线贴片从包含所有示例xi∈RW的集合S的根节点开始,我们随机采样多个分裂参数提案δ。为了增强稀疏性并消除对W的依赖性,z中只有k个元素被强制为非零。对于每个候选δ,我们评估信息增益:最大化Eq.为每个节点选择2。训练过程继续,直到到达树的深度5。请注意,我们没有在叶子中存储任何模型,因为我们只想利用δ参数引起的二进制分裂在训练阶段结束时,我们将所有分割参数连接起来,以形成我们的线性映射Z =[z1,. . . ,zb]和θ =[θ1,. . . ,θ b]。请注意,过去已经提出了其他二进制映射方案,如Rank和Census[55]。其他人使用随机稀疏超平面[25]来执行这种二进制映射。然而,这些方法不是数据驱动的,它们是所提出的框架的一个特殊情况,它学习更一般的映射函数。更重要的是,由于它们的手工制作或随机性质,先前的方法要求输出二进制空间具有与补丁大小W相同的幅度或大于补丁大小W。相反,我们的方法还能够显着降低数据的维数,同时保留它们所携带的用于建立鲁棒对应关系的任务因此,UltraStereo编码大小为11×11 = 121的面片在32个二进制值,有效地存储在一个单一的I( δ)= H( S)−Σd∈L,R|Sd(δ)||S|H( Sd( δ))(2)整数.3.3. 匹配框架其中集合Sd(δ)由特定的分裂函数δ导出。假设熵H(S)是W维高斯的连续熵,其等于:H(S)= 1 log((2πe)W|Λ(S)|)(3) D2d其中Λ(S)是当前集合S的W×W协方差矩阵,并且|·|表示其行列式。候选人δ,一旦左图像和右图像中的每个补丁被投影到{0,1}b中,我们使用PatchMatch Stereo框架的变体[41]来进行推断。该框架的主要步骤包括初始化、传播和后处理.在初始化步骤中,每个像素采样5个随机视差,并并行评估它们的匹配成本为了实现亚像素精度,这些随机视差2695是真实价值的。保留具有最低匹配分数的候选项由于其固有的迭代性质,[7]中提出的传播无法直接利用GPU等大规模并行架构的全部潜力。为了加快这一步,在我们的重新实现中,我们将64×64块图像。我们在这些本地块中运行PatchMatch传播,其中行和列在专用GPU线程上并行且独立地处理。我们总共运行了4次传播:从左到右,从上到下,从右到左,从下到上。每次视差传播时,我们还使用标准的抛物线插值匹配成本,以进一步提高子像素精度。在我们的GPU后处理步骤中,我们使与大汉明距离(大于5)相关的差异无效,并运行连接组件,然后进行最小区域检查以删除离群值。最后,在3×3块上运行中值滤波器,以进一步降低噪声,同时保留边缘。3.4. 计算分析我们考虑一幅具有N个像素、L个可能的离散视差和大小为W的图像块的图像。 注意,PatchMatch立体框架的复杂度为O(NWlogL)[35]。我们现在研究超立体声的复杂性.映射到二进制空间,如等式2中所述。1与窗口大小W无关,因为Z的每列只有k个非零元素。在实践中,由于我们的计算预算,我们优化了k= 4,然而根据经验,我们注意到非零元素的数量因此,这个映射的复杂度是O(1)。与[41]类似,我们不对标签空间执行“二分搜索”。这进一步降低了复杂度并消除了对L的依赖性。UltraStereo的复杂度相对于图像尺寸N是线性的,并且它仅涉及两个小常数:k个非零像素用于映射计算,二进制空间b用于汉明距离。我们可以在O(1)内计算两个二进制字符串之间的不同位数,这要归功于大多数最新GPU架构中实现的popc()为了更具体地证明所提出的算法的速度,我们使用了1280×1024幅图像,窗口大小W= 11×11,其中Z的每列仅采样4个非零像素,以及大小b= 32的二进制空间。我们在NVIDIA Titan X GPU上测试了UltraStereo首字母-在 130µs 内 执 行 视 差 化 步 骤 , 每 个 视 差 传 播 需 要350µs,并且后处理需要400µs。整个算法在2. 03ms每帧,对应于492Hz。从内存的角度来看,我们的方法只需要存储左右图像。作为比较,[ 16 ]中提出的方法需要约1. 5GB GPU内存。这使得它们的计算内存图2. 合成数据。我们的合成数据集,其中包括几个室内环境和手序列的代表性例子。绑定,这会降低系统的整体速度:如[ 16 ]中所报告的,最精确的配置需要2。每帧5ms,这比所提出的方法略多。4. 评价为了提供严格和广泛的实验,允许理解深度算法中存在的不同权衡我们首先表明,我们的方法执行非常有利的COM-最先进的技术,不仅在平均误差,但也使用其他有用的指标,如边缘肥胖和无效。然后,我们定性地表明,我们的算法也优于其他方法,如Cen- sus和LSH。请注意,对于所有实验,我们将本文方法的参数为W= 11×11,b= 32,有效深度范围为[500,4000]mm。4.1. 定量评价我们的合成数据集由2500个训练图像和900个测试图像(500个关节手图像,400个来自5个不同环境的内部图像)组成。我们使用[36]中提出的技术估计来自Kinect传感器的结构光参考图案。然后将提取的图案定义为Blender中的理想发射器,并投影到手工制作的室内场景中。类似于我们的原型,虚拟立体系统使用9厘米的基线之间的虚拟红外摄像机,发射器被放置在两个传感器之间。在渲染过程中,基于平方反比定律估计光衰减,并添加(读取+拍摄)噪声[18对于所有内部序列,6d.o.f.从均匀分布中随机采样与每一帧相关联的摄像机姿态。图2包含渲染图像的代表性示例。注意对于2696BF(一)深度偏差偏置很容易证明[49]预期的深度误差20151050500 1000 1500 2000 2500 3000 3500深度[mm]其中,Δd是视差误差,Z是当前深度,b是基线,f是系统的焦距。偏差定义为平均绝对深度整个测试集中存在错误。图3报告了合成数据的结果,证明UltraStereo优于PatchMatch Stereo,并且在偏差方面与HyperDepth相当 与PatchMatch(B)边缘增厚Stereo表示学习的稀疏表示是302520151050有效,并且当我们使用仅包含10%亮点的Kinect DOE时,它对离群值和噪声更鲁棒实际上,暗点具有较低的 SNR , 这 可 能 对 匹 配 成 本 产 生 不 利 影 响 , 而UltraStereo二进制映射更鲁棒。这与(C)1 2 3 4 5 6 7 8 9 10距边缘的距离[像素]无效像素已验证在[27]中发现。为了量化真实数据中的偏差,我们记录了多个已知距离处的平面墙图像:从50厘米到100厘米。706050403020100到350厘米。我们对不同的算法和传感器重复了这个测试,特别是我们选择的那些技术其使用主动照明和基于三角测量的那些算法,诸如:Kinect V1、RealSense R200、PatchMatch Stereo [7]、HyperDepth [16]和UltraStereo。(D)500 1000 1500 2000 2500 3000 3500 4000深度[mm]无效的有效像素对于PatchMatch Stereo和HyperDepth,遵循原始论文[7,16]的方法,而对于商业上可用的传感器,我们使用深度图1086420500 1000 1500 2000 2500 3000 3500 4000深度[mm]图3. 合成数据的定量结果。(A)捕捉不同方法产生的平均误差作为深度的函数;越低越好。请注意UltraStereo如何提供与HyperDepth相当的估计(B)量化作为到前景边缘的距离的函数的被增粗的像素的百分比;越低越好。UltraStereo在该指标上明显优于基线,因为与1 - 6像素范围内的竞争基线相比,它提供的边缘增厚至少少两倍。(C)和(D)分别说明UltraStereo在验证无效像素方面提供了最佳折衷(C;越低越好)和无效有效像素(D;越低越好)。在每个图像中,红色通道对应于从另一相机可见的区域,绿色通道包含投影图案,并且蓝色通道对照明器可见的区域进行使用这些不同的通道,我们可以预先定义哪些像素应该无效(发射器和/或一个摄像头不可见),哪些应该验证(发射器和两个摄像头可见)。失效%育肥%验证%误差[mm]2697由摄像机产生的。在图4中,我们报告了结果,其与[16]中显示的结果一致。请注意,UltraStereo再次与HyperDepth相提并论,并以非常低的量化误差实现了最先进的结果。由于较高的噪声(R200)或高量化伪影(Kinect V1),某些方法在100cm后会非常迅速地降级。R200是一个像我们这样的主动立体声算法,但它在100cm后显示出非常高的误差,这可能是由于精度和速度之间的妥协。UltraStereo在真实数据上的其他定性结果如图所示5和图六、注意我们的方法如何表现出低量化效果,低抖动和非常完整的深度图。无效像素的百分比定义了最终深度图像不包含任何估计的像素数量。理想地,将针对所有像素来估计深度,但是不幸的是,红外传感器的遮挡、饱和和低SNR可以使得视差估计非常模糊,经常导致粗差。为了限制这些错误,通常在后处理步骤期间执行无效传递。如第3.3,我们的无效方案依赖于修剪不太可能的匹配(大汉明距离),然后进行最小区域检查。图3说明了我们的算法通过使较少的有效像素无效而优于基线,但也使更多的无效像素无效。与合成数据上获得的结果类似,HyperDepth [16]和PatchMatch Stereo2698图4. 定量结果。我们计算了多个距离的深度偏差和抖动,将UltraStereo与许多最先进的技术进行比较。结果表明,该算法相对于竞争对手的准确性图5. 定性评价。UltraStereo和最先进的竞争对手生产的深度图示例。注意[16]中的方法如何在纹理变化的区域中显示出高度无效,[7]中的方法是离线的,并且仍然无法提供完整的深度图,特别是在像植物这样的薄结构中。[7]在实际数据上错误地使比UltraStereo多得多的数据无效。这可以在图中观察到。五、注意两个不同纹理之间的边界总是被[16]无效,而UltraStereo提供了更完整的深度图。这对于像植物这样的薄结构尤其明显(参见图1)。第三行)。图6. 使用我们的算法生成的点云示例。注意没有量化和浮动像素。边缘增厚边缘增厚是大多数局部方法的常见问题,并且对于薄结构(例如,手指)。为了定义各种基线和我们的方法之间的边缘增厚量,我们合成了一个在墙前的关节手的图像,在深度图像中定义手的边缘是简单的。手是非常复杂的对象,沿边界具有高度可变性,使其成为评估边缘增厚的理想候选对象。为了生成逼真的序列,我们定义了关键的手部姿势,并在它们之间进行插值,以在每一帧中提供不同的手部姿势。将手放置在距离传感器约100cm处。图3描述了我们的方法如何优于基线,并且不太容易使对象变胖4.2. 二进制表示我们在这里提供证据的质量信息捕获的学习表示。我们测试了UltraStereo对人口普查[55]和最近的工作,使用局部敏感哈希(LSH)[25],这是用于深度估计的其他二进制表示我们通过收集来自Kinect传感器的一千张图像来训练稀疏超平面。图7显示了三种方法的定性结果。与UltraStereo相比,LSH和Census显示了更不完整和更嘈杂的深度图请注意,这里普查使用121位(等于窗口大小W),其中LSH和UltraStereo仅使用32位。为了进一步评估不同二进制表示的性能,我们使用来自合成管道的地面实况深度,并对视差标签进行详尽的离散我们将误差计算为与地面实况的视差距离小于1的像素的百分比年龄。LSH实现了51%的整体精度,2699图7. 二进制表示。我们使用LSH [25],人口普查[55]和我们的数据驱动表示来显示定性结果。请注意UltraStereo如何提供更完整、噪声更少的深度图。化能力。由于我们的学习算法是完全无监督的,因此所得到的超平面可以从一个传感器转移到另一个传感器而不影响精度。在图8中,我们显示了当我们使用应用于不同相机的学习的二元超平面时的结果。请注意,HyperDepth算法[16]根本不通用,需要为每个单独的相机进行校准,以提供高质量的深度估计。图8. 干涉和泛化。UltraStereo不会受到干扰(顶行),并且学习的二进制映射可以推广到不同的传感器(底行)。相反,目前的技术水平[16]需要每个相机的训练,并且对干扰不鲁棒。人口普查61%,UltraStereo达到72%的准确率,再次显示了学习表示的有效性。我们还评估了超平面Z中非零分量k的数量的影响。当使用8个非零元素时,我们达到了74%的精度,将这个数字增加到k= 32,我们开始以76%的精度饱和,最后使用密集超平面导致78%的精度。这表明该参数并不重要,可以根据可用的计算资源进行调整4.3. 干涉与泛化在文献中通常被忽视的一个重要问题是由多个传感器引起的干扰问题。复杂的体积重建系统(如[39])可能需要使用具有不同视点的多个传感器像Kinect V1这样的空间结构光系统会受到干扰,并且在[16]中存在相同的限制在图8中,我们展示了当场景中存在多个有源照明器时[16]如何受到严重影响,其中在我们的原型有源立体声设置上实现的UltraStereo仍然产生高质量的结果。我们的方法的另一个重要属性是它的gener-5. 结论在本文中,我们提出了UltraStereo,在主动立体声深度估计领域的突破。我们展示了如何将立体声问题公式化为具有不依赖于窗口大小和视差空间大小为了达到如此低的复杂度,我们使用了无监督机器学习技术,该技术学习了一组稀疏超平面,该超平面将图像块投影到紧凑的二进制表示中,该表示保留了估计鲁棒对应所需的判别信息为了在视差空间中执行推断,我们使用PatchMatch框架的变体,我们描述了修改以有效 地 在GPU上 运 行通 过 大 量 的 实验 , 我 们 证 明了UltraStereo不仅在速度方面而且在准确性方面都优于最先进的技术。此外,UltraStereo不受每个摄像机校准或干扰问题的困扰,这些问题对于一些最先进的技术来说是有问题的确认我们感谢整个perceptiveIO团队对这项工作的持续反馈和支持。引用[1] 英特尔实感r200。http://software.intel.com/en-us/realsense/r200camera. 1[2] Zcam。http://en.wikipedia.org/wiki/ZCam网站。1[3] C. Barnes,E. Shechtman,A. Finkelstein和D.戈德曼PatchMatch:一个随机对应算法2700结构图像编辑ACM SIGGRAPH和图形事务,2009年。3[4] F. 贝 斯 角 Rother , A. Fitzgibbon 和 J. 考 茨 PMBP :Patchmatch信念传播对应字段估计。IJCV,110(1):2-13,2014. 2[5] A. Bhandari,A.卡丹比河怀特角Barsi,M. 费金A. Dorrington和R.拉斯卡利用调制频率分集和稀疏正则化解决飞行时间成像中的多径干扰。CoRR,2014年。1[6] M. Bleyer和M.格劳茨简单但有效的树结构,用于基于动态规划的立体匹配。见VISAPP,2008年。2[7] M.布莱耶角Rhemann和C.罗瑟PatchMatch Stereo-支持倾斜窗口的立体匹配。在BMVC,2011年。一、二、五、六、七[8] A. Butler , S.I. 和 Otmar Hilliges , D.Molyneaux ,S.Hodges和D. Kim. Shake'n'sense:减少了重叠结构光深度相机的干扰。在计算系统中的人为因素,2012年。2[9] A. Criminisi和J. Shotton 计算机视觉和医学图像分析决策森林。Springer,2013. 4[10] M. Dou,S.Khamis,Y.Degtyarev,P.Davidson,S.R. 法内洛A. Kowdle,S. O.埃斯科拉诺角Rhemann,D.金,J. 泰勒P. Kohli,V. Tankovich和S.伊扎迪Fusion4d:实时性能捕捉具有挑战性的场景。SIGGRAPH,2016. 1[11] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在NIPS,2014。3[12] O. 埃尔卡利利岛Schrey,W.Ulfig,W.布罗克赫德湾霍斯提卡,P. Mengel,和L.列表用于汽车安全应用的64 x8像素3-dcmos飞行时间在欧洲固体-国家电路会议,2006年。1[13] S.法内洛大学帕塔西尼岛Gori,V. Tikhanoff,M. 兰达佐,A. Roncone,F. Odone和G.仁慈类人机器人的3d立体估计和眼手协调的全自动学习。2014年IEEE-RAS人形机器人。1[14] S. R. 法内洛C. 凯斯金,S. 伊扎迪P. Kohli,D.金姆,D. Sweeney,A.克里米尼西,J。Shotton,S. Kang和T.白学习成为一个深度相机,用于近距离的人类捕捉和互动 。 ACM SIGGRAPH 和 Transaction On Graphics ,2014。3[15] S. R. 法内洛角Keskin,P.Kohli,S.Izadi,J.Shotton,A.克里-米尼西,美国。Pattacini和T.白用于学习数据相关卷积核的过滤器森林。CVPR,2014。3[16] S. R. 法内洛角 Rhemann,V. Tankovich,A. 考德尔S. Orts Escherano,D.Kim和S.伊扎迪Hyperdepth:无需匹配即可从结构光中学习深度在CVPR,2016年。二三四五六七八[17] P. F. Felzenszwalb和D. P. Huttenlocher。早期视觉的有效信念传播。IJCV,2006年。2[18] A. Foi,M.特里梅什河谷Katkovnik和K.埃吉亚扎利安人单幅图像原始数据的实用泊松-高斯噪声建模与拟合IEEE Transactions on IP,2008。5[19] B. Freedman,A. Shpunt,M. Machline和Y.阿里里深度映射使用投影模式,4月。3 2012年。美国专利8,150,142。12701[20] D.弗 里德 曼E.克 鲁普 卡,Y.斯 莫林 ,I.Leichter,以及M.施密特 SRA:用于TOF传感器的一般多径的快速去除。ECCV,2014年。1[21] J.耿。结构光3D表面成像:一个教程。Advances inOptics and Photonics,3(2):128-160,2011. 1[22] E. Gordon和G.比坦3D几何建模和运动捕捉使用单和双成像,2012年。1[23] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何(第二版).剑桥大学出版社,2003年。3[24] K.他,孙杰,还有X。唐 引导图像过滤。 在procECCV,2010年。2[25] P. Heise,B. Jensen,S. Klose和A.诺尔快速密集立体对应二进制局部敏感哈希。InICRA,2015. 四、七、八[26] H. 希尔施姆乌勒河半模匹配和互信息立体处理PatternAnalysis and Machine Intelligence , IEEE Transactionson,30(2):328-341,2008。2[27] H. Hirschmuller和D.沙尔斯坦具有辐射差异图像的立体匹配代价PAMI,2009年。三、六[28] S.伊萨迪D. Kim,O.希利格斯,D。莫利诺河纽科姆P. Kohli,J.Shotton,S.Hodges,D.Freeman,A.戴维森,以及A.菲茨吉本KinectFusion:使用移动深度相机的实时3D重建和交互。InACM UIST,2011. 1[29] D. Jimenez,D.皮萨罗Mazo和S.帕拉苏埃洛斯飞行时间相机中多径干扰的建模与校正CVPR,2012。1[30] M. Ju和H.康恒时立体匹配。第13-17页,2009年。2[31] K. Konolige 投 影 纹 理 立 体 。 在 机 器 人 和 自 动 化(ICRA),2010 IEEE国际会议上,第148-155页。IEEE,2010。1[32] P. Kr aühenbuühl和V. 科尔顿具有高斯边缘势的全连通crfs的有效性推断NIPS,2011年。2[33] Y. Li,D. Min,M. S.布朗,M. N.做,和J。卢。Spm-bp:加速连续mrfs的补丁匹配置信度传播。在ICCV,2015年。2[34] J. Lu,K. Shi,D.敏湖,澳-地Lin和M.做基于交叉的本地多点过滤。在Proc. CVPR,2012。2[35] J. Lu,H. Yang,杨氏D. Min和M.做补丁匹配过滤器:有效的边缘感知滤波满足快速对应字段估计的随机搜索。在Proc.CVPR,2013中。二三五[36] P. McIlroy,S. Izadi,和A.菲茨吉本使用投影密集点模式的3d姿态估计。IEEE Trans.目视Comput. Graph. ,20(6):839-851,2014. 三、五[37] N. Naik,A.卡丹比角Rhemann,S.伊扎迪河Raskar和S.康用于减轻TOF传感器中的多径干扰的光传输模型。CVPR,2015年。1[38] H. 西 原 Prism : A practical real time imaging stereomatcher mit ai memo no.七百八十马萨诸塞州剑桥 美国,1984年。1[39] S. Orts-Escolano 角 Rhemann , S.Fanello , W.Chang ,A.Kow- dle , Y.Degtyarev , D.Kim , P.L. Davidson ,S.Khamis,M.窦先生,诉坦科维奇角Loop,Q.Cai,P.A. Chou,S.门尼肯2702J. Valentin,V.Pradeep,S.Wang,S.B. Kang,P.科利Y. Lutchyn角Keskin和S.伊扎迪全移植:虚拟3d实时传送。InUIST,2016. 8[40] S. 巴黎山口Kornprobst,J.Tumblin和F.杜兰德双 边 过滤:理论与应用。计算机图形与视觉的基础与趋势,4(1):1-73,2008。2[41] 诉普
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功