ActiveZero：主动立体视觉的混合域学习解决方案

159 浏览量更新于2023-10-26 收藏 2.98MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13033ActiveZero：零标注主动立体视觉的混合域学习Isabella Liu1杨德昌1陶建宇1陈锐2号张小帅清然3朱柳3郝苏1加州大学圣地亚哥分校2清华大学3阿里巴巴达摩院摘要传统的深度传感器生成准确的真实世界深度估计，甚至超过了仅在模拟域上训练的最先进的由于地面实况深度在模拟域中很容易获得，但在真实域中很难获得，因此我们提出了一种利用两个世界中最好的方法。在本文中，我们提出了一个新的框架，ActiveZero，这是一个混合域的主动立体视觉系统的学习解决方案，不需要现实世界的深度注释。首先，我们证明了我们的方法的可移植性，通过使用混合域学习策略的分布的真实数据。在模拟领域，我们使用监督视差损失和形状图元数据集上的自监督损失的组合。相比之下，在真实域中，我们仅在来自训练模拟数据或测试真实数据的分布外的数据集上使用自监督损失。其次，我们的方法引入了一种新的自监督损失，称为时间IR重投影，以增加我们在难以感知的区域中重投影的鲁棒性和准确性。最后，我们展示了如何端到端地训练该方法，以及每个模块对于获得最终结果都很重要。对真实数据的广泛定性和定量评估证明了最先进的结果，甚至可以击败商业深度传感器。ActiveZero 的代码可在以下网址获得：github.com/haosulab/active_zero。1. 介绍深度传感器可以提供关于目标场景的3D几何信息，这在各种机器人应用中至关重要，包括映射，导航和对象操纵[6，17，26]。在可用的不同类型的英特尔实感™D系列）由于其高空间分辨率，在工业和学术环境主动立体视觉图1. ActiveZero通过利用实域中的时间IR图案上的自监督重投影损失和模拟域中的直接视差监督，使用混合域学习对具有复杂光学特性（镜面、透明）的对象的真实IR立体图像产生比具有零真实深度注释的商用深度传感器高分辨率、高精度和低成本[19]。这些传感器由一个红外（IR）图案发射器和两个IR相机组成然而，由于这些传感器使用经典的立体算法，因此它们遭受常见的立体匹配问题，例如镜面和透明物体的过度平滑、边缘变胖和孔洞，因此它们对于需要高精度和完整性的机器人应用来说是不理想的[5]。基于学习的方法可以通过利用先验样本来生成更准确和完整的深度图来解决上述问题，以了解如何正确处理边缘和不确定像素[2然而，需要具有地面真实深度的大规模立体数据集因此，缓解此问题的一种方法是使用混合域学习时间IR模式原始RGB图像RealSense D415我们的方法绝对深度误差= 9.669 mm绝对深度误差= 6.540mm培训测试13034自我监督学习自监督立体方法[38，39]使用双目图像之间的重投影或其他相关损失作为监督，但这些损失的波动另一种方法是使用模拟数据，其中地面实况深度是现成的。然而，由于仿真和真实世界之间的域差距，仅在仿真数据上训练的网络不能可靠地已经提出了域自适应方法来克服Sim2Real问题[23]，但是GAN的引入使得训练过程不稳定[20]并且性能次优。本文提出了一种端到端学习立体方法，该方法结合了真实域中的自监督学习和模拟域中的监督学习的优点，我们称之为混合域学习（图1）。该策略显著提升了立体声网络性能，同时也稳定和加速了优化过程。具体而言，通过仅需要在具有地面实况深度作为监督的模拟域中的形状基元上进行训练，以及在具有重投影作为自监督的真实域中的一组不相关的场景上进行训练，我们能够在真实域中的完全分布外的对象上实现可比较的性能，就好像我们直接在那些对象上进行训练一样。此外，我们观察到，有基本的是，执行直接图像重投影，因为以前的工作已经做了，所以我们建议使用时间IR通过周期性地调节所发射的IR图案的亮度并从时间图像序列中提取二进制图案。时间二值模式上的重投影损失消除了场景纹理的影响，也消除了照明强度随距离增加而衰减的影响。实验结果表明，我们的方法能够优于最先进的基于学习的立体方法和商业深度传感器，消融研究验证了我们工作中每个模块的有效性。2. 相关工作深度传感器根据其基本的传感原理可以分为四类[5]：被动立体视觉、主动立体视觉、结构光和飞行时间。每种深度感测技术都具有其自身的优点和缺点。Giancola等人。 [13]介绍了不同深度传感器的原理，并独立评估了它们的抗干扰性能。Chen等人 [5]比较了8种市售深度传感器针对不同照明设置和物体的短距离深度感知性能，发现主动立体视觉传感器和结构光传感器彼此性能相似，性能更好比其他两种传感器更好。此外，深度传感器的性能在不同的物体之间存在差异，这些传感器在具有复杂光学特性的物体上表现尤其差[29]。在本文中，我们专注于提高主动立体视觉深度传感器的视觉和数值性能，但该框架也可以应用于结构光传感器。基于学习的立体声随着大规模基准测试和更高的计算能力而变得更加流行[12，16，21]。用于深度估计的立体匹配通常分四个步骤完成：匹配成本计算、成本聚合、优化和视差细化[31]。Zbontar和LeCun是第一个设计网络的公司，用于通过利用深连体架构计算匹配成本[37]。在此基础上，DispNet引入了第一个端到端框架，用于从立体图像对预测整个视差图[25]。像GWCNet这样的作品通过使用3D卷积来计算更好的成本量[18]，遵循并改进了这个框架。最近的工作通过利用多尺度上下文聚合来估计不同分辨率下的深度以利用全局图像级信息来进一步提高性能[2，15]。然而，作为监督的地面实况深度的要求限制了基于学习的立体声的应用。自监督立体是一种流行的立体匹配方法，当地面真实深度不可用时。戈达尔等人。[14]探索了左右一致性在用于自我监督的校正立体图像对。它们基于给定的左视图及其预测的视差图重建右视图，然后使用重建损失作为训练的监督。PDANet [11]引入了感知一致性的思想，以提高低纹理和高颜色波动区域的重建质量。ActiveStereoNet [38]使用IR图像上的局部对比度归一化（LCN）重投影损失作为自我监督来训练立体网络。然而，这种重投影损失沿着极线波动，并且受到遮挡和视点方差的严重影响。不仅如此，LCN损失还在相机噪声和环境照明主导投影的IR图案的区域中受到影响，因为它仅使用具有投影图案的IR图像。我们的方法通过主动调整所发射的IR图案的亮度来使用时间IR重投影损失来解决这些问题，这对相机噪声和环境照明更鲁棒。域自适应技术在缩小模拟域和真实域之间的差距方面表现出很大的潜力Tobin等人。 [33]提出通过在模拟器中随机化渲染来使用域随机化来训练一个健壮的模型，该模型将真实域解释为模拟域的另一种变体以前的作品也尝试对齐源和目标域，13035i=1i=1LRi=1--X--X--Y时间真实红外方向图实域时间二值红外提取预测的实际差异实随机对象real− rep roj空间金字塔池化模块成本量3D叠加沙漏合成基元仿真领域sim−reprojSIM卡上的预测差异SIM上的地面实况差异时间模拟红外模式电子邮件2步二元红外提取图2.体系结构概述。模拟和真实立体IR图像被馈送到共享权重立体网络，该网络由用于降噪的CNN和用于视差预测的基于成本-体积的3D CNN组成。该网络在实域中采用时间二值红外图像的重投影损失进行训练，在模拟域中采用重投影损失和视差损失作为混合域学习。匹配它们的输入分布或它们的特征统计量[24，32]。其他作品试图通过基于任务中提出的某些标准来增强输入来学习域不变表示，并接近自身[10]。此外，在语义分割和对象检测等任务中，无监督损失越来越多地用于域自适应[7，30，34]。我们的工作与StereoGAN [23]最相关，它使用模拟域中的地面真实深度图和真实域中的重投影损失以及无监督GAN损失，以缩小模拟和真实图像之间的域差距。我们的工作与他们的工作有三个关键区别：（1）我们使用主动投影模式的红外图像进行立体匹配，而不是被动的RGB图像，这导致了更小的sim 2 real间隙和更好的可移植性：（2）我们使用所提出的时间红外重投影损失作为自我监督，这是更有效地关联局部匹配特征;（3）我们仅使用来自测试时间数据的分布外的形状基元和随机真实对象进行训练。3. 方法在本节中，我们将介绍用于主动立体视觉的混合域学习我们首先定义任务设置：在实域中，我们具有具有投影图案X t=（x t，x t）iN的真实IR立体图像的目标集合，并且我们的目标是学习精确的视差估计网络F以估计视差Xt=F（xt，xt）。我们使用混合域数据为了训练网络：在实域中，我们收集另一组没有视差注释的真实IR立体图像X=（xl，xr）iM。为了清楚起见，出现在X中的对象与Xt中的对象不同。在仿真领域，我们生成一组合成IR立体图像，其具有地面实况视差注释Y=（yi，yi，yid）iK。为了保证训练好的网络对不可见对象的泛化能力，我们只使用具有不同尺度、纹理和材质的形状基元（球体、立方体、胶囊）来生成Y。图2显示了我们提出的方法的框架。在实域中，我们提出使用时间二进制IR重投影损失作为自我监督（第二节）。第3.1节）。在模拟域中，我们使用预测视差与地面实况视差之间的损失yd作为监督（第二节）。3.2）。该网络使用真实域中的自监督和模拟域中的监督来联合训练（第二节）。3.3）。立体声网络架构和其他实现细节将在第二节中介绍。三点四分。3.1. 实域：红外图像的自监督学习传统的自监督学习方法[14，38]中计算灰度立体图像重投影损失的先决条件是物体表面是Lambertian漫射的，其中反射强度对视点不变，这在现实世界中通常不满足。因此，我们建议提取二进制投影dlr13036...x（0）x（1）. x（n-1）x（n）线性拟合...x（0）x（1）. x（n-1）x（n）Σ----×LΣ||−||RD（2p+1）2能量增加时间二元红外图像以及反射系数极小的区域在我们的工作中，我们使用n=6。图4、比较了不同方法提取的模式方法通过利用时间图像序列，我们的方法是能够准确和完整地提取模式，即使在遥远的地区，信噪比（信噪比）是低的。局部归一化和二值化窗口滤除相机传感器噪声和环境照明，同时保留投影的活动图案，这有利于进一步的重投影损失计算。二进制模式重投影损失。如在传统立体匹配和主动立体方法[1]图3.时间二值模式提取从时域红外立体图像序列中提取有源图案，消除了表面反射的不利影响，同时保留了有源图案的最重要组成部分然后，我们构造这个新的重投影损失，二进制模式8，9，38]，分块重投影损失比像素损失更平滑和更准确，并且有利于匹配。因此，我们在所提取的二进制IR图案（Kl，Kr）上构造逐块再现损失：Lreproj（K，K，x）=1C（u，v）UV从时间红外图像中提取二值模式。对于真实捕获的IR图像xl或xr，C（u，v）=（up，vp）∈P（u，v）||2||2pixel（u，v）是：xl（u，v）=Il（u，v）+αeKl（u，v）+（1）其中Il（u，v）表示环境照明强度，Kl（u，v）表示由相机捕获的二进制图案，α表示由物体表面材料、纹理、角度和距离确定的反射系数，e表示图案发射度，并且ε表示相机传感器噪声。对于有源深度传感器，我们通过改变发射器功率来手动调整图案发射度e。因此，如图3所示，我们的模式提取过程如下：我们设e为e0，e1，. e. n，捕获对应IR图像x（0），x（1），.，x（n），并拟合x（0），. . .，x（n）的线性模型回归，得到x∈（0），. -是的-是的，x∈ N（n）. 我们通过局部窗口归一化和二值化从时间图像序列中提取二值IR图案K（u，v）：.1||x<$（n）（u，v）−x<$（0）（u，v）||>δ（u，v）+c其中，P（u，v）表示以像素（u，v）为中心的具有块大小（2p+1）（2p+1）的块，K（ u，v）表示使用预测的视差x（u，v）来缩小的右图像。如图4所示，由于时间二进制IR图案消除了对象纹理和环境照明的影响，并且仅保留投影图案，因此在二进制IR图案上计算的重投影损失在地面真实视差处达到全局最小值，而在其他两个图案上计算的损失可能对立体网络产生误导3.2. 仿真领域：形状基元的虽然所提出的时间IR重投影损失可以用作立体网络训练的唯一损失，但它仍然具有一些局限性：对于半透明和透明对象，不能准确地提取二进制IR图案，并且相对于视差假设，损失中存在局部最小值。另一方面，具有地面真实深度的传统监督学习不会受到影响K（ u，v）=0否则从上述问题。然而，在现实世界环境中获取地面实况深度因此，我们只在δ（u，v）=1W（x∈（n），u，v）W（x∈（0），u，v）（2）w2其中W（x，u，v）是以像素（u，v）为中心的局部窗口在窗口大小为wx中，c是滤除噪声的阈值仿真域基于光线跟踪的数据集生成。在过去的十年里，射线追踪技术取得了重大进展窗口归一化13037··ΣLCN模式2-Step IR模式时间IR模式图4.沿核线提取模式和重投影损失的比较。LCN模式表示局部对比度归一化[38]，其由连续值组成;2步IR模式和时间IR模式分别表示使用n= 1和n= 6从时间IR图像序列中提取的二值化渲染技术在速度和质量方面。与光栅化相似，光线跟踪渲染可以准确地模拟半透明和透明物体上的光传输过程[28]。因此，我们使用光线跟踪渲染来生成模拟训练数据集：我们首先构建一个带有掩模的锥形照明来模仿真实主动立体视觉深度传感器中的模式发射器，然后构建两个类似于真实设置中的立体相机的相机。相机和照明之间的相对位置是使用来自真实传感器的参数设置的。我们还在模拟环境中添加昏暗的环境光，以模仿真实设置中过滤的环境光。图形基本体。CAD模型数据集中的语义特定偏差可能会减轻学习立体网络的泛化能力。因此，我们只使用基本形状图元来生成模拟数据集。我们使用来自微型ImageNet [22]的图像作为对象纹理。基元的数量从5到15随机采样。尺寸、布局和材料也是随机生成的。视差损失。给定具有地面真实视差（yl，yr，yd）的合成立体图像对，我们遵循[2]并采用yd与合成立体图像上的预测视差之间的平滑L1损失Ldisp=L1smooth（F（yl，yr），yd）（3）3.3. 混合领域学习给定真实立体IR图像（xl，xr）和具有真实视差的模拟立体IR图像（yl，yr，yd），我们通过将实域中的再现损失和视差损失与模拟域中的重投影损失：L（xl，xr，yl，yr，yd）=λr·Lreal-reproj（xl，xr，F（xl，xr））+λ s· Ldisp（F（y l，y r），yd）+Lsim-reproj（yl，yr，F（yl，yr））其中λr和λs分别表示实域和仿真域真实域上的损失条款保证了不可见真实数据的可转移性。然而，我们发现，由于自监督信号中的噪声，很难单独使用这些术语来训练网络。有趣的是，在原始形状的仿真域中添加监督损失项后，损失最小化的行为更加驯服：不仅网络收敛得更快，而且最终解决方案的质量也更好（参见第二节）。补充材料中的A.14.3经验证据）。3.4. 实现细节在立体匹配网络中，我们采用PSMNet [2]作为骨干，它聚合不同尺度的图像特征，构建成本体积，并使用3D CNN来回归视差。PSMNet的最大视差设置为192。我们还使用6层CNN过滤掉不相关的噪声，然后将立体图像输入PSMNet。为了使模型更加鲁棒，我们对输入图像应用颜色抖动和高斯模糊。4. 实验4.1. 实验细节数据集。图5显示了我们工作中三个数据集的示例图像。对于测试数据集，我们使用13038×英特尔实感D415作为主动立体视觉深度传感器。所有真实的RGB和IR图像都是使用RealSense相机捕获的。为了定量评价相机的性能，需要完整准确的地面深度。为此，我们构建了一组模拟场景，通过精确对齐对象的形状和姿态以及RealSense相机的内部和外部参数，这些场景与真实场景进行像素对齐为了评估物体材料对深度估计性能的影响，我们包括两类物体：3D打印物体和真实物体。3D打印的物体是使用彩色石膏粉末打印的，并且被认为是朗伯扩散的，而真实物体总体而言，测试数据集由24个不同场景的504个立体图像组成。对于模拟域中的训练数据集，我们使用随机形状基元（包括球体、立方体和胶囊）渲染了20，000个具有地面真实视差注释的立体IR图像。10%的图元设置为透明，50%由来自微小图像的图像纹理化[22]，其余的设置为随机颜色。对于光线跟踪渲染，每个像素的采样数为128，最大反弹数设置为8。渲染的红外图像由NVIDIA OptiX降噪器进行后处理[27]。对于实域中的训练数据集，我们收集了1，047个与测试数据集不同的随机对象的真实立体IR图像。这些物体被随机放置在桌子上，并由同一个RealSense从不同的视角捕获。注意，我们仅使用真实IR立体图像来构造时间IR重投影损失，并且不收集深度图像。训练我们使用Adam优化器训练网络，初始学习率设置为2 e-4，每10 k次迭代衰减一半，总共40 k次迭代。网络在2个GPU上训练，每个GPU具有11GB GPU内存和4个批量大小。我们使用λ s=0。01和λr=2的损失重量，以将两种损失设置为相似的尺度。为了公平比较，我们的方法和基线方法都应用了数据增强具体地，亮度和对比度分别由0.4至1.4和0.8至1.2之间的值均匀地缩放。对于高斯模糊，内核大小固定为9 - 9，标准差在0.1至2之间均匀选择。评估指标。几个常见的立体声估计指标被用来评估所提出的方法。端点误差（EPE）是平均绝对视差误差。Bad 1是视差误差大于1个像素的像素百分比。通过将视差转换为深度，我们还测量了平均绝对深度误差（ABS深度误差）RGB IR视差（一）没有注释（b）第（1）款（c）第（1）款图5.来自我们数据集的示例图像。(a)随机形状基元的模拟训练数据集;（b）不同于测试的随机对象的真实训练数据集;（c）SIM 2 REAL对准的测试数据集，包括诸如金属的镜面表面和诸如液体的半透明体。注意：我们绝对误差大于4mm的深度异常值的百分比，表示为>4mm。为了评估我们的模型在不同材料的对象上的性能，这些深度度量使用对象掩码在测试数据集中的两种对象上分别测量。由于RealSense摄像头在深度不确定性高的区域输出零值，因此根据排除和包括不确定像素来计算度量，以便评估处于相同的完整性级别。4.2. 与其他方法为了进行评估，我们的方法与其他基于学习的方法和一个体面的商业深度传感器-RealSense D415进行了比较。如Tab.所示。1，我们的方法优于其他方法在所有指标。学习方法。我们的方法与PSMNet [2]和StereoGAN [23]相比是最好的，我们使用它们作为基线。为了测试vanilla PSMNet，我们只使用模拟域中的训练数据集在有和没有活动模式的输入立体图像上训练它，然后直接在真实的测试数据集中测试如Tab.所示1、使用主动模式可以提高立体匹配精度，有利于消除实域间隙。这在直观上是有意义的，因为主动光将图案添加到最难匹配的无纹理区域。13039原始图像StereoGAN+PSMNet错误RealSense错误时间IR错误处置错误0.000010.06250.1250.250.5124816INF真实对象打印物体真实对象打印对象真实对象打印对象真实对象打印物体图6.我们的方法与StereoGAN和RealSense D415的视差误差图的比较。我们的方法提高了3D打印物体和真实物体的视差精度。排除不确定像素方法EPE（px）↓坏1↓Abs深度误差（mm）↓>4mm↓所有所有所有印刷房所有印刷房PSMNet [2] w/o active patternPSMNet [2]带活动模式0.6640.4760.1870.0779.2187.13512.6009.17416.46715.5700.4780.5040.6860.5910.8360.800[23]第二十三话5.6030.74144.28436.89242.1050.9250.9150.931[23]第二十三话2.2960.17613.76222.48937.0310.6410.7620.899RealSense D4150.3920.0325.8177.85115.8260.5650.6120.817我们0.3340.0294.6076.94215.6750.3580.4720.734±.022±.001±.242±.376±.789±.036±.04±.028包括不确定的像素方法EPE（px）↓坏1↓Abs深度误差（mm）↓>4mm↓所有所有所有印刷房所有印刷房PSMNet [2] w/o active patternPSMNet [2]带活动模式0.6980.5130.1940.0849.5307.44412.9879.58016.96016.7450.4850.5100.6890.5950.8400.804[23]第二十三话5.7650.74444.74736.70342.2200.9260.9150.932[23]第二十三话2.4720.18514.31822.81837.7530.6450.7640.902RealSense D4151.7930.0568.1599.89122.4920.5760.6210.835我们0.4200.0375.0277.45017.4300.3660.4790.748±.024±.001±.245±.39±.853±.034±.039±.027表1.不同的基于最先进的学习的立体声，商业深度传感器和我们的方法在真实测试数据集上的性能此外，除了原始的StereoGAN [23]之外，我们还通过使用PSMNet作为视差预测骨干来扩展StereoGAN架构，表示为 StereoGAN+PSMNet 。这种改进的StereoGAN在其立体匹配模块中使用成本体积聚合，这使得它更强大，并且与我们的方法具有可比性。结果表明，StereoGAN+PSMNet在所有指标上都优于StereoGAN 。虽然，与我们的方法相比，StereoGAN+PSMNet的表现要差得多，因为绝对深度误差从4增加。377毫米到13. 762毫米。这进一步证实了图。6，其中StereoGAN+PSMNet努力预测真实物体（如金属罐）的深度，这是一个镜面。另一方面，我们的混合域学习方法在这些方面提高了准确性对象的类型。这种大的性能改进可以归因于在具有随机形状和材料的基元的模拟域中的直接监督、精确地定位正确对应的良好形状的时间IR重投影、以及由于其不使用GAN模块而整体上更鲁棒的流水线英特尔实感D415。据我们所知我们是第一个与商业产品进行定量比较的作品。英特尔实感D415使用传统的基于CENUS的立体匹配方法[19，36]，该方法具有高计算效率，但会留下不确定的像素，而没有深度值。因此，我们在与RealSense相同的完整性水平上报告了我们的结果，并证明我们的方法在以下方面优于RealSense：13040没有SIM地面实况重投影Abs深度误差（mm）↓>4mm↓原始IR43.3260.716时间IR4.7290.367表2.不同模式每一个公制在图6中，RealSense无法准确预测镜面反射区域中的像素，而我们的方法能够很好地匹配这些像素此外，对于3D打印物体，我们的模型也表现出较低的深度误差。4.3. 消融研究在本节中，我们通过烧蚀实验验证每个组件和设计选择重投影损失。我们比较了网络二、原始IR简单地计算扭曲图像的逐块均方误差（MSE）。LCN IR来自ActiveStereoNet [38]，它使用LCN模块来缓解两个匹配像素由于与相机的距离和表面的物理属性而具有较大残差的情况。为了公平起见，我们将合成地面实况深度监督添加到上述所有实验中。原始IR重投影具有最差的结果，因为它没有考虑两个匹配像素的IR光的不同强度。虽然LCN IR有助于解决这个问题，该方法对连续的局部归一化灰度红外图像进行重投影，但图像仍受环境光照和物体纹理的影响为了解决这个问题，我们提出了一个重投影损失的2步红外模式，表现出更好的性能，因为二进制模式消除了两个匹配像素的小残留最后，由于距离摄像头较远的像素的SNR较低这个问题是解决我们的时间IR模式。通过跟踪时间红外图像序列中的强度差异，我们的方法提取一个更准确和完整的红外图案。结果表明，我们的再投影时间红外图像是优于所有其他再投影方法。模拟监控为了研究模拟监督的效果，我们实现了Tab.3 .第三章。具体来说，我们观察到在去除对模拟差异的监督后，训练模型的性能显着下降。因此，我们可以得出结论，在模拟域上的监督有助于网络获得更好的性能。与sim地面实况重投影Abs深度误差（mm）↓>4mm↓原始IR32.1660.638时间IR4.3770.335表3.不同自监督重投影损失模拟数据集Abs深度误差（mm）↓>4mm↓测试对象4.3880.347形状基元4.3770.335表4.在不同模拟数据集上训练的网络性能，如前所述，模拟域可以帮助时间IR重投影更接近和更快地收敛到全局最小值。然后，时间IR重投影用于进一步收敛到地面实况视差。Tab中的结果3与综合监管能够进一步提高绩效的事实相一致概括。为了评估在由形状基元组成的模拟数据集上训练的学习立体网络的泛化能力，我们使用与测试数据集中相同的对象构建表4显示了在随机形状基元数据集上训练的模型优于在仅包含出现在测试数据集中的形状和纹理的数据集上训练的模型，这验证了在我们的形状基元数据集中引入的几何形状，纹理和材料的更大变化导致学习的立体网络的卓越泛化能力的说法。5. 结论和未来工作在本文中，我们提出了一种新的端到端训练框架，混合域学习，用于基于学习的主动立体声，它超越了商业深度传感器和现实世界中最先进的方法，而无需任何真正的深度注释。我们的工作的一个限制是，我们只评估其有效性的一种类型的主动立体视觉传感器。需要进一步的研究来了解我们学习的立体网络转移到其他分布外的真实数据集和传感器类型的程度。此外，为了使这个框架在实际应用中可用，我们需要研究如何加速网络推理以实现实时深度预测。图案Abs深度误差（mm）↓>4mm↓原始IR32.1660.638LCN IR [38]10.5980.5122步IR4.6970.373时间IR4.3770.33513041引用[1] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch立体匹配与倾斜的支持窗口。在Bmvc，第11卷，第1-11页，2011中。4[2] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。一、二、五、六、七[3] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在IEEE/CVF计算机视觉国际会议论文集，第1538-1547页1[4] 陈睿，韩松芳，许静，苏浩。可见性感知的基于点的多视点立体网络。IEEE transactions on pattern analysis andmachine intelligence，43（10）：3695-3708，2020。1[5] 瑞晨，静旭，宋章。短程应用三维光学感测器之比较研究。光学和激光工程，149：106763，2022。一、二[6] JoaoCunha ， EuricoPedrosa ， Cri sto'v aoCruz ， Anto'nioJRNeves和Nuno Lau。使用深度相机进行室内机器人定位和导航。DETI/IEETA-葡萄牙阿威罗大学，第6页，2011年。1[7] Weijian Deng ， Liang Zheng ， Qixiang Ye ， GuoliangKang，Yi Yang，and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在IEEE计算机视觉和模式识别会议论文集，第994-1003页，2018年。3[8] SeanRyanFanello 、 JulienValentin 、 ChristophRhemann、Adarsh Kowdle、Vladimir Tankovich、PhilipDavidson和Shahram Izadi。Ultrasereo：有效的基于学习的主动立体声系统匹配。 2017年IEEE会议计算机视觉和模式识别（CVPR），第6535-6544页。IEEE，2017年。4[9] 我是Furuk和CarlosHerna'ndez。多视图立体声：教程。发现趋势。Comput. Graph.目视，9（1-2）：1-148，Jun2015. 4[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议，第1180-1189页。PMLR，2015. 3[11] Huachen Gao ， Xiaoyu Liu ， Meixia Qu ， and ShijieHuang.Pdanet ： Self-supervisedmonoculardepthestimationusingperceptualanddataaugmentationconsistency. 应用科学，11（12），2021。2[12] Andreas Geiger，P Lenz，Christoph Stiller，and RaquelUrtasun.视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志，32：1231-1237，2013年9月。2[13] Silvio Giancola，Matteo Valenti，and Remo Sala. 3D相机综述：飞行时间、结构光和主动立体视觉技术。Springer，2018. 2[14] C le'mentGodard ， OisinMacAodha ， andGabrielJBrostow.具有左右一致性的无监督单目深度估计。在IEEE会议上计算机视觉和模式识别，第270-279页，2017年。二、三[15] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。2[17] Minho Hwang ， Daniel Seita ， Brijen Thananjeyan ，Jeffrey Ichnowski ， Samuel Paradis ， Danyal Fer ，Thomas Low，and Ken Goldberg.深度感应应用于达芬奇机器人的自动手术操作。2020年国际医疗机器人研讨会（ISMR），第22- 29页。IEEE，2020年。1[18] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。2[19] Leonid Keselman，John Iselin Woodfill，Anders Grunnet-Jepsen，and Achintya Bhowmik.英特尔实感立体深度相机。在IEEE计算机视觉和模式识别研讨会会议集，第1-10页1、7[20] Naveen Kodali ， Jacob Abernethy ， James Hays ， andZsolt Kira. gans的收敛性和稳定性。arXiv预印本arXiv：1705.07215，2017。2[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。In F.佩雷拉角，巴西-地J. C.伯吉斯湖博图，还有K. Q. Weinberger，编辑，神经信息处理系统进展，第25卷。Curran Associates，Inc. 2012. 2[22] 雅乐、玄阳。微型图像网视觉识别挑战。CS 231 N，7（7）：3，2015年。五、六[23] Rui Liu ， Chengxi Yang ， Wenxiu Sun ， XiaogangWang，and Hongsheng Li. Stereogan：通过域平移和立体匹配的联合优化，弥合合成域与真实域之间的差距。在IEEE/CVF计算机视觉和模式识别会议论文集，第12757-12766页，2020年。二三六七[24] Mingsheng Long，Guiguang Ding，Jianmin Wang，Jia-Guang Sun，Yuchen Guo，and Philip S.Yu.用于鲁棒图像表示的转移稀疏编码。2013年IEEE计算机视觉和模式识别会议，第407-414页，2013年。3[25] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在IEEE计算机视觉和模式识别会议论文集，第4040-4048页，2016年。2[26] Akhilesh Kumar Mishra和Oscar Meruvia-Pastor使用深度感测摄影机与逆运动学之机械手臂操作。2014年海洋-圣约翰113042[27] Steven G.帕克、詹姆斯·比格勒、安德烈亚斯·迪特里希、海科·弗里德里希、贾里德·霍伯洛克、大卫·吕布克、大卫·麦卡利斯特、摩根·麦奎尔、基思·莫利、奥斯汀·罗宾逊和马丁·斯蒂奇。Optix：一个通用的光线跟踪引擎。ACM事务处理图表，29（4），2010年7月。6[28] Matt Pharr，Wenzel Jakob，and Greg Humphreys.基于物理的渲染：从理论到实现。摩根·考夫曼，2016年。5[29] Shreeyak Sajjan、Matthew Moore、Mike Pan、GaneshNa- garaja、Johnny Lee、Andy Zeng和Shuran Song。清晰把握：透明物体的三维形状估计，用于操纵。2020年IEEE机器人与自动化国际会议（ICRA），第3634-3642页IEEE，2020年。2[30] 斯瓦米·桑卡拉纳拉亚南，尤格什·巴拉吉，阿皮特·杰恩，林世南，拉玛·切拉帕.从合成数据中学习：解决语义分割的域转移。2018 IEEE/CVF计算机视觉和模式识别会议，第3752-3761页，2018年。3[31] 丹尼尔·沙尔斯坦。密集两帧立体对应的分类与评价。IEEE立体和多基线视觉研讨会论文集，考艾岛，你好，2001年12月，2001年。2[32] Baochen Sun 和 Kate Saenko 。 Deep Coral ： CorrelationAlignment for Deep Domain Adaptation. 在 Gang Hua 和Herve 'Je'gou编辑的ComputerVision-施普林格国际出版社.3[33] Josh Tobin、Rachel Fong、Alex Ray、Jonas Schneider、Wojciech Zaremba和Pieter Abbeel。用于将深度神经网络从模拟转移到现实世界的域随机化。 2017 年IEEE/RSJ智能机器人与系统国际会议（IROS），第23-30页。IEEE，2017年。2[34] Yi-Hsuan Tsai，Wei-Chih Hung，Samuel

下载后可阅读完整内容，剩余1页未读，立即下载