没有合适的资源?快使用搜索试试~ 我知道了~
5840立体匹配中视觉提示的扩展及其推广安德里亚皮尔泽酒店1*Yuxin Hou侯宇欣2,3尼基·洛皮1阿诺·索林2Juho Kannala21NVIDIA2阿尔托大学3Niantic{apilzer,nloxin} @ nvidia.com,{yuxin.hou,arno.solin,juho.kannala} @ aalto.fi摘要我们引入视觉提示扩展来指导立体匹配,以提高泛化能力。我们的工作是由视觉惯性里程计(VIO)在计算机视觉和机器人,其中一个稀疏和不均匀分布的特征点集表征场景的鲁棒性。为了提高立体匹配,我们建议将2D提示提升到3D点。这些稀疏和不均匀分布的3D视觉提示使用3D随机几何图来扩展,这增强了学习和推理过程。我们评估了我们的建议在多个广泛采用的基准测试,并显示出改进的性能,而无需访问额外的传感器以外的图像序列。为了突出实用性和共生与视觉里程计,我们演示了我们的方法如何在嵌入式硬件上运行。1. 介绍精确的深度估计是许多3D应用(如AR/VR和机器人导航)的重要任务。技术进步已经使得有源深度传感器(例如,,LiDaR)负担得起。然而,它们具有仅提供稀疏深度图的缺点。算法技术对于密集深度预测仍然更常见,其中深度学习方法[11,12,19,6,已经超越了传统的匹配技术[5,20,15,4,42],因为它们的准确性随着可用的更大注释数据集而不断提高[22,23,21]。尽管如此,基于几何计算机视觉的技术仍然是稀缺数据或确保良好域外性能的可行选择。可 以 使 用 最 先 进 的 摄 影 测 量 软 件 ( 例 如 , ,Metashape,ReCap Pro)。然而,如果场景具有许多无纹理表面,诸如在典型的室内环境中,则*在阿尔托大学输入:立体图像和提示f✓十五岁百分之四十二差距不扩大扩大后的差距六、百分之二十四fdensify扩展提示图1:深度立体匹配的视觉提示扩展。(上)用稀疏视觉提示训练的模型进行推理,以及(下)用扩展视觉提示训练的模型进行推理3D扩展提示导致更准确的预测:覆盖标签显示错误率> 3。办公空间。它们还需要高分辨率的图像来匹配精细的表面,从而导致高计算成本。在实践中,视觉惯性测距法(VIO)和同步定位和映射(SLAM)技术[24,34]通常用于实时相机运动估计(例如,、ARKit、ARCore等) 以及在经典的计算机视觉流水线中,其基于多个配准图像之间的局部特征的匹配来重建稀疏点云模型(例如,,COLMAP [31,30])。在这项工作中,我们提出了VIO指导,以提高鲁棒性并更准确地预测具有域偏移的数据上的立体匹配流水线(见图1)。我们认为,通过利用合成数据集,立体匹配算法提高了其性能,但可能需要昂贵的微调,通常对真实数据。我们的工作取决于实现,视觉定位方法(例如,,SLAM)可以提供稀疏3D世界信息的有价值的来源,以引导我们的算法朝向精确的提示扩展14, 10, 17, 13, 第十八章】5841模型输入:立体图像&提示差距不扩大模型输入:立体图像&扩展提示扩大后的差距f✓十五岁百分之四十二fdensify六、百分之二十四图2:引导立体匹配管道。左香草引导立体匹配,模型输入是立体图像和提示(来自VIO或LiDaR)。用于引导立体匹配的右扩展提示,模型输入是立体图像和扩展提示。密集的预测Poggi等人[26]提出了这一方向的种子工作 , 他 们 认 为 稀 疏 均 匀 分 布 的 指 导 ( 例 如 , 从LiDaR),以引导较低尺度的特征匹配(即,构建成本体积)图2-左。然而,我们的工作有两个关键的不同之处。首先,视觉引导是稀疏的并且非均匀分布的,范围从几十到几百个点。第二,视觉引导在某些位置处可能是不精确的,这需要过滤以提高鲁棒性。较低尺度下的稀疏和不均匀的VIO提示可能由于下采样而被丢弃。因此,扩展是用来改善指导和我们的定量和定性实验证明其有效性。为了解决前面提到的挑战,我们提出了一个基于3D图形的提示扩展图2-右。稀疏提示的扩展之前已经被考虑,例如,Huang等人[16]提出了闭点的常数展开。我们认为这是一个过于严格的条件,而[2]中的倾斜线性展开更合适。因此,我们认为指导点不是在2D中,而是在3D中。直观地,2D图像平面上的近点在其3D位置中可能非常远考虑到这一点,我们将提示转换为节点,并仅在3D世界中接近时才将它们与边在获得该图之后,我们用跟随边缘的3D斜线线性地近似视差在我们的情况下,倾斜的3D线不添加任何额外的计算开销,除了将对应的视差值分配给图形边缘上的像素此外,我们设计了一个三维线性近似我们的图扩展。通过建立一个启发式搜索像素只沿垂直和水平线和划分的图像在非重叠的补丁,我们的方法变得有效的连接提示与3D斜线。我们利用DeepPruner [10]进行深度立体匹配的扩展提示,其中它们的作用是在窄范围而不是全视差范围内引导可区分的补丁匹配。我们证明了稀疏视觉引导足够准确,可以引导模型进行正确的预测。大量的实验结果表明,扩展的指导提高了在训练时看不见的数据集上的深度立体匹配的性能。在[26]之后,我们还展示了PSMNet [6]上的拟议贡献。然而,扩展的视觉提示可能包含错误,为此,我们提出了一个基于置信度的指导过滤。 在PSMNet中,提取立体图像以构建3D成本体积。如果参考帧(即左立体视图)中的深度提示的特征与右立体视图中的对应特征不够相似,则过滤提示。我们将我们的贡献总结如下:(i)提出了一种新的基于3D图的提示扩展方法,该方法通过考虑制导的3D邻域,避免了以往扩展方法中的缺陷。(ii)我们设计了一个3D线性近似我们的图形指导,并表明这是一个有效的启发式。(iii)我们利用DeepPruner[10]上的扩展提示,其中它们的作用是在窄范围内而不是在整个视差范围内引导可区分的补丁匹配。(iv)扩展的视觉提示可能仍然容易出错,我们提出了一个基于置信度的指导过滤方法,以提高鲁棒性。2. 相关工作立体匹配在计算机视觉中有着悠久的历史,并且具有良好的基准[28,33]。传统的方法是基于局部[15,4,42]或全局匹配[5,20,29]。局部算法更快,并且在纹理区域中工作良好,而全局匹配算法在计算上更昂贵,并且在无纹理区域中也工作良好。最近,基于深度学习的方法[19,6,14,10,17,25]显示出优于传统方法的性能。深度架构通常使用卷积神经网络(CNN)作为特征提取器,U-Net风格架构[12,11,13]和成本量聚合[17,18,6]。为了改进成本卷构建,Guo等人[14]提出了一种特征相关方法。 与此同时,Duggal et al. [10]以可区分的方式重新审视补丁匹配,允许CNN的端到端学习。HITNet[37]表明倾斜表面允许平滑和准确的视差预测。我们从他们的工作中获得灵感,设计了一种利用当地倾斜性质差异的暗示扩展al-出租。引导立体匹配。CNN提供了准确的密集预测,但受到过度自信和分布外(OOD)数据的域转移的影响。Poggi等人[26]首次尝试通过利用稀疏LiDaR引导的特征增强方法来解决这些问题。后来,[16]进一步扩展[26]通过扩展稀疏指导和学习在哪里自信地使用它。与他们不同的是,我们采用视觉提示作为稀疏和不均匀分布的指导。这是一个更大的挑战,5842nnn=1nnD{}Ⓢ不能假定相邻像素具有相似的视差。另一方面,在VIO中对稀疏特征点的长期跟踪可以提供精确的三角测量,并有助于解决两视图立体中的模糊区域。VIO算法在边缘或拐角处找到匹配的强特征,其中视差也快速过渡。快速过渡更难建模。 Bleyer等人[2]提出倾斜平面作为局部线性近似。除了立体匹配,Sinha等人。[35]提出了一种基于学习的三角测量方法,用于密集的多视图立体深度。Wong等人。[40]使用基于凸包的脚手架作为单目深度完成的一部分然而,我们不使用凸包,但提出了我们自己的三维图形近似。对于3D物体检测,[41]开发-图3:提示i和j在其相应像素的中心显示为蓝色点,它们在3D空间中的距离,将LiDaR添加到伪LiDaR深度细化,图神经网络 尽管如此,我们的算法还是-2D是D 3个D-ij(灰线)和d二维-ij(灰色虚线),与他们的3D提示扩展正交的是不学习的。我们利用现有的VIO算法。我们专注于如何有效地利用稀疏视觉提示指导深度立体匹配。VIO[3,34,36,27]和SLAM[1,27,38,32]是导航的核心。 CV社区分别为。 红色箭头表示用于在提示之间移动的方向。Z代表深度。扩展函数densify(H)的存在使得提示的数目增加。函数densify还应导致视差disp =densify的更准确估计。一直致力于使这些方法快速、稳健和通用。L R n因此,稀疏提示对于用例是不可知的,并且通常它们的错误与学习的深度方法不相关。3. 方法扩展提示并不是微不足道的,因为VIO算法在图像关键点(例如,边缘或角点)处重新翻转提示。由于特征点周围的几何图形,这些区域难以扩展虽然可以过滤错误的值(如[16]),但重要的是要注意它也不会产生积极的影响。提示扩展进一步受到用于立体匹配的深度CNN的结构的激励。与图像本身相比,输入图像的特征表示具有较小的空间大小,导致稀疏提示与下采样图像网格的对准困难,并且在某些情况下是不可能的。这可以通过在更大的区域上扩展提示来避免。在我们的情况下,除了立体图像对之外,稀疏不均匀分布的提示可用作我们模型 它们被编码在稀疏矩阵Hn中,每一个都是fdensify(In,In,de ns ify(Hn)).3.1. 三维线性提示扩展(Lin 3D)我们提出了一种基于两个核心步骤的线性致密化。(i)第一种方法是,如果两个提示位于同一水平轴或垂直轴上,则将它们连接起来。提示与[2]中的倾斜线性插值连接。(ii)其次,图像被分割成固定大小的不重叠的正方形块。以这种方式,扩展过程转换成可以连接的提示的逐行(首先水平,然后垂直)的分块补充资料中提供了详细的算法和实现3.2. 3D图形提示扩展(3DG)为了改进3D线性提示扩展,我们提出构建一个3维随机几何图(RGG,[9,8]),其中提示是节点,边连接3D中接近的提示。连接进一步受到节点之间颜色相似性的约束(每个节点都有一个对应的颜色)。在IL中响应RGB值,IL和Hn对齐)。为了-响应于立体图像对(IR,IL)。 我们瞄准nnn n 通常,如果通过将提示提升到3D点而不是简单地将其建模为2D矩阵上的视差值,来彻底利用关于在提示中编码的3D世界的丰富信息3D假设促使我们更清楚地区分彼此接近的提示。考虑数据集=(IL,IR,Hn)N,其中N是数据样本的数量,IL,IR是立体图像对,并且Hn是稀疏视差提示。我们学习了一个参数为λ的模型来推断一个密集的视差图disp使得dispn =f(IL,IR,Hn).我们假设Eij:(d3D-ijR)^(RGBi=RGBj>R),(1)其中Eij是连接提示i和j的边,d3D-ij是它们的(欧几里德)距离,R是最大距离。RGBi,j是RGB值在左边图像中的提示位置,是两种颜色之间的余弦相似度向量,并且λ是相似性阈值(λ=0. 第9段)。注意,d3D-ij是在3D坐标中计算的,我们将重新计算。也称为体积距离,以帮助区分n n5843Hn是视觉提示的稀疏矩阵,并且表示2D图像平面中的2D空间距离,表示为5844联系我们>H◆◆d2D-ij。 该过程在图1中可视化。 3,其中视差沿着Z轴示出。创建边缘后,(i)按体积3D距离分类,以及(ii)丢弃相邻的 虽然(ii)是平凡的,但在两个由于我们有稀疏提示H作为额外的输入,我们可以修改第一步并跳过迭代PatchMatch;相反,我们使用更简单的采样策略来计算稀疏匹配分数对于稀疏提示矩阵Hn在空间上(2D)相邻的像素中,不存在可能分配扩展的视差值的另外的像素。第一步范围:(d)低 =(1 -Vn )dmin+Vn Hn(1-溴)(四)(i)基于实数[2][4][5][6][7][8][9][10] 因此,首先扩展较短的边缘,因为它们更有可能准确地对真实视差进行建模。每个边的扩展是通过dhigh=(1-Vn)dmax+VnHn(1+N)其中,d_l_w、d_hi_h分别是搜索范围n的下界和上界。V=(H >0)指示像素是否具有提示,并且H2是超参数一个空间单位距离d1-2D在这两者来控制相对范围。 我们设置= 0。2、适应--为我们的高密度视觉调整一个小的误差范围2D图像平面中的提示,其中它们的2D欧几里得距离表示为d2D-ij。 我们将Eij定义为提示i和j之间的边,其中距离(d3D-ij,d2D-ij)和坐标(d 3D-ij,d 2D-ij)为分别指定xi,yi,zi,xj,yj,zj它们由一条倾斜的3D线连接,坡度为ij(红色箭头图第三章8>6x=cos(arctan((yi-yj)/(xi-xj))),提示和(dmin,dmax)是训练和测试期间范围所允许的最小和最大差异。(dmin,dmax)在没有提示在给定位置处可用的情况下使用。 然后,我们针对每个pixel从[dl ow,dhigh]均 匀地 采样 视 差候 选以计算匹配分数。 即使这超出了本文的讨论范围,我们相信这种指导方法也可以直接应用于几种传统的基于面片的立体匹配方法ij=6y= sin(arctan((yi-yj)/(xi-xj),:6z=(zi-zj)/((yi-yj)/(xi-xj))。(二)匹配.3.4.用于引导立体匹配的移动m步单位距离d1-2D直到d1-2Dm< d2D-ij,通过将计算的坐标舍入到最接近的整数,将对应的z视差值分配给最接近的提示像素h =[6xm,6ym]。形式上,循环写{H[r(6xm),r(6ym)]=6zm|m0)是指定哪个像素将被增强的二进制掩码。高斯调制是参数-由幅值k= 10和方差c= 1表示。PSMNet Al的置信度引导立体匹配-尽管引导立体匹配被证明对均匀采样的地面实况有效这导致与先前设置的相关差异。首先,我们的提示将被定位在存在关键点的区域中,有效地使均匀采样提示的假设其次,VIO提示和由所提出的扩展生成的扩展提示第三,密度低于稀疏监管。为了解决噪声提示,我们为基于3D成本体积的架构设计了基于置信度的提示过滤,如PSMNet [6]。在我们缺乏监督的情况下,确保提示在管道中积极贡献是特别重要的。信心的实现是n5845秒4.4◦2个(3DG expPSMNetRGB图4:ETH3D上的PSMNet定性结果。我们的扩展使细节更加清晰。DATA SETIMG尺寸VGD [DENSITY]Mae3DGEXP [密度]Mae帕拉姆河LIN 3DEXP [密度]Mae参数WSCENE FLOW(256、512)○440人[0.33%]1.598690 [6.6%]1.89R= 88840 [6%]2.08W =(8,16)TARTAN(480 640)13 [0.004%]1.43849人[0.27%]1.57R=25113人[0.03%]1.63W =(8,16)ETH3D(544,960)263 [0.05%]2.063703 [0.7%]2.16R= 84627 [0.88%]2.34W =(8,16)KITTI 15(368,1232)562人[0.1%]7.0240494 [8.9%]7.47R=205271 [1.1%]7.77W =(8,16)表1:每个数据集的视觉指导提示的稀疏性。所有数据集上每个图像的平均提示,[括号中的密度],MAE提示错误和扩展参数。'Img size'是以像素为单位的图像大小,' '是指训练数据。所提出的扩展不会引入明显的额外误差,同时大大提高了模型的预测性能。特征向量之间的欧氏距离给定左立体视图fL的归一化特征图和右立体视图fR的特征图,我们比较左立体视图f L的归一化特征图和右立体视图f R的归一化特征图。在提示位置(xH,yH)处的左特征与对应的-如提示所示,confH[xH,yH] = 1- tanh(kfL(xH,yH)-fR(xH+H[xH,yH],yH)k2),(6)其中H[xH,yH]是我们的一个提示。对所有提示重复该过程。 随后,最终的掩模是如下获得在补充材料中。如[6]、[26]、[16]中所述,模型使用MAE和阈值错误率进行评估。它们是为每个像素计算的,其中地面实况可用,阈值为t2,3,4,5。实现我们用Py-Torch实现我们的方法.训练在单个NVIDIA A100 GPU上进行。使用S CENEFLOW [21],PSMNet [6]的训练时间约为25小时,DeepPruner [10]的训练时间约为125小时。我们遵循相关文件中的培训指南。我们没有注意到稀疏提示或扩展提示的任何训练时 间 差 异 测 试 在 同 一 设 备 和 NVIDIA Jetson AGXXavier设备上进行。该方法在嵌入式设备上运行的能力是V=1,其中,confH>N^H >0,0,其中confH_H >0,<(七)对未来的实际应用特别感兴趣。PSMNet [6]和DeepPruner [10]是基线模型。Vgd-测试和Lgd-测试参考视觉指南-并且它直接应用于用于过滤噪声的提示( k=0. 第9段)。对PSMNet的另一个小修改是增加了一个为了减轻过度平滑问题[7],我们在视差上添加了分类损失。它被实现为地面真实差异和模型预测之间的负对数似然(NLL)损失为了满足分类目标的约束条件,两者都被四舍五入到最接近的整数4. 实验我们评估所提出的扩展方法,并将其用作SEC中DeepPruner的指导。4.2节中的PSMNet。四点二。我们还将其部署在嵌入式设备上,并与第二节中的指导方法进行比较。四点三。数据集我们使用S CENE F LOW [21],ETH3D[33],[32],TARTAN[39], KITTI[22],[23]数据集用于我们的实验。每个数据集的详细信息都是可用的秒4.15846G⇥G在测试时将ance和LiDaR指南应用于原始模型。Vgd是指[26]中介绍的视觉提示引导的训练和测试。请注意,一个关键的区别在于使用的提示,我们有稀疏的视觉提示,而不是[26]的LiDaR提示。3D exp和Lin3D exp是我们提出的两个扩展算法。使用扩展的PSMNet模型也使用我们的置信度过滤。4.1. 扩展详情在研究实际模型性能之前,我们分析了拟议扩展的影响。VIO不像LiDaR那样提供均匀间隔的稀疏提示网格。然而,由于我们的致密化,我们能够实现更高的提示密度。在表1(上半部分)中,我们将原始VIO提示表示为Vgd,将我们提出的3D Graph扩展表示为3D exp,将线性扩展表示为Lin 3D exp。一般来说,当我们提出的致密化算法被应用时,可以观察到105847G表1GGGGGGGGRGBDP3DG expRGBDP3DG exp图5:DeepPruner(DP)对TARTAN数据集的定性结果。 上图中,3D exp锐化了一些建筑物的边缘,下图中,去除了域偏移伪影。重复特别有趣的是TARTAN数据集的情况,其中所有图像的平均提示仅为13个提示,但在扩展后,Lin 3D exp和3D exp分别增长到113和849个提示在正方形块中,我们报告图像中像素总数上的提示密度。密度更好地传达了我们的方法扩展的视觉提示的稀疏性或某种程度上的“罕见”性质。例如,即使在扩展之后,TARTAN和ETH 3D都没有通过1%阈值,而S CENE-FLOW和KITTI通过了。在表1(下半部分)中,我们详细说明了膨胀参数。3D exp和Lin 3D exp算法都是作为接受输入提示的并输出扩展的提示。3Dexp有一个参数,最大3D半径R,指定要连接的节点的搜索范围Lin 3D exp具有一个参数,其指定用于潜在提示扩展的补丁W的大小我们分配这两个参数,以获得一个很好的权衡之间的最终密度,接近的提示,甚至发现一个提示,由于低指导密度的机会。3D exp应用一次,而Lin 3D exp应用两次迭代,第一次迭代时W1= 8第二种是W2=16。表2:我们在DeepPruner上指导的消融研究扩展的VIO指导提高了看不见的数据的准确性Vgd是一个稀疏的视觉提示引导模型,3D exp是3D图形扩展(Sec. 3.2)和Lin 3D exp线性3D扩展(第3.2节)。第3.1节)。/原始DeepPruner-best SCENE-FLOW模型。TARTAN也具有竞争力,MAE误差降低60%。我们无法观察到Lin 3D exp和3DGexp致密化之间的显著差异,可能是由于在我们的报告中,建议的扩展MAE呃-错误,有趣的是注意到扩展引入了MAE错误的轻微增加,但并不显著高于初始VIO提示噪声。KITTI 15是唯一一个具有较高MAE误差的数据集。这是由于组成数据集的短序列,其中与其他数据集的较长序列相比,VIO命中对提取和比对更具挑战性。4.2. 消融研究DeepPruner表2表明,扩展的指南对DeepPruner有益[10]。Vanilla模型使用检查点和来自作者官方存储库的代码。视觉指导Vgd仅在KITTI 15上有所改进事实上,扩展的指导在所有测试数据集上都有所改善,证明我们的直觉是正确的在KITTI 15上,所有错误率阈值提高了大约4倍,而MAE从3降低。47比1 46和1。对于Lin 3D exp和3D exp,分别为44。在ETH3D上,3Dexp将MAE从0降低。87比0 54人(下降38%)。此外,相对于Lin 3D exp,错误率都略有改善。升压器开启该数据集的稀疏视觉提示(见表1)。定性结果如图5所示,它强调了扩展的提示能够产生更清晰的预测并消除推理伪像(补充中有更多示例)。PSMNet我们在TARTAN、ETH3D和KITTI上进行测试。结果示于表3中。初步结果证实了[26]的发现,在测试时使用指导Vgd测试时,ETH3D和TARTAN均略有改善,并且在培训时使用Vgd时,所有指标都有明显改善。这是一个线索,我们的稀疏视觉提示可以积极促进提高概括性能。 对于ETH3D,Vgd MAE为1。54,含Vgd+Lin 3D经验MAE降低到1。19(降低23%),甚至更好其中Vgd + 3D exp下降到1。04(降低30%)。图4中具有挑战性的ETH3D场景的定性结果证实了使用建议的指南进行更清晰和更准确的视差预测的好处补充资料中有更多例子TARTAN具有非常稀疏的视觉提示,这使得它成为我们方法的一个非常具有挑战性的测试平台。这一点通过Vgd测试的微小指标变化突出显示。Vgd在MAE方面获得了38%的重大改善,Vgd分别增加到50%和54+ Lin 3D exp和Vgd +3DGexp。E扩展Mae>2个>3>4>5ETH3D香草/VGDLin 3Dexp 3DGexp0.871.010.560.545.115.413.883.763.633.822.542.432.93.011.931.852.392.521.541.47TARTAN香草/VGDLin 3Dexp 3DGexp5.638.652.182.1720.6320.5814.7814.7716.7017.3311.3611.3414.5015.469.479.4512.9814.158.158.13KITTI 15香草/VGDLin 3D3DG exp3.471.941.4634.7610.989.4623.596.375.2717.764.683.7814.103.793.005848GGMODELMaeETH3D>2>3>4>5MAETARTAN AIR>2>3>4>5PSMNet[6]5.2516.997.625.825.105.5121.3014.0911.349.81PSMNet[6] Vgd测试5.2516.787.655.805.105.5121.2914.0911.309.80VGD1.548.595.474.173.415.5321.0316.6214.1412.45Vgd+Lin 3D exp1.198.85.163.632.772.7417.8613.2910.819.24Vgd+3DGexp1.047.914.413.012.272.5417.0012.7210.489.04表3:我们提出的方法在PSMNet上的消融研究[6]。Vgd是一个稀疏的视觉提示引导模型,3Dexp是3D图形扩展(Sec. 3.2) 和Lin 3D exp线性3D扩展(Sec. 第3.1节)。KITTI我们测试2011 09 26 0011KITTI VELO-DYNE序列。表4给出了PSMNet和微调PSMNet的上半部分参考结果下半部分在LiDaR引导(LGD)和VIO引导(VGD)立体匹配中被分割。 LiDaR膨胀比[26]提高,MAE错误,同时支付2%的轻微损失。这是一个无LiDaR制导(LGD)VIO制导(VGD)表的成就与[26]的性能一样强,并且显示扩展可以有益于LiDaR引导的立体匹配。值得注意的是,VIO扩展也实现了MAE误差的轻微改善。总之,提示指导成本GD0.670.67 0.47 0.471.71 1.73 0.72Lin 3D exp0.790.77 0.44 0.45 2.08 2.08 0.72 0.723DGexp0.730.82 0.41 0.441.90 1.910.70体积构造,导致更好的整体性能(MAE),但是在该实验中的扩展还不能提高准确度(2%),这可能是由于扩展噪声。除了KITTI VEQUIPDYNE之外,我们还在SCENEFLOW上预先训练的模型上评估性能,没有任何指导,并在KITTI 15上进行测试。我们在表5中报告数字。从公开的SCENE开始- F表4:我们在KITTI VDYNADYNE上扩张的消融研究。上半部分,参考PSMNet结果。下半部分,扩展的LiDaR和VIO制导减少了制导立体匹配的MAE误差,证明扩展不仅对VIO有效,对 LiDaR也有效。指南VGD LGD Mae>2个>3>4>5PSMNet[6]/,4.24 46.54 29.61 21.26[26]第二十六话X3.9033.38 23.12 17.59GSM Lgd-test Lin 3D exp/X3.8232.83 22.45 17.09GSM Lgd-test 3DG exp/X3.7917.01 13.03从PSMNet作者的LOW预训练模型,我们得到MAE 4. 二十四岁在PSMNet Vgd测试指导下,除了错误率略有改善外,性能不会发生变化提示扩展更有效 , Lin 3D exp 导 致 MAE 提 高 0 。 5% , 误 差 率 降低>2,这意味着该模型在一些误差较小的区域更精确。3D经验是更有效的2. 5%的MAE降低,但显示错误率的混合结果。一个可能的原因,如在KITTIVDYNANE中所发生的,是引导区域提高了精度(因此降低了MAE),但非引导区域没有。我们推测其原因是导向成本量中的特征调制。最后,我们将GSM[26]作为基于传感器的参考,这给出了更具竞争力的结果。同样,我们的扩展将LGD基线提高了约3%的MAE,并且类似地提高了所有错误率。然而,我们强调,我们的起始提示密度要低得多(0。(1%vs.5%)总而言之,在表5中,性能增益是有限的,因为模型没有经过训练以利用指导。然而,指导积极有助于开箱即用,以提高准确性。PSMNet Vgd-test/X4.2446.4529.57 21.24 16.40Lin 3D exp/X4.2146.2829.62 21.29 16.443DG exp/X4.1347.13 30.65 22.04表5:预先训练的PSMNet不可知的指导,在KITTI 15上测试提示指导。该模型没有经过训练以利用指导。然 而 , 结 果 证 实 , 扩 展 对 LiDaR ( Lgd ) 和 VIO(Vgd)提示指导均有效。/authors原始检查点和代码。4.3. 与引导立体方法我们与最先进的引导立体匹配方法进行比较[26,16]。在表6的上半部分,模型在SCENE FLOW上训练,并在KITTI 15上测试(如表5所示)。我们对PSMNet的改进在平均误差和具有小误差率(阈值>2)的像素方面尤为明显。Lin 3D exp模型在较高的错误率(阈值)下会出现微小的精度下降>4,>5),同时MAE提高18%3DGexp增益<百分之二Mae<百分之二Mae所有NoG所有NoG 所有NoG 所有NoGPSMNet[6] 38.60 38.86 2.36 2.37–PSMNet-ft1.71一点七三0.72 0.73–5849⇥⇥⇠GG⇥⇥G指南T IME(SEC/样品)MaeDL+VIOEXPCNNLin 3D exp0.97080.72百分之十三百分之一点五百分之八十八点五表 7 : 对 NVIDIA Jetson AGX Xavier 和 KITTIV DYNE(384 1280像素)的推断。用于数据加载和VIO提取(DL+VIO)、扩展(EXP)和CNN(CNN)中的推断的时间细分(以%为单位)表6:与引导立体声方法的比较。 火车-活性MAE = 0。七十举例说明了一个定性的例子在 Sceneflow 上 运 行 , 在 KITTI 15 上 测 试 ( 上 半 部分),在KITTI 12上微调(下半部分)。图6:在KITTI上运行的Jetson板结果,1fps,8比标准模型快,进一步的工程,它可以实时工作。RGB(左上)、LiDaR GT(右上)、预测视差(左下)和3D exp视觉提示(右下)。在所有指标上,GSM[26]获得了最佳的绝对性能。值得注意的是,它们利用了LiDaR制导,如前所述,LiDaR制导是均匀分布和准确的,从而带来了明显的性能优势。如果有其他传感器可用,LiDaR可能有效。KITTI 12上微调的模块(后缀“-ft”)位于表6的下半部分。由于减少了域转移,所有模型都获得了明显的收益。然而,在这种情况下,S3-ft[16]在GSM-ft[26]的基础上进行了改进,以获得最先进的结果。微调减少了我们的方法与GSM-ft的差距。微调前GSM的平均误差降低了57%,微调后降低了23%。4.4. 嵌入式设备为了在嵌入式设备上演示我们的方法,我们使用KITTIV DYNE序列在NVIDIA Jetson AGX Xavier设备上执行推理2011 09 26 0011在高分辨率(384 1280像素)使用- ingPSMNet1.我们的3D exp的推理时间为8。607秒每样本,而在全序列的MAE错误是0。七十此外,我们通过TRTorch编译器使用NVIDIA TensorRT推理优化器优化了模型,以使用半精度(fp16)并针对aarch64平台。这导致推理时间为1。062秒/样本(相对于未优化模型的加速系数为8),同时保持原始精度。1我们无法在设备上部署DeepPruner,因为模型中的一些操作无法通过TRTorch优化/转换推理。一个有趣的观察是,在垂直结构(如树)上的视觉提示的密集化效果特别好。预测的视差是准确的,除了右边的典型立体声伪影。我们分析了我们的代码(在应用NVIDIA TensorRT优化表7之后),执行时间划分如下:数据加载和VIO提示提取12%,3D扩展10%,深度CNN推理78%。大部分成本来自CNN的深度雇佣。 扩展Jetson的时间成本类似于数据加载,但将MAE从2提高到2。36比0 70如表4所示。在Lin 3D扩展的情况下,执行时间稍快,因为扩展更轻量级。 导致推理时间为0。每个样本9708秒,MAE= 0。七十二 详细的执行时间分解为数据加载的13%,1。5%用于Lin3D扩展,和85. 5%用于深度CNN推理。总的来说,Lin 3D是8。速度提高5%,而3DG精度提高4%5. 结论这项工作解决了立体匹配方法的一个具有挑战性的情况。没有任何额外的传感器,提高他们的性能上看不见的序列(即。不同的数据分布)。为此,我们展示了VIO提示指导深度立体匹配的实用性。特别是,3D视觉提示扩展无缝地适用于现有的预训练模型和引导感知模型,并跨不同的架构。我们的技术不需要额外的传感器,并利用良好的研究和鲁棒里程计技术。然而,我们表明LiDaR也从我们的扩张中受益在不同的和具有挑战性的数据集上进行的大量实验支持了我们的研究结果,并通过在嵌入式设备上成功地部署我们的算法来研究实际应用。鸣谢。我们感谢芬兰科学院的资助(不。339730,324345)和芬兰人工智能中心(FCAI)。我们感谢Aalto Science-IT项目和芬兰CSC- IT科学中心的计算资源MODELLGDMAE>2>3>4>5图6PSMNet[6][26]第二十六话X4.241.3946.5412.3129.613.8921.262.2316.411.60Lin 3D exp3.4441.6329.2322.1917.663DG exp3.2138.2726.7820.3516.23GSM-ft[26][16]第十六话XX0.7630.4432.731.651.820.961.510.711.330.57Lin 3D exp-ft0.956.273.292.351.873DG exp-ft0.986.283.252.351.895850引用[1] Jinqiang Bai , Junqiang Gao , Yimin Lin , ZhaoxiangLiu,Shiguo Lian,and Dijun Liu.一种新颖的基于反馈机制的立体视觉-惯性碰撞。IEEE Access,7:147721[2] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch立体匹配与倾斜的支持窗口。在Proceedingsof the British Machine Vision Conference(BMVC),第11卷,第1-11页[3] Michael Bloesch , Sammy Omari , Marco Hutter , andRoland Siegwart.基于直接ekf方法的鲁棒视觉惯性里程计 在 IEEE/RSJ International Conference on IntelligentRobots and Systems(IROS)中,第298-304页。IEEE,2015年。[4] 罗伯特·博尔斯哈琳·贝克和M·汉娜jisct立体声评估。DARPA Image Understanding Worshop,1993年。[5] Yuri Boykov Olga Veks
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功