学习的编码场景表示在单目密集语义重建中的应用

142 浏览量更新于2023-10-19 收藏 14.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1117760SceneCode: 使用学习的编码场景表示进行单目密集语义重建0Shuaifeng Zhi，Michael Bloesch，Stefan Leutenegger，Andrew J.Davison伦敦帝国理工学院戴森机器人实验室计算机系，英国0{s.zhi17, m.bloesch, s.leutenegger, a.davison}@imperial.ac.uk0摘要0从图像序列逐步创建3D语义地图的系统必须存储和更新几何和语义实体的表示。然而，虽然在几何估计的正确表述方面已经有了很多工作，但最先进的系统通常依赖于简单的语义表示，这些表示存储和更新每个表面元素（深度像素、surfels或体素）的独立标签估计。空间相关性被丢弃，融合的标签地图不连贯且嘈杂。我们通过训练一个以彩色图像为条件的变分自编码器来引入一种新的紧凑且可优化的语义表示。使用这个学习到的潜在空间，我们可以通过联合优化与一组重叠图像相关联的低维码来解决语义标签融合问题，从而产生保持空间相关性的一致的融合标签地图。我们还展示了如何在基于单目关键帧的语义建图系统中使用这种方法来处理几何。概率形式允许灵活的表述，我们可以在统一的优化中同时估计运动、几何和语义。01. 引言0智能化的机器人等智能体需要构建和维护对环境的表示，以便推断几何和语义属性，例如房间的可通行性或抓取物体的方式。关键是，如果这种推断要在计算资源方面具有可扩展性，这些表示必须是高效的；如果设备要稳健地运行，所使用的表示必须能够处理现实世界中的所有变化。然而，当前的实时场景理解系统离真正具有突破性应用所需的性能还有很长的路要走[5,9]。最终的类似令牌的可组合场景理解系统需要能够从视觉输入中推断出场景的几何和语义属性，以及它们之间的关系。0图1：来自NYUv2数据集的两帧的密集语义运动结构。通过联合优化相机姿态，紧凑的几何和语义表示得到了平滑和一致的估计。0通过深度学习将传统的手工设计的SLAM估计方法引入到其中，确实取得了能够捕捉形状和语义的表示的重大进展[6,36]，但到目前为止，这些方法在各个方面都存在问题。最直接的方法，比如[16, 14, 28, 38, 39,26]，通过从视图中预测的融合语义标签来绘制密集几何SLAM地图，但在表示大小方面代价高昂；以不连贯的方式标记场景，其中每个表面元素独立存储其类别；并且不能从语义标签改进运动或几何估计。另一方面，有些方法明确识别对象实例，并构建场景模型作为3D对象图[27, 35, 30,31]。这些表示具有我们正在寻找的类似令牌的特性，但仅限于从已知的离散“斑点状”对象映射。117770类别并且留下了大部分场景未描述。在寻找整个场景的高效表示时，我们受到了Bloesch等人的CodeSLAM[3]的启发，该方法使用学习的编码来表示具有小码的场景的密集几何，这些码可以高效地存储和在多视图SLAM中联合优化。而[3]只对几何进行编码，我们在这里展示了我们可以扩展相同的条件变分自编码器（CVAE）来表示语义分割的多模态分布。与CodeSLAM一样，我们学习的低维语义码特别适用于基于关键帧的语义建图系统，允许跨多个视图进行联合优化以最大化语义一致性。这种联合优化缓解了大多数语义融合方法假设表面元素独立性所带来的问题，并且允许更高质量的多视图标注，保留了自然场景的整个元素。我们展示了几何和语义的紧凑表示可以联合学习，从而得到本文中使用的多任务CVAE。该网络使得构建单目密集语义SLAM系统成为可能，其中几何、姿态和语义可以进行联合优化。总结起来，我们的论文有以下贡献：0•使用图像条件的变分自动编码器对语义分割进行紧凑且可优化的表示。0•一种新的多视角语义标签融合方法，优化语义一致性。0•一种单目密集语义3D重建系统，其中几何和语义紧密耦合到一个联合优化框架中。02.相关工作0我们提出的结构化语义分割已经被多位作者研究过。Sohn等人[33]提出了一个CVAE来学习使用高斯潜变量的对象分割标签的分布。由于学习到的分布，与判别性CNN模型相比，得到的对象分割对噪声和部分观测数据更加鲁棒。Isola等人的Pix2Pix[15]使用条件生成对抗网络（GAN）来实现图像到图像的转换任务，其中隐含地学习了语义标签的条件分布。然而，当用于从彩色图像进行语义预测时，GAN训练过程会产生幻觉对象。此外，GAN学习的分布在我们需要的多视角融合形式中无法直接访问和优化。Kohl等人最近提出了一种概率U-Net[23]来解决由于上下文信息不足而导致的语义分割的模糊性0由于上下文信息不足，设计了一个CVAE来学习给定彩色图像的分割的多模态分布，结果表明，可以通过紧凑的潜变量很好地建模模糊性。我们基于这个想法，展示了我们可以使用学习到的潜变量空间来集成多视角语义标签，并构建一个能够联合优化几何和语义的单目密集SLAM系统。03.紧凑几何+语义编码0我们的多任务CVAE（见图2）以类似于CodeSLAM[3]中几何的紧凑表示的方式，学习了在颜色图像条件下深度和语义分割的条件概率密度。网络由三个主要部分组成：一个带有ResNet-50骨干[12]的U形多任务网络和两个用于深度和语义分割的变分自动编码器。U形多任务网络包含一个共享的编码器和两个单独的解码器，采用Re�neNet单元[24]。与原始实现不同的是，在Re�neNet单元的每个卷积之后添加了批归一化以稳定训练。两个变分自动编码器分别由类似VGG的全卷积识别模型（编码器）和线性生成模型（解码器）组成，与U-Net耦合，因此以颜色图像为条件。具体来说，在线性解码器中，首先将潜变量代码在空间上广播，使其具有与最后一个Re�neNet单元的图像特征图相同的高度/宽度，然后进行1×1卷积，使其具有与图像特征图相同的维度。然后，通过将广播/卷积的代码、Re�neNet单元和两者的逐元素乘法进行三重连接来计算合并的张量。最后，应用卷积（无非线性激活）和双线性上采样来获得预测。这个过程的动机是在非线性方式上以输入图像为条件获得代码和预测之间的线性关系[3]，这种线性关系使得在测试时可以预先计算雅可比矩阵（见第4节）。因此，预测的深度和语义（softmax函数之前的未缩放对数）可以表示为：0D（cd，I）=D0（I）+Jd（I）cd，（1）S（cs，I）=S0（I）+Js（I）cs，（2）0其中Js/d表示学习到的线性影响，D0（I）=D（0，I）和S0（I）=S（0，I）。由于我们的变分设置，D0（I）和S0（I）可以解释为仅根据输入图像的最可能预测。注意这个框架的普适性，可以与任意网络架构结合使用。RefineNetRefineNetRefineNetRefineNetRefineNetRefineNetRefineNetRefineNetLφ,θ (d) =N�i=1+ log (bi)�,(3)Lφ,θ (s) = 1NN�i=1C�c=1k(i)c log p(i)c ,(4)117780连接和乘法0连接和乘法0图2：提出的多任务条件变分自编码器（多任务CVAE）。深度图像和语义标签（独热编码）通过类似VGG的全卷积网络编码为两个低维潜在编码。这些在虚线框中显示的识别模型在推理过程中不可访问。RGB图像通过具有ResNet-50骨干的U形网络进行处理。最后，子部分通过�操作进行组合，表示广播、连接和逐元素乘法的组合。03.1. 网络训练配置0深度和语义预测都是使用地面真实数据进行联合训练的。除了下面章节中讨论的重建损失之外，变分设置还需要在潜在空间上使用基于KL散度的损失[21]。为了避免潜在空间的退化，我们采用KL退火策略[4,34]，在训练2个时期后逐渐增加KL项的权重。最后，语义与深度重建损失的权重以自适应方式进行训练，以考虑任务相关的不确定性[18]。在我们的所有实验中，我们使用Adam优化器[20]以初始学习率10^-4和权重衰减10^-4对整个网络进行端到端的训练。ResNet-50使用ImageNet预训练权重进行初始化，而其他所有权重则使用He等人的方法进行初始化[11]。对于深度图像，如[3]所述，原始深度值d首先通过一种称为proximity的混合参数化进行转换，其中a是平均深度值，我们在所有实验中将其设置为2m。通过这种方式，我们可以处理从0到+∞的原始深度值，并为靠近相机的区域分配更高的精度。重建误差使用L1损失函数和数据相关的同方差不确定性[17]：0� | � pi −pi |0其中N是像素数，� pi和pi是预测的0proximity和输入像素的proximity之间的L1损失，bi是第i个像素的预测不确定性。语义分割标签在输入网络之前进行独热编码，因此使用预测的softmax概率和独热编码标签计算重建损失的自然选择是多类交叉熵函数：0其中C是类别数，k(i)c是第i个像素的独热编码标签的第c个元素，p(i)c是相同位置的预测softmax概率。04. 通过多视图编码优化进行融合0在多视图设置中，可以利用密集对应关系在重叠区域中基于一致性来改进深度、语义和运动估计。虽然光度一致性的使用已经得到确认，但我们在这里还引入了语义一致性，即我们场景的任何给定部分在视点不同的情况下应具有相同的语义标签。语义一致性受非兰伯特反射等干扰的影响较小，但可能受到量化误差的影响，无法直接测量。在没有额外信息的情况下，全零编码最有可能，因为在训练过程中假设了多元高斯先验（第3.1节）。这个零编码𝐼"𝐼#𝐼$𝐼%𝐼&𝒄(#, 𝒄)#𝒄($, 𝒄)$𝒄(&, 𝒄)&𝒄(", 𝒄)"𝐷",𝑆"𝐷#, 𝑆#𝐷$,𝑆$𝐷&,𝑆&𝐷%,𝑆%𝑻"𝑻#𝑻%𝑻&𝑻$𝐸(𝒄$, 𝒄&; 𝑻$,𝑻&)𝐸(𝒄#,𝒄$; 𝑻#, 𝑻$)𝐸(𝒄&, 𝒄%; 𝑻&,𝑻%)𝐸(𝒄", 𝒄#; 𝑻", 𝑻#)𝒄(%, 𝒄)%117790因此，它既可以作为初始化值，也可以作为测试时优化的先验（在这种情况下，我们无法访问深度或语义标签）。系统的概率形式允许将深度、语义和运动嵌入到统一的概率框架中，从而结合任意数量的信息源，包括图像、语义约束、先验、运动模型甚至其他传感器的测量结果。04.1. 几何细化0类似于[3]，给定一幅图像IA及其深度码cAd，以及一幅第二幅图像IB和估计的相对刚体变换TBA = (RBA, tBA) ∈ SO(3)× R^3，对于视图A中的每个像素u，可以得到密集对应：0w�uA, cAd, TBA� = π�TBAπ^(-1)(uA, DA[uA])�, (5)0其中π和π^(-1)分别是投影和逆投影函数。DA代表DA =D�cAd,IA�，方括号操作[u]表示在像素位置u处进行值查找。然后，我们可以基于光度一致性假设[19]建立光度误差ri：0ri = IA[uA] - IB�w�uA, cAd, TBA�. (6)0类似地，我们可以得到几何误差项rz：0rz = DB[w(uA, cAd, TBA)] - [TBAπ^(-1)(uA,DA[uA])]Z，其中[∙]Z指的是点的深度值。光度和几何误差都对输入的相机姿态和潜在码具有可微性，因此可以使用链式法则计算雅可比矩阵。由于设计的线性关系，我们可以预先计算深度预测相对于码的雅可比矩阵，这是由于密集卷积操作而计算上昂贵的。04.2. 语义细化0给定共享视野（FOV）的图像IA，IB以及它们的预softmax预测SA和SB，这些预测是由语义码cAs和cBs生成的，我们提出通过密集变形建立语义误差项：0rs = DS�SA[uA], SB�w�uA, cAd, TBA��, (8)0其中DS可以是一个测量距离/相似度的任意函数[7]。在本文的范围内，DS被选择为在logits上应用softmax后的欧几里得距离。由于在语义标签之上建立语义误差在信息丢失和引起不可微分性方面没有被采用。方程8的基本直觉是对应的像素必须具有相同的语义标签，因此具有相似（但不一定相同）的softmax分类概率。与光度一致性假设不同，0图3：语义映射公式。每个关键帧都有一个彩色图像I，深度码cd和语义码cs。可以应用二阶优化来联合或分别优化相机运动、几何和语义。0语义一致性假设相对较弱，因为它没有锚定到任何实际测量，尽管上述的零码先验在一定程度上缓解了这个问题。然而，随着视点的变化，不同的语义线索可能变得可用，之前语义模糊的区域可能变得更加明显。我们不是将这些信息逐元素融合[28]，而是将估计值传播到语义码，从而实现空间信息融合。方程8中的语义误差项不仅对语义码cAs和cBs具有可微性，还对参考关键帧的相机姿态和深度具有可微性。这自然地使得语义信息能够影响运动和结构估计，即框架将尝试将椅子与椅子对齐，将墙壁与墙壁对齐。同样，可以预先计算语义logits相对于语义码的雅可比矩阵。虽然我们的语义细化方法针对的是基于单目关键帧的SLAM系统，但它可以作为任意SLAM系统（如立体或RGB-DSLAM系统）中的语义标签融合模块。05. 单目稠密语义SLAM0我们可以将几何和语义细化过程集成到基于关键帧的单目SLAM系统中。地图由一组关键帧表示，每个关键帧都有一个相机姿态和两个潜在代码，一个用于几何，一个用于语义，如图3所示。我们遵循将系统分为跟踪（前端）和建图（后端）的标准范式，并在它们之间交替进行[22]。在本文中，出于效率原因，跟踪模块仅使用光度残差估计当前帧与上一个关键帧之间的相对3D运动[2]。建图模块依赖于密集的N帧结构0.440.460.480.500.520.0550.0570.0600.0380.0400.0420.30.40.50.60.70.80.040.060.081178000 50 100 150 200 250 代码大小0NYUv2mIoU00 50 100 150 200 250 代码大小0NYUv2Prox.Error00 50 100 150 200 250 代码大小0SceneNetmIoU00 50 100 150 200 250 代码大小0SceneNetProx.Error0图4：在NYUv2和SceneNetRGB-D测试集上不同设置的重建和零代码预测性能。随着代码大小的增加，重建性能提高。零代码预测的质量与用于语义分割的判别Re�neNet模型相当，并且在深度预测方面更好。使用非线性解码器几乎没有改进。0通过最小化两个重叠帧之间的光度、几何和语义残差以及零代码先验，可以从运动中恢复，这可以被形式化为一个非线性最小二乘问题。与CodeSLAM[3]一样，我们使用损失函数来（i）去除无效的对应关系，（ii）对不同的残差进行相对加权，（iii）包括鲁棒的Huber加权，（iv）对强倾斜和可能被遮挡的像素进行降权。可微分的残差通过阻尼高斯-牛顿法最小化。此外，线性解码器使我们能够预先计算网络预测相对于每个关键帧的代码的雅可比矩阵。因为语义残差不仅依赖于语义代码，还依赖于数据关联，在建图过程中，我们首先联合优化几何和姿态，然后优化语义残差，最后联合优化几何和语义。通过这种方式，我们将几何和语义紧密耦合到一个单一的优化框架中。06. 实验0请参阅我们提交的视频，其中包含更多演示：https://youtu.be/MCgbgW3WA1M。为了测试我们的方法，我们使用了三个室内数据集：合成的SceneNet RGB-D[29]数据集，真实的NYUv2 [32]和Stanford2D-3D-Semantic数据集[1]。与室外道路场景[10,8]相比，室内场景具有不同的挑战，空间布局和物体尺寸变化大，并且具有完整的6D运动。06.1. 数据集0NYUv2有1,449个预对齐和注释的图像（训练集中有795个，测试集中有654个）。我们在进一步处理之前将所有可用图像从640×480裁剪到有效区域的560×425。我们的实验中评估了13类语义分割任务。Stanford2D-3D-Semantic是一个大规模的真实世界数据集，具有不同的13个语义类别定义。70,496张图像具有随机相机参数，分为66,792张训练集图像（区域1, 2, 4, 5,6）和3,704张测试集图像（区域3）。我们将所有图像矫正为统一的相机模型。合成的SceneNetRGB-D数据集为5M张图像提供了完美的地面真值注释。我们的训练集由每个序列的前11个原始训练分割的每30帧采样而成，共包含110,000张图像。我们的测试数据集由原始验证集的每100帧采样而成，共包含3,000张图像。所有输入图像都被调整为256×192。在训练过程中，我们使用数据增强，包括随机水平翻转和亮度对比度抖动。在测试时，只评估单尺度语义预测。06.2. 图像条件的场景表示0我们首先定量检查编码大小对NYUv2和SceneNetRGB-D数据集的影响，通过测量重建性能。为了简单起见，我们对深度图像和语义标签使用相同的潜在编码大小。我们还分别训练了一个用于语义分割和深度估计的判别性Re�neNet，作为单任务预测模型的基准模型（即编码大小为0）。图4显示了不同编码大小和设置下的深度和语义编码的结果。重建性能表明了变分自编码器的潜在编码容量。由于编码信息，重建结果始终优于单视角单目预测。此外，当编码大小大于32时，我们观察到收益递减，因此选择32作为后续实验的编码大小。图5显示了我们基于图像条件的自动编码器大小为32的定性效果。零编码预测通常与编码预测相似，但在模糊区域的错误得到了纠正，这是由于额外的编码信息。图6显示了学习到的图像相关雅可比矩阵，它表示了语义逻辑相对于编码条目的影响。我们可以看到每个编码条目对应于某些语义上有意义的区域（例如沙发的雅可比矩阵）。此外，每个编码条目还倾向于降低其他模糊类别的概率。对于来自不同视角的两个图像，图像相关雅可比矩阵显示出很高的一致性。117810图像GT标签零编码编码GT深度编码零编码0SceneNet RGB-D NYUv2 Stanford 2D-3D0NYUv2SceneNetStanford0未知床书柜天花板椅子地板家具物品画沙发桌子电视墙壁窗户0未知门书柜天花板椅子地板柱子杂物板沙发桌子梁壁窗户0图5：NYUv2（左）、SceneNetRGB-D（中）和Stanford（右）数据集上的定性结果。顶部是输入彩色图像。我们展示了地面真实值、编码预测（来自编码器的编码）和零编码预测（单目预测）的深度和语义标签。对于单目预测中模糊的区域，通过优化紧凑的潜在编码来纠正错误的语义预测。黑色区域是被掩蔽的未知类别。0图6：对于一对宽基线视图，语义逻辑相对于两个编码条目的雅可比矩阵。列代表每个语义类别上编码条目的影响。红色和蓝色分别表示正向和负向影响。在优化过程中，语义上有意义的区域可以一致地进行细化，从而实现平滑和完整的分割，这种特性自动传递到语义融合过程中。06.3. 使用学习编码的语义标签融合0我们的语义细化过程可以被视为多视角语义映射的标签融合方案。与通常的逐元素更新方法相比，基于编码的融合具有天然获得空间和时间一致性的能力。0通过在潜在空间中进行联合估计，我们可以对语义标签进行连续估计。这意味着在更新语义概率时，像素不被假设为独立同分布，从而得到更平滑和更完整的标签区域。为了仅仅进行标签估计，我们的实验使用了SceneNetRGB-D数据集，该数据集提供了精确的地面真实深度和相机姿态，以实现完美的数据。117820最优熵初始熵最优标签零编码GT标签输入图像0图7：我们方法的两视图语义标签融合示例。从上到下：输入彩色图像、地面真实语义标签、零编码预测、优化标签（最小化语义成本）、零编码softmax概率的信息熵、优化softmax概率的信息熵。0统计平均标准差最大值最小值0旋转（度）5.950 9.982 163.382 0.0280平移（米）0.149 0.087 0.701 0.0010表1：从SceneNetRGB-D中提取的连续帧之间的相对3D运动的统计数据。0我们还遮挡并忽略了被遮挡的区域。我们使用零代码单目预测作为所有融合方法的初始语义预测。在图7中，我们展示了给定大基线拍摄的两个视图的语义标签融合结果。右侧的零代码预测在给定的模糊上下文中难以识别出桌子。高熵表明在优化过程中语义标签很可能发生变化。相比之下，左侧的零代码预测能够准确地分割出桌子，并且熵相对较低。通过最小化两个视图之间的语义代价，优化后的语义表示能够生成一致的预测，成功地将右侧的预测进行消歧义，并得到良好的分割和平滑的预测。两个视图的熵也得到了降低。类似的改进也可以在其他区域观察到。此外，有趣的是熵图与场景结构一致，表明网络能够识别对象的空间范围，但在精确的语义类别上存在困难。图8展示了不同标签融合方法的定性结果。两种逐元素融合方法的结果是通过将其他图像的概率整合到每个当前帧中得到的，而我们的结果仅来自将所有后续帧与第一帧配对。对于一系列具有小基线的5帧，零代码预测都是相似的。因此，当存在困难、模糊的区域（由低质量的零代码预测和高熵指示）时，逐元素标签融合方法只能稍微改善结果。然而，学习到的紧凑代码中的表示能力使得通过优化可以获得更平滑、正确的标签预测。优化后，这些区域的熵减小表明网络更加自信。接下来我们提供定量比较。我们使用从SceneNetRGB-D验证集中抽取的1000个序列（每个序列2张图像）中的2000张图像来评估性能。我们将每个提取的图像与序列中的变量数量的后续图像结合起来，以获得短的多视图序列（1-4帧）。由于SceneNetRGB-D的轨迹是随机生成的，因此这个数据集中包含了各种相对变换和基线（表1）。表2显示了在不同视图数量下三种多视图标签融合方法的有效性。我们的标签融合方法使用代码优化优于其他方法。总像素准确率的改进不显著，因为数据集中有大面积的墙壁和地板。然而，mIoU指标的大幅改进表明我们的方法能够更多地考虑高阶统计，表明更平滑的预测和对其他小物体的更好结果。0通过最小化两个视图之间的语义代价，优化后的语义表示能够生成一致的预测，成功地将右侧的预测进行消歧义，并得到良好的分割和平滑的预测。两个视图的熵也得到了降低。类似的改进也可以在其他区域观察到。此外，有趣的是熵图与场景结构一致，表明网络能够识别对象的空间范围，但在精确的语义类别上存在困难。图8展示了不同标签融合方法的定性结果。两种逐元素融合方法的结果是通过将其他图像的概率整合到每个当前帧中得到的，而我们的结果仅来自将所有后续帧与第一帧配对。对于一系列具有小基线的5帧，零代码预测都是相似的。因此，当存在困难、模糊的区域（由低质量的零代码预测和高熵指示）时，逐元素标签融合方法只能稍微改善结果。然而，学习到的紧凑代码中的表示能力使得通过优化可以获得更平滑、正确的标签预测。优化后，这些区域的熵减小表明网络更加自信。接下来我们提供定量比较。我们使用从SceneNetRGB-D验证集中抽取的1000个序列（每个序列2张图像）中的2000张图像来评估性能。我们将每个提取的图像与序列中的变量数量的后续图像结合起来，以获得短的多视图序列（1-4帧）。由于SceneNetRGB-D的轨迹是随机生成的，因此这个数据集中包含了各种相对变换和基线（表1）。表2显示了在不同视图数量下三种多视图标签融合方法的有效性。我们的标签融合方法使用代码优化优于其他方法。总像素准确率的改进不显著，因为数据集中有大面积的墙壁和地板。然而，mIoU指标的大幅改进表明我们的方法能够更多地考虑高阶统计，表明更平滑的预测和对其他小物体的更好结果。0代码先验对语义优化的影响0在语义优化过程中，我们使用了零代码正则化项。如果没有这个项，优化可能会被局部一致但不正确的语义标签所吸引。表2显示，没有零代码先验的两个视图标签融合的准确率甚至低于单视图预测，突显了这个先验的重要性。1-75.16763.33041.713234Opt. EntropyInit. EntropyOpt. LabelAverageMultiplicationZero codeGT LabelInput image117830#视图方法像素准确率分类准确率 mIoU0乘法 75.424 63.629 42.3260平均 75.374 63.549 42.2200我们的方法 75.725 63.750 43.8420我们的方法（无先验） 74.498 60.646 39.6000乘法 75.542 63.815 42.6920平均 75.451 63.754 42.2130我们的方法 75.815 63.827 44.2310乘法 75.578 63.950 42.7950平均 75.358 63.767 42.1020我们的方法 75.668 63.720 44.2630表2：不同标签融合方法在从SceneNetRGB-D采样的2000张图像上的有效性。在交并比指标上的大幅提升表明我们的标签融合导致了更平滑的预测。0图8：不同标签融合方法的定性比较。选择了5个具有小基线的连续帧。我们的方法可以有效地融合多视角的语义标签，生成更平滑的语义预测。06.4. 单目密集语义SLAM0我们展示了我们初步的全单目密集语义SLAM系统的示例结果。由于系统中编码的几何先验信息，系统在初始化阶段非常稳健，并且可以处理纯旋转运动。该系统目前以滑动窗口的方式运行。图1和图9显示了来自不同视角的两视图密集语义运动结构的示例。0图9：来自Stanford数据集（前3行）和SceneNetRGB-D数据集（最后一行）的两视图结构运动的定性结果示例。几何和语义的紧凑表示与相机姿态一起进行优化，以获得具有一致语义标签和相对相机运动的密集地图。0数据集。07. 结论和未来工作0我们已经证明了一种基于图像条件的学习紧凑表示可以一致且高效地表示语义标签。这种代码可以在多个重叠视图上进行优化，以实现具有许多优势的语义融合，而传统方法在每个表面元素上独立操作。除了在实验上证明了这种融合能力之外，我们还构建并演示了一个基于学习代码的原型全密集、语义单目SLAM系统，其中几何、姿态和语义可以共同优化。在未来的工作中，我们将进一步统一学习的几何和语义表示，以实现对真正有用的实时空间AI系统的最佳表示效率的场景模型。08. 致谢0本文所提出的研究得到了戴森科技有限公司的支持。ShuaifengZhi拥有中国国家留学基金委员会-帝国奖学金。我们非常感谢Jan Czarnowski在这个项目上的研究和软件合作。117840参考文献0[1] Iro Armeni, Alexander Sax, Amir R. Zamir, and SilvioSavarese. 室内场景理解的联合2D-3D-语义数据.arXiv预印本arXiv:1702.01105，2017年。 50[2] Simon Baker and Iain Matthews. Lucas-Kanade 20 yearson: A Unifying Framework: Part 1.计算机视觉国际期刊(IJCV)，56(3)：221-255，2004年。 40[3] Michael Bloesch, Jan Czarnowski, Ronald Clark, StefanLeutenegger, and Andrew J. Davison. CodeSLAM —学习一种紧凑、可优化的密集视觉SLAM表示.在计算机视觉和模式识别IEEE会议论文集(CVPR)中，2018年。 2, 3 , 4 , 50[4] Samuel R. Bowman, Luke Vilnis, Oriol Vinyals, Andrew MDai, Rafal Jozefowicz, and Samy Bengio. 从连续空间生成句子.arXiv预印本arXiv:1511.06349，2015年。 30[5] Cesar Cadena, Luca Carlone, Henry Carrillo, Yasir Latif,Davide Scaramuzza, Jos´e Neira, Ian Reid, and John. J.Leonard.过去、现在和未来的同时定位和建图：走向强健感知时代.机器人学IEEE交易(T-RO)，32(6)：1309-1332，2016年12月。10[6] Cesar Cadena，Anthony R. Dick和Ian Reid.多模态自编码器作为机器人场景理解的联合估计器.在机器人科学与系统（RSS）会议上，2016年。 10[7] Sung-Hyuk Cha和Sargur N. Srihari. 测量直方图之间的距离.模式识别，35（6）：1355-1370，2002年。 40[8] Marius Cordts，Mohamed Omran，SebastianRamos，Timo Rehfeld，Markus Enzweiler，RodrigoBenenson，Uwe Franke，Stefan Roth和Bernt Schiele.用于语义城市场景理解的Cityscapes数据集.在IEEE计算机视觉与模式识别会议（CVPR）上，2016年。 50[9] Andrew J. Davison. 未来映射：空间人工智能系统的计算结构.arXiv预印本arXiv:1803.11288，2018年。 10[10] Andreas Geiger，Philip Lenz和Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件.在IEEE计算机视觉与模式识别会议（CVPR）上，2012年。 50[11] Kaiming He，Xiangyu Zhang，Shaoqing Ren和Jian Sun.深入研究整流器：在ImageNet分类上超越人类水平的性能.在国际计算机视觉会议（ICCV）上，2015年。 30[12] Kaiming He，Xiangyu Zhang，Shaoqing Ren和Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉与模式识别会议（CVPR）上，2016年。 20[13] Yang He，Wei-Chen Chiu，Margret Keuper和Mario Fritz.使用时空数据驱动池化进行RGBD语义分割.在IEEE计算机视觉与模式识别会议（CVPR）上，2017年。 10[14] Alexander Hermans，Georgios Floros和Bastian Leibe.从RGB-D图像中进行室内场景的密集三维语义映射.在IEEE国际机器人与自动化会议（ICRA）上，2014年。 10[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou和Alexei A.Efros. 条件对抗网络的图像到图像翻译.在IEEE计算机视觉与模式识别会议（CVPR）上，2017年。 20[16] Olaf Kahler和Ian Reid. 使用树场进行高效的三维场景标记.在IEEE国际计算机视觉会议上，2013年。 10[17] Alex Kendall和Yarin Gal.在计算机视觉的贝叶斯深度学习中需要哪些不确定性？在神经信息处理系统（NIPS）会议上，2017年。 30[18] Alex Kendall，Yarin Gal和Roberto Cipolla.使用不确定性进行多任务学习以加权场景几何和语义的损失.在IEEE计算机视觉与模式识别会议（CVPR）上，2018年。 30[19] Christian Kerl，J¨urgen Sturm和Daniel Cremers.用于RGB-D相机的鲁棒里程计估计.在IEEE国际机器人与自动化会议（ICRA）上，2013年。 40[20] Diederik P. Kingma和Jimmy Ba.Adam：一种用于随机优化的方法.在国际学习表示会议（ICLR）上，2015年。 30[21] Diederik P. Kingma和Max Welling. 自编码变分贝叶斯.在国际学习表示会议（ICLR）上，2014年。 30[22] Georg Klein和David W. Murray.用于小型AR工作空间的并行跟踪和建图.在国际混合与增强现实研讨会（ISMAR）上，2007年。 40[23] Simon A. A. Kohl, Bernardino Romera-Paredes, ClemensMeyer, Jeffrey De Fauw, Joseph R. Ledsam, Klaus H. Maier-Hein, S. M. Eslami, Danilo Jimenez Rezende, and Olaf Ron-neberger. 用于模糊图像分割的概率U-Net.在神经信息处理系统（NIPS）会议上，2018年。 20[24] Guosheng Lin, Anton Milan, Chunhua Shen, and Ian Reid.Re�neNet:高分辨率语义分割的多路径细化网络。在计算机视觉和模式识别(CVPR)的IEEE会议论文集中，2017年。1,20[25] Jonathan Long, Evan Shelhamer, and Trevor Darrell.全卷积网络用于语义分割。在计算机视觉和模式识别(CVPR)的IEEE会议论文集中，2015年。10[26] Lingni Ma, J¨org St¨uckler, Christian Kerl, and Daniel Cre-mers.多视角深度学习用于一致的RGB-D相机语义映射。在智能机器人和系统(IROS)的IEEE/RSJ会议论文集中，2017年。10[27] John McCormac, Ronald Clark, Michael Bloesch, AndrewJ. Davison, and Stefan Leutenegger. Fusion ++:体素级物体SLAM。在国际3D视觉会议(3DV)的论文集中，2018年。1117850[28] John McCormac, Ankur Handa, Andrew J. Davison, andSte- fan Leutenegger. SemanticFusion:使用卷积神经网络的稠密3D语义映射。在机器人和自动化(ICRA)的IEEE国际会议论文集中，2017年。1,40[29] John McCormac, Ankur Handa, Stefan Leutenegger, andAndrew J. Davison. SceneNet RGB-D:500万合成图像能否在室内分割上击败通用的ImageNet预训练？在国际计算机视觉会议(ICCV)的论文集中，2017年。50[30] Lachlan Nicholson, Michael Milford, and NikoS¨underhauf. QuadricSLAM:使用对象检测中的双重二次曲线作为对象导向SLAM的地标。IEEE机器人和自动化通信，2018年。10[31] Martin R¨unz, Maud Buf�er, and Lourdes Agapito.MaskFu- sion:多个移动物体的实时识别、跟踪和重建。在混合和增强现实(ISMAR)的国际会议论文集中，2018年。10[32] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, andRob Fergus.室内RGBD图像的分割和支持推理。在欧洲计算机视觉会议(ECCV)的论文集中，2012年。50[33] Kihyuk Sohn, Honglak Lee, and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。在神经信息处理系统(NIPS)的论文集中，2015年。20[34] Casper Kaae Sønderby, Tapani Raiko, Lars Maaløe, SørenKaae Sønderby, and Ole Winther.如何训练深度变分自动编码器和

下载后可阅读完整内容，剩余1页未读，立即下载