没有合适的资源?快使用搜索试试~ 我知道了~
预测视图实用程序:基于3D CNN的无人机场景探索
学习评分:通过预测视图实用程序进行高效的3D场景探索本杰明·赫普12,Debadepta Dey2,SudiptaN.Sinha2、Ashish Kapoor2、Neel Joshi2和OtmarHilliges11ETH苏黎世2微软研究院抽象。配备摄像头的无人机现在被用于探索大型场景和重建详细的3D地图。当场景中的自由空间近似已知时,离线规划器可以生成最优规划以有效地探索场景。然而,为了探索未知场景,计划者必须预测并最大化飞行中去哪里的有用性。传统上,这是使用手工制作的实用程序函数来实现的。我们建议学习一个更好的效用函数来预测未来观点的有用性我们的学习效用函数基于3D卷积神经网络。该网络作为输入的一种新的体积场景表示,隐式地捕捉以前访问过的观点,并概括到新的场景。我们评估我们的方法在几个大的3D模型的城市场景,使用模拟的深度相机。我们表明,我们的方法优于现有的实用措施的重建性能,是强大的传感器噪声。关键词:3D重建,探索,主动视觉,3D CNN1介绍四旋翼、无人机和其他机器人相机正变得越来越强大、昂贵,并且正用于计算机视觉和机器人应用中的一系列任务,诸如自主导航、绘图、3D重建、侦察以及抓取和操纵。对于这些应用,对周围空间进行建模并确定哪些区域被占用是至关重要的。最近,已经提出了用于室内[37]和室外[31,20]场景的机器人扫描的几种方法这种方法需要推理体素是否是自由的、被占用的或未知的空间,以确保机器人的安全并实现良好的w.r.t.其目标函数(例如,3D表面的覆盖[31])。基于模型的方法需要关于自由空间和占用空间的近似信息,其通常是手动获取或输入的。这防止了这种方法完全自主或部署在完全未知的场景中[35]。无模型方法可以应用于未知环境[19,27,24,8]。与所使用的方法的类型无关,所有算法都需要预测新测量(即,新测量)有多有用的效用函数。深度图像)。基于该效用函数,规划器推断要包括在运动规划中的视点序列。2B. Hepp等人该效用函数通常是手工制作的启发式算法,因此很难将关于某些场景中3D几何形状的预期分布的先验信息结合起来。我们建议设计一个更好的效用函数,使用数据驱动的方法。我们的效用函数的期望目标值源于可以访问地面实况数据的oracle。我们学习的效用函数隐含地从适当的训练数据中捕获关于建筑和几何分布的知识,并且能够预测仅给定当前占用图的新视点的效用为此,我们在底层占用图的新型多尺度体素表示上训练3D ConvNet,该图对环境的当前模型进行编码。然后,我们证明了学习的效用函数可以用来有效地探索未知的环境。我们网络的输入仅依赖于占用率,因此抽象出捕获方法(即立体声、IR深度相机等)。虽然我们的训练数据包括我们在实验中证明,我们的学习模型可以在测试时与不完美的传感器数据一起使用,例如模拟的有噪声的深度相机或立体数据。该方法不限于具有固定范围的环境我们的方法优于现有的方法,使用基于实用功能的实用功能,[35][24][25][26][27][28][29][2相关工作勘探和绘图是研究得很好的问题。我们首先讨论的理论结果,然后描述在主动视觉领域的方法,最后在3D视觉工作子模块传感器放置:在先验已知环境和给定测量位置集合的情况下,许多工作致力于覆盖的子模块目标函数[11,29]。子模性是一种数学性质,它使得使用贪婪方法可以近似保证解。虽然在动态环境中存在工作,其中未来测量的效用可以在执行测量时改变[16,22],但这些方法通常难以扩展到大的状态和观察空间,我们在本文中考虑了这一点,因为它们在计算机视觉应用中很常见。下一个最佳视图和探索:在下一个最佳视图设置中,测量位置的集合通常是先验固定的,如在上述子模块覆盖工作中。这一领域的工作通常涉及定义良好的启发式效用函数并近似覆盖任务,以使其在计算上可行[3,27,36,12,10]。在[24,8]中明确比较了许多启发式方法,并且Choudhury等人计算了这些方法的子集并将其用作特征向量。[4]以模拟具有地面实况访问的近似最优策略。基于先验固定的一组相机姿势和已访问姿势的二进制输入掩码,Devrim等人[9]使用强化学习来回归用于下一视图的选择算法中的标量参数与我们的工作相比,该方法涉及先验已知的,固定的环境和相机的姿势,使其适合于检查规划。学习评分:通过预测视图实用程序进行高效的3D场景探索3在主动视觉中,大量的工作都是通过部分已知的场景进行探索。基于前沿的算法[38]用于使用立体[13]、RGB-D或单目相机[32]进行环境的自主映射和探索。Heng等人[19]提出了一种在探索和优化覆盖之间交替进行3D重建的方法。上面讨论的所有方法或者定义或者基于启发法来决定下一测量的效用,或者需要环境和可能的相机姿态的先验知识。我们的工作不是手工制作一个效用函数,而是学习这样一个函数,它可以优于现有的手工制作的函数,并且在计算上更便宜。此外,我们的方法不需要先验知识的地图。3D卷积神经网络:计算机视觉中的大量工作涉及使用卷积神经网络处理3D输入和输出数据。在某些情况下,该数据源于RGB-D图像,例如Song等人[33],其中目标是检测对象。在其他情况下,以二进制占用标签或符号距离函数形式的体积输入用于各种任务,例如形状分类和语义体素标记[6,30],表面完成[7],手部姿势估计[14]或特征学习[40]。这些作品涉及被动任务的统一输入网格的固定尺寸,包含对象或表面的利益。这阻止了跨越大距离的推理,或者需要降低输入的细节水平。已经提出了占用网格的不同表示,以减轻大的均匀输入维度和细节水平的权衡[30]。然而,在我们工作的背景下,占用图通常不是非常稀疏,因为它是通过将光线投射到三态图中并更新连续值而生成的,这导致非常少的同质区域,这将受益于Riegler等人的公式[30]。与我们的工作相关的还有多视图重建方法[5],其中基于输入图像序列预测输出。与我们的工作相比,Liu等人。[28]在固定大小的体积中重建小对象,而我们关注的是包含几个建筑物的大型城市场景。3问题设置和概述我们的工作是关于一个先验未知的3D世界的自动探索与重建的场景中的表面在一个有效的方式,纳在这种情况下,如图1所示。1,算法必须仅基于当前地图信息做出关于下一视点的决定。在图1中,摄像机被一些空间包围,该空间已知是自由的(白色),并且已经观察到部分表面(蓝色)。下一个视点被限制在已知的自由空间,而移动到未知空间(浅绿色)可能会导致碰撞。主要的困难源于这样一个事实,即该算法需要预测有多少未知的表面可以发现从一个新的观点。 许多工作已经致力于开发和研究各种启发式方法来计算量化可能观点的期望值的分数[24,8]。4B. Hepp等人图1:探索任务(为了清楚起见,在此以2D描绘)是发现被占用的表面体素(在此以蓝色示出)。体素最初是未知的(此处以浅绿色显示),并通过进行测量来发现,例如,从摄像机里射出光线到场景里。不是表面体素的体素将被发现为自由体素(此处以白色显示)。每个可能的视点都有一个相应的效用值,取决于它对我们对表面的认识有多大贡献(在这里以深绿色显示)。为了决定我们接下来应该去哪个视点,理想的效用得分函数将在执行它们之前告诉我们视点的预期效用。然后,该函数可以在规划算法中使用,以访问具有最高预期效用的视点序列我们提出了一个数据驱动的方法,我们使用监督学习找到一个效用函数,模仿一个神谕。oracle可以访问地面实况图并且可以计算真实效用分数。对于这项任务,我们引入了一个地图表示组成的多尺度子卷提取周围的相机的位置。对于所有可能的视点,该数据在训练时与oracle的分数一起被馈送到3D ConvNet中直观地,该模型学习预测在给定当前占用图的情况下,针对任何给定姿势看到额外表面体素的可能性然而,我们没有明确地模拟这种可能性,而是只提供了oral- cle我们的实验表明,我们的配方推广到新的场景具有不同的对象形状和分布,并可以处理输入噪声传感器测量结果我们遵循相关工作[24,8,9]并在模拟但高保真的环境中评估我们的方法。这允许评估效用函数,并减少环境因素和特定机器人平台的影响。我们的环境包含了城市地区的建筑物的大小和分布方面的现实模型。此外,重要的是要注意,我们的技术仅将占用信息作为输入,并且不直接与原始传感器数据接口。此外,我们测试我们的方法从室外和室内场景的真实数据,以证明我们的方法不限于合成环境。4预测视图实用程序我们首先正式定义我们的任务和所需的效用函数,然后介绍我们的学习和评估这个功能的方法。学习评分:通过预测视图实用程序进行高效的3D场景探索54.1世界模型我们将世界建模为具有分辨率r的均匀体素网格V。映射M是将每个体素v∈V映射到描述体素的体积的被占用的分数的占用值Mo(v)和相关联的不确定性值Mu(v)的函数Mo:V-[0,1]、Mu:V-[0,1]的元组M=(Mo,Mu)1表示总不确定度,0表示无不确定度。地图随时间变化,因此我们将时间t处的地图表示为Mt。在移动到视点p之后,相机获取深度图像形式的新测量,并且更新地图M我们将更新后的映射表示为M|p.不确定度根据以下内容更新:微米的|p(v)=exp(−η)M u(v),(1)其中η∈R>0描述了由单个测量添加的信息量。这是一种简单但有效的措施,提供了重复测量的递减信息增益。注意Mu|p(v)≤Mu(v),因此不确定性随着额外的测量而降低。如在占用映射[34,23]中典型的,我们根据基于束的逆传感器模型更新体素占用M〇(v)。请参见Sec。4.4了解地图初始化的详细信息。4.2Oracle实用函数为了选择视点,我们需要一个效用函数,它可以在任何时候为所有可能的视点分配分数我们首先引入一个oracle效用函数,在评估过程中可以访问地面实况(真实表面体素集)它返回所需的真实效用度量。然后,我们将学习在没有获得地面真相的情况下模仿神谕。我们的特点是一个好的观点,发现了大量的表面体素。令ObsSurf(M)是由其相关联的确定性值加权的地图M ΣObsSurf(M)=(1-Mu(v)),(2)v∈Surf其中SurfV是地面实况表面体素的集合,即与表面相交的所有体素注意,ObsSurf(M)随着附加测量单调增加,因为体素的确定性只能根据等式(1)增加。(一).具有新测量的表面体素的不确定性的降低定义了oracle的效用分数。我们将该分数表示为当前地图M和相机姿态p的函数:s(M,p)= ObsSurf(M |p)− ObsSurf(M)Σ=v∈Surf(−M u|p(v)+Mu(v))=Σv∈Surf(1−exp(−η))Mu(v)≥0. (三)4.3学习效用函数计算在Eq.3的任何视点都需要访问地面实况图。我们的目标是在不访问此数据的情况下预测s(M,p),因此我们可以制定一个回归问题,该回归问题在给定占用图作为输入的情况下计算得分值。6B. Hepp等人多尺度地图表示我们建议直接基于占用地图进行预测,而不是基于原始输入的时间序列。该占有率图对我们已经观察到的表面和自由空间的知识进行编码,并且最终可以用于建立用于导航和3D重建的图为了在3D ConvNet中使用,映射必须用固定的维度表示这里,出现了存储器消耗、计算成本、到达和分辨率之间的权衡。例如,提取相机周围的小的高分辨率网格将信息约束到小的空间范围,而具有大的空间范围的网格将导致存储器消耗和计算成本的快速增加或者将导致分辨率的急剧降低。图2:占用图的局部多尺度表示为了清晰起见,我们展示了大小为2×2的网格的2D情况。使用以相机位置为中心的多个尺度的3D网格对占用图进行采样不同比例上的采样点以橙色显示,其范围以灰色显示。为了缓解这个问题,我们通过以多个尺度对占用图进行采样来引入多尺度表示,如图1B所示二、 对于每个尺度l ∈ {1,. . . ,L},我们在尺寸为Dx× Dy× Dz和分辨率为2lr的3D网格上提取值(图中的橙色点)。2)的情况。在比例尺l上,通过对2l个最接近的体素(图1B中的灰色矩形)求平均来给出图值。2)的情况。 这可以通过将映射表示为八叉树来有效地完成。3D网格根据测量姿态p平移和旋转,并且我们使用地图值的三线性插值来计算网格上的值这该表示允许我们捕获地图的远离相机的两个粗糙部分,但仍然在其直接周围保持更精细的细节此外,它还提供了一种固定大小的高效数据表示,适用于3DConvNet的训练我们用x(M,p)∈RDx×Dy×Dz×2L表示多尺度表示。注意到因子2源于提取每个尺度上的占用率和不确定性值ConvNet架构我们现在描述我们提出的用于学习期望效用函数f的模型架构:RDx×Dy×Dz×2L→R。一般架构如图所示。3的卷积块,并且由数目Nc的卷积块后跟两个卷积块组成学习评分:通过预测视图实用程序进行高效的3D场景探索7ReLu激活的全连接层每个卷积块包含一系列Nu个单元,其中一个单元由3D卷积组成,然后是Batch-Norm,然后是ReLu激活。每个3D卷积将特征图的数量增加Nf。在每个块之后,空间维度被缩减因子2使用3D最大池化。第一个全连接层有Nh1个隐藏单元,第二个全连接层有Nh2个隐藏单元。请注意,我们没有将不同尺度的输入数据有关确切架构的更多详细信息,请参见第5.1,不同变体的评价见补充材料。16x16x8x68x8x4x324x4x2x642048128 32图3:我们的架构,输入尺寸为16×16×8,L=3尺度,产生2L=6通道。该模型由块(由多个单元组成,每个单元执行3D卷积、批范数和ReLu)组成,然后使用3D最大池化执行此模式,直到我们到达空间尺寸为4×4×2的数据体。这被重塑为单个向量,然后是两个具有ReLu激活的完全连接的层和预测标量得分值的最终线性层我们使用一个权重正则化的L2损失ΣNL(X,Y;θ)=f(Xi)−Yi2+λθ2,(4)2 2i=1其中θ是模型参数,λ是正则化因子,并且(Xi,Yi)对于i∈{1,. . . ,N}是来自我们的数据集的输入和目标的样本。4.43D场景探索为了评估我们的效用函数的有效性,我们实现了一个下一个最佳视图(NBV)的规划方法,顺序探索一个3D场景。在这里,我们提供了我们的世界模型的细节,以及我们在数据生成阶段和测试时执行情节的方法。我们假设对世界的探索发生在情节中。为了初始化新的片段,在自由空间中随机地选择在时间t0如果大小为(1m,1m,1m)的边界框以相机姿势为中心,则发生碰撞与任何占用的或未知的体素相交最初,初始化所有体素v∈V未知,即Mu(v)= 1,Mo(v)=vo,先验v∈V,其中vo,先验是先验t0t 0假设占用率,我们使用v0,prior= 0。5在整个工作中使8B. Hepp等人我们清除的相机的初始移动(即,设置为自由空间)(6m)3的边界框在初始摄像机位置附近。在每个时间步t,我们用效用函数评估每个潜在的观点,并根据下式移动到给出最佳预期奖励的观点p(t):p*(t)=argmaxp∈P(t)u(Mt,p)其中P(t)是潜在视点的集合,并且u(·)是使用中的效用函数。在每个片段的开始处,潜在视点的集合仅包含初始观点在每个时间步长,集合P(t)由当前视点的不导致冲突的那些邻居扩展。我们忽略潜在的观点,如果他们已经观察了两次。 每个视点有9个邻居,其中6个是2的正平移和负平移。沿着相机框架的每个轴旋转5米,沿着偏航轴顺时针和逆时针旋转2次25°,以及沿着偏航轴旋转180°我们始终保持固定的俯仰角和横滚角。在移动到新的视点之后,相机以以下形式进行测量深度图像和地图被更新(有关相机参数和地图更新的详细信息,请参见补充材料)。请注意,我们在生成训练数据时使用地面真实深度,但后来证明我们可以在测试时使用带噪声的深度图像甚至立体深度。注意,我们假设效用函数是次模的。虽然这对于oracle实用程序是正确的,但对于其他实用程序函数(即,我们的学习模型)。然而,这个假设允许我们执行效用函数的惰性评估[26](详见补充材料)。4.5数据集为了学习效用函数f(x),近似神谕(见等式2)。3)我们需要标记的训练数据。我们的数据应该捕捉到大型城市环境,其中包含各种人造环境的典型结构。为此,我们选择了3D街景数据集[39]中的模型。这些模型具有来自不同城市 的 真 实 建 筑 分 布 和 几 何 形 状 。 此 外 , 我 们 从 照 片 级 逼 真 的 游 戏 引 擎(https://www.unrealengine.com)中选择了一个大型场景,其中包含郊区环境中的小型建筑物,包括树木,较小的植被和电线。所有环境如图所示。4.第一章请注意,我们只使用来自华盛顿的数据2来训练我们的模型。虽然华盛顿1和巴黎在建筑高度方面相似,但建筑的分布和几何形状却明显不同。旧金山的景观带来了一个特殊的挑战,其中包括华盛顿从未见过的高层建筑。同样,“邻里”场景中的建筑物和植被与训练数据中看到的任何东西都不同。我们通过运行r = 0的剧集来生成样本。4m,直到时间te=200,并且在每个时间步根据oracle的分数选择最佳视点p对于每个步骤t,我们存储输入x(M,p)的元组和来自每个相邻视点的oracles(M,p)的请注意,我们记录当前视点的每个可能邻居的样本(而不是仅记录最佳选择的视点)。这是必要的,因为我们的预测器将学习评分:通过预测视图实用程序进行高效的3D场景探索9图4:环境的正常渲染。从左至右:华盛顿2号,华盛顿1号,巴黎,旧金山,附近.必须在测试时提供任意视点的近似分数。我们总共记录了大约1,000,000个样本,并将80/20分成训练集和验证集。为了鼓励未来的比较,我们将发布用于生成数据和评估的代码5实验我们描述了我们的ConvNet架构,然后展示了我们的方法的不同评价5.1ConvNet架构和培训我们通过改变Nc,Nu和Nf来评估不同的ConvNet变体。我们还尝试了修改,例如使用残差单元[17,18]。 我们在补充材料中报告了这些结果。在这里,我们报告了输入大小为16×16×8(Nc=2,Nu=4,Nf=8,L=3,Nh1=128,Nh2=32)的最佳性能模型的结果在本节的其余部分中表示为我们的模型的训练是用ADAM完成的使用128的小批量大小,正则化λ= 10−4,α= 10−4和Kingma等人建议的值。[ 25]其他参数。 辍学率为0。5在训练期间在全连接层之后使用。初始化网络参数根据Glorot等人[15](针对ReLu激活进行校正)。当观察到测试数据上的过拟合时,我们使用早期停止。5.2评价我们的评估包括三个部分。首先,我们评估我们的模型上的数据集产生的,如第二节所述。4.5,并报告Spearman's rho以显示预测分数和地面实况分数的等级相关性。在此之后,我们将我们的模型与以前提出的效用函数[35,24,8]进行了比较。我们使用[24,8]提供的开源实现,并报告其在我们的场景中表现最好的方法,ProximityCount和AverageEntropy的结果。我们还与基于边界的函数进行比较,该函数测量从[19,2]中的视点可见的未观察到的体素的数量。对于该比较,我们针对所有方法使用模拟的无噪声深度图像。最后,我们评估我们的模型与深度图像扰动的噪声和立体匹配在真实感渲染引擎中产生的深度图像。为了证明我们的模型的泛化能力,我们使用了四个测试场景(图2中的列2-5)。4)示出与用于收集训练数据的场景不同的建筑物分布和几何形状。我们还在训练场景上进行了实验,其中由于随机开始姿势和不完整占用图中可能的模糊性,探索仍然很困难。10B. Hepp等人为了计算得分和效率值,我们运行50个片段,r=0。4m,直到te=200,并计算每个时间步长的样本平均值和标准差。为了进行公平的比较,我们提前为每个片段选择一个随机的开始位置,并为每个方法使用相同的开始位置。为了报告用于比较的性能的单个度量,我们计算观察到的表面与时间的曲线下面积(参见图1中的曲线图)。5)、ΣteEFF=t=0观测表面(Mt)。(六)我们将此指标称为效率,因为它为早期发现表面的方法提供了更高的分数。5.3不同数据集上的模型性能在这里,我们评估了我们的模型对从不同场景收集的数据的性能,如第二节所述四点五分。 该模型在Washington2的训练集上进行训练,并且我们报告Spearman的rho以及来自Eq. (4)在Tab.1.一、不同数据集华盛顿2华盛顿2华盛顿1巴黎旧金山列车试验斯皮尔曼等级相关0.880.870.830.690.730.48损耗值0.250.280.430.630.600.93表1:我们的模型在不同数据集上的斯皮尔曼尽管测试场景的不同建筑物分布和几何形状(即,与训练数据相比,除了华盛顿2)之外的所有场景的Spearman的ρ值显示出与预言得分的高等级相关性。这甚至是邻居场景的情况,其特征在于建筑物形状和树木,与训练数据中的任何一个都不同。斯皮尔曼ρ甚至有趣的是,该模型显示了旧金山场景的高等级相关性,该场景以高层建筑为特征,因此需要我们的模型推广到高视点处的不同占用地图分布5.4与基线的比较在表2中,我们将我们的模型的性能与相关的手工制作的效用函数[35,24,8]进行了比较。我们的方法在效率度量方面始终优于现有函数,并且如表3所示,比其他方法计算更快。学习评分:通过预测视图实用程序进行高效的3D场景探索11图5:所有测试场景的结果顶行:底层网格模型的可视化行2-4:在不同时间步长处重建的3D模型。仅示出了被占用的体素,并且颜色编码指示沿着z轴的体素位置。底行:观察到的表面体素与所有方法的时间,可以访问地面实况和基线方法的oracle我们的方法执行最好的和接近的oral- cle最佳的颜色和放大。补充材料中的较大版本我们还示出了观察到的表面体素与表面体素的曲线图。时间为我们的模型,甲骨文与访问地面真相和基线方法在图。五、请注意,所示场景未用于生成任何训练数据。结果表明,我们的方法相比,在所有的时间步长的基线方法进行更好的。此外,我们的方法的行为在所有场景上都是一致的,而基线的性能则因场景而异重建的3D模型的进展由在不同时间的占用图的渲染示出。5.5噪声输入传感器虽然我们所有的训练都是在使用地面真实深度图像的模拟数据上完成的,但我们的中间状态表示作为占用图使我们的模型对输入传感器的噪声特性具有鲁棒性在这里,我们评估我们的模型的性能增补─12B. Hepp等人不同场景华盛顿2华盛顿1巴黎旧金山前沿0的情况。400的情况。290的情况。570的情况。090的情况。27平均熵[24]0的情况。260的情况。360的情况。320的情况。300的情况。50接近计数[24]0的情况。520的情况。470的情况。370的情况。230的情况。60我们0的情况。910的情况。880的情况。870的情况。770的情况。74Oracle(GT访问)1 .一、001 .一、001 .一、001 .一、001 .一、00表2:效率度量的比较我们的方法在所有场景上实现了比其他效用函数更高的值,这请注意,该模型仅在华盛顿记录的数据上进行训练2。效率值相对于oracle进行了规范化,以便于比较。每步边界邻近计数平均熵我们的时间(以秒为0.61 5.898.35表3:每个步骤的计算时间的比较。我们的方法与Frontier方法中的简单光线投射一样快,比ProximityCount和AverageEntropy快10倍以上。最后,我们用从虚拟立体相机计算的深度图像来测试我们的模型。为此,我们利用逼真的游戏引擎来合成RGB立体对和计算深度图与半全球匹配。使用噪声深度图像运行情节,并记录视点序列我们重放相同的视点序列,并使用地面实况深度图像来建立占用图并测量效率。所得效率值列于表4中。可以看出,我们的方法对不同的噪声水平具有鲁棒性。更重要的是,即使具有来自虚拟立体相机的深度图像,导致深度图像的真实扰动(参见补充材料),我们的方法也不会降级。使用噪声深度图像(归一化)的无噪音 低 中高甚高立体声效应1. 000. 991.010. 99 1. 020. 99表4:使用噪声深度图像的方法的比较。效率值被归一化为无噪声的情况。 对于噪声情况,每个深度图像中的40%的像素被丢弃,并且每个剩余像素被正常噪声扰动(σ=0. 1m为低,σ=0。2m(中等),σ=0。高度为5m,σ=1。0m表示非常高)。在立体匹配的情况下,我们使用照片真实感渲染引擎来生成基线为0的立体图像。5米。使用半全局匹配计算视差和深度图像[21]。请注意,所有值的标准差均为0。03.学习评分:通过预测视图实用程序进行高效的3D场景探索135.6真实数据的其他结果为了证明我们的方法是通用的,并且也适用于真实场景,我们对建筑物的高保真3D重建和使用Matterport3相机获取的2D- 3D-S室内数据集[1]进行了额外的实验结果显示在选项卡中。参见图5、图6和图7。对于户外案例,我们在教堂上训练了我们的模型(图1)。6a)和评估的历史建筑(图。6.c)。尽管这两座建筑在几何形状和规模方面存在差异(历史建筑在每个维度上都小了约2倍对于室内情况,我们在Area 1上进行训练,并在2D-3D-S室内数据集的Area 5 b上进行评估[1]。这两个实验都表明,我们的方法也适用于真实的细节场景。图6:示出了对真实户外数据的示例探索-(a)教堂场景的图片。(b)教堂场景的占用图(训练数据)(200步)。(c)历史建筑场景的照片。(d)历史建筑场景的占用图(评估)(100步)。(e)历史建筑场景的表演情节。观察到的体素的颜色编码:高不确定度(红色)和低不确定度(青色)。6讨论和结论我们提出了一种通过使用3D ConvNet预测新视图的效用来有效探索未知3D环境的方法。我们输入一个新的多尺度体素表示的基础占用地图,它代表了当前的环境模型。从能够访问地面实况信息的oracle获得成对的输入效用分数和目标效用分数。重要的是,我们的模型能够推广到训练数据以外的场景,并且底层的占用图能够对噪声传感器输入(例如来自立体相机的深度图像)具有鲁棒性。实验表明,我们的方法提高了以前的方法在重建效率。3https://matterport.com/14B. Hepp等人图7:示出了对真实室内数据的示例探索-(a)S3 Dis区域5 b的占用图(400步)。(b)S3Dis Area5b的性能图(在Area1上训练)。观察到的体素的颜色编码:高不确定性(红色)和低不确定性(青色)。附加真实数据前沿 接近计数[24] 我们的Oracle(GT访问)户外0. 460的情况。580的情况。901 .一、00室内0. 440的情况。520的情况。781 .一、00表5:附加真实数据上的效率度量的比较。我们的方法实现了一个更高的价值比其他效用函数在ourdoor和室内场景。注意,在这两种情况下,模型都是在从与评估场景不同的单个场景记录的数据上训练的。效率值相对于oracle进行了规范化,以便于比较。我们的方法的局限性包括依赖于训练数据中的表面体素分布。在未来的工作中,看看该方法如何在不同的几何形状(如岩层和其他自然景观)上执行将是有趣的类似地,我们的模型与训练数据中使用的映射分辨率和映射参数绑定。另一个限制是对静态场景的基本假设诸如在相机前面行走的人的动态虽然这些体素可以在额外的观察之后将它们的状态从占用改变为空闲,但是如果人走开,则中间占用图可以导致不期望的效用预测。解决该问题的可能解决方案是在将深度图中的动态对象集成到占用图中之前识别和分割它们。我们的工作为今后的工作提出了几个方向。我们使用我们学习的效用函数来实现贪婪的下一个最佳视图算法;然而,我们的效用函数可以用于开发更复杂的策略,这些策略可以向前看多个步骤。此外,我们的方法可以被扩展为以生成的方式来预测3D占用图的未来状态或预测未观察到的视图的2D深度图。这可以用于模型完成或孔洞填充,这在计算机视觉和机器人技术中有许多应用。学习评分:通过预测视图实用程序进行高效的3D场景探索15引用1. 阿尔梅尼岛Sax,S.,Zamir,A.R.,Savarese,S.:用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv:1702.01105(2017)2. Bircher,A.,Kamel,M.,Alexis,K. Oleynikova,H.,西格瓦特河:三维探索的后退地平线“下一个最佳视图”规划器。机器人与自动化(ICRA),2016年IEEE国际会议。pp. 1462-1468. IEEE(2016)3. 陈淑仪,李,Y.,Kwok,N.M.:机器人系统中的主动视觉:最近发展的调查。TheInternational Journal of Robotics Research30(11),13434. Choudhury,S.,Kapoor,A.,Ranade,G.Scherer,S.,Dey,D.:自适应信息收集通过模仿学习。机器人科学与系统(2017)5. Choy,C.B.,徐,D.,Gwak,J.,Chen,K.,Savarese,S.:3d-r2 n2:用于单视图和多视图3D对象重建的统一方法欧洲计算机视觉会议。pp. 628-644. Springer(2016)6. Dai,A.,Chang,A.X.,Savva,M.,Halber,M.,Funkhouser,T.,Nießner,M.:扫描网:丰富的注释三维重建的室内场景。http://arxiv.org/abs/1702.04405(2017)7. Dai,A.,Qi,C.R.,Nießner,M.:使用3d编码器预测器cnns和形状合成的形状完成http://arxiv.org/abs/1612.00101(2016)8. Delmerico,J.,Isler,S.,萨布泽瓦里河Scaramuzza,D.:主动三维物体重建的体积信息增益度量的比较自动机器人2017年1月9. Devrim Kaba,M.,Gokhan Uzunbas,M.,Nam Lim,S.:视图规划问题的强化学习方法IEEE计算机视觉和模式识别会议论文集pp. 693310. Dunn,E.,Frahm,J.M.:活动模型改进的下一个最佳视图规划。在:BMVC.pp.第一11. Feige,U.:近似集合覆盖的阈值为ln nJACM(1998)12. 福斯特角Pizzoli,M.,Scaramuzza,D.:微型飞行器的基于外观的主动、单目、密集重构在:机器人:科学与系统(RSS)(2014)13. Fraundorfer,F.,Heng,L.,Honegger,D.,Lee,G.H.,迈耶湖Tanskanen,P.,Pollefeys,M.:使用四旋翼微型飞行器的基于视觉的自主测绘和探索。智能机器人与系统(IROS),2012年IEEE/RSJ国际会议。pp. 4557-4564. IEEE(2012)14. Ge,L.,Liang,H.,Yuan,J.,Thalmann,D.:3D卷积神经网络,用于从单个深度图像进行高效和鲁棒的手部姿势估计。IEEE计算机视觉和模式识别会议论文集。pp.199115. Glorot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难第十三届人工智能与统计国际会议论文集。pp. 24916. Golovin,D.克劳斯,A.:自适应子模块化:主动学习和随机优化的理论与应用。02The Dog(2011)17. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议(CVPR)(2016年6月)18. 他,K.,张,X.,Ren,S.,孙杰:深度剩余网络中的身份映射。欧洲计算机视觉会议。pp. 630-645. Springer(2016)19. Heng,L.,Gotovos,A. Krause,A.,Pollefeys,M.:微型飞行器在未知环境中的有效视觉探索和覆盖。In:ICRA(2015)20. Hepp,B.,Nießner,M.Hilliges,O.:Plan3d:用于空中多视图立体重建的视点和轨迹优化arXiv预印本arXiv:1705.09314(2017)21. Hirschmuller,H.:利用半全局匹配和互信息进行立体处理。IEEE Transactions onpattern analysis and machine intelligence30(2),32816B. Hepp等人22. 佐治亚州霍林格市Englot,B.,Hover,F. S.,米特拉大学Sukhatme,G.S.:水下检查的主动规划和自适应性的好处。JRR(2012)23. Hornung,A.,Wurm,K.M.,Bennewitz,M. Stachniss角Burgard,W.:OctoMap:基 于 八 叉 树 的 高 效 概 率 3D 映 射 框 架 。 自 动 机 器 人 ( 2013 ) 。 https ://doi.org/10.1007/s10514-012-9321-0,http://octomap.github.com,软件可在http://octomap.github.com24. Isler,S.,萨布泽瓦里河Delmerico,J.,Scaramuzza,D.:一种用于主动体三维重建的信息增益公式。In:ICRA(2016)25. Kingma,D. Ba,J.:Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980(2014)26. Krause,A.,Golovin,D.:子模函数最大化。可追踪性:02The Dark(2012)27. Kri egel,S.,林克角 Bodenm üller,T.,Suppa,M.:未知物体三维表面重建的有效最佳扫描规划Journal of Real-Time Image Processing10(4),61128. 刘芳,Shen,C.,Lin,G.:深度卷积神经场用于从单个形象在:IEEE计算机视觉和模式识别会议论文集。pp. 516229. Nemhauser,G.L.,洛杉矶沃尔西Fisher,M.L.:极大化次模集函数的近似分析03The Dog(1978)30. Riegler,G. Ulusoy,A.O.,Geiger,A.:Octnet:以高分辨率学习深度3D表示。计算机视觉和模式识别会议(CVPR)(2017)31. Roberts,M. Dey,D. Truong,A.,Sinha,S.,沙赫,S.,Kapoor,A.,Hanrahan,P.Joshi,N.:航空三维扫描的子模块轨迹优化。在:国际计算机视觉会议(ICCV)2017(2017)32. Shen,S.,Michael,N.,Kumar,V.:具有计算约束的MAV的自主多楼层室内导航机器人与自动化(ICRA),2011年IEEE国际会议。pp. 20-25. IEEE(2011)33. Song,S.,Xiao,J.:rgb-d图像中非模态3d目标检测的深度滑动形状。IEEE计算机视觉和模式识别会议论文集pp. 80834. Thrun,S.,Burgard,W.Fox,D.:概率机器人麻省理工学院出版社(2005)35. Vasquez-Gomez,J.I. Sucar,L.E.,Murrieta-Cid河洛佩斯-达米安,E.:具有定位误差的 三 维 物 体 重 建 的 体 积 次 佳 视 图 规 划 International Journal of Advanced RoboticSystems11(10),159(2014)36. Wenhardt,S.,Deutsch,B.,Angelopoulou,E.,Niemann,H.:主动视觉对象重构使用d最优、e最优和t最优次佳视图来执行。2007年IEEE计算机视觉与模式识别会议。pp. 1-7. IEEE(2007)37. 徐,K.,郑湖,Yan,Z. Yan,G.,Zhang,E.,Nießner,M. Deussen,O.,Cohen-Or,D.,Huang,H.:时变张量场引导的未知室内场景自主重建。ACM Transactionson Graphics 20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功