音频-视觉楼层平面重建：通过模型预测内部结构和语义标签实现快速准确的楼层平面估计

61 浏览量更新于2023-10-16 收藏 18.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11830音频-视觉楼层平面重建0Senthil Purushwalkam *1 Sebastia Vicenc Amengual Gari 2 Vamsi Krishna Ithapu 20Carl Schissler 2 Philip Robinson 2 Abhinav Gupta 3 Kristen Grauman 3,401 卡内基梅隆大学 2 Facebook Reality Labs 3 Facebook AI Research 4 德克萨斯大学奥斯汀分校0摘要0只给出环境的几个瞥见，我们能推断出整个楼层平面的多少信息？现有方法只能映射可见或从上下文中立即显现的内容，因此需要在空间中进行大量移动才能完全映射它。我们探索了音频和视觉感知如何共同提供有限视角下的快速楼层平面重建。音频不仅有助于感知相机视野之外的几何形状，还揭示了远处的自由空间的存在（例如，另一个房间里的狗叫声）并暗示了相机看不见的房间的存在（例如，洗碗机在左边的厨房里发出的嗡嗡声）。我们引入了AV-Map，这是一个新颖的多模态编码器-解码器框架，通过音频和视觉共同推断出一个短视频序列的楼层平面重建。我们训练模型来预测环境的内部结构以及相关房间的语义标签。我们在85个大型真实环境上的结果显示了影响：只需几个瞥见就可以估计出整个区域的66%准确率，这比用于推断视觉地图的现有方法要好得多。01. 引言0复杂的3D环境的楼层平面图，如住宅、办公室、商店、教堂，是它们整体布局的紧凑地面表示，显示了不同房间及其连接性。楼层平面图对于可视化大空间、导航陌生建筑、规划安全路线和传达建筑设计非常有用。传统上，楼层平面图是通过将完全观察到的3D环境简化为其占地面积来创建的，无论是手动还是借助3D传感器[42,31]。最近的研究旨在使用图像和/或扫描来推断房间布局，取得了令人印象深刻的结果[29, 8, 27,46]。然而，现有方法仅限于映射它们直接观察到的区域。0* 在Facebook AI Research实习期间完成的工作。项目网页：0http://www.cs.cmu.edu/~spurushw/publication/avmap0图1：音频-视觉楼层平面重建：通过短视频走进房屋可以重建可见部分的楼层平面，但对许多区域是盲目的。我们引入音频-视觉楼层平面重建，其中环境中的声音有助于推断隐藏区域的几何属性以及未观察到的房间的语义标签（例如，墙壁后面的烹饪声向相机的左侧暗示厨房）。0它们需要相机进行密集的步行才能捕捉到大部分空间。对于人工拍摄大空间或机器人需要立即在新环境中执行任务的情况，这通常是浪费的或不可能的。在这项工作中，我们通过估计相机捕捉不到的区域来解决这个缺点。我们的想法是通过听声音来“看到”可见区域之外的地方。音频提供了强大的空间和语义信号，可以补充视觉感知的映射能力。特别是，音频对于楼层平面估计的价值有三个方面。首先，观察到的声音本质上受到几何形状的驱动；音频反射从主要表面反射回来，揭示了房间的形状，超出了相机的视野。其次，从远处听到的声音可以暗示着远处的自由空间的存在，即发出声音的物体可能存在的地方。第三，从不同方向听到的具有语义意义的声音自然地揭示了基于这些声音所代表的活动或物体的合理房间布局。11840例如，水流声暗示了浴室的方向，即使在我们看到之前；微波炉的哔哔声暗示了厨房；攀爬的脚步声暗示了楼梯。见图1。为此，我们提出了一个新的研究方向：音频-视觉楼层平面图重建。给定一个包含多通道音频的短RGB视频，目标是生成一个显示自由空间和占用区域并将其划分为离散的语义房间标签（家庭房间、厨房等）的2D楼层平面图。重要的是，楼层平面图的输出远远超出了视频帧直接可观察到的区域。这种效率对于需要在不用详尽地浏览空间的情况下行动的导航机器人以及离线场景非常重要，其中用户希望从现有的短视频中提取出一个广泛的地图。例如，想象一下从YouTube视频中推断出的楼层平面图，以便促进房地产观看，或者从可穿戴摄像机视频中推断出的楼层平面图，以提高增强现实中的空间推理能力。我们的AV-Map方法工作如下。我们设计了一个深度卷积神经网络架构，利用音频和视觉数据的序列来推理楼层平面图的结构和语义。我们的模型独立地从音频和RGB数据中提取与楼层平面图对齐的特征，使用自注意机制对每种模态的特征序列进行编码，最后使用解码器架构融合音频和RGB的信息。我们考虑了两种设置：设备生成的声音（主动）和环境生成的声音（被动）。在主动设置中，摄像机在移动时发出已知声音。这对应于一个人或机器人在环境中快速走过时，他们的手机/相机发出一些声音的使用情况。在被动设置中，我们只观察到建筑物中物体和人发出的自然声音。这对应于我们只是简单地给出一个被动记录的视频，可能是为了其他目的而捕捉的。据我们所知，我们是第一个尝试从音频-视觉数据中推断楼层平面图的人。我们在85个大型真实多房间环境上的结果表明，AV-Map不仅在传统基于视觉的映射方面始终表现优异，而且在超越可见区域的占用地图的外推方面改进了最先进的方法[ 34]（楼层平面图准确性相对增益为8%）。尽管只观察到完整房屋的一小部分，我们的模型产生了覆盖大部分区域的良好内部地图。我们还展示了音频和视觉是分类房间类型的协同信号，即使在直接访问每个房间之前，也能对空间的语义进行高级感知。02. 相关工作0楼层平面图和房间布局重建视觉和图形社区已经探索了使用视觉数据、深度传感器和激光扫描仪构建楼层平面图的各种方法。几何方法使用3D点云输入来0构建整个建筑的楼层平面图[ 42 , 31 ]。给定RGB-D扫描，FloorNet [ 29 ]和Floor-SP [ 8]使用深度学习和优化估计2D楼层平面图和房间的语义标签。给定单目RGB图像[ 27]或360度0全景图[ 46 , 49 , 43 , 50]，其他方法可以估计室内的三维曼哈顿房间布局。只使用360度全景图的一小部分，模型可以被训练来推断缺失的视点[ 23 ]和/或语义标签[ 40]。与上述任何方法不同，我们的方法利用音频和视觉感知来推断2D楼层平面图及其语义房间标签。正如我们的结果所示，音频能够在视觉传感器视野之外感知更远的距离。0用于导航的映射具有足够重叠的视图，运动结构方法可以恢复环境的3D结构（例如[ 2 , 38 ]）。基于激光的2DSLAM通常用于移动机器人获取地面平面地图[ 35]。最近的工作利用室内环境的扫描[ 3 , 41]和快速仿真工具[ 37 ]来促进关于具体视觉导航的工作[ 20 ,36 , 25 , 4 , 9 , 34]。通常的方法是估计一个显式的2D占用地图，将观察到的点云投影到地面平面并随着时间的推移扩展地图[ 9 , 34 , 4]。为了导航到指定的房间，[ 30]的方法预测带有房间标签的2D语义地图，学习它们的布局模式。与导航不同，智能代理控制摄像机并在达到目标的服务中构建其地图，我们的目标是将被动视频序列（带有音频）转化为地图。我们展示了我们的音频-视觉方法相对于仅使用视觉的OccAnt [ 34]的优势，后者可以在可见场景点之外进行外推。0空间感知的音频先前的工作探索了利用仅音频来感知房间或物体形状的方法。给定已知声音的多个麦克风录音，[13]的方法计算了单个凸多面体房间的形状，而声音反射则用于感知隐藏在拐角后面的物体的3D形状[28]。在机器人技术中，回声定位可以根据反射来检测到表面的距离[39, 14, 45,10]。多通道音频还用于跟踪动态物体[11,16]。与这些方法不同，我们的方法将视频（包括音频和视觉流）作为输入，并输出一个楼层平面图。此外，我们的模型不限于已知的麦克风布局或已知的发射声音；相反，它可以从环境中被动感知到的自然声音中学习（例如，流水声、门关上声）。虽然声学场景分析中探索了环境语义[18,19]，但我们的问题与之相当不同：目标输出是一个几何地图，而不是发生的声学事件的标签。0音频-视觉空间感知音频和视觉结合起来为空间感知提供了强大的线索。在物体级别上，它们揭示了形状和材料属性[48,32]，例如通过一个物体撞击另一个物体的声音。在环境Top-Down Feature ExtractionThe first stage of our pro-posed model involves extracting features for a given videoV . The purpose of the feature extraction step is to projectegocentric visual frames vt and ambisonic audio clips at toa 2D feature grid that is spatially aligned with the top-downfloorplan that we wish to estimate at each time step.RGB Feature ExtractionThe feature extractor for anRGB frame vt consists of a ResNet-18 model up to layer2followed by a spatial pooling operation, which leads to a sin-gle 128-D feature. We use layer2 features of the ResNet tocapture low-level features like corners of rooms. This featureis then upsampled by a sequence of transposed convolutionsleading to the final visual feature ft ∈ R128× H2 × W2 whereH, W are the height and width of the considered outputfloorplan area at each time step. See Fig. 2, Column 1. Im-portantly, this predicted area extends beyond the freespacedirectly observable from the visual frame vt; in our experi-ments, the visually observed space on average covers only14% of the area when H × W = 40m2 around the cam-era. Below we explain how maps from multiple steps areaggregated for the video’s final (larger) output map.Audio Feature ExtractionA video V also consists ofaudio clips at ∈ RT ×9 where T is the sound duration ateach time step t, and 9 is the number of ambisonic channels,corresponding to second order ambisonics. Features for eachaudio clip are extracted using a sequence of linear, ReLU,and pooling layers, yielding a 128-D feature. Similar to the11850在某些情况下，音频可以帮助感知3D表面，例如透明、光滑或无纹理的表面[47,26]，提供自我监督线索[17]，并改进对房间几何的视觉估计[22]。最近的工作还利用音频-视觉感知来解决导航任务[6,15, 7, 12,5]。以上方法都没有产生音频-视觉楼层平面图。此外，我们工作的独特见解是使用自然发生的语义声音来理解多房间布局。03.方法0我们的目标是估计短视频中环境的2D布局。2D布局由内部区域的结构和与每个区域相关联的语义标签（房间类型）两个组成。首先，我们正式描述问题（第3.1节）。然后我们描述我们提出的模型AV-Map（第3.2节）并介绍我们的训练和推断过程（第3.3节）。03.1.问题表述0我们考虑由相机和全向麦克风生成的视频，这些视频通过各种家庭环境中的短轨迹移动。全向声音是使用球谐基函数对声场进行有序限制的物理特征化[1, 33]。我们用V = {(v1,a1), (v2,a2)...}表示一个视频，其中vt是RGB帧，at是在时间步骤t采样的音频剪辑。我们用PV = {0, r2,r3,...}表示相机和麦克风相对于地板平面坐标系中第一个时间步骤的位置，其中ri = (xi, yi,θi)记录了沿x轴和y轴的移动以及绕重力轴的旋转。可以使用计算机视觉来估计视频中的相对姿态变化[21]；为简单起见，我们假设所有方法都可以获得相机姿态。然而，我们发现我们的模型对文献中考虑的里程计噪声范围具有鲁棒性[34]。每个楼层平面图由两个变量参数化：Mint和Mroom，分别表示结构和语义。内部地图Mint是一个二进制2D网格，是环境的俯视图，通过标签1表示地板、物体和家具的存在，通过标签0表示墙壁和环境外的区域。房间地图Mroom是一个带有N r + 1个可能值的2D网格，标签{1,...,N r}表示Nr个房间类型（厨房、浴室等），标签0表示墙壁和环境外的区域。地板平面图中的每个单元格（矩阵M中的一个条目）表示一个25cm²的区域。我们的工作目标是学习一个映射F，使用视频V和相对姿态变化PV来估计环境的地板平面图（包括Mint和Mroom）。vt中的视觉信息捕捉到可见区域的几何属性和房间类型。at中捕捉到的音频信息可以是相机主动发出的，也可以是自然发生的语义声音。0而由环境中的物体和人被动生成（详见下文）。由于许多物体的摆放与房间类型高度相关（例如，淋浴器在浴室中，洗碗机在厨房中），音频信号可以成为指示房间类型的强语义信号。此外，通过环境传播的回声捕捉到墙壁和其他主要表面的几何属性。我们的关键见解是，音频观察结果将照亮短视频帧中不可见区域的地图。03.2. AV-Map楼层平面图估计模型0现在我们介绍AV-Map楼层平面图估计模型 F 。图 2为我们提出的模型概述，由三个组件组成：自顶向下特征提取、特征对齐和序列编码器-解码器架构。在每个时间步骤中，AV-Map估计以摄像机为中心的邻域内的内部地图（ Mint ）和语义房间标签（ M room），并将估计结果整合到时间上。0参见图 2 ，第2列。0特征对齐在提取RGB帧和音频剪辑的特征后，每个视频由一组视觉特征 f t 和音频特征 g t 表示，其中 t = 1 , . . . , tV ，StartMove Forward𝑥!𝑥"𝑥#Turn Left 30deg𝑓!𝑓"𝑓#𝐻2𝑊2𝑟"𝑟#𝑓′!𝑓′"𝑓′#𝐻′2𝑊′2StartMove Forward𝑎!𝑎"𝑎#Turn Left 30deg𝑔!𝑔"𝑔#𝐻2𝑊2𝑟"𝑟#𝑔′!𝑔′"𝑔′#𝐻′2𝑊′2𝑓′!𝑓′"𝑓′#ConvSelf-Attentionf1𝜙%%𝜙&%𝜙'%ConvSelf-Attentionf2𝜙%&𝜙&&𝜙'&𝑊′/4H’/4𝑊′/4H’/8𝑔′!𝑔′"𝑔′#ConvSelf-Attentiong1 𝛾%%𝛾&%𝛾'%ConvSelf-Attentiong2𝛾%&𝛾&&𝛾'&𝑊′/4H’/4𝑊′/4H’/8𝑜%+UpConvSelf-Attention2𝛾!"𝜙!"𝛾""𝜙""𝛾#"𝜙#"𝛾"#𝜙"#𝑜""𝛾##𝜙##𝑜#"𝛾!#𝜙!#𝑜!"𝑜"#𝑜##𝑜!#UpConvSelf-Attention1𝑓#$𝑔#$𝑓"$𝑓!$𝑔!$𝑔"$𝑜&+𝑜'+𝐻′𝑊′1X1 ConvolutionMax-PoolInterior Map*Room Map𝑠! 0𝑠! 1: 𝑁"12345where tV is the number of frames in video V and may varyacross videos. Note that each of these features was computedindependently and thus far represents a feature aligned withthe top-down map in a canonical frame-centric coordinateframe. In order to process entire sequences, we need to es-tablish correspondences between the features at each timestep. Therefore, we next align all the features to a commoncoordinate system, relative to the first frame. In order to re-tain relative pose information, we concatenate a 64-channel2D positional encoding map [44] to each of the features (seeSupp. for more details). The aligned visual and audio fea-ϕt1 = ConvSelfAttentionf1(f ′t)(1)ϕt2 = ConvSelfAttentionf2(ϕt1),(2)γt1, γt2 the outputs of the corresponding encoding layersConvSelfAttentiong1 and ConvSelfAttentiong2. Notethat since the convolutions downsample the features, we have11860RGB特征提取特征对齐0音频特征提取特征对齐0RGB编码器0音频编码器0音频-视觉解码器0图2：AV-Map模型有三个阶段：特征提取、特征对齐和序列编码器-解码器。在每个时间步骤中，特征提取器为每种模态（全景声音频和RGB）获得独立的自顶向下的平面图对齐特征。使用相机的相对运动将这些特征对齐到一个公共坐标框架中。然后，通过一系列逐像素自注意力操作和卷积层处理音频和视觉特征的整个序列。最后，使用一系列自注意力和卷积层融合两种模态。这里展示了3个时间步的训练。无论在训练中使用多少步骤，该模型在测试时都适用于任意长度的序列。0通过用零填充、平移和旋转每个特征 f t , g t ，计算 f t , g t的 r t ，其中 H ′ > H，W ′ > W 由于填充。参见图 2，第1列和第2列底部。0序列编码器-解码器现在我们希望对每个时间步的特征进行编码，以考虑整个序列中存在的信息。例如，第二帧中墙壁的出现应该通知第一步中的特征，反之亦然。自注意力[ 44]操作已被证明对于编码这种双向关系很有用。受此启发，我们设计了一系列两个自注意力和卷积操作（如图 2所示），我们将其称为 ConvSelfAttention。自注意力操作负责在每个像素位置上跨时间步进行通信（见补充材料以与基于LSTM的模型进行比较）。我们还使用步长为2的卷积同时对特征进行下采样。我们将RGB帧的结果特征表示为：0其中 ϕ t 1 和 ϕ t 2代表中间编码器的特征。类似地，对于音频数据，我们用08 .到目前为止，我们已经独立处理了视觉和音频信息。为了充分利用两种模态的存在，我们允许跨模态信息传递。在最终的解码阶段，我们通过连接相应的中间视觉和音频特征来实现这一点。对于解码器，我们采用与编码器类似的架构，将卷积替换为转置卷积以上采样特征。我们将这些层称为UpConvSelfAttention。更具体地说，解码器由三个UpConvSelfAttention 层组成，用于计算输出：0o t 2 = UpConvSelfAttention 2 ([ϕ t 2, γ t 2]) (3)0o t 1 = UpConvSelfAttention 1 ([o t 2, ϕ t 1, γ t 1]) (4)0o t 0 = UpConvSelfAttention 0 ([o t 1, f ′ t, g ′ t])。 (5)0最终输出 o t 0 ∈ R C × H ′ × W ′ 使用 1x1卷积进行分类，给出每个时间步的最终预测 s t ∈ R (N r+1) × H ′ × W ′。第一个通道（表示为 s t [0, :,:]）表示内部空间存在的二元分数图，剩余的通道 1, 2, . . . Nr（表示为 s t [i, :,:]）表示相应房间类型存在的分数图。注意，由于上述对齐步骤，这些输出地图在第一个时间步的公共坐标框架中对齐。因此，为了生成整个序列的预测 S，我们对预测 s t进行最大池化。早期编码器-解码器中的自注意机制已经考虑了这些逐步估计的时间步之间的通信。AV-Map输出视频序列的聚合内部和房间分类分数：0S = F(v1, a1, v2, a2, . . . v t V, a t V)。Lint = 1ztV�t=1H′�i=1W ′�j=1−ˆytint[i, j] log ptint[i, j](6)Lroom = 1ztV�t=1H′�i=1W ′�j=1Nr�k=1−I�ˆytroom[i, j]=k�log ptint[k, i, j],(7)11870实际上，在训练中，我们固定序列长度 t V =4，这样可以在内存限制和学习时间整合之间取得平衡。为了说明，图 2 描述了 t V = 3 的模型实例。总之，提出的AV-Map楼层平面图估计模型在不同层次上处理音频-视觉序列。特征提取独立处理每个时间步。自顶向下的对齐将特征带到一个公共坐标框架中。编码器独立处理每个模态的序列，同时整合跨时间的信息，最后解码器融合了视觉和音频模态的信息。03.3. 训练和推断0AV-Map 的输出是一个具有 N r + 1个通道的二维地图。该模型经过训练，可以预测两个楼层平面图：内部结构和逐像素的房间标签。0预测内部地图预测内部地图是一个逐像素的二元分类问题，其中 0 表示墙壁或外部点，1表示环境内部的点（地板、家具、物体等）。根据 s t，使用 sigmoid函数计算逐像素的二元分类概率： p t int [ i, j ] = 101+exp s t � 0,i,j �for0在二维网格中的每个像素位置 i, j。0预测房间平面图预测房间平面图与预测内部地图类似，但需要将每个像素多类别分类为 N r个语义房间类型之一。因此，每个像素的类别概率使用softmax 函数计算。具体地，像素位置 (i, j) 处的类别 n ∈{ 1, 2, 3, ..., N r } 的分类概率计算为0如下： p t room [ n - 1 , i, j ] = exp st � n,i,j �0� Nr k =1 exp s t �k,i,j � 。0对于每个时间步 t，让相机周围 H × W区域的真实内部和房间地图分别表示为 y t int ∈ { 0 , 1 } H× W 和 y t room ∈ { 0 , 1 , . . . N r } H ×W。由于我们模型的预测与时间步 t = 1对齐，我们类似地对齐真实地图，通过填充零、平移和旋转r t（其中 H ′，W ′ 是由于填充而增加的维度）来获得 ˆ y tint { 0 , 1 } H ′ × W ′ 和 ˆ y t room ∈ { 0 , 1 , . . . N r } H ′× W ′。然后，对于每个时间步 t 和像素位置 (i,j)，内部和房间地图的分类目标定义如下：0其中 z = t V H ′ W ′ ，I 是指示函数，t V 是视频 V中的时间步数。我们忽略在对齐步骤中填充时产生的未使用的像素位置 ( i, j )。AV-Map使用两个目标的总和进行训练：L = L int + Lroom。在推理过程中，我们估计整个序列的内部和房间地图。如上所述，这是通过对预测的 s t进行最大池化来完成的，以产生一个序列级的预测 S。重要的是，我们模型中的自注意力层确保整个序列用于推理每个时间步。此外，由于自注意力层可以处理任意长度的序列，我们可以将训练好的模型应用于长度不同的视频。为了预测二进制内部地图，我们只需在最终的像素级内部概率处进行阈值处理 p = 0 . 5。为了获得房间地图预测，我们为每个位置分配最可能的房间标签，并使用阈值化的内部地图预测作为二进制掩码来获取其形状。03.4. 视频序列生成0为了在我们知道地面真实楼层平面图的各种3D环境中生成视频，我们使用Matterport3D数据集 [ 3 ] 1 和SoundSpaces [6]音频模拟。SoundSpaces为85个完全扫描的真实环境提供高度逼真的音频，分别分为59/11/15用于训练/验证/测试。大多数环境都是大型多房间住宅，包含各种家具。SoundSpaces为所有源-接收器位置提供预计算的脉冲响应（IR），在1m空间分辨率的密集网格上采样。模拟使用SoTA多频带光线追踪，从任意几何形状和频率相关的声学材料属性计算IR，并对传输（包括穿墙）和散射进行建模。可以将IR与任何音频剪辑卷积以生成任意选择的源-接收器位置的逼真音频，包括多个同时源。有关模拟的详细信息，请参见[ 6]，示例请参见Supp.视频。0生成楼层平面图我们使用Habitat-API [ 37]来为每个环境生成自上而下的室内楼层平面图，通过将点云投影到2D地面平面上。房间楼层平面图是使用Matterport3D房间注释构建的，通过为每个像素分配一个房间标签。我们使用Matterport3D中最常见的N r=13个房间标签（洗衣房、厨房、浴室等）。0摄像机轨迹我们通过记录自我中心帧和环绕声音沿短摄像机轨迹生成视频。由于SoundSpacesIR的网格约束，我们将摄像机位置限制在相同的1m网格上。在每个位置，摄像机平行于地面平面，并可以围绕重力轴旋转，旋转角度集合为{ 0 ◦ , 30 ◦ , 60 ◦ , ..., 330 ◦ }。轨迹是通过随机从{‘forward’, ‘left 30 ◦ ’, ‘right 30 ◦’}中采样动作，概率分别为{0.8, 0.1,0.1}，以避免不自然的频繁循环或振荡。在每一步中，保持RGB帧不变，我们记录3秒的音频。由于GPU内存限制，我们使用固定的轨迹长度 t V = 4进行模型训练。在Supp.中，我们提供了一个 t V = 1的消融实验，以展示跨序列学习的能力。对于验证和测试环境的评估，我们采样变长的轨迹 t01 Matterport3D许可证：http://kaldir.vc.in.tum.de/matterport/MP_TOS.pdf。randomly sampling actions from {‘forward’, ‘left 30◦’, ‘right30◦’} with probabilities {0.8, 0.1, 0.1}, respectively, to avoidunnaturally frequent loops or oscillations. At each step, withthe RGB frame constant, we record audio for 3 seconds.We train the models with fixed trajectory lengths oftV = 4 steps due to GPU memory constraints. In Supp. weprovide an ablation with tV = 1 to demonstrate the powerof learning across the sequence.For evaluation on thevalidation and test environments, we sample trajectories ofvariable length tV , for tV1, 2, 4, 8, 16 .11880音频我们考虑音频的两种设置：设备生成（主动）和环境生成（被动）。对于设备生成（Dev.Gen.）设置，视频录制设备（例如手机、AR头盔或机器人）在每个时间步骤也会发出固定的循环声音。我们使用一个持续3秒的频率扫描啁啾声信号，频率范围在可听范围内（20Hz-20KHz）。尽管任何发出的声音都可能提供有用的回声，但在扫描中激活的广泛频率范围预计会提供特别丰富的学习信号[24]。在环境生成设置中，系统不发出声音，而是侦听家庭中自然发生的声音。为了实现这一点，我们首先收集了一组56/32/32个持续3秒的音频剪辑，捕捉不同房间类型中物体发出的声音（例如冲水声、洗碗机声等）。这使我们能够将源声音放置在Matterport3D环境中的适当房间中。对于每个轨迹，声源的位置是随机选择的，并且播放的波形取决于该位置的房间类型。我们考虑三种被动设置：1）Env.Telephone：源接近（在轨迹中的40m2区域内）其中一步，并播放“电话”声音；2）Env.Nearby：再次有一个单一的声源靠近轨迹，但音频剪辑根据采样源位置的房间类型而变化；3）Env. AllRoom：在每个房间中随机放置一个源，并且所有源同时播放与其房间类型相关联的声音。04. 结果0通过广泛的定性和定量结果，我们证明我们提出的模型可以有效地利用音频和视觉信号来推理环境内部的范围（第4.1节）并将内部区域分类到相关的房间（第4.2节）。0基线为了对我们提出的模型进行彻底分析，我们考虑了几个基线。仅内部：在考虑的邻域中预测内部像素（1s）的简单基线。投影深度：通过将深度图投影到地面平面上计算的标准占用图[9，4]。请注意，我们的AV模型不使用深度，只使用RGB和音频。02 从freesound.org下载0表1：内部重建：我们的AV-Map模型（这里使用设备生成的声音）优于现有方法和基线。只创建二进制地图输出的方法无法通过AP进行评分（NA）。标准误差最大为0.0018；详细信息请参见补充材料。0AP 准确率边缘 AP0仅内部 NA 50.00 NA 投影深度 NA 53.73 NA OccAnt[34] 60.27 58.45 51.52 OccAnt [34] +40m2区域 68.2462.89 51.88 声学回声[13] NA 50.37 NA0(我们的) 仅RGB 71.07 65.15 53.90 (我们的) RGB+D71.70 65.60 53.34 (我们的) 仅音频 69.99 64.83 53.20(我们的) 音频-视觉 73.28 66.52 54.670OccAnt[34]：SoTA占用预测模型[34]通过学习从RGB-D中推断出内部地图（在每个时间步骤）来超越可见地面平面投影。这是一个关键的基线，用于测试我们声音能否更好地“看到”视觉观察之外的东西的主张。我们使用作者的代码，因为他们报告的结果仅在Gibson上进行测试，而在Gibson上不存在声音模拟。为了公平比较，我们报告了使用OccAnt完全按照其提出的方式（估计相机前方9m2[34]）以及重新训练OccAnt以估计相机周围40m2（与我们的模型相同区域）的结果。声学回声[13]：该方法假设所有房间形状都是凸多面体，并通过听取音频回声来估计房间形状。然而，这种方法需要知道每个麦克风位置的地面真实脉冲响应，而我们的方法无法获得。尽管这种方法的设置是人为的，但我们将其用作现有仅音频方法可以提供的上限。我们的仅音频和仅RGB：作为我们模型的割裂，我们训练了删除了其中一种模态的变体。请注意，现有的模型如FloorNet[29，8]不适用，因为它们需要完全扫描的点云作为输入。在我们的设置中，输入只是一系列短的自我中心RGB视图和音频。04.1. 室内平面重建0首先我们展示室内平面的结果。我们设置H×W以覆盖每个时间步长的40平方米区域（见Supp.以获得164平方米的类似结果）。由于我们汇总了所有时间步长的预测结果，最终累积的区域随步数和移动方向而变化，每步最多增加6.25平方米，最终输出区域范围从40平方米（1步）到134平方米（16步）。0评估指标我们使用三个指标：平均精度（AP），准确度（Acc.）和边缘平均精度（Edge AP）。AP和Acc将S[0,:,:]与二进制地图的真值进行比较。EdgeAP比较预测地图和真值地图的边界，以强调边界形状的差异。所有像素都在重新加权。(Ours) AV-MapOcc Ant [34]Occ Ant [34]Occ Ant [34](Ours) AV-Map(Ours) AV-MapOcc Ant [34](Ours) AV-MapTrue Pos.True Neg.False Pos.False Neg.11890图3：室内地图预测：这里我们可视化了OccAnt[34]和我们提出的音频-视觉模型在设备生成的音频设置中估计的重建室内地图。在3D示例中，红色圆锥体是相机位置，青色是观察到的地面区域，透明浅绿色是我们模型推断的自由空间。2D输出地图根据真值进行了颜色编码（见图例）。完美的2D地图将全部为绿色和黑色。我们的方法通过使用音频“看到”了更大的区域，并且比最先进的映射方法[34]产生了更准确的地图，该方法也试图对直接观察到的区域进行外推。0AV-Map - [AV-Map � RGB-Only]0RGB-Only - [AV-Map � RGB-Only]0图4：AV-Map vs.RGB-only：AV-Map及其RGB-only变体的示例室内地图预测。红色表示AV-Map正确捕捉到的室内位置，但RGB-only模型未捕捉到。蓝色表示RGB-only模型捕捉到但AV-Map未捕捉到的位置。请注意，AV-Map可以预测相机无法看到的区域（圆锥体），而RGB-only模型无法捕捉到这些区域。0指标以平衡标签0和1的贡献。0与基准方法的比较表1呈现了我们的核心结果，对所有模型在未见环境中长度为4步的测试轨迹上进行了定量评估。我们的AV-Map模型在所有三个指标上均优于所有基准方法。此外，我们的完整AV模型在音频和RGB（+/-D）两种模态的变体上都表现出较大的优势。这表明我们的模型成功地通过利用两种模态的重要线索进行了联合推理。我们的RGB-only /Audio-only模型本身就比现有的任一模态的方法更强大[34,13]，这显示了我们提出的框架的优势，即使没有更多模态的优势。图3显示了与[34]最佳现有方法相比的示例地图预测。它们突出显示了音频如何允许“看到”相机后面以及推断大型多房间住宅中墙后的自由空间。图4比较了AV-Map及其RGB-only变体。0音频设置的比较表2比较了我们AV-Map模型在第3.4节中描述的三种音频设置下的结果。设备生成的音频允许我们捕捉相机附近的结构，而环境生成的音频则捕捉了有关相邻或远处房间的信息。因此，两者都具有互补的优势。我们的模型在设备生成的音频设置下运行时表现更好。这也是预期的，因为频率扫描音频允许我们捕捉到可听范围内的所有频率，而不像自然发生的声音那样。02468101520253012481611900相对0准确度增益0完整环境0准确度0步数0我们相对于RGB-only的增益0图5：轨迹长度的影响0表2：不同音频设置下的室内重建：AV

下载后可阅读完整内容，剩余1页未读，立即下载