室内语义分割：联合推理与几何感知的创新策略

PDF格式 | 1.3MB | 更新于2025-01-16 | 16 浏览量 | 举报

室内语义分割是计算机视觉领域中的关键任务，它旨在对室内场景中的每个像素进行精确的语义标注，以提升对环境的理解，这对于机器人导航、视觉SLAM（Simultaneous Localization and Mapping，同时定位与地图构建）以及虚拟/增强现实应用至关重要。传统的RGB图像方法可能因缺乏深度信息而难以处理某些模糊场景，比如难以区分颜色相近的物体，如床上的枕头与床。本文针对这一问题，提出了一种联合推理的语义分割和深度信息处理策略。该方法主要依赖于RGB-D数据，即同时包含颜色（RGB）和深度信息的图像。传统的RGB-D语义分割方法通常依赖于精确的深度图，但这种要求限制了其广泛应用性。为了打破这种限制，研究者提出了一种新颖的几何感知传播框架，它能够从RGB-D数据中联合推理二维的外观特征和三维的几何信息。这种方法的核心在于提取几何感知嵌入，这种嵌入能够消除对精确深度图的依赖，同时充分利用深度信息中的有用特性。嵌入学习不仅提高了语义分割的精度，而且通过一个解耦的架构，将语义分割任务与几何嵌入学习分开，使得网络能够更高效地处理这两个相关但独立的任务。论文中的关键贡献包括： 1. **几何感知嵌入**：通过深度信息的几何感知，从RGB-D数据中提取更加鲁棒和丰富的特征表示，减少对精确深度图的依赖。 2. **联合推理**：将深度信息与二维外观信息相结合，通过联合推理提高语义分割的准确性。 3. **信息传播和特征融合架构**：设计了一个多级跳过特征融合块，促进信息在网络内的有效传播，增强特征的融合和表示能力。 4. **解耦网络设计**：将语义分割和几何嵌入学习分离为两个子任务，这样可以优化网络结构，提升整体性能。 5. **挑战性实验**：通过在公开可用的具有挑战性的室内数据集上与最先进的语义分割方法进行对比，验证了该方法的有效性和优越性。这项研究为室内语义分割提供了一种更为灵活和鲁棒的方法，能够在实际应用中展现出更强的泛化能力和适应性，有望推动RGB-D技术在更多领域的应用。

2869

用于室内语义分割

焦建波

，魏云超

，杰泽群

，石红辉

，刘仁森

，托马斯

。黄

牛津大学工程科

学系

UIUC，

腾讯人工智能实验室，

IBM研究院，

香港城市大学

jianbo@robots.ox.ac.uk，{wychao 1987，zequn.nus，shihonghui 3}@ gmail.comrynson.

cityu.edu.hk，t-huang1@illinois.edu

摘要

结果表明，从

RGB-D

域联合推理二维外观和三维信

息，有利于室内场景的语义分割。然而，大多数的经

验方法需要精确的深度图作为输入来分割场景，这严

重限制了它们的应用。在本文中，我们提出了联合推

断的语义和深度信息，通过提取几何感知嵌入消除这

种强约束，同时仍然利用有用的深度域信息。此外，

我们使用这种学习嵌入来提高语义分割的质量，

（

一

）

（

）

第

（

）

款

地面实况

分段，通过提出的几何感知传播框架，随后是几个多

级跳过特征融合块。通过将单个任务预测网络解耦为

语义分割和几何嵌入学习的两个联合任务，以及所提

出的信息传播和特征融合架构，我们的方法被证明可

以在公开可用的具有挑战性的室内数据集上与最先进

的语义分割方法进行比较。

介绍

语义分割是计算机视觉中的一个基本而又复杂的问

题，它是对室内场景中每个像素的语义标签进行推断

通过语义分割来获得更好的场景理解，对机器人、视

觉SLAM和虚拟/增强现实等应用有着重要的意义。与

基于 RGB 图像的方法相比，基于具有深度的 RGB

（RGB-D）的方法可以利用来自场景的附加3D几何信

息来有效地解决对于2D外观单独方法具有挑战性的模

糊性，

例如

，一些

枕头

在

床上

与

床

相似的颜色（图

1）。

先前的RGB-D语义分割方法通过将深度

通讯作者

图 1. 图示对的有效性的 (b)蒸馏

与（a）传统RGB相比，几何感知深度嵌入用于语义分割。

信息[33，12，34，13，11，6，32]。实现这一目标的

方法主要有两种：使用手工制作的功能或部署基于

CNN的模型。早期的作品使用手工制作的图像描述

符，如SIFT或HOG，从RGB图像中提取特征。一些特

别设计的特征（

例如

，用于深度描述的表面法线

[34]、深度梯度或自旋[33]）也用于支持最终分割。对

于基于CNN的模型，全卷积网络（FCN）[28]由于通

过学习方式提取的高度代表性特征，大大提高一般来

说，两个独立的FCN用于从RGB和深度通道中提取特

征，然后进行简单的融合[28，11]以进行语义标签预

测。

所有上述方法都需要与输入RGB图像相关联的地面

实况深度图然而，从场景中收集深度数据并不方便与

RGB图像捕获进行比较，并且深度和RGB之间的对准

本身是一个具有挑战性的问题。因此，我们对这样一

个问题感兴趣：是否可能仅将用于语义分割几何信息

与单个RGB图像合并作为输入？

一些研究尝试[37]已经提出了预-

DepEm

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

室内语义分割：联合推理与几何感知的创新策略

深度学习用于语义分割

上海计算机软件行业算法工程师(感知)岗位介绍JD模板.docx

动态环境下的语义SLAM算法.docx

通过高效的高阶CRF进行语义3D占用映射_C++_C_下载.zip

ShapeConv：提升室内RGB-D语义分割的深度特征处理方法

跨视图变换器：实时地图语义分割新方法

3D-SIS：RGB-D扫描的高效3D语义实例分割方法

新型深度畸变卷积神经网络研究与边界分割精度提升

MGNet：融合全景分割与自监督深度估计的自动驾驶单目理解框架

计算几何中的计算机视觉应用：从图像处理到物体识别（赋能人工智能）

最新资源