I
.
C
h
e
ra
b
ie
r
,
J
.
L
.
S
cho
¨
nb
e
rg
e
r
,
M
. R.
你
好,
M
。
Polle
e
fey
s
,
A
.
G
eige
r
将它们应用于2D图像处理任务,包括深度超分辨率[32],去噪[18,25,39],
去模糊
[18]
,立体匹配
[39]
和图像分割
[30]
。通常,各个优化步骤被展开并作为
层嵌入到神经网络中。我们的工作建立在这些想法,并将它们定制为多视图语
义三维重建问题,使用一种新的多尺度神经网络架构的联合几何和语义推理。
已学习形状先验。
最近,已经提出了基于深度学习的方法用于深度图融合
[15]、3D对象识别[16,24]或使用密集体素网格作为输入的3D形状完成[6,
8,9,36,38,40]所有这些AP-
虽然这些方法依赖于通用的3D卷积神经网络架构,但它们需要非常大量的参数
和大量的训练数据。相比之下,我们的方法是更轻的重量,因为它明确地通过
展开变分推理纳入结构约束,因此限制了所需的参数的数量尽管最近有使用数
据自适应结构来改变这些方法的空间可伸缩性的努力
[11
,
33
,
34
,
37]
,但当
前的结果大多限于单个对象或简单场景,并且考虑相对较小的分辨率。然而,
这些工作都没有考虑语义多视图三维重建任务,这是本文的重点。此外,我们
的方法是完全卷积的,因此也可以扩展到非常大的场景。
3
方法
使用通用
3D
卷积神经网络进行语义
3D
重建需要大量的内存和训练数据。因
此,在本文中,我们提出了一个更轻的重量的替代方案,它嵌入了一个多标签
的优化任务到一个语义
3D
重建网络的层。我们首先在第
3.1
节中介绍我们的多尺
度网络架构,然后在第3.2节中详细描述嵌入式变分问题,并在第3.3节中描述
我们用于训练模型的损失函数。
3.1
网络架构
所提出的用于语义3D重建的网络架构在图1中示出。2.我们网络的输入是一组语
义标记的深度图,这些深度图聚合成截断符号距离函数(
TSDF
)的
3D
体积。
更具体地说,我们遵循[12]并积累每个标签的证据,
例如。
使用来自立体的深
度图和相应的语义图像分割。与传统的
TSDF
融合一样,我们跟踪每个深度图中
每个像素的光线,以确定哪些体素被占用或为空。然而,我们不是使用固定的
我们的网络的输出是体积语义3D重建,其中每个体素具有语义类标签或自由空
间标签中的一个
我们的网络包括三个组成部分(见图
1
)。图
2
):编码器(黄色)、展开的
原始对偶优化层(蓝色)和解码器(橙色)。我们