Safa Messaoud、David Forsyth和Alexander G. Schwing
不同的像素然而,在大型输出空间上定义的经典马尔可夫随机场中推断
最可能的配置需要大量计算[34
高斯马尔可夫随机场[38]代表了允许有效和精确推理的情况之一。它
们对数据的联合分布进行建模,例如,将图像的两个颜色通道的像素值
作为多变量高斯密度。高斯马尔可夫随机场过去已用于不同的计算机视
觉应用,包括语义分割[39-41],人体部位分割和显著性估计[40,41],图
像标记[42]和图像去噪[43,44]。在[8]中提出了一个用LEARCH框架训练
的稀疏高斯条件随机场用于着色。与这种方法不同的是,我们使用完全
连接的高斯条件随机场,并使用深度网络端到端地学习其参数。除了结
构的一致性,我们的目标是共同建模的模糊性,这是一个固有的一部分
的着色任务。为此,我们利用变分自动编码器。
变分自动编码器:变分自动编码器(VAE)[21]和条件变体[45],
即,条件性VAE(CVAE)已被用于在各种任务中对歧义进行建模
[46,47]。 它们基于流形假设,该流形假设陈述了高维数据点
X
(诸如彩色图像)可以基于低维嵌入
z
和一些辅助数据
g
(
诸如灰
度图像)来建模。形式上证明了低维嵌入
空间的存在性和通过条件
p
θ
(
x
)的变换
|
z
,
g
)。给定包含条件信息
g
和期望输出
x
对的数据
集D,即, 给定D ={(
g
,
x
)},CVAE表示条件对数
似然
lnp
θ
(x
)的最大化
|
g),由θ参数化,通过考虑以下恒等式:
l
n
p
θ
(
x
|
g
)
−
D
K L
(
q
φ
(
z
|
x
,
g
)
,
p
θ
(
z
|
x
,
g
))
=
(
1)
−
D
K L
(
q
φ
(
z
|
x
,
g
)
,
p
(
z
|
g
))
+
E
q
(
z
|
x
,
g
)
[
l
n
p
θ
(
x
|
g
,
z
)
]
。
因此
,
DKL
(
·
,
·
)
不存在两个分布的
Kull-bac
-Lei
ble
(
KL
)
分布,且
q
φ
(
z
|
x
,
g
)用来逼近难以处理的后验
p
θ
(
z
|
x
,
g
)的深度网,该深度网
对条件
p
θ
(
x
)进行建模
|
g
,
z
)。后部的近似,即,
q
φ
(
z
|
x
,
g
)被
称为编码器,而用于重构的深层网,即,为了模拟条件
p
θ
(
x
|
g
,
z
)通
常称为解码器。
由于KL散度是非负的,我们得到了数据对数似然
lnp
θ
(x
)的一
个下界
|
g)当考虑等式中给出的恒等式的右手侧时,1.一、CVAE最小
化该下限的否定版本,即,
1
Σ
N
m
in
D
K L
(
q
φ
(
z
|
x
,
g
)
,
p
(
z
|
g
))
−
θ
,
φ
其中期望E
q
φ
(
z
|
x
,
g
)
通过
N
个样本z
i
q
φ
(z
)来近似
|
x
,
g)。为了简
化说明,我们忽略了数据集
D
中的样本的求和,并提供了用于训练单
个对(x
,
g)的目标。
接下来,我们将讨论如何将这些成分结合起来,以实现多样化、
可控但结构连贯的着色。