在不同的层次上发送人体部分,并且边缘e∈E是两个-
元组
e
=(
u
,
v
),表示节点
v
是节点
u
的一部分的组
成关系。 如图在图
2
(
c
)中,节点被进一步分组为
L
(
= 3
)个级别
:
. .
其中
V
1
是叶节点(通常在普通人
类解析器中考虑的最细粒度的语义部分),
V2
={
上半身,下半身
}
,
V3
={
全身
}
。对于每个节点
v
,我
们想要推断一个分割图y
v
∈ Y,它是它的标签的概率
图。 请注意,
问题设置不引入任何附加的注释要求,因为可以通过
简单地组合较低级别的标签来获得较高级别的注释。
当
为
v推断y v时,存在三个不同的信息源:1)原始
输入图像,2)父节点u的y
u
,以及3)所有子节点w的
y
w
。我们将
y
v
的最终预测视为来自这三个来源的信息
的融合。接下来,我们简要回顾了不同的方法来建模
这个信息融合问题,动机我们的解决方案和网络设计
的人类解析。
3.1.
信息融合
信 息 融 合 指 的 是 组 合 来 自 若 干 源
Z
=
{
z
1
,
z
2
,
···
,
z
n
}
的信息以便形成测量
/
预测目标
y
的统一
图像的过程。每个源提供目标的估计这些来源可以
是原始数据
x
或其他一些量化数据,
可以从x推断出的关系。已经提出了几种方法来解决这
个问题。
•
专家 产品(PoE)[26]将每个来源视为它将概率相
乘,然后重新归一化:
Q
n
p(y|z)
其中A(θ)是使分布归一化的对数配分函数。计算A
(θ)通常是棘手的,因此通常通过近似方法给出解决
方 案 , 例 如 Monte Carlo 方 法 或 ( 循 环 ) 置 信 传 播
[60]。
3.2.
组合神经信息融合
上述方法都可以被视为近似真实基础分布p(y
)的
方法
|Z),其可以被写为来自不同信息源Z的预测的函
数:
p
(
y
|
Z
)
=
f
(
p
(
y
|
z
1
)
,
p
(
y
|
z
2
)
,
···
,
p
(
y
|
z
n
))
。
(六
)
遵循上述方法之一的精确解存在潜在的第一,它们并
不完全一致。例如,PoE将所有p(y|z
i
)在一起,而
集合方法计算它们的加权和。每种方法都近似于
真正的分布以不同的方式,并有自己的权衡。第二,
精确推理是困难的,解决方案往往是近似的(
例如
,
对 比 发 散 [27] 用 于 图 形 模 型 的 PoE 和 Monte Carlo 方
法)。
因此,我们利用神经网络直接对该融合函数进行建
模,而不是完全遵循上述方法之一的计算,因为它们
具 有 灵 活 的 特 征学 习 和 函 数 近似 的强 大能 力 [28,
37]。希望我们可以直接学习融合多源信息来完成特定
任务。
然而,融合网络不应该在没有归纳偏差的情况下任
意学习[9,52,2],这是人类推理过程中表现出的结
构解释的偏好。在这里,我们利用了