神经网络驱动的层次结构融合：提升人类解析效率与精度

42 浏览量更新于2024-06-20 收藏 1.9MB PDF 举报

本文主要探讨了一种创新的人类解析方法，即学习组合神经网络信息融合，该工作由王文等人提出，并在国际知名机构如阿联酋Inception人工智能研究所、天津大学电气与信息工程学院以及美国加州大学洛杉矶分校进行合作。研究目标是将神经网络技术与人体的组成层次结构相结合，实现对人类图像中语义部分的精确识别和解析，这在监控分析、时尚合成等应用领域具有重要意义。作者们构建了一个神经信息融合框架，其核心思想在于利用层次结构进行信息的多源融合。这个框架包含三个推理过程：直接推理（利用图像信息直接预测人体各部位）、自底向上推理（从低层次部分逐步组装知识）和自顶向下推理（根据父节点的上下文信息进行指导）。这种设计模仿了人体内部的组合和分解关系，增强了模型的表达能力和准确性。值得注意的是，模型融合多源信息的方式是基于输入的条件，即根据每个信息源的置信度进行估计和权重分配。这种融合策略确保了模型能够有效地整合不同来源的线索，提高解析的精度。此外，整个模型采用端到端设计，清晰地展示了信息流动和结构关系。实验部分，研究人员在四个流行的人体解析数据集上进行了全面评估，结果显示他们的方法显著优于当前最先进的技术，并且具有23帧每秒的高效处理速度，这在实时应用中具有很大的优势。为了方便后续研究，作者们已经公开了他们的代码和实验结果，这无疑将推动该领域的进一步发展。总结来说，本文的贡献在于提出了一种新颖的神经网络架构，通过层次结构和多源信息融合策略，提高了人类解析的准确性和效率，为相关领域的实际应用提供了强有力的技术支持。这一成果对于理解人类形态的复杂性，优化计算机视觉系统，以及推动人工智能技术在更多场景的应用具有重要意义。

5705

p（Z |y）p（y）

（

）

（

）

（

（1

，

）

−

（

）

（

二）

p（Z

）

（

）

（

−

）

然而，要学习所有的条件分布是非常困难通过假设不

同信息源的独立性，我们有朴素贝叶斯：

p（y|Z）p（y）

p（z

（

y）

、

（

）

我

图2：给定一个输入图像（

），我们的合成和一致性神经信

息融合在人类图（

）上执行，以产生分层解析结果。

其用作真实分布的近似值。

•

集成方法。在这种方法中，每个z

都

是预测y的分类

器。典型的集成方法是贝叶斯投票[10]，它对每个分

类器

得到最终的预测：

工作中具有较强的学习能力，提高了代表性，

p（y

Z）

（

）

（

）

。

（四

）

功率，以及高处理速度。

我们的方法

从形式上讲，我们代表了人类身体

AdaBoost [18]算法也属于这一类。

•

图形模型（

例如

，条件随机场）。在这样的模型

中，每个

可以被看作是一个节点，有助于条件概率：

结构为图

（

，

），其中节点

v∈V

表示-

（y|Z）

exp

{

（

，

）

−

（

）

}

，

（

）

我

在不同的层次上发送人体部分，并且边缘e∈E是两个-

元组

=（

，

），表示节点

是节点

的一部分的组

成关系。如图在图

（

）中，节点被进一步分组为

（

= 3

）个级别

：

. .

其中

是叶节点（通常在普通人

类解析器中考虑的最细粒度的语义部分），

上半身，下半身

}

，

全身

}

。对于每个节点

，我

们想要推断一个分割图y

∈ Y，它是它的标签的概率

图。请注意，

问题设置不引入任何附加的注释要求，因为可以通过

简单地组合较低级别的标签来获得较高级别的注释。

当

为

v推断y v时，存在三个不同的信息源：1）原始

输入图像，2）父节点u的y

，以及3）所有子节点w的

。我们将

的最终预测视为来自这三个来源的信息

的融合。接下来，我们简要回顾了不同的方法来建模

这个信息融合问题，动机我们的解决方案和网络设计

的人类解析。

3.1.

信息融合

信息融合指的是组合来自若干源

{

，

···

，

}

的信息以便形成测量

预测目标

的统一

图像的过程。每个源提供目标的估计这些来源可以

是原始数据

或其他一些量化数据，

可以从x推断出的关系。已经提出了几种方法来解决这

个问题。

•

专家产品（PoE）[26]将每个来源视为它将概率相

乘，然后重新归一化：

p（y|z）

其中A（θ）是使分布归一化的对数配分函数。计算A

（θ）通常是棘手的，因此通常通过近似方法给出解决

方案，例如 Monte Carlo 方法或（循环）置信传播

[60]。

3.2.

组合神经信息融合

上述方法都可以被视为近似真实基础分布p（y

）的

方法

|Z），其可以被写为来自不同信息源Z的预测的函

数：

（

）

（

）

，

（

）

，

···

，

（

））

。

（六

）

遵循上述方法之一的精确解存在潜在的第一，它们并

不完全一致。例如，PoE将所有p（y|z

）在一起，而

集合方法计算它们的加权和。每种方法都近似于

真正的分布以不同的方式，并有自己的权衡。第二，

精确推理是困难的，解决方案往往是近似的（

例如

，

对比发散 [27] 用于图形模型的 PoE 和 Monte Carlo 方

法）。

因此，我们利用神经网络直接对该融合函数进行建

模，而不是完全遵循上述方法之一的计算，因为它们

具有灵活的特征学习和函数近似的强大能力 [28，

37]。希望我们可以直接学习融合多源信息来完成特定

任务。

然而，融合网络不应该在没有归纳偏差的情况下任

意学习[9，52，2]，这是人类推理过程中表现出的结

构解释的偏好。在这里，我们利用了

（

）

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

神经网络驱动的层次结构融合：提升人类解析效率与精度

卷积神经网络解析：从画面识别到Inception与ResNet

软计算：模糊逻辑、神经网络与进化算法的融合应用

智能信息处理技术：模糊逻辑与神经网络

深度学习初探：神经网络基础原理解析

基于卷积神经网络的图像识别技术解析

基于卷积神经网络的图像分类技术解析

实体识别的神经网络应用：案例与原理深度解析

【CNN视觉应用全解析】：Python构建的卷积神经网络案例

神经网络在NLP中的应用：从文本分类到机器翻译的深度解析

Matlab深度学习引领：梯度下降与神经网络

最新资源