PastaNet：基于部位状态推理的人类活动识别突破

PDF格式 | 1.17MB | 更新于2025-01-16 | 56 浏览量 | 举报

1 收藏

PastaNet是一种创新的活动识别方法，它旨在解决基于图像理解活动的现有技术所面临的挑战。传统方法倾向于通过直接将图像映射到活动概念，这种方式在处理图像与活动之间的巨大差距时遇到瓶颈。PastaNet提出了一种新的路径，即首先通过分析人体部位状态，再利用部位层次语义进行推理，从而更深入地理解人类活动。 "人体部位状态"（Pasta）被定义为细致的动作语义单元，如“手”、“握”、“物”、“物”，这些元素能够组合成各种活动，有助于构建统一的人类活动知识框架。这种方法强调了对动作细节的关注，而不是单纯依赖于整体实例级语义（如图1（a）所示的“人踢足球”）。为了充分发挥Pasta的潜力，研究者们构建了一个大规模的知识库，名为PaStaNet，它包含了超过700万个Pasta的注释，为模型训练提供了丰富的数据支持。他们开发了两个关键模型：Activity2Vec用于提取Pasta特征，实现活动的通用表示；另一个模型则是基于Pasta的推理机制，用于准确推断出活动。 PaStaNet的应用显著提高了活动识别的性能，特别是在监督学习场景下，如在COCO集上的完整性和一次性评估中，分别达到了6.4和13.9的mAP（mean average precision）分数。这种方法的成功证明了通过细分和层次化的处理方式，能够有效应对长尾数据分布和复杂视觉模式等问题，从而推动了智能系统的构建。 PastaNet不仅提升了活动识别的准确性，还展示了如何通过结合深度学习和细致的部件状态注释来构建一个强大的知识引擎，支持对人类活动的深层次理解和推理。这个方法为未来的视觉理解任务，特别是活动识别领域，开辟了新的研究方向。

384

或者在详尽地审查了收集的20万多张图像后，我们发

现对任何人体部位的描述都可以归纳为有限的类别。

也就是说，每个部件的PaSta类别编号是有限的。特别

是，一个人可能有一个以上的行动同时，因此每个部

分可以有多

个

PaSta，太。

数据收集。一般来说，我们通过众包收集以人为中心

的活动图像（30K图像与粗略的活动标签配对）以及

现有的精心设计的数据集[4， 3， 25， 33，66，36]

（185K图像），这些数据集围绕丰富的语义本体，多

样性和活动的可变性进行结构化。他们的所有注释的

人和ob-

人用瓶装饮料

手机上的人类

用右手握住某物

用头说话用右手

握住某物

为我们的建筑提取了木材。最后，我们收集

头

看

某物

坐在某物

人力自行车

右手握住某物右脚踩在某物上

活动解析树

超过20万张不同活动类别的图像

左手握住某物左脚踩到某物

活动标签。PaStaNet的活动类别是根据最常见的

人类

日常活动，与对象和人的交互

来选择的。参考分层活

动结构[12]，现有数据集中的常见活动[4，25，66，

33，24，12，1，36]和众包标签，我们从118 K图像中

选择了156个活动，包括人-物体交互和身体运动。根

据它们，我们首先从现有的数据集和众包中清理和重

组注释的然后，我们对其余图像中的活动人物和互动

对象进行注释。因此，PaStaNet包括156个活动的所有

活动的人和对象边界框。

身体部位包装盒。为了定位人体部位，我们使用姿势

估计[15]来获得所有注释人员的关节然后我们生成

十

个

身体部分框[13]。手动解决估计错误，以确保高质

量的注释。每个零件框都以关节为中心，并且通过缩

放颈部和骨盆关节之间的距离来预定义框大小。置信

度高于0.7的关节当不是所有的关节可以检测到，我们

使用

身体知识为基础的规则

。也就是说，如果颈部或

骨盆不可见，我们将根据其他可见的关节组（头、主

体、手臂、腿）配置部件框，

例如

，如果只有上半身

可见，我们将手框的大小设置为瞳孔距离的两倍。

PaSta注释。我们通过众包进行注释，收到了224,159个

注释上传。过程如下：（1）首先，考虑到推广性，我

们选择了 PaSta类。基于 156个活动的动词，我们从

WordNet [44]中选择了200个动词作为PaSta候选，

例

如

， “hold”, “pick” for hands, “eat”, “talk to” for head,

如果零件没有对于任何活跃状态，我们将其描述为

“不采取行动”。 2)其次，找到最常见的PaSta，可以作

为可

转移的活动知识

，我们邀请了150个来自不同背

景的注释者，用PaSta候选人注释156个活动的10K图像

（图10）。2）。例如，给定一项活动

图

2. PaSta

注释。基于实例活动标签，我们添加细粒度的主

体部分框和相应的部分状态

PaSta

标签。在

PaSta

中，我们使

用

活动解析树

中的边表示统计同现。

它是指

坐在上面，

握着手

，拿着东西

，

踩

着、踩着、踩着的东西等

。3)基于他们的注释，我

们使用归一化逐点互信息（NPMI）[6]来计算活动和

PaSta候选者之间的同现。最后，我们选择76个具有最

高NPMI值的候选数据作为最终的PaSta。4)使用10K图

像的注释作为种子，我们自动为所有其余图像生成初

始PaSta因此，其他210个注释器仅需要修改注释。5)

考虑到一个人可能有多个动作，对于

每个

动作，我们

分别标注了它对应的十个Pasta。然后我们结合所有动

作的PaSta集合。因此，一个部件也可以具有多个状

态，

例如

，在“边吃边说”中

吃

，吃

，

光头

，看，有东西

在同时移动。6)为确保质量，每张

图像将被注释两次，并由自动程序和监督员进行检查

我们对所有标签进行聚类并丢弃离群值以获得稳健的

协议。

活动解析树为了说明PaSta和活动之间的关系，我们使

用它们的统计描述来构建一个图（图1）。2）：活动

是根节点，PaSta是子节点，并且边是同现。

最后， PaStaNet 包括

118K+

图像，

285K+

个人，

250K+

交互对象，

724K+

实例活动和

7M+

PaSta。参考设

计良好的数据集[24，12，4]和WordNet [44]，PaSta可

以覆盖大部分情况，具有良好的泛化能力。为了验证

PaSta已经编码了公共部分级活动知识并且可以适应各

种活动，我们采用了两个实验：

覆盖实验。为了验证PaSta可以覆盖大多数活动，我们

收集了其他50K图像关于PastaNet这些图像包含各种

活动和

手握

0.574

瓶装

饮

料

头

0.400

饮料

正面

谈话

0.35 4

手柄

0.497

手机

通

话

手柄

0.43 0

脚踏

0.355

骑

自

行车

髋

坐在

零点二

零三

6e-05

头

看看

剩余12页未读，继续阅读

cpongm

粉丝: 6

PastaNet：基于部位状态推理的人类活动识别突破

基于模糊推理的自动泊车系统：高效与精准的平行泊车路径规划策略,自动泊车:基于模糊推理的平行泊车路径规划 ,核心关键词：自动泊车; 模糊推理; 平行泊车; 路径规划; 智能算法 ,基于模糊推理的自动

ICLR 2020 # 知识图谱推理框架：基于向量空间的推理和数值逻辑推理

基于Labview与Yolov5的快速准确车牌号识别系统：使用ONNX Runtime推理并封装DLL以实现高效调用与源码库函数,LabVIEW与Yolov5深度融合：快速高准确度车牌号识别ONNXR

基于产生式规则的动物识别系统正反向混合推理 python

如何使用规则引擎实现一个简单的游戏人物识别专家系统？请结合提供的资源《游戏人脸识别专家系统：基于15条规则的程序源代码解析》给出具体实现步骤。

在模糊逻辑中，矛盾否定、对立否定和中介否定如何影响模糊拒取式推理模型的构建？请结合《模糊拒取式推理研究：基于不同模糊否定的算法》一文内容给出具体解释。

基于coco数据集人体姿态识别

基于知识图谱的推理算法

在基于EEG数据的驾驶员情感状态识别中，贝叶斯网络模型的具体应用机制是什么？

如何构建一个基于产生式系统的动物识别应用，并通过正向推理来识别老虎、金钱豹等动物？请详细描述规则库的设计和实现过程。

最新资源