没有合适的资源?快使用搜索试试~ 我知道了~
13369一BCNI用于人机交互理解的一致性感知图网络Zhenhua Wang<$,Jiajun Meng <$$>,Dongyan Guo<$,Jianhua ZhangZhang,Javen QinfengShiYong,Shengyong Chen浙江工业大学天津工业大学阿德莱德大学{zhhwang,guodongyan,1112012021}@zjut.edu.cn,{zjh,sy}@ieee.org,javen. adelaide.edu.au摘要相对于人类活动分类的进展,人与人之间的交互理解(HIU)的研究还远远不够。除了后一个任务更具挑战性之外,主要原因是现有方法通过浅图形模型来学习人类交互关系本文提出了一种具有一致性感知的图网络,它结合了图网络的表示能力和一致性感知的推理能力,以促进HIU。我们的网络由三个组件组成,一个主干CNN提取图像特征,一个因子图网络学习参与者之间的三阶交互关系,以及一个一致性感知推理模块来执行标记和分组一致性。我们的主要观察是,HIU的一致性感知推理偏差可以嵌入到能量中,最小化提供一致的预测。提出了一种有效的平均场推理算法,使得网络的所有模块可以以端到端的方式联合训练。实验结果表明,我们的方法在三个基准测试中取得了领先的性能代码可在https://git.io/CAGNet上获得。1. 介绍分析自然场景中的人类活动是许多潜在应用的基本任务,如视频监控[35],关键事件检索[12],社会行为解释[2]和体育分析[28]。人类活动识别(HAR,目标是为每个图像或视频分配活动标签)[7,25,16,33,21,43,43,27]已经开发了大量技术,这些技术在识别准确性方面取得了令人印象深刻的进展。然而,人类交互理解(HIU)的任务并不成功,主要是因为当前的方法学习张建华{zjh@ieee.org}为通讯作者。BKKK3人的场景GroundTruth不一致预测图1. HIU在一个有三个人的场景中的图形表示。我们将HIU分解为两个子任务:识别个人行为(如节点标签所示,KK,BK,HG,NI分别表示踢,被踢,拥抱,无交互)以及预测任何一对人是否正在交互(实线边缘)或不交互(虚线边缘)。将一致性未知的模型应用于此类情况可能会导致不一致的预测,如红色边缘和标签所突出显示的(详细信息请参见第1节)。我们解决这个问题,提出了一个一致性感知的图形网络与两种类型的三阶依赖合并。通过浅图形表示的人类交互关系[42,41,40,25,7,46],这不足以模拟复杂的人类交互,例如,打斗和追逐是在同一个场景中同时发生的两个活动。正如文献[25,42,40,41]中通常所做的那样,我们将HIU分解为两个子任务,如图1中所示:1)为每个参与者分配动作标签的个体动作预测任务; 2)确定任何一对参与者是否交互的成对交互预测任务。解决这两个子任务提供了一种方法来理清多参与者的并发人类活动,以及对监控场景的全面理解。还应注意,自然场景可以包括物理交互(例如,握手、拥抱和拳击)和非物理的相互作用(例如,追逐、交谈和排队)。进行这种互动的人自然形成一个群体。从这个意义上说,一个人的行为可以被定义为如果只考虑局部表示,这是很难虽然通过深度特征和丰富的上下文信息的结合使用,HI-U的性能得到了很大的提高,但仍然存在两个主要的挑战。由于大多数现有的工作-一 BCBK一KKBCHG13370s执行深度特征表示和上下文模型的分段学习[42,40],第一个挑战是如何联合学习深度特征和上下文关系。第二个挑战是如何保证HIU的两个子任务的预测一致性。在本文中,我们解决了两种类型的预测不一致性,如图1所示。第一种类型称为标记不一致性,例如:B动作标签(即,踢)与C的动作标签不一致(即,当它们相互作用时(由实心边表示)。第二种类型被称为分组不一致性,假设互动的人属于同一组,而非互动的人属于不同的组。因此,预测(A,C)不相互作用(由虚线边缘表示)与预测(A,B)相互作用并且(B,C)也相互作用不一致。为了解决这两个挑战,我们提出了一个一致性感知图网络(CAGNet),它由一个主干CNN提取图像特征,一个三阶图网络(TOGN)学习人类交互上下文,和一个一致性感知推理(CAR)模块,以提高一致性与行动和交互预测。CAGNet的所有组件都可以通过GPU加速进行联合有效的训练。我们在人类交互理解的三个基准上实证验证了这三个组成部分的有效性。我们的贡献有三个方面。首先,我们提出了一个TOGN的HIU,这是更强大的比广泛采用的成对图网络表示人与人之间的互动关系。其次,我们提出了一个有效的CAR模块来解决HIU预测中的标签和第三,我们提出的CAGNet,它采取的TOGN和CAR模块作为其构建块,优于国家的最先进的结果,在三个评估基准的显着利润率。2. 相关工作HIU与HAR密切相关。为了提取人体运动的强大特征表示,已经提出了大量关于HAR的工作[16,33,38,17,这些方法也适用于集体活动的识别,其中许多参与者执行小组活动。尽管如此,越来越多的工作证明了对不同人的动作变量之间的时空相关性建模的重要性[7,22,6,8,2,31,15,28,43,27]。这方面的早期工作探索了条件随机场(CRF)[7,22,6],而最近的努力主要是对图像特征和人类关系与RNN [8,2,31,28,32]或深度图形模型[15,43,27]的联合学习。这些方法的目的是预测每个输入活动类别,留下的HIU任务,而未解决。另一项相关任务是认识到人-物交互[45] [29],它与HIU共享类似的问题结构,但它侧重于推理人与物体的交互关系。人类交互理解为了理解人类交互,已经提出了丰富的基于条件随机场(CRF)的模型[46,20,21,26,25,41,40,42]来对空间和时间域中的交互关系进行主要缺点是这些CRF是浅的图形表示,这在学习复杂的人类交互方面既不是有效的,也不是有效地解决相关的最大后验推理[42]。此外,它们分别执行深度特征学习和关系推理,这通常会导致次优解决方案。我们的CAGNet通过提出一个深度图网络来解决这些问题,该网络综合了CNN的特征学习能力和图形表示的上下文建模能力。图网络已经成为许多任务的流行选择,这些任务它们共享深度架构的计算效率,同时在非网格结构中建模关系方面更加强大和灵活,例如,匹配问题中两组点之间的对应关系[48],单次语义分割中查询和支持像素之间的相关性[47],人类凝视通信[11]以及集体活动分类的人际关系[43]。由于这些网络在图结构上运行,因此它们只能捕获成对关系。最近,工作[49]提出了一种因子图神经网络(FGNN),它可以合并高阶依赖关系。受此启发,我们提出了TOGN,它与FGNN共享相同的特征更新机制(详见第3节),但使用定制的三阶因子图来建模人类活动中的交互关系。深层逻辑推理作为一种更高层次的智能,逻辑推理在最近几年出现了复兴[9,10]。由于传统的逻辑推理依赖于与深度学习模型截然不同的方法和工具,例如Prolog语言,SMT求解器和离散算法,因此关键问题是如何有效地桥接逻辑和深度模型最近的研究工作将图网络视为建立这种联系的通用工具例如,[3,4]采用图网络来显式地引入逻辑推理偏差,[24]建立了一个神经符号推理模块来连接场景表示和符号程序,并且工作[1]引入了用于视觉问题回答的可微一阶逻辑形式主义。与[3,4]一样,我们提出的CAR模块示例也结合了HIU的一致性感知推理偏差,但通过解决特定的能量最小化任务来完成不同的推理。13371基础模型HIU逻辑被踢30.3NI3踢CAR模块2踢1,而3与它们没有交互作用。:行动变量(y):交互变量(z):干扰因素:干扰因素:人0.9:Q(z)=0.9NI:无交互⋯TOGN我C∈∈∈联系我们LMQ··×1Cc∈CC∈ C ∈ V采取一切行动,∈ X∈ E∈VG V C E V CciVF1 21 2图2.概述了拟议的CAGNet,其中包括一个基本模型,TOGN和CAR模块。TOGN旨在结合两种类型的因素来学习人类交互上下文,如黄色和蓝色节点所示。利用HIU的一致性感知推理偏差,我们的CAR块修复了可能的不一致预测,并提高了HIU的可解释性这里的“KK”、“所有模型参数都可以端到端的方式进行训练3. 初步由于我们的TOGN与FGNN共享相同的特征更新机制[49],我们首先简要回顾一下这项技术。FGNN在二分因子图=( 、、),其中,,分别表示节点集、因子节点集和边集。 每个i都与一个离散变量x ii相关联。每条边(c,i)连接因子节点c和节点i。因子图定义了某个函数f的因子分解,其中n个变量为堆叠多个这样的层,其中当前层的输出被作为后续层的输入。我们建议读者参考[49]以了解FGNN的更多细节。4. 我们的方法给 定 输 入 图 像 I 和 n 个 检 测 到 的 人 体 的 边 界 框(RoI),HIU任务被分解为两个子任务:1)预测动作类别y=(yi)n,能力。具体地,f(x,. . .得双曲余切值.)=Qf(x),其中每一个人,∈ Y(Yi=1xc表示与节点相关联的变量,与C有边连接。 实际上,函数fc可以通过深度网络进行参数化。给定G,对于FGNN的第l层,令[fl]i∈V是一组输入节点特征,并且令[gl]c∈C是一组输入因子特征设[te]e∈E是所有FGNN层共享的一组边缘特征。这里flRDl,glRDl和tRH。FGNN通过实现两个模块分别更新因子和节点特性gories),以及2)预测所有成对交互关系z=(zj,k)j=1,.,n;k=1,...,n代表每对人,其中zj,k0,1表示第j个和第k个参与者是否交互(z s,t= 1)或不交互(z s,t= 0)。除非另有说明,本文中的所有向量都是列向量。4.1. 模型概述图2给出了拟议的CAGNet的概述,它由三个组成部分组成,包括一个基本模型,gl+1= maxci:(c,i)∈Efl+1= maxQ(tci|ΦVFQ(tci|Φ)M([gl,f l]|Θl)M([gl,f l]|Θl),(1)),(2)TOGN和CAR模块。给定输入图像和检测到的人体作为ROI,基础模型采用骨干CNN从输入中提取特征,这些特征是我c:(c,i)∈EFV c i FV然后由RoIAlign模块[13]处理以生成本地每个人的特点。 之后,当地特色其中[,]表示向量级联。第一个方程是因子到变量(VF)模块,第二个方程是变量到因子(FV)模块。是一个MLP(参数化为所有边共享的Θ),将因子和节点特征的级联映射到长度为D1的新特征向量,而另一个MLP(参数化为所有边共享的Φ)映射其输入边将特征向量转换为D1+ 1D1权重矩阵。 这里Dl+1表示更新特征的长度(即,的长度下一层的输入结点要素),以及运算符max实际上执行max-pooling。等式(1)和等式(2)仅包括一层FGNN。为了获得更强大的代表性,可以由一个FC层处理以生成基本特征作为TOGN的输入。我们的TOGN图(4.2节)包括两种类型的变量节点(圆):一种类型是y节点,表示关联个人的动作类别,另一种类型是z节点,表示一对人之间存在交互关系。该图还包括一系列因子节点(正方形),以便捕获两种类型的三阶依赖性,分别由(yi,yj,zi,j)三元组(蓝色因子节点)和(zu,v,zv,w,zu,w)三元组(黄色因子节点)编码我们以基本特征初始化TOGN,并通过因子节点和变量节点之间的消息传递来执行特征更新,从而丰富了上下文信息。ROIsFCRoIAlign骨干CNNLny13372FEG VF EV我J∈VCE∈F∈V × V ∈ VDzy并且Vz={n+1,···,n+1,···,n}。对于每个节点i∈ Vy,a={(i,j,g(i,j))|i,j ∈ V,i,j},⑷p∈F∈Qf1+f1+f1可以嵌入。虽然TOGN能够学习丰富的上下文表示来促进HIU任务,但变量之间的标记和分组没有显式地建模。为了缓解这一点,我们引入了CAR模块,该模块基本上利用第4.3节中提供的神谕进行演绎推理。在实践中,推理是通过求解具有可微高阶能量函数的代理平均场推理来实现的,这允许通过GPU加速对CAGNet中的所有模块进行端到端学习(第4.4节)。4.2. HIU的三阶图网络现在,我们详细阐述了我们的TOGN为HIU,以捕捉两类三阶动作和交互关系变量之间的依赖关系。形式上,我们将因子图定义为=(,、),其中是变量的集合有能力的节点,是因子节点的集合,是一组的边缘。节点集被分成两个不相交的子集:V=Vy<$Vz,Vy<$Vz=V。 S. p=y,Vy={1,···,n},∈Y2带因子节点的节点。具体来说,对于每个因子节点c=(i,j,k),我们将三条边(c,i),(c,j)和(c,k)放入,从而完成TOGN图的构造。初始节点特征对于每个节点iy,设φi是从使用基本模型的第i个人对于每个(u,v)yy,u< v,令j= g(u,v) z.我们连接φu和φv,并使用串联作为基本特征(由j 表 示 )对于可变节点j 。为了计算初始节点特征,我们对基本特征应用线性变换:f1=FCy(φi),φi∈ Vy,(6)f1=FCz(fj),fj∈Vz,(7)将原始特征投影到RD1空间:初始因子特征基于节点特征计算因子特征。对于每个因子节点c=(i,j,g(i,j))y,初始因子特征g1RD1计算为:C变量yi与它相关联以表示动作第i个人的类别设g(u,v)是一个函数:g1=ijg(i,j).(八)3g(u,v):Vy × Vy<$→ Vz,u,v ∈ Vy,uv<.(三)对于每个d=(g(r,s),g(s,t),g(r,t))∈Fz,使用以下公式获得了因子特征g1∈RD1zf1+f1+f1对于每个节点k∈V,变量zu,v∈ {0,1}相关联g1 =g(r,s)g(s,t)g(r,t).(九)用它来表示这对人(u,v)是否在交互d3(zu,v=1)或不(zu,v=0),其中k=g(u,v)。为了对不同的关系进行编码,我们创建了两组因子节点第一组是对于每个边e=(q,p)∈E,相关特征te∈RH由下式给出:yyte=ReLU。FCe([f1,g1]),(10)它被用来隐式地模拟其中p∈ V,q∈F,FCe映射连接特征yi,yj和zi、j根据他们的基本特征。 直觉,ac-向量到RH空间。将因子图和初始特征作为输入当相关联的人进行交互时,任务标签(yi,yj)高度相关(以图1中的踢交互为例例如图2),而如果它们不相互作用(例如,图2中的人2和人3第二组因素定义为F={(g(r,s),g(s,t),g(r,t))|r,s,t ∈ V,r
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功