一致性感知图网络用于人机交互理解

153 浏览量更新于2023-12-18 收藏 784KB PDF 举报

人机交互

深度学习

身份认证购VIP最低享 7 折!

30元优惠券

13369一BCNI用于人机交互理解的一致性感知图网络Zhenhua Wang<$，Jiajun Meng <$$>，Dongyan Guo<$，Jianhua ZhangZhang，Javen QinfengShiYong，Shengyong Chen浙江工业大学天津工业大学阿德莱德大学{zhhwang，guodongyan，1112012021}@zjut.edu.cn，{zjh，sy}@ieee.org，javen. adelaide.edu.au摘要相对于人类活动分类的进展，人与人之间的交互理解（HIU）的研究还远远不够。除了后一个任务更具挑战性之外，主要原因是现有方法通过浅图形模型来学习人类交互关系本文提出了一种具有一致性感知的图网络，它结合了图网络的表示能力和一致性感知的推理能力，以促进HIU。我们的网络由三个组件组成，一个主干CNN提取图像特征，一个因子图网络学习参与者之间的三阶交互关系，以及一个一致性感知推理模块来执行标记和分组一致性。我们的主要观察是，HIU的一致性感知推理偏差可以嵌入到能量中，最小化提供一致的预测。提出了一种有效的平均场推理算法，使得网络的所有模块可以以端到端的方式联合训练。实验结果表明，我们的方法在三个基准测试中取得了领先的性能代码可在https://git.io/CAGNet上获得。1. 介绍分析自然场景中的人类活动是许多潜在应用的基本任务，如视频监控[35]，关键事件检索[12]，社会行为解释[2]和体育分析[28]。人类活动识别（HAR，目标是为每个图像或视频分配活动标签）[7，25，16，33，21，43，43，27]已经开发了大量技术，这些技术在识别准确性方面取得了令人印象深刻的进展。然而，人类交互理解（HIU）的任务并不成功，主要是因为当前的方法学习张建华{zjh@ieee.org}为通讯作者。BKKK3人的场景GroundTruth不一致预测图1. HIU在一个有三个人的场景中的图形表示。我们将HIU分解为两个子任务：识别个人行为（如节点标签所示，KK，BK，HG，NI分别表示踢，被踢，拥抱，无交互）以及预测任何一对人是否正在交互（实线边缘）或不交互（虚线边缘）。将一致性未知的模型应用于此类情况可能会导致不一致的预测，如红色边缘和标签所突出显示的（详细信息请参见第1节）。我们解决这个问题，提出了一个一致性感知的图形网络与两种类型的三阶依赖合并。通过浅图形表示的人类交互关系[42，41，40，25，7，46]，这不足以模拟复杂的人类交互，例如，打斗和追逐是在同一个场景中同时发生的两个活动。正如文献[25，42，40，41]中通常所做的那样，我们将HIU分解为两个子任务，如图1中所示：1）为每个参与者分配动作标签的个体动作预测任务; 2）确定任何一对参与者是否交互的成对交互预测任务。解决这两个子任务提供了一种方法来理清多参与者的并发人类活动，以及对监控场景的全面理解。还应注意，自然场景可以包括物理交互（例如，握手、拥抱和拳击）和非物理的相互作用（例如，追逐、交谈和排队）。进行这种互动的人自然形成一个群体。从这个意义上说，一个人的行为可以被定义为如果只考虑局部表示，这是很难虽然通过深度特征和丰富的上下文信息的结合使用，HI-U的性能得到了很大的提高，但仍然存在两个主要的挑战。由于大多数现有的工作-一 BCBK一KKBCHG13370s执行深度特征表示和上下文模型的分段学习[42，40]，第一个挑战是如何联合学习深度特征和上下文关系。第二个挑战是如何保证HIU的两个子任务的预测一致性。在本文中，我们解决了两种类型的预测不一致性，如图1所示。第一种类型称为标记不一致性，例如：B动作标签（即，踢）与C的动作标签不一致（即，当它们相互作用时（由实心边表示）。第二种类型被称为分组不一致性，假设互动的人属于同一组，而非互动的人属于不同的组。因此，预测（A，C）不相互作用（由虚线边缘表示）与预测（A，B）相互作用并且（B，C）也相互作用不一致。为了解决这两个挑战，我们提出了一个一致性感知图网络（CAGNet），它由一个主干CNN提取图像特征，一个三阶图网络（TOGN）学习人类交互上下文，和一个一致性感知推理（CAR）模块，以提高一致性与行动和交互预测。CAGNet的所有组件都可以通过GPU加速进行联合有效的训练。我们在人类交互理解的三个基准上实证验证了这三个组成部分的有效性。我们的贡献有三个方面。首先，我们提出了一个TOGN的HIU，这是更强大的比广泛采用的成对图网络表示人与人之间的互动关系。其次，我们提出了一个有效的CAR模块来解决HIU预测中的标签和第三，我们提出的CAGNet，它采取的TOGN和CAR模块作为其构建块，优于国家的最先进的结果，在三个评估基准的显着利润率。2. 相关工作HIU与HAR密切相关。为了提取人体运动的强大特征表示，已经提出了大量关于HAR的工作[16，33，38，17，这些方法也适用于集体活动的识别，其中许多参与者执行小组活动。尽管如此，越来越多的工作证明了对不同人的动作变量之间的时空相关性建模的重要性[7，22，6，8，2，31，15，28，43，27]。这方面的早期工作探索了条件随机场（CRF）[7，22，6]，而最近的努力主要是对图像特征和人类关系与RNN [8，2，31，28，32]或深度图形模型[15，43，27]的联合学习。这些方法的目的是预测每个输入活动类别，留下的HIU任务，而未解决。另一项相关任务是认识到人-物交互[45] [29]，它与HIU共享类似的问题结构，但它侧重于推理人与物体的交互关系。人类交互理解为了理解人类交互，已经提出了丰富的基于条件随机场（CRF）的模型[46，20，21，26，25，41，40，42]来对空间和时间域中的交互关系进行主要缺点是这些CRF是浅的图形表示，这在学习复杂的人类交互方面既不是有效的，也不是有效地解决相关的最大后验推理[42]。此外，它们分别执行深度特征学习和关系推理，这通常会导致次优解决方案。我们的CAGNet通过提出一个深度图网络来解决这些问题，该网络综合了CNN的特征学习能力和图形表示的上下文建模能力。图网络已经成为许多任务的流行选择，这些任务它们共享深度架构的计算效率，同时在非网格结构中建模关系方面更加强大和灵活，例如，匹配问题中两组点之间的对应关系[48]，单次语义分割中查询和支持像素之间的相关性[47]，人类凝视通信[11]以及集体活动分类的人际关系[43]。由于这些网络在图结构上运行，因此它们只能捕获成对关系。最近，工作[49]提出了一种因子图神经网络（FGNN），它可以合并高阶依赖关系。受此启发，我们提出了TOGN，它与FGNN共享相同的特征更新机制（详见第3节），但使用定制的三阶因子图来建模人类活动中的交互关系。深层逻辑推理作为一种更高层次的智能，逻辑推理在最近几年出现了复兴[9，10]。由于传统的逻辑推理依赖于与深度学习模型截然不同的方法和工具，例如Prolog语言，SMT求解器和离散算法，因此关键问题是如何有效地桥接逻辑和深度模型最近的研究工作将图网络视为建立这种联系的通用工具例如，[3，4]采用图网络来显式地引入逻辑推理偏差，[24]建立了一个神经符号推理模块来连接场景表示和符号程序，并且工作[1]引入了用于视觉问题回答的可微一阶逻辑形式主义。与[3，4]一样，我们提出的CAR模块示例也结合了HIU的一致性感知推理偏差，但通过解决特定的能量最小化任务来完成不同的推理。13371基础模型HIU逻辑被踢30.3NI3踢CAR模块2踢1，而3与它们没有交互作用。：行动变量（y）：交互变量（z）：干扰因素：干扰因素：人0.9：Q（z）=0.9NI：无交互⋯TOGN我C∈∈∈联系我们LMQ··×1Cc∈CC∈ C ∈ V采取一切行动，∈ X∈ E∈VG V C E V CciVF1 21 2图2.概述了拟议的CAGNet，其中包括一个基本模型，TOGN和CAR模块。TOGN旨在结合两种类型的因素来学习人类交互上下文，如黄色和蓝色节点所示。利用HIU的一致性感知推理偏差，我们的CAR块修复了可能的不一致预测，并提高了HIU的可解释性这里的“KK”、“所有模型参数都可以端到端的方式进行训练3. 初步由于我们的TOGN与FGNN共享相同的特征更新机制[49]，我们首先简要回顾一下这项技术。FGNN在二分因子图=（、、），其中，，分别表示节点集、因子节点集和边集。每个i都与一个离散变量x ii相关联。每条边（c，i）连接因子节点c和节点i。因子图定义了某个函数f的因子分解，其中n个变量为堆叠多个这样的层，其中当前层的输出被作为后续层的输入。我们建议读者参考[49]以了解FGNN的更多细节。4. 我们的方法给定输入图像 I 和 n 个检测到的人体的边界框（RoI），HIU任务被分解为两个子任务：1）预测动作类别y=（yi）n，能力。具体地，f（x，. . .得双曲余切值.）=Qf（x），其中每一个人，∈ Y（Yi=1xc表示与节点相关联的变量，与C有边连接。实际上，函数fc可以通过深度网络进行参数化。给定G，对于FGNN的第l层，令[fl]i∈V是一组输入节点特征，并且令[gl]c∈C是一组输入因子特征设[te]e∈E是所有FGNN层共享的一组边缘特征。这里flRDl，glRDl和tRH。FGNN通过实现两个模块分别更新因子和节点特性gories），以及2）预测所有成对交互关系z=（zj，k）j=1，.，n;k=1，...，n代表每对人，其中zj，k0，1表示第j个和第k个参与者是否交互（z s，t= 1）或不交互（z s，t= 0）。除非另有说明，本文中的所有向量都是列向量。4.1. 模型概述图2给出了拟议的CAGNet的概述，它由三个组成部分组成，包括一个基本模型，gl+1= maxci：（c，i）∈Efl+1= maxQ（tci|ΦVFQ（tci|Φ）M（[gl，f l]|Θl）M（[gl，f l]|Θl），（1）），（2）TOGN和CAR模块。给定输入图像和检测到的人体作为ROI，基础模型采用骨干CNN从输入中提取特征，这些特征是我c：（c，i）∈EFV c i FV然后由RoIAlign模块[13]处理以生成本地每个人的特点。之后，当地特色其中[，]表示向量级联。第一个方程是因子到变量（VF）模块，第二个方程是变量到因子（FV）模块。是一个MLP（参数化为所有边共享的Θ），将因子和节点特征的级联映射到长度为D1的新特征向量，而另一个MLP（参数化为所有边共享的Φ）映射其输入边将特征向量转换为D1+ 1D1权重矩阵。这里Dl+1表示更新特征的长度（即，的长度下一层的输入结点要素），以及运算符max实际上执行max-pooling。等式（1）和等式（2）仅包括一层FGNN。为了获得更强大的代表性，可以由一个FC层处理以生成基本特征作为TOGN的输入。我们的TOGN图（4.2节）包括两种类型的变量节点（圆）：一种类型是y节点，表示关联个人的动作类别，另一种类型是z节点，表示一对人之间存在交互关系。该图还包括一系列因子节点（正方形），以便捕获两种类型的三阶依赖性，分别由（yi，yj，zi，j）三元组（蓝色因子节点）和（zu，v，zv，w，zu，w）三元组（黄色因子节点）编码我们以基本特征初始化TOGN，并通过因子节点和变量节点之间的消息传递来执行特征更新，从而丰富了上下文信息。ROIsFCRoIAlign骨干CNNLny13372FEG VF EV我J∈VCE∈F∈V × V ∈ VDzy并且Vz={n+1，···，n+1，···，n}。对于每个节点i∈ Vy，a={（i，j，g（i，j））|i，j ∈ V，i，j}，⑷p∈F∈Qf1+f1+f1可以嵌入。虽然TOGN能够学习丰富的上下文表示来促进HIU任务，但变量之间的标记和分组没有显式地建模。为了缓解这一点，我们引入了CAR模块，该模块基本上利用第4.3节中提供的神谕进行演绎推理。在实践中，推理是通过求解具有可微高阶能量函数的代理平均场推理来实现的，这允许通过GPU加速对CAGNet中的所有模块进行端到端学习（第4.4节）。4.2. HIU的三阶图网络现在，我们详细阐述了我们的TOGN为HIU，以捕捉两类三阶动作和交互关系变量之间的依赖关系。形式上，我们将因子图定义为=（，、），其中是变量的集合有能力的节点，是因子节点的集合，是一组的边缘。节点集被分成两个不相交的子集：V=Vy<$Vz，Vy<$Vz=V。 S. p=y，Vy={1，···，n}，∈Y2带因子节点的节点。具体来说，对于每个因子节点c=（i，j，k），我们将三条边（c，i），（c，j）和（c，k）放入，从而完成TOGN图的构造。初始节点特征对于每个节点iy，设φi是从使用基本模型的第i个人对于每个（u，v）yy，u< v，令j= g（u，v） z.我们连接φu和φv，并使用串联作为基本特征（由j 表示）对于可变节点j 。为了计算初始节点特征，我们对基本特征应用线性变换：f1=FCy（φi），φi∈ Vy，（6）f1=FCz（fj），fj∈Vz，（7）将原始特征投影到RD1空间：初始因子特征基于节点特征计算因子特征。对于每个因子节点c=（i，j，g（i，j））y，初始因子特征g1RD1计算为：C变量yi与它相关联以表示动作第i个人的类别设g（u，v）是一个函数：g1=ijg（i，j）.（八）3g（u，v）：Vy × Vy<$→ Vz，u，v ∈ Vy，uv<.（三）对于每个d=（g（r，s），g（s，t），g（r，t））∈Fz，使用以下公式获得了因子特征g1∈RD1zf1+f1+f1对于每个节点k∈V，变量zu，v∈ {0，1}相关联g1 =g（r，s）g（s，t）g（r，t）.（九）用它来表示这对人（u，v）是否在交互d3（zu，v=1）或不（zu，v=0），其中k=g（u，v）。为了对不同的关系进行编码，我们创建了两组因子节点第一组是对于每个边e=（q，p）∈E，相关特征te∈RH由下式给出：yyte=ReLU。FCe（[f1，g1]），（10）它被用来隐式地模拟其中p∈ V，q∈F，FCe映射连接特征yi，yj和zi、j根据他们的基本特征。直觉，ac-向量到RH空间。将因子图和初始特征作为输入当相关联的人进行交互时，任务标签（yi，yj）高度相关（以图1中的踢交互为例例如图2），而如果它们不相互作用（例如，图2中的人2和人3第二组因素定义为F={（g（r，s），g（s，t），g（r，t））|r，s，t ∈ V，r
~~下载后可阅读完整内容，剩余1页未读，立即下载~~

人机交互基础教程

- **感知**：探讨视觉、听觉、触觉等人机交互中的感官输入，以及它们如何影响用户对信息的接收和理解。 - **认识过程**：分析人类的认知机制，如记忆、注意、推理等，以及这些过程如何塑造人机交互的设计原则。 - **...

人机交互_复习资料

在复习人机交互技术时，除了理解这些基本概念，还需要熟悉各种案例分析，掌握评估工具如GOMS模型（Goals, Operators, Methods, and Selectors）和HEURIS（Heuristic Evaluation for Usability Reassessment in ...

体现人机交互的系统设计

人机交互的系统设计需要考虑用户的需求和体验，同时也需要考虑系统的可用性和可扩展性。以下是一些体现人机交互的系统设计的方法： 1. 用户研究：了解用户的需求和使用场景，通过用户研究的结果来调整系统设计。 ...

ios人机交互指南网址

iOS人机交互指南的官方网址为developer.apple.com/design/human-interface-guidelines/ios/。...通过这些资源和指南，开发者可以更好地理解和应用iOS的人机交互设计原则，从而开发出更优秀的iOS应用程序。

人机交互通用性的设计原则

人机交互通用性的设计原则包括以下几点： 1. 可用性：确保用户可以轻松地使用产品，包括界面易用性、功能可靠性和反馈响应时间等。 2. 可访问性：确保产品可以被尽可能多的人使用，包括残障人士和老年人等。 3. ...

循环一致性生成对抗网络

循环一致性生成对抗网络（CycleGAN）是一种用于图像转换的深度学习模型。它可以将一个域中的图像转换成另一个域中的图像，而无需配对的训练数据。CycleGAN的核心思想是通过两个生成器和两个判别器的博弈来实现图像的...

PYthon界面人机交互设计

2. 用户友好性：设计直观、简洁、一致的界面，使用户能够轻松理解和操作。 3. 响应性：确保界面对用户输入能够快速响应，并提供适当的反馈和状态提示。 4. 错误处理：合理处理用户可能出现的错误，并向用户提供明确...

多智能体相互感知一致性运动

多智能体相互感知一致性运动是一种协作控制问题，旨在使多个智能体在共享环境中相互感知并协调运动，以实现某种目标。这种问题常见于机器人协作、飞行器编队等领域。在多智能体协作问题中，每个智能体需要同时感知...

pc游戏方向的人机交互gui大作业

在这个项目中，我将着重研究和开发一个符合人机交互原则的GUI，以提升游戏的可玩性和用户体验。首先，我会进行用户需求调研，收集游戏玩家的反馈和意见。通过问卷调查和访谈，我将了解他们对于游戏界面的期望和对...

网络操作系统开放性一致性透明性

网络操作系统具有开放性、一致性和透明性三个特征。开放性是指网络操作系统能够将不同的计算机系统互联起来，实现应用的可移植性和互操作性，并进一步将各种网络互联起来组成互联网。一致性是指网络向用户提供一个...

连续一致性算法和离散一致性算法

连续一致性算法和离散一致性算法是分布式系统中用于维护数据一致性的两种不同方法。连续一致性算法（也称为强一致性）旨在确保在分布式系统中的所有节点上对数据的读写操作都是一致的。这意味着无论客户端在哪个...

一致性算法matlab

一致性算法是一种分布式算法，用于在计算机系统中实现数据的一致性。在Matlab中，一致性算法可以用于分布式计算中，确保不同节点之间的数据一致性。具体实现可以使用Matlab的分布式计算工具箱，其中包括了一致性算法...

matlab实现多智能体相互感知一致性运动

实现多智能体相互感知一致性运动可以使用一些有用的工具，如MATLAB中的控制系统工具箱和优化工具箱。以下是一个简单的示例，展示了如何使用MATLAB实现多智能体相互感知一致性运动。首先，定义多智能体系统的运动学...

2014_多智能体网络的一致性问题研究_纪良浩

《多智能体网络的一致性问题研究》是纪良浩在2014年发表的论文，主要研究多智能体网络中的一致性问题，该问题在现代控制理论、人工智能、机器人、自适应系统等领域都有广泛应用。该论文首先介绍了多智能体网络的...

人机交互界面的设计原则有哪些

A：人机交互界面的设计原则包括以下几点： 1. 简单性：避免过多的复杂性和不必要的信息。 2. 易用性：尽可能使用户操作简单、清晰、快速及轻松。 3. 一致性：尽可能保持界面风格、图标符号和操作习惯统一。 4. ...

在人机交互中，结合交互设计原则中基本设计原则或者黄金原则为知识点，以爱心助学网站为例子，每条原则结合爱心助学网站具体化说明，写1000字左右

综上所述，基本设计原则和黄金原则是人机交互设计中非常重要的原则之一，它们可以帮助设计师更好地理解用户需求，提高设计的可用性和用户体验。在爱心助学网站的设计中，这些原则得到了很好的体现，为用户提供了一个...

cache 一致性怎么理解

缓存一致性是指在多级缓存系统中，保证多个缓存副本之间的数据一致性。在计算机系统中，为了提高数据访问的速度，通常会采用多级缓存来存储和管理数据。这些缓存层级可以包括L1缓存、L2缓存、L3缓存等。当数据在...

你作为一个Java领域的专家，请完成以下任务：谈谈对强一致性和弱一致性的理解

强一致性和弱一致性是指分布式系统中数据一致性的两种不同级别。强一致性是指在分布式系统中，无论客户端访问哪个节点，都能得到相同的结果。这意味着节点之间必须强制同步，以确保数据一致性。在强一致性模型下，...

如何理解云计算中的最终一致性

云计算中的最终一致性是指在分布式系统中，不同节点之间的数据一致性不是实时同步的，而是通过一定的机制在一定的时间内达到一致性。在分布式系统中，由于网络延迟、节点故障等原因，不同节点上的数据可能会出现不...

人机交互的设计风格的分析与比较

人机交互的设计风格可以分为以下几种： 1. 扁平化设计：扁平化设计是一种简单、明了的设计风格，抛弃了过多的立体感和阴影效果，注重界面的简洁和易读性。扁平化设计风格在移动设备上广受欢迎，因为它能够提高操作...

cpongm

粉丝: 5

资源: 2万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益
登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

最新资源

C++多态实现机制详解：虚函数与早期绑定
Java多线程与异常处理详解
校园导游系统：无向图实现最短路径探索
SQL2005彻底删除指南：避免重装失败
GTD时间管理法：提升效率与组织生活的关键
Python进制转换全攻略：从10进制到16进制
商丘物流业区位优势探究：发展战略与机遇
C语言实训：简单计算器程序设计
Oracle SQL命令大全：用户管理、权限操作与查询
Struts2配置详解与示例
C#编程规范与最佳实践
C语言面试常见问题解析
超声波测距技术详解：电路与程序设计
反激开关电源设计：UC3844与TL431优化稳压
Cisco路由器配置全攻略
SQLServer 2005 CTE递归教程：创建员工层级结构

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈