基于时空图推理：研究人类凝视通信动态的原子级和事件级结构及预测模型

43 浏览量更新于2023-10-13 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5724基于时空图推理范立峰1*，王文冠2，1 *，黄思远1，唐新宇3，朱松春11美国加州大学洛杉矶分校视觉、认知、学习和自主中心2阿联酋Inception Institute of Artificial Intelligence3中国科学技术大学lfan@ucla.edu，wenguanwang.ai @ gmail.com example.com，wwwsczhu@stat.ucla.eduhttps://github.com/LifengFan/Human-Gaze-Communication图1：我们在两个层次上研究人类凝视通信动态：原子级和事件级。原子级凝视通信描述了人类凝视交互中的细粒度结构，即单，相互，回避，引用，跟随和共享（如左部分所示事件层面的注视交流是指高层次、复杂的社会交流事件，包括非交流、相互注视、注视厌恶、注视跟随和共同注意。每个凝视通信事件是一些原子级凝视通信的时间组成（如右侧部分所示）。摘要本文从原子级和事件级两个层面研究了社交视频中人类注视交流的新问题，这对研究人类社会交互具有重要意义。为了解决这个新颖且具有挑战性的问题，我们贡献了一个大规模视频数据集VACATION，其覆盖了不同的日常社交场景和凝视通信行为，具有对象和人脸的完整注释、人类注意力以及原子级和事件级的通信结构和标签。与VACATION一起，我们提出了一个时空图神经网络来显式地表示社交场景中的各种凝视交互，并通过消息传递来传递原子级的凝视通信。我们进一步提出了一个具有编码器-解码器结构的事件网络来预测事件级注视通信。我们的实验表明，该模型提高了各种基线显着预测的原子级和事件级的凝视通信。*范立峰和王文冠贡献相等。1. 介绍在这项工作中，我们介绍了在社会交往中理解人类凝视通信的任务。来自心理学的证据表明，眼睛是一种认知上的特殊刺激，大脑中有独特的凝视交流是人类交流的一种原始形式，其潜在的社会认知和社会动机基础结构充当了各种语言系统可以建立的心理平台[59]。虽然言语交际已经成为社会交往的主要形式，但凝视交际在传达隐藏的心理状态和增强言语交际方面仍然发挥着重要作用[2]。为了更好地理解人类的交流，我们不仅需要自然语言处理（NLP），还需要对人类注视交流机制进行系统的研究。由于以下几个原因，对社会互动中的人类凝视通信的研究是必不可少的：1）它有助于更好地理解多智能体凝视通信5725在现实社会场景中的行为，特别是从社会和心理的角度; 2）为机器人系统学习人的注视交流行为模式提供了依据，进一步促进了人与机器人之间直观有效的交互;3）它使得能够在虚拟现实环境中模拟更自然的人类注视通信行为; 4）为研究人类在社会交往中的心理状态建立了一个人类注视交流的常识知识库; 5）有助于评估和诊断自闭症儿童。在过去的几十年里，认知心理学和神经科学界对社会凝视的类型和影响进行了大量研究[22，26，29，33]。通过先前的努力和已建立的术语，我们将原子级凝视通信区分为六类：• 单一是指没有任何社会交流意图的个体注视行为（见图1）。1（1））。• 当两个代理人看着对方的眼睛时，相互[2，5]凝视发生（见图2）。1（2）），这是建立人类代理之间的通信链接的最强模式相互凝视可以吸引注意力，启动对话，保持参与，表达信任和外向的感觉，并在将物体传递给伴侣等情况下发出互动的信号。• 回避[21，47]指的是回避的凝视，当一个代理的凝视从另一个代理移开以避免相互凝视时发生（见图2）。1（3））。回避凝视表达了不信任、内向、恐惧，也可以调节亲密关系，传达体贴或认知努力的信号，例如在回答问题之前将目光移开。• 参考[50]指的是参考凝视，当一个代理试图通过凝视引起另一个代理对目标的注意时就会发生（见图2）。1（4））。参考性凝视表示告知、分享或请求某事物的意图。我们可以使用参照凝视来消除参照的不确定性，并快速做出反应。• 跟随[9，51，64]意味着跟随凝视，当一个智能体感知到另一个智能体的凝视并跟随接触另一个智能体正在关注的刺激时，就会发生这种情况（见图2）。1（5））。目光跟随是为了弄清对方• 共享[43]是指共享的凝视，当两个代理人凝视相同的刺激时出现（见图2）。1（6））。上述原子级凝视捕获了人类社会交互中最普遍、核心和细粒度的凝视通信模式。我们进一步研究了上述六种原子级凝视通信模式的长时间、粗粒度的时间组成，并将其概括为五种凝视通信事件，即非交流、相互注视、注视厌恶、注视跟随和联合注意，如图1的右侧部分所示。通常，原子注视的时间顺序意味着每个事件的不同阶段。非交流（见图1（a））和相互凝视（见图1（b））是一个阶段的事件，并简单地由单一和相互的重新分别为。凝视厌恶（见图1（c））从相互开始，然后转向单个，表明避免相互的目光接触。注视跟随（参见图1（d））由跟随和分享组成，但没有相互的，这意味着只有单向的意识和观察，没有共同的注意力和知识。联合注意（见图1（e））是最高级的注意，当两个智能体有相同的意图在一个共同的刺激上分享注意力，并且都知道他们正在分享一些共同的基础时，就会出现联合注意。这种事件由几个阶段组成，通常从相互凝视开始以建立通信通道，继续参考凝视以引起对目标的注意，并跟随凝视以检查参考刺激，然后循环回到相互凝视以确保共享经验[39]。显然，识别和理解原子级凝视通信模式是全面理解人类凝视行为的必要和重要的第一步为了促进计算机视觉领域对凝视通信理解的研究，我们提出了一个具有完整凝视通信注释的大规模社交视频数据集VACATION（VideogAzeCommunication）。利用我们的数据集，我们的目标是在给定具有人脸和对象bbox的第三人称社交视频序列的情况下构建时空注意力图，并在原子级和事件级两者中预测该视频的注视通信关系显然，这是一个结构化的任务，需要在空间和时间域中对人-人和人-场景交互进行全面建模。受图神经网络[46，60]的最新进展的启发，我们提出了一种用于原子级凝视通信检测的新型时空推理图网络以及具有编码器-解码器结构的事件网络，用于事件级凝视通信理解。推理模型学习社交实体之间的关系，并在社交图上迭代地传播信息。事件网络利用编码器-解码器结构来消除凝视通信中的噪声，并学习每个事件的时间相干性以分类事件级凝视通信。本文主要有三个贡献：1) 它提出并解决了社交互动视频中的凝视通信学习的新任务。据我们所知，这是计算机视觉界解决此类问题的第一项工作。2) 它提出了一个大规模的视频数据集，命名为VACA- TION，涵盖了不同的社会场景，具有完整的凝视通信注释和基准结果，以推进凝视通信研究。3) 它提出了一个时空图神经网络和一个事件网络分层的原因原子和事件级的凝视通信的视频。57262. 相关工作2.1. HHI中的凝视通信眼睛注视与潜在的注意力、意图、情感和个性密切相关[32]。凝视交际允许人们在最基本的层次上进行交流，而不受他们的口头语言系统的影响。因此，这种凝视功能超越了文化差异，形成了一种通用语言[11]。在谈话过程中，眼睛注视可以用来传达信息，调节社交亲密度，管理话轮转换[32]。人们也善于识别伴侣的参照性凝视的目标，并利用这一简而言之，凝视沟通是无所不在和多功能的[11]。探索HHI中凝视通信的作用是必不可少的，但计算机视觉研究人员很少触及。当前计算机视觉领域的研究[7，16，27，62，63]主要集中在研究环境的显着特性以建模人类视觉注意机制。只有少数[17，44，45]研究了人类在社交场景中的共享注意力行为。2.2. HRI中的凝视通信为了改善人机协作，HRI领域致力于为机器人开发有效的凝视通信[2]。机器人领域的研究人员试图将响应性、有意义和令人信服的眼睛凝视纳入HRI [1，3]，这有助于人形智能体产生所需的熟悉和信任，并使HRI更加直观和流畅。他们的努力差异很大[2，4，54]，包括人机视觉对话交互[36，41，55]，讲故事[40]和社会辅助机器人[58]。例如，辅导或辅助机器人可以通过执行适当的相互和跟随凝视来展示对用户的注意力和参与[38]，使用参考凝视将用户注意力引导到目标，并与人类形成联合注意力[25]。协作装配线机器人还可以通过注视实现对象参考和联合注意机器人也可以作为自闭症儿童的治疗工具。2.3. 图神经网络最近，图神经网络[20，28，35，49]受到了越来越多的关注，因为它们继承了图（具有强大的表示能力）和神经网络（具有端到端学习能力）的互补这些模型通常在图上传递本地消息以显式地捕获节点之间的关系，这在大范围的结构化任务中被证明是有效的，例如图级分类[10，13，60]，节点级分类[10，13，60][23]，关系推理[30，48]，多智能体COM-通信[6，57]，人-物体交互[18，46]，以及场景理解[34，37]。其他一些人[12，14，31，42，52]试图在图结构数据上推广卷积架构。受上述工作的启发，我们建立了一个时空社交图来显式地建模丰富的交互，活动-水平（%）非通信28.16相互注视24.00目光转移10.00视线跟随10.64联合注意27.20原子级（%）单个92.2015.993.2939.2626.91相互0.7675.6414.150.0016.90避免1.346.2181.710.001.18指0.000.370.150.627.08遵循1.040.290.0010.712.69分享4.661.500.7049.4145.24表1：我们的VACATION数据集中的凝视通信类别的统计，包括事件级凝视通信类别在整个数据集中的分布以及每个事件级类别的原子级凝视通信的分布。在动态场景中。然后提出了一个时空推理网络，通过在社交图上传递消息来学习凝视通信3. 建议的假期数据集VACATION包含300个具有不同凝视通信行为的社交视频示例帧可以在图2中找到二、下面我们将从以下几个基本方面来阐述度假3.1. 数据收集质量和多样性是我们在收集数据时考虑的两个基本因素高质量我们在Youtube引擎上搜索了50多部著名的电视节目和电影（例如，《生活大爆炸》、《哈利·波特》等）。与自拍相比-实验室或其他有限环境中的社会数据，这些刺激在一般和代表性场景中提供更自然和更丰富的社会交互，并且更接近于真实的人类社会行为，这有助于更好地理解和建模真实的人类注视通信行为。之后，大约1000个视频剪辑从检索结果中大致分离出来。我们进一步消除了大标志或低质量的视频。然后，对其余视频进行精确的镜头边界裁剪，并以640×360空间分辨率的MPEG-4格式统一存储。度假最终包括总共300个高质量的社会视频序列，96，993帧和3，880秒的持续时间。视频的长度跨度从2.2到74.56秒，平均为13.28秒。各种社交场景。所收集的视频涵盖了多样化的日常社交场景（例如，聚会、家庭、办公室等），与Dif-不同的培养物（例如，美国人、中国人、印度人等）。演员/女演员的外观，服装和道具以及场景设置也变化很大，这使得我们的数据集更加多样化和通用。通过对这些数据的训练，算法应该在处理不同的现实社会场景时具有更好的泛化能力。3.2. 数据注释和统计我们的数据集提供了丰富的注释，包括人脸和对象边界框、人类注意力、原子级和事件级凝视通信标签。an-符号总共需要大约1，616小时，考虑到一个av-5727图2：我们的VACATION数据集的示例框架和注释，显示我们的数据集涵盖了丰富的凝视交流行为，多样的一般社交场景，不同的文化等。它还提供了丰富的注释，即，人脸和对象框、凝视通信结构和标签。人脸和相关物体用与相应通信标签相同颜色的框标记。白线将实体与时间序列中的注视关系链接，并且白色箭头指示当前帧中的注视方向在一个帧中可能存在各种数量的代理、许多不同的注视通信类型和复杂的通信详情见§3每帧1分钟的erage注释时间。在这个过程中有三个额外的志愿者。人脸和物体注释。我们首先使用在线视频注释平台Vatic [61]用人脸和关键对象的边界框注释每个帧206，774个人脸边界框（平均2.13每帧）和85，441个关键对象边界框（avg.每帧0.88）总共被注释。人类注意力注释。我们在每一帧中标注每个人的注意力，即。这个人正在注视的边界框凝视通信标记。注释器被指示为每个帧中的每组人注释原子级和事件级凝视通信标签。为了保证注释的准确性，我们在注释过程中使用了交叉验证，即，两名志愿者分别对视频中的所有人进行注释，并且由该领域的专家判断他们的注释之间的关于注视通信类别的分布的信息参见表1数据集分割。我们的数据集分为训练集、验证集和测试集，比例为6：2：2。我们到达了一个独特的分裂，包括180训练（57，749帧），60验证（22，005帧）和60个测试视频（17，239帧）。为了避免过度拟合，不存在源重叠度假#视频#框架人类数量GCR数量培训18057,749123,81297,265验证6022,00549,01242,066测试6017,23933,95025,034全数据集30096,993206,774164,365表2：数据集拆分的统计。GCR是指凝视通信关系。更多详情请参见§3.2在不同组中的视频之间（更多细节参见表2）。4. 我们的方法我们设计了一个时空图神经网络来显式地表示社交场景中的各种交互，并通过在图上给定原子级凝视交互推理，我们进一步设计了一个具有编码器-解码器结构的事件网络，用于事件级凝视通信推理。如图3、凝视通信实体，即，人类、社会场景由图节点表示，注视通信结构由边表示。我们在§4.1中介绍了符号和公式，并在§4.2中提供了更多的实现细节。4.1. 模型配方社交图谱。我们首先将社交图定义为完全图G=（V，E），其中节点v∈ V从{1，···，|V|}，表示实体（即，现场，胡-5728v，wvv，wv，wv，wv，wvv，w日期阶段。整个消息传递过程运行N次迭代以迭代地传播信息。在第n个迭代步骤中，我们首先执行向上的边缘更新阶段dates edge representationy（n）通过收集信息从连接的节点：y（n）=f（n）y（n−1），y（n−1），x），（1）v，wEv wv，w其中y（n−1）表示v图3：所提出的用于凝视通信理解的时空推理模型的图示。给定输入社交视频序列（a），对于每个帧，首先执行空间推理过程（b），用于同时捕获注视通信关系（社交图结构）并通过消息传播更新节点表示。然后，在（c）中，对每个节点应用时间推理过程以动态地更新时间域上的节点表示，这是通过LSTM实现的。较粗的边缘表示在空间推理步骤（b）中推断的较高详情见第4.1man），并且边e=（v，w）∈ E指示有向边v→w，表示所有可能的人-人注视交互或人-场景关系。有一个特殊的节点s∈ V代表社会场景。为第（n−1）步，且·，·表示向量的连接。fE表示由神经网络实现的边缘更新函数fE：R2V+E-RE之后，图结构更新阶段根据更新的边表示y（n）更新邻接矩阵A以推断当前社交图结构：a（n） =σ（fA（y（n），（2）其中连接矩阵A（n）=[a（n）]编码当前视觉通信结构。是将边缘表示映射到连接性权重的连接性读出网络，并且σ表示非线性激活函数。最后，在节点更新阶段，我们更新节点表示。通过考虑由相应的连接性加权的所有输入边缘信息，来计算y（n）的节点V，其节点表示/嵌入由y（n）=fΣ（a（n）y（n），x（n）），（3）V维向量：xv∈RV。同样，边缘代表-vVw v，wv，wv对于边e=（v，w）的表示/嵌入由E维向量表示：xv，w∈RE。每个人体节点v∈ V\s具有输出状态lv∈ L，其取值于原子注视标签的集合：L={单个、相互、避开、参考、跟随、共享}。我们进一步定义了一个邻接矩阵A∈[0，1]| V| ×| V|来表示我们完整的社交图G上的通信结构，其中每个元素a，v，w表示从节点v到w的连通性。与大多数以前的图神经网络只专注于推断图或节点级标签不同，我们的模型旨在同时学习图结构A和所有人类节点V\s的视觉标签{lv}v∈V\s。为此，我们的时空推理模型被设计为有两个步骤。首先，在空间域中，存在消息传递步骤（图1B）。图3（b）），其迭代地学习凝视通信结构A并通过A传播信息以更新节点表示。第二，如图在图3（c）中，LSTM被并入我们的模型中，通过考虑时间动态来进行更鲁棒的节点表示学习更详细的模型架构示意性地描绘在图1B中。4.第一章在下文中，我们将详细描述上述两个步骤。基于消息传递的空间推理。受以前的图神经网络[20，30，46]的启发，我们的消息传递步骤被设计为具有三个阶段，边更新阶段，图结构更新阶段和节点更新阶段。其中表示节点更新网络。上述函数f（·）都是学习的可微函数。在上述消息传递过程中，我们推断图结构中的社会通信结构向上-日期阶段（等式2），其中每个社交实体之间的关系通过更新的边表示（等式2）来学习。①的人。然后，信息通过学习的社交图结构传播，并且每个节点的隐藏状态基于其历史和来自其邻居的传入消息来更新（3）第三章。如果我们知道节点（人、物）之间是否存在交互，即，给定A的基础事实，我们可以以显式的方式学习A，这类似于图解析网络[46]。其他方面，相邻矩阵A可以被视为自动加权消息的注意力或门控机制，并且可以以隐式方式学习;这与图形注意力网络[60]具有类似的精神更多实施细节可参见§4.2。基于递归网络的时态推理。由于我们的任务是在时空域上定义的，所以速度-为了更全面的推理，应该考虑到动态使用更新的人体节点表示{yv∈RV}v∈V\s从我们的基于消息传递的空间推理模型，我们进一步将LSTM应用于每个节点进行时间推理。更确切地说，我们的时间现实-探测步骤具有两个阶段：时间消息传递5729vvvvLSTMvvv图4：所提出的用于凝视通信理解的时空推理模型的详细架构。详细描述见第4.1阶段和读出阶段。我们用yt表示人类节点v∈ V\s在时间t的特征，其在N次迭代空间消息传递之后获得。在时间消息传递阶段，我们使用LSTM在时间轴上传播信息：ht= f（yt|ht−1），（4）结构将试图消除噪声，提高预测性能。编码器和解码器都由全连接层实现。在深入到我们的模型实现之前，我们提供了一个简短的总结，整个时空reason- soning过程。如图4、对于输入的社会视频（a），对于每一帧，我们建立一个初始的完整的其中fLSTM ：RV→RV是一个基于LSTM的时间域。图G（b）表示注视通信实体（即，人类和社会场景）的节点和它们的关系一个探测函数，它使用时间信息 yt用作LSTM边缘。在空间推理步骤（c）期间，我们首先tv更新边缘表示使用等式1（注意更改在时间t，并且Hv指示对应的隐藏状态通过考虑先前信息ht-1输出。然后，在读出阶段，对于每个人类节点v，从最终节点表示h_t预测对应的gaze标签（5）（1）与（b）相比的边缘颜色）。然后，在图结构更新阶段，我们通过使用等式更新每个节点对之间的连接性来推断图结构2（注意与（b）相比改变的边缘厚度）。在节点更新阶段，我们使用等式更新节点嵌入3（注意与（b）相比，节点颜色发生了变化在上面迭代v/v过程导致在空间其中fR：RV→ L将节点特征映射到标签空间L中，标签空间L由分类器网络实现事件网络。事件网络设计有编码器-解码器结构，以学习原子注视的相关性并对每个视频序列的事件级注视通信进行分类。为了减少视频长度的大变化，我们将输入原子凝视序列预处理成两个向量：i）记录从一个类别的原子凝视到另一个类别的每个转变的转变向量编码器分别将转换向量和频率向量编码为两个嵌入向量。解码器对这两个嵌入向量的级联进行解码，并进行最终事件标签预测。由于原子凝视通信在通信活动内是有噪声的，因此编码器-解码器可以被配置为在通信活动中使用。域在几次空间消息传递迭代之后，我们将增强的节点特征馈送到基于LSTM的时间推理模块中，以捕获时间动态（等式2）。4）并预测最终的原子凝视通信标签（等式4）。（五）。然后，我们使用事件网络推理事件级标签的基础上，以前推断的原子级标签组成的长序列在一个更大的时间尺度。4.2. 详细的网络架构注意力图学习。在我们的社交图中，邻接矩阵A存储节点之间的注意关系，即，表示社交场景中的实体之间的交互。由于我们已经注释了所有有向的人-人交互和人-场景关系（§3.2），因此我们以显式方式（在地面实况的监督下）学习邻接矩阵A。另外，对于场景节点s，由于它5730任务原子级凝视沟通（精度F1-分数）单次相互回避推荐跟随份额平均Acc.度量P（%）↑F（%）↑P（%）↑F（%）↑P（%）↑F（%）↑P（%）↑F（%）↑P（%）↑F（%）↑P（%）↑F（%）↑顶部-1（%）↑最高-2（%）↑我们的-满（迭代2）22.1026.1798.6898.6059.2074.2856.9053.1632.8318.0561.5146.6155.0276.45机会16.5016.4516.4216.6516.6516.5116.0716.0616.8016.7416.2016.2516.44-CNN21.3227.8915.9914.4847.8150.820.000.0019.2123.1011.702.8023.0540.32CNN+LSTM22.1011.7818.5516.3764.2459.5713.6918.5522.7029.1317.183.6124.6545.50CNN+SVM19.9223.6328.4638.3068.5376.0715.156.3223.2816.8740.7649.2436.23-CNN+RF53.1257.9820.780.240.000.0051.8827.3115.9019.3935.5644.4237.68-PRNet0.000.0047.5252.5489.6358.0019.4921.5219.7222.0548.6962.4039.5961.45VGG1635.5548.9399.7099.8576.9513.0437.0231.8826.6220.8953.0559.8849.9172.18Resnet50（192-d）33.6138.1978.2285.6662.2776.7518.5811.2135.8918.5557.8260.2653.7277.16仅AdjMat34.0022.6331.4622.8138.0652.4227.7026.7925.4225.2532.3228.6932.6446.482分支迭代220.438.9392.6576.0347.5759.4740.3445.3536.3635.7755.1557.9349.5780.332分支迭代318.9219.6799.7297.1857.6960.1811.926.1931.1020.4039.6753.2246.3966.77我们的-迭代16.694.6649.3947.9636.5639.4425.8927.8235.0531.9336.7142.2233.6753.97我们的-迭代344.830.7751.2966.4147.0964.030.000.0025.9526.2047.4246.7444.5272.77我们的-迭代428.015.7799.5993.1542.0659.0638.4614.0222.0217.5443.6955.7748.3572.35我们的w/o。时间原因13.7410.8098.6498.5454.5453.1755.8753.7540.8325.0045.8961.5553.7380.33我们的w内隐学习30.609.1533.0034.5643.3956.0021.5026.9822.4318.6358.3039.3333.7456.54表3：原子级凝视通信预测的定量结果。最好的分数用粗体标出。强制av，s为0，其中v∈V。以这种方式，其他人类节点在消息传递期间不能影响场景节点的状态在我们的实验中，我们将提供关于在隐式（w/o）中学习A的更详细的结果。事实真相）或明确的方式。节点/边特征初始化。对于每个节点v∈ V |s，从相应的边界框中提取4096-d特征（来自预训练的ResNet 50[24]的fc 7层）作为其初始特征xv。对于场景节点s，使用整个帧的fc7特征作为其节点表示xs。为了减少参数的数量，我们使用全连接层将所有的节点特征压缩到6维，然后用它编码6维节点位置信息。对于边e=（v，w）∈ V，我们只需将相关的两个节点特征连接起来作为其初始特征xv，w。因此，我们有V=12和E=24。图形网络实现。函数f（·）在等式1、2和5都是通过完全连接的层-的定义，其配置可以根据其相应的定义来确定。Eq.中的函数3是由门控递归单元（GRU）网络实现的。损失函数。当显式学习邻接矩阵时，我们将其视为二元分类问题并使用交叉熵损失。我们还采用标准的交叉熵损失的多类分类的凝视通信标签。5. 实验5.1. 实验装置评估指标。四个评价指标，我们使用precision，F1-score，top-1Avg.Acc. 和top-2Avg.Acc. 在我们的实验中。精度P是指真阳性分类与所有阳性分类的比率。F1- scoreF是精确率和召回率的调和平均值：2×精确率×召回率/（精确率+召回率）。前1个平均值Acc.和top-2Avg. Acc.计算所有测试集的平均标签分类准确度。实施详情。我们的模型由PyTorch实现。在训练阶段，学习率被设置为1 e-1，并且每个时期衰减0.1。对于原子凝视交互时间推理模块，我们设置顺序根据我们的数据集统计，长度为5帧。训练过程大约需要10个epoch（5小时）才能与NVIDIA TITAN X GPU大致收敛。基线。为了更好地评估模型的性能，我们考虑以下基线：• 机会是一个弱基线，即向每个人类节点随机分配原子注视通信标签。• CNN使用三个Conv2d层来提取每个人类节点的特征，并将这些特征与位置信息连接起来。用于标签分类（没有空间通信结构，没有时间关系）。• CNN+LSTM 将基于 CNN 的节点特征提供给 LSTM（只有时间动态，没有空间结构）。• CNN+SVM连接基于CNN的节点特征并将其馈送到支持向量机分类器中。• CNN+RF用随机森林分类器替换上述SVM分类器。• FC-w/o。GT FC-w. GT是完全连接的层，具有- out或具有地面实况原子凝视标签。消融研究。为了评估我们的基本模型组件的有效性，我们得出以下变体：• 不同的节点功能。我们尝试不同的方法来提取节点特征。PRNet使用PRNet提取的68个3D面部关键点[19]。VGG16用VGG16取代Resnet50 [53]。Resnet 50（192-d）将Resnet 50 [24]的fc 7层的4096-d特性压缩到192-d。• AdjMat-only直接将显式学习的邻接矩阵馈送到一些Conv 3d层中用于分类。• 2分支连接第二个邻接矩阵分支5731任务事件级凝视沟通（精确度F1评分）非通信相互注视注视厌恶注视联合注意平均值。Acc.度量P（%）↑F（%）↑P（%）↑F（%）↑P（%）↑F（%）↑P（%）↑F（%）↑P（%）↑F（%）↑顶部-1（%）↑最高-2（%）↑机会21.329.325.023.020.014.836.315.120.322.122.745.0FC-w/o。GT43.744.316.923.36.210.08.39.160.940.235.669.1Ours-w/o。GT50.749.316.721.08.211.36.27.760.940.037.165.5FC-w。GT90.770.712.330.822.230.815.048.356.857.152.686.5我们的GT91.472.714.532.318.545.520.066.762.230.855.979.4表4：事件级凝视通信预测的定量结果。最好的分数用粗体标出。图5：原子级凝视通信预测的定性结果。正确推断的标签以黑色显示，而错误示例以红色显示。与GNN分支一起用于分类。我们使用不同的消息传递迭代进行测试。• 我们的迭代1，2，3，4在我们完整模型的空间推理阶段测试不同的消息传递迭代。• 我们的w/o。时间原因用Cond3d层在我们的完整模型的时间推理阶段。• 我们的w内隐学习通过无监督学习相邻矩阵A（w/o.注意地面真相）。5.2. 结果和分析总体定量结果。表3和表4分别示出了原子级和事件级凝视通信分类实验的定量结果。对于原子级任务，我们的完整模型实现了最好的 top-1 avg 。 acc. （ 55.02%），并且对于每种原子类型显示出良好且平衡的性能，而不是过拟合到某些类别。对于事件级任务，我们的事件网络提高了top-1 avg。在测试集上，达到37。1%与预测的原子标签和55。9%的真实原子标签。深入分析。对于原子级任务，我们研究了提取节点特征的不同方法，并发现Restnet50是最好的。此外，将Resnet 50特征压缩到低维度仍然表现良好且有效（完整模型与Resnet 50 192-d）。AdjMat-only算法直接使用连接邻接矩阵，相对于弱基线算法可以得到一些合理的结果，但性能还不够好，这可能是因为视线交流的动态理解并不是简单的几何注意关系，还依赖于对时空场景的深入全面的理解上下文我们研究了迭代消息传递的效果但随着迭代次数增加到一定程度，性能略有下降。定性结果。图5示出了我们的用于原子级凝视通信识别的完整模型预测的通信结构用边界框和箭头示出。我们的方法可以正确地识别不同的原子级凝视通信类型（黑色显示），具有有效的时空图推理。我们还提出了一些失败的情况下（显示为红色），这可能是由于模糊和微妙的凝视互动，以及眼睛的模糊。此外，注视阶段之间的转移可能很快，并且一些阶段非常短，使得难以识别。6. 结论我们解决了从第三人称社交视频中的原子级和事件级两者推断人类注视通信的新问题我们提出了一个新的视频数据集VA- CATION和时空图推理模型，并在我们的数据集上展示了基准测试结果。我们希望我们的工作将成为重要的资源，以促进未来的研究与这一重要课题。致谢作者感谢教授。来自加州大学洛杉矶分校VCLA实验室的高涛、舒天民、齐思远和王克泽对这项工作提出了有益的意见。这项工作得到了ONR MURI项目N 00014 -16-1-2007，ONR Robotics项目N 00014 - 19-1-2153，DARPA XAI资助N66001-17-2-4029，ARO基金编号W 911 NF 1810296、CCF-腾讯开放基金和之江实验室5732引用[1] Henny Admoni和Brian Scassellati社会辅助人机交互的非语言行为的数据驱动模型。InICMI，2014. 3[2] Henny Admoni和Brian Scassellati人类与机器人交互中的社会眼凝视：综述。JHRI，6（1），2017年。一、二、三[3] Sean Andrist，Bilge Mutlu，and Adriana Tapus.像我一样：通过凝视匹配机器人个性以增加动力。InCHI，2015. 3[4] Sean Andrist ， Xiang Zhi Tan ，Michael Gleicher ， andBilge Mutlu.类人机器人的会话凝视厌恶。InHRI，2014. 3[5] Michael Argyle和Mark Cook凝视和相互凝视。剑桥大学出版社，1976年。2[6] Peter W. Battaglia ， Razvan Pascanu ， Matthew Lai ，Danilo Rezende，and Koray Kavukcuoglu.交互网络，用于学习物体，关系和物理。在NIPS，2016年。3[7] Ali Borji和Laurent Itti视觉注意力建模的最新技术。IEEE TPAMI，35（1）：185-207，2013. 3[8] Jean-David Boucher ， Ugo Pattacini ， Amelie Lelong ，Gerard Bailly，Frederic Elisei，Sascha Fagel，Peter F.Dominey和Jocelyne Ventre-Dominey。当我看到你看的时候，我伸手更快Frontiers in Neurorobotics，6：3，2012. 3[9] 作者声明：Andrew N.梅尔佐夫注视跟随的发展及其与语言的关系。Developmental Science，8（6）：535-543，2005. 2[10] 琼·布鲁纳、沃伊切赫·扎伦巴、阿瑟·斯拉姆和扬·勒昆。图上的谱网络和局部连通网络。见ICLR，2014年。3[11] Judee K.作者声明：Laura K.格雷罗和科里·弗洛伊德非语言交流。Routledge，2016. 3[12] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.超越卷积的迭代视觉推理在CVPR，2018年。3[13] 汉军岱、伯岱、乐颂。结构化数据潜变量模型的判别嵌入。InICML，2016.3[14] DavidK.Duvenaud ， DougalMaclaurin ， JorgeIparraguirre ， Raf aelBombarell ， Timoth yHirzel ， Ala´nAspuru-Guzik，andRyan P.亚当斯用于学习分子指纹的图上卷积网络2015年，在NIPS中。3[15] 内森·J·埃默里眼睛有它：社会凝视的神经行为学、功能和进化。 Neuroscience Biobehavioral Reviews ， 24（6）：581- 604，2000. 1[16] Deng-Ping Fan，Wenguan Wang，Ming-Ming Cheng，and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在CVPR，2019年。3[17] Fan Lifeng，Yixin Chen，Ping Wei，Wenguan Wang，and Song-Chun Zhu.在社交场景视频中推断共享关注。在CVPR，2018年。3[18] 方浩树，曹金坤，戴玉荣，陆策武。用于识别人与物体交互的成对身体部位注意力。在ECCV，2018。3[19] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在ECCV，2018。7[20] 放大图片作者：Justin Gilmer.帕特里克·舍恩霍尔茨Riley、Oriol Vinyals和George E.达尔量子化学的神经信息传递。ICML，2017。三、五[21] 阿瑟M.作者：Jennifer L. Schroeder和David A.罗伯森避免凝视可以使周围环境脱离，并有助于记忆。记忆认知，26（4）：651-658，1998. 2[22] 马歇尔·M Haith，Terry Bergman，and Michael J.摩尔婴儿早期的眼神接触和面部扫描。 Science ， 198（4319）：853-855，1977. 2[23] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。在NIPS，2017年。3[24] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。7[25] 黄建铭和Andrea L.托马斯。人-机器人交互中响应、启动和确保联合注意的作用2011年，《罗马人》，2011年3[26] Roxane J. Itier和Magali Batty。眼睛和注视处理的神经基础：社会认知的核心。Neuroscience BiobehavioralReviews，33（

下载后可阅读完整内容，剩余1页未读，立即下载