“LAEO-Net:自动理解视频中的人类互动”

111 浏览量更新于2023-10-19 收藏 2.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1LAEO-Net：重新审视视频曼努埃尔·J 科尔多瓦大学mjmarin@uco.es牛津大学vicky@robots.ox.ac.uk科尔多瓦大学i42mesup@uco.es牛津大学Universityofaz@robots.ox.ac.uk图1：亲密还是敌意？头部姿势，以及身体姿势和面部表情，是解释人类互动的丰富信息来源。能够自动理解由场景中的人的相对头部取向提供的非语言线索，使得以人为中心的视频理解达到了一个新的水平。绿色和红色/橙色头部分别代表LAEO和非LAEO病例第二排视频来源：https://youtu.be/B3eFZMvNS1U摘要捕捉人们的“相互凝视”对于理解和解释他们之间的社会互动至关重要。为此，本文提出了检测视频序列中的人看着对方（LAEO）为此，我们提出了LAEO-Net，这是一种新的深度CNN，用于确定视频中的LAEO。与以往的工作不同，LAEO-Net以时空轨迹为输入，对整个轨迹进行推理它由三个分支组成此外，我们还介绍了两个新的LAEO数据集：UCO-LAEO和AVA-LAEO。一个彻底的实验评估表明，LAEO网络的能力，成功地确定两个人是否是LAEO和时间窗口，它发生。我们的模型在现有的TVHID-LAEO视频数据集上实现了最先进的结果，显著优于以前的方法。1. 介绍目光接触或目光接触的持续时间和频率取决于关系的性质，并反映了参与者之间的权力关系，吸引力或对抗[1]。因此，为了理解和解释正在发生的社会互动，准确地捕捉这个信号是很重要的。在一系列计算机视觉论文[17，18，21]中，已经认识到检测人们相互注视（LAEO）的重要性，以及其他研究人类凝视的论文[3，5，23，24]。LAEO与其他形式的人类非语言交流（如面部表情、手势、手势（距离）、肢体语言和姿势、语言（语调、韵律）和互动（如拥抱、握手））互补。其中许多都是最近的论文的主题[9，16，32]。在本文中，我们介绍了一种新的深度卷积神经网络（CNN），用于确定视频材料中的LAEO，称为LAEO-Net。与以前的工作不同，我们的方法回答了问题，是否两个字符是LAEO在一个时间段内使用的时空模型，而以前的模型只考虑在-individual帧。逐帧LAEO的问题在于，当角色眨眼或瞬间移动他们的头部时，则他们被认为是非LAEO，并且这会严重影响LAEO测量在一段时间内的准确性。我们引入的模型考虑了多帧的头部轨迹，并根据两个角色的头部姿势和相对位置来确定两个角色在一段时间内是否这样的例子如图1所示。我们做出以下贡献：首先，我们介绍了一个时空LAEO模型，它由三个分支组成，一个用于跟踪每个角色的头部，一个用于它们的相对位置，以及一个融合块。这在第3节中描述。据我们所知，这是第一个工作，使用轨道作为输入和原因的人LAEO在整个轨道，而不是只使用单个帧。其次，我们介绍了两个新的数据集（第4节）：（i）UCO-LAEO，一个用于训练和测试的新数据集-34773478在LAEO。它由129（3 - 12秒）片段从四个流行的电视节目;和（ii）AVA-LAEO，一个新的数据集，它扩展了现有的大规模AVA数据集[9]，并为训练集和验证集添加了LAEO注释。第三，我们证明了我们的模型在前TVHID-LAEO数据集[17]上达到了最先进的水平（3%）。最后，在第7节中，我们展示了通过使用LAEO分数，我们可以从电视材料中的角色互动中计算出社交网络，并且我们为电视喜剧“The Sons”的两集演示了这一点2. 相关工作凝视[23]和头部姿势[6]是处理确定场景中的视觉注意力焦点（VFoA）问题的强大工具，即。人们在看什么。例如，[11]强调了人眼白色部分的重要性（即，白色巩膜）识别注视方向，使得人类能够仅通过使用注视信号在彼此之间进行通信的非凡能力。注意力的视觉焦点。确定VFoA的一种经典方法是[2]，其中作者以概率方式对会议组的动态进行建模，推断参与者正在观看的位置。最近，[3]的作者通过分析人类注视来发现视频场景中感兴趣区域的3D位置他们提出了一个概率模型，可以同时推断出人们为了评估他们的模型，他们在受控场景中记录了总共8个注视方向。[5]的工作重点不是视频，而是静态图像，提出了一种神经网络，可以估计注视方向和VFoA，即使它在图像之外。图像中目标面部的粗略空间位置以独热矢量的形式提供给网络。相比之下，在我们的模型中，人类头部的相对位置是通过创建一个RGB图像来提供的，该图像具有代表头部中心和比例的高斯圆形以及用于指示待分析的目标头部对的颜色编码（图5（a））。因此，我们的表示提供了更好的场景几何分辨率，并结合了有关头部尺度的信息，为网络提供了更强的输入信号。通常，在商业电影中，动作在交替的视频镜头中表示。因此，有时VFOA在当前帧或镜头中不可见，但在不同的帧或镜头中可见。这个问题在[24]中通过深度学习模型来解决，该模型对人类的注视和同一场景的不同视图之间的3D几何关系进行推理。[19]的作者考虑了多人参与社交互动的场景。鉴于一个人的眼睛并不总是可见的（例如，由于摄像机视角），他们通过用贝叶斯模型对人们头部的运动进行建模来估计人们分支详细信息（“f”：过滤器，“% s”：步幅，h×w× t）头部姿势输入：帧裁剪64×64×K（四个3D转换层）人头图输入：贴图64×64（四个2D转换层）f：16：5×5×3，s：2×2 ×1f：8×5×5，s：2 ×2f：24：3×3×3，s：2×2 ×1f：16×3×3，s：2 ×2f：32：3×3×3，s：2×2 ×1f：24×3×3，s：2 ×2f：12：6×6×1，s：1×1 ×1f：16×3×3，s：4 ×4表1：架构规范。其中凝视和VFOA都是潜在变量。人们看着对方。VFoA的特殊情况是当受试者A的VFoA是受试者B，并且受试者B的VFoA是受试者A时。这种情况被称为相互凝视或人们互相注视（LAEO）。这种情况通常需要非物理的人类交互;但是可以先于或继续物理的一个，例如，在开始谈话之前或结束谈话之后在行为成像研究领域的背景下，检测LAEO事件是理解更高层次社会互动的关键组成部分，例如在自闭症研究中[25]。在视频中检测人LAEO的问题首先在[17，18]中介绍。在检测和跟踪人类头部之后，[17]使用高斯过程回归模型对人类头部的基于估计的角度和两个头部的相对位置，每帧计算LAEO分数，并汇总以提供镜头级LAEO分数。尽管我们也对头部姿势和两个头部之间的相对位置进行建模，但我们的LAEO-Net与这些作品不同，因为它利用了相邻帧的时间一致性，并估计跨越时间窗口而不是单个帧的轨道的LAEO事件在一个只有两个人互动的可控场景中，[21]通过使用放置在两个参与者前面的两个校准相机来解决LAEO问题，确保两个相机之间存在重叠的可见区域它首先用CNN估计眼睛注视，然后使用3D几何形状来决定任一参与者的光线注视是否与另一个参与者的头部体积相比之下，我们的目标是解决一般情况下的LAEO检测，（可能）受试者数量不受限制。3. LAEO-Net给定一个视频片段，我们的目标是确定是否有任何两个人类正在互相注视（LAEO）。为此，我们引入了LAEO-Net，这是一个三分支跟踪网络，它以两个头部轨迹和由头部地图编码的两个头部之间的相对位置作为输入，并确定两个人是否在相互注视的置信度得分，以及LAEO发生的帧。该网络被详尽地应用于视频剪辑中的所有同时头部轨道对。LAEO-Net由三个输入分支、一个融合块和一个全连接层组成，如图所示。3479图2：我们的三个分支轨道LAEO-Net：它由头部分支（绿色），头部映射分支（红色）和融合块组成，融合块连接来自其他分支的嵌入，并使用softmax loss将轨道序列评分为LAEO或非LAEO。在我们的实验中，我们使用长度为K=10的头部轨迹。ure2.其中两个输入流确定头部的姿势（绿色分支），第三个输入流表示其相对位置和比例（红色分支）。融合块将来自三个分支的嵌入组合起来，并将它们传递到预测LAEO分类的全连接层（蓝色层）。该网络使用时空3D卷积，可以应用于视频剪辑中的头部轨迹。接下来我们将详细描述这些组件，并在表1中报告其规格。头部姿势分支。它由两个分支机构组成，每人一个。每个分支的输入是一个64×64像素的KRGB帧裁剪张量，包含同一个人的头部序列每个分支都将头部帧裁剪，考虑到头部姿势。该架构受到[10]中提出的镜头边界检测的启发，具有四个3D conv层，后面是一个dropout层和一个flatten层（图2中的绿色分支）。flatten层的输出在用于进一步处理之前进行L2归一化。注意，目标对的每个人的头部序列将由该分支编码，从而获得两个嵌入向量。头部地图分支。该分支使用头部映射嵌入两个头部轨道之间随时间的相对位置。特别是，我们定义了一个64×64的地图，将K帧轨道的中心帧中检测到的所有头部描绘为2D高斯（图5（a））。除了两个头部轨迹，该分支还为其他人编码信息，现场根据它的大小和规模，第三个人可以切断两个人之间的凝视光线（图3）。列入这一信息有助于LAEO-Net区分这类案件。该分支由四个2D conv层组成（表1）。把头埋进去map 我们将最后一个conv 层的输出变平并应用L2-normalization。融合阻滞。作为网络不同分支的输出获得的嵌入向量被合并，并由一个具有交替丢弃层（图2中的蓝色层）的全连接层进一步处理。然后，Softmax层由两个隐藏单元（即，代表非LAEO和LAEO类）。LAEO损失函数。为了训练LAEO预测器，我们使用标准的二进制交叉熵损失。4. 数据集在本节中，我们将介绍LAEO数据集。首先，我们介绍两个新的数据集：UCO-LAEO和AVA-LAEO，然后介绍另外两个数据集：AFLW [12]和TVHID [22]。AFLW用于预训练头部姿势分支和生成合成数据，而TVHID仅用于测试。新引入的UCO-LAEO 和AVA-LAEO数据集用于训练和测试LAEO-Net。表2显示了LAEO数据集的概述。新的数据集及其注释和评估代码可在线获得：http：//www.robots.ox.ac.uk/http：//www.example.comUCO-LAEO数据集。我们使用四个流行的电视节目：《权力的游戏》《机器人先生》《超人前传》和《行尸走肉》从这些节目中，我们收集了129个（3-12秒长）镜头，首先用边界框注释每个帧中的所有头部，然后将每个头部对注释为LAEO或非LAEO。图4（顶部）显示了一些示例注释设置在本手稿的扩展版本中描述[15]。右磁头磁道3D转换输入视频左磁头磁迹3D转换轨道得分人头图二维转康卡特LAEO非LAEO头映射分支头位分支3480FLAEO数据集统计UCO-LAEO（新）AVA-LAEO（新）[第17话]火车+价值测试火车Val测试#帧#程序>18k4（电视节目）>1.4M（估计）298（电影）>29k20（电视节目）镜头#注释LAEO数量106+8七十七加八15154016618928106315678443331对#注释LAEO数量27358+51427554+12263858155813797619318343545882––组（对）32500385813797634354443（射击）表2：LAEO数据集总结。#节目：不同的电视节目;#shot- annotations：带注释的镜头;#shot-LAEO：包含至少一个LAEO对的激发;#pair-annotations：带注释的人类边界框对;#pair-LAEO：是LAEO的人类边界框对;组：使用的训练/验证/测试LAEO对（或激发）数量。（一）（b）第（1）款图 3 ：（ a ） AB 不是LAEO ，因为C 是闭塞性的。(b)AB是LAEO。AVA-LAEO数据集。AVA-LAEO由来自“原子视觉动作”数据集（AVA v2.2）[ 9 ]数据集的训练集和验证集的电影组成AVA帧用80个原子视觉动作的边界框注释（每一秒），而不包含LAEO注释;因此，我们用LAEO注释增强了训练集和val集中现有（人）边界框的标签。从AVA的训练集和值集中，我们选择具有多于一个人注释为“watch（a person）”的我们只考虑观察者和被观察者都可见的情况。我们将每对标注为LAEO和非-LAEO（表2）。注释设置在本手稿的扩展版本中描述[15]。我们将该子集称为AVA-LAEO。图4（底部）显示了一些LAEO对示例。AFLW数据集。我们使用它包含从FlickR获得的图像中约25k个带注释的面部，其中每个面部都用一组面部地标进行注释根据这些标志，头部姿势（即，偏航角、俯仰角和滚转角）。为了创建一个头部作物序列，我们将输入图像复制K次。我们保持中间的两个副本不变，并随机扰动其他副本，即。移动、缩放和亮度变化小。TVHID-LAEO。TVHID数据集[22]最初是为视频中的人类交互识别任务而设计的。它包含300个视频剪辑，分为五类：握手，击掌，拥抱，亲吻和否定。我们使用来自[17]的激发级别的LAEO注释，这导致443个激发，其中331个LAEO和112个非LAEO对（表2）。5. 培训LAEO-NetLAEO-Net需要头部轨迹作为输入。在这里，我们首先描述头轨迹生成（5.1节）。然后我们使树枝摆成头部姿势并冻结其重量。在第二阶段，我们训练整个LAEO-Net（即，头图分支和上层）（第5.3节）。5.1. 头部检测和跟踪头部检测。我们的方法需要头部检测。在文献中，有几种用于面部检测的模型（[31] [33]）;然而，头部检测是一项更复杂的任务，因为它包括检测整个头部，包括面部（如果可见），但也包括头部的后部（例如，头部）。 [17] ）。我们使用单次多盒检测器（SSD）检测器[13]1从头开始训练头部检测器我们以10 - 4的学习率（前50个epoch）训练模型，并将其减少为0。1、其余的训练。为了加速和更好的性能，我们使用批处理归一化，为了鲁棒性，我们使用[13]中的数据增强过程我们用“好莱坞头像”数据集训练头部检测器它包括1120帧的头部注释，分为720个训练帧和200个验证和测试帧。我们首先用训练集训练我们的检测器，在验证模型后，我们在整个数据集上进行训练。头部追踪。一旦我们获得了头部检测，我们就将它们按时间分组到轨迹中为了构建轨迹，我们使用[28]的在线链接算法，因为它对错过的检测是鲁棒的在所有头部检测中，我们仅为每个帧保留N=10个最高得分的头部检测我们将轨道T从帧f扩展到帧f+1，其中检测hf+1具有。如果它没有被另一个轨道拾取并且ovhT，hf+1>τ，则它是最大值，就是重叠如果对于M个连续帧不存在这样的检测，则轨迹停止;否则，我们对头部检测进行插值。轨道的得分被定义为其检测的平均得分。在给定帧处，新轨迹从未拾取的头部检测开始。为了避免轨迹中的移动效果，我们在时间上向前和向后跟踪。描述我们的培训程序，其中包括培训两个阶段。在第一阶段（第5.2节），我们预训练1检测器：https://github.com/AVAuco/ssd_peopleB一CB一3481图4：（上）UCO-LAEO和（下）AVA-LAEO数据集。新数据集中包含的帧和LAEO头对注释示例。不同的场景、人物服装、背景杂乱和不同的视频分辨率等因素使它们具有挑战性。5.2. 头部姿势分支的一般来说，人类可以仅仅基于头部姿势来推断一个人在看哪里，甚至不需要看到这个人的眼睛。这表明大多数信息都是以头部方向编码的。有几个作品模拟了头部方向[27]或眼睛凝视[23]。请注意，使用实际的眼睛注视并不总是一个选项，即使有多帧作为输入，因为没有保证眼睛是完全可见的，即。由于图像分辨率或自遮挡。因此，在这项工作中，我们的模型凝视只是基于头部方向。我们用三个角度（按照信息递减的顺序）对头部方向进行建模：（a）偏航角，即向右看，向左看，（b）俯仰角，即，向上看，向下看，和（c）滚动角，即，面内旋转我们使用这种建模来预训练头部姿势分支。我们使用从这个预训练中学习的权重，而不进一步调整这个分支（冻结权重）。头位预训练功能丧失。令（α，β，γ）分别为头部的偏航角、俯仰角和滚转角我们定义了一个用于估计每个姿态角的损失：Lα，Lβ，Lγ，并用L1平滑损失对它们进行建模[26]。考虑到偏航角是主导角，另外，对于这些损失，我们包括一个惩罚偏航角符号的不正确估计的项，即，无法判断这个人是向左看还是向右看（Ls）。其定义为：Ls=max（0，−sign（α）·sign（α）），（1）其中sign（α）是符号函数（即对于正输入，返回+1;对于负输入，返回-1;如果输入为0，则返回0）而在《易经》中，“道”就是“道”，“道”就是“道”。因此，用于训练头部的损失函数Lh用于LAEO目的的姿态分支由下式给出：Lh=wα·Lα+wβ·Lβ+wγ·Lγ+ws·Ls，（2）其中wx是训练过程中通过交叉验证选择的正权重。在我们的实验中，我们用途：w α=0. 6，w β=0. 3，w γ=0.1，w s=0。1，因为wα是主导的一个决定了头部的方向。注意，权重不一定加起来等于1。5.3. 培训LAEO网络我们用真实数据和合成数据训练LAEO-Net。我们还使用数据增强技术，例如图像扰动、平移、亮度变化、缩放变化等。对于前N=2个时期，我们只使用合成数据训练LAEO 网络，然后在每个训练步骤中，我们在真实数据和合成数据之间交替。为了提高性能，我们还使用了硬负挖掘。我们部署了[ 20 ]的课程学习策略，通过调整纳入培训阶段的硬否定的难度来促进学习。在我们的实验中，超参数τ的值在2个时期后增加，随着其值的增加，允许更困难的示例我们的培训计划的重要性在第6.2节中进行了评估。合成数据。为了生成额外的合成数据，我们使用具有头部姿势信息的图像。为了生成正样本，我们选择了其角度与LAEO兼容的头部图像对，同时，它们生成一致的几何信息。为了生成负样本，我们（i）改变对的几何形状，I.E.例如，通过仅镜像该对头部中的一个头部，或者（ii）选择姿态与LAEO不兼容的头部图像e.G.都在看同一个方向图5（b）显示了一些人工生成的示例。6. 实验结果在本节中，我们通过实验评估了LAEO-Net用于确定人类LAEO的有效性。请注意，模型在UCO-LAEO或AVA-LAEO数据集上进行训练首先，我们报告了评估方案（第6.1节），并评估了合成的重要性。3482头部地图左侧头部（一）右头部（b）第（1）款由于三个数据集之间的注释不同，我们描述了如何使用LAEO-Net输出来获得最终分数（在镜头或帧级别）。为此，我们在成对的头部轨迹（长度K=10）上测试LAEO网络，并为每个轨迹对获得一个LAEO分数。我们将LAEO分数分配给中间帧中的头对。我们在下面描述每个数据集的评分过程。i. UCO-LAEO：由于头部的边界框可用于每个帧，因此LAEO-Net直接应用于这些头部轨迹（不使用检测）。为了考虑开始时的K/2结束），我们从中间帧传播分数。ii.AVA-LAEO：我们运行头部跟踪器并在这些轨道上应用LAEO-Net。考虑到AVA-LAEO包含人类边界框（而不是头部）的配对注释，我们使用头部区域上的交集（而不是IoU）将每个检测到的头部配对与地面真实人类配对进行比较。图5：（a）头图和（b）LAEO训练样本的增强。（a）对于每个帧，我们使用颜色编码分析所有头部对：蓝色用于左侧，绿色用于右侧，红色用于其余头部，例如中间（即，目前尚未考虑进行评估）。(b)我们根据头部的方向或相对位置，从每个阳性对（绿色框）生成额外的合成LAEO阴性训练数据微调期间的数据（第6.2节）。然后，我们检查模型的每个组件的影响（第6.3节），在第6.4节中，我们检查了LAEO-Net在两个新测试数据集UCO-LAEO和AVA-LEO 上的性能。最后，我们将我们的LAEO-Net与TVHID-LAEO数据集上的最先进方法进行了比较（第6.5节）。实作详细数据。 LAEO-Net 使用 Keras [4] 使用TensorFlowas后端实现。更多实施细节可参见[15]。6.1. 评价方案和评分方法LAEO分类AP是我们用来评估LAEO预测的指标。类似于对象检测，如果其与地面实况框的交并（IoU）重叠> 0，则检测是正确的。5[7]。检测到的一对如果两个磁头均正确定位且其标签（LAEO，非-LAEO）正确，则为正确。性能是平均精确度（AP），计算为精确度-召回率（PR）曲线下的面积。根据可用的地面实况注释，我们在帧级测量AP，将每对视为独立样本，或者在镜头级测量AP，如果更详细的注释不可用。帧级用于UCO-LAEO和AVA-LAEO，并且根据先前的工作[17，19]，拍摄级用于TVHID。评分方法。由于（地面）iii. TVHID：我们运行头部跟踪器并应用LAEO-网在这些轨道上。我们计算LAEO分数作为镜头中平滑分数的最大值;每一对的平滑得分是沿着轨道的移动时间窗口（长度为5）的平均值。6.2. 综合数据使用合成数据（即改变头部的相对位置以创建LAEO和非LAEO对，见图5（b），允许更多的免费训练样本，从而使模型更具可推广性，同时降低过拟合的概率（第5.3节）。在UCO-LAEO上训练和测试LAEO-Net，AP= 79。5%，培训期间：（i）AP= 64中没有合成数据和没有确凿的负面采矿结果。8%，即十四岁7%的下降，（ii）有合成数据，但没有硬负面挖掘结果，AP= 70。2%，I.E. 9.第九条。3%的下降，（iii）没有合成数据，但有硬负面挖掘结果，AP= 71。2%，即8. 下降2%，(iv)只有合成数据（没有真实数据，也没有硬负挖掘）导致AP= 76。9%，即二、下降6%。这些结果揭示了在训练过程中使用合成数据的意义6.3. 消融研究LAEO-Net由头部姿势和头部地图分支组成。在这里，我们研究了一些架构选择的影响，特别是头部映射分支和时间窗口K的长度（表3）。我们评估LAEO网络没有和头部地图分支。我们观察到，添加堆映射分支提高了我们的架构的性能（从73。百分之五到79. K=10时为5%），因为它能够学习空间重构，两个头之间的关系。此外，为了评估使用K帧的时间窗口的重要性与使用单个帧不同，我3483们改变K并训练和评估。3484头部姿势+UCO-LAEO上的LAEO %AP头图K=1（二维）K=5K=10-C64.972.758.773.973.579.5表3：LAEO-Net的消融研究。我们报告了LAEO-Net在UCO-LAEO上训练和测试时的%AP，用于各种时间窗口K= 1，5，10。LAEO %AP列车UCOAvaUCOAvaUCOAvaTVHID试验UCO-LAEOAVA-LAEOTVHID机会水平（chance level）40.417.1–[17]（全自动+HB）––––––87.6[19]（精细头部方向）––––––89.0LAEO-Net79.577.839.150.691.890.7–表4：UCO-LAEO、AVA-LAEO和TVHID的LAEO结果。我们报告了 TV-LAEO 和 AVA-LAEO 在对 @ 帧级别的%AP，并且与其他作品类似，在TVHID的镜头级别。用K=1，5，10对LAEO-Net进行评估。表. 3显示AP性能有所改善（1。2%）时，K增加只有1至5帧，和一个显着的改善（6。8%），当K从仅1帧增加到10帧时。在这项工作中，我们使用K=10帧。在不冻结头部姿势分支的权重的情况下训练LAEO-Net导致AP= 75。1%vsAP= 79.5%，表明冷冻重量导致性能改善。6.4. 关于UCO LAEO和AVA LAEO的我们在UCO-LAEO和AVA-LAEO数据集上评估了LAEO-Net，并在表4中报告了结果。在UCO-LAEO上进行训练和测试时，性能为79。5%，证明了我们模型的有效性在AVA-LAEO上进行训练和测试时，性能为50。百分之六。这些结果表明，UCO-LAEO和AVA-LAEO 之间的性能存在显著差距。这是由于AVA-LAEO与其他数据集相比的不同性质：（1）不提供头部注释（仅每1秒提供人类边界框）;（2）它包含具有挑战性的视觉概念，例如（a）低分辨率电影，（b）场景中有许多人，（c）模糊的小脑袋，以及（d）特定的服装风格，例如，几个人戴着帽子（西方的，埃及尽管存在这些困难，LAEO-Net实现了AP= 50。AVA-LAEO为6%为了检验LAEO-Net对其他数据集的推广，我们还报告了使用不同数据集进行训练和测试时的结果，即，AP = 77。UCO-LAEO为8%，AP= 39。AVA-LAEO为1%这些结果表明，主移位[29]肯定会影响性能，但同时我们的模型能够推广到其他未见过的数据集。为了评估这些数据集的难度和LAEO-Net的有效性，我们还将其与机会水平分类进行了比较，LAEO-Net的表现远远优于机会水平：UCO-LAEO为+40%，AVA-LAEO为+33%。当在 UCO-LAEO 和 AVA-LAEO 上应用 LAEO-Net时，我们得到图6的结果。对于这两个数据集，图6：LAEO-Net结果对（顶部）UCO-LAEO和（底部）AVA-LAEO。对于不同的场景，背景，头部姿势等，在大多数情况下，我们的LAEO-Net完全确定两个人是否是LAEO（绿框）;在其他一些情况下（红框），仅通过跟踪眼球运动，我们就可以确定这些人是否是LAEO。我们展示了一些排名最高的LAEO配对。我们观察到，LAEO-Net利用头部方向及其时间一致性，并准确地确定人们处于LAEO的帧。当在 UCO-LAEO 和 AVA-LAEO 上应用 LAEO-Net时，我们得到图6的结果。对于这两个数据集，我们显示了一些排名最高的 LAEO 配对。我们观察到，LAEO-Net利用头部方向及其时间一致性，并准确地确定人们处于LAEO的帧。6.5. TVHID LAEO我们将LAEO-Net与TVHID的最新技术进行比较[22]，即唯一具有 LAEO 注释的视频数据集（第 4节）。与[17]一样，我们使用TVHID的两个测试集的平均AP（表4）。在该数据集上，在UCO-LAEO和AVA-LAEO上训练的LAEO-Net达到AP = 91。8%，AP=90。7%，分别。两个结果都出来了-以较大幅度（2 -3%）执行所有其他方法。我们将LAEO-Net应用于TVHID，并获得了较好的结果。结果见图7。我们的模型成功地检测人LAEO在几种情况和场景，如不同的照明，规模，杂乱的背景。通过检查剩余的8%错误，我们注意到在大多数情况下，地面真值标签是模糊的（图7中的前两个红色框）。然而，在某些情况下，头部姿势和相对位置并不足以对LAEO病例进行建模，因为LAEO事件只能通过检查眼睛凝视来确定（图7中的最后一个红色帧）。我们的方法与这种困难的情况下，这是典型的眼动跟踪技术处理斗争一个可能的扩展可以包括眼动跟踪分支。7. 社会案例：朋友关系表明对社会互动感兴趣的一种主要方式是人们愿意参加LAEO [8，14]。目光接触的持续时间和频率反映了人与人之间的权力关系、吸引或对抗[1]。在这里，我们将LAEO-Net应用于社会场景：给定头部轨迹，我们自动推断人与人之间的关系（例如，喜欢对方，罗3485图7：TVHID上的LAEO-Net结果。前三行描述了当地面实况为LAEO（绿色）而非LAEO（蓝色）时的正确LAEO结果。LAEO-Net成功-在几种情况下（不同照明，规模，杂乱的背景）完全检测人LAEO。大多数失败案例是在模糊场景中缺少人员LAEO（前两个红色框）。在最后一个红色框中，我们看到了一个困难的失败案例，其中LAEO-Net将非LAEO序列预测为LAEO。请注意，头部方向和姿势指向LAEO;然而，角色转动了他的眼睛！情感关系）的基础上的频率和持续时间，人们LAEO随着时间的推移。特别是，隐藏在LAEO背后的想法是计算人们处于LAEO的帧数与他们共享场景的帧数之间的比率。比率越高，它们相互作用越多。数据集和程序。在这个实验中，我们使用了两集电视剧首先，我们检测和跟踪所有的头，这导致近3k头轨道。然后，在没有任何进一步训练的情况下，我们在每个轨道对上应用LAEO-Net来确定两个字符是否是LAEO。为了确定哪个头部轨迹对应于哪个字符，我们将所有产生的头部轨迹注释为描绘一个主要字符（超过一半的轨迹），无关字符（约30%），错误的（15%）或一些次要的（其余的）。实验和讨论。我们的目标是自动理解字符之间的潜在关系。因此，我们将两个字符之间的“相似性”测量我们观察到，LAEO得分捕捉字符之间的主导关系，例如。罗斯和瑞秋与那些更疏远的角色，例如。菲比和钱德我们的研究揭示了所有显著的配对关系，证明LAEO的人越多，他们的互动和社会关系就越强。图8：朋友的朋友。我们用每个字符对的平均LAEO分数来衡量“朋友度”，并用图中的边来描述它：边缘越厚，关系越占优势。一些模式是明确的：罗斯和瑞秋或莫妮卡和胡里奥比钱德和菲比或罗斯和马克更“喜欢”对方。8. 结论在本文中，我们专注于在视频中的人看着对方（LAEO）的问题我们提出了一种深度跟踪架构LAEO-Net，它以头部轨迹作为输入，并确定轨迹中的人是否是LAEO。这是第一个使用轨迹而不是边界框作为输入来推理整个轨迹上的人的工作。LAEO-Net由三个分支组成，一个用于每个角色的跟踪头部，另一个用于两个头部的相对位置。此外，我们还引入了两个新的LAEO视频数据集：UCO-LAEO和AVA-LAEO。我们的实验结果表明，LAEO-Net能够正确检测LAEO事件及其发生的时间窗口我们的模型在TVHID-LAEO数据集上实现了最先进的结果。最后，我们通过将其应用于社会案例场景来证明我们模型的通用性，在该场景中，我们根据LAEO的频率自动推断两个人之间的社会关系。鸣谢。我们感谢我们的评论者：RF、RD、DK、DC和EP以及NVIDIA。这项工作得到了西班牙赠款“Jose'Castillejo”、EPSRC计划赠款Seebibyte EP/M013774/1和英特尔高级研究项目活动（IARPA）（通过内政部/内政部商业中心（ DOI/IBC ）合同编号 D17 PC00341）的支持马克Julio0.540.690.680.570.400.690.670.67瑞秋0.3罗斯0.680.60乔0.46菲比0.520.530.46莫妮卡钱德勒0.370.630.570.320.680.530.43失败非LAEOLAEO3486引用[1] A. Abele凝视在社会交往中的作用：沟通和监控。非言语行为杂志，1986年。1、7[2] S. O. Ba和J-M. 奥多贝兹识别视觉焦点注意力从头部姿势在自然会议。 IEEE Trans. onSystems，Man，and Cybern. B部分，2009年。2[3] E. Brau，J. Guan，T. Jeffries和K.巴纳德多重凝视几何：从单眼视频中观察到的凝视推断新的3D位置在ECCV，2018。一、二[4] F. Chollet等人Keras https://keras.io，2015年。6[5] E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M.瑞格连接凝视、场景和注意力：通过注视和场景显著性联合建模的广义注意估计。在ECCV，2018。一、二[6] 诉德鲁阿尔河Horaud，A.Deleforge，S.Ba和G.伊万奇-利迪斯基于部分隐式混合线性回归的鲁棒头部姿态估计。IEEE Transactions on Image Processing，2017。2[7] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地威廉斯，J.Winn和A.齐瑟曼。PASCAL Visual Object Classes Chal- lenge2007结果，2007年。6[8] E. 高夫曼公共场所的行为。西蒙和舒斯特2008. 7[9]C.古角，澳-地Sun，D.罗斯角冯德里克角Pantofaru，Y.李鹏说，S. Vijayanarasimhan，G. Toderici、S.里科河苏肯卡尔C. Schmid和J.马利克AVA：时空局部原子视觉动作的视频数据集。在CVPR，2018年。一、二、四[10] M. 吉格利快得离谱的镜头边界检测全卷积神经网络CoRR，abs/1705.08214，2017。3[11] H. Kobayashi和S.小岛独特的形态人类眼睛及其适应意义：灵长类眼睛外部形态的比较研究人类进化杂志，2001年。2[12] M. Koestinger，P.Wohlhart，P.M. Roth和H.比肖夫一个-野外的面部标志：用于面部标志定位的大规模真实世界数据库。第一届IEEE面部图像分析技术基准国际研讨会，2011年。三、四[13] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y.Fu和A. C.伯格。 SSD：单次触发多盒探测器。在ECCV，2016。4[14] B. K.勒布相互的目光接触和社会互动及其与归属的关系。1972. 1、7[15] M. J. 我的吉姆·内兹，维。Kalogeiton，P.Medina-Sua' rez，以及A.齐瑟曼。LAEO-Net：重新审视视频中相互注视的人们。在arXiv，2019年。三、四、六[16] M. J. 马林-吉姆河。Mun nobrooz Salinas，E.Yeguas-Bolivar，和N. 我是布兰卡。使用视听线索的人类互动分类机器视觉与应用，2014年。1[17] M. J. Ma rın-Ji ménez，A. Z i sserman，M. Eichne r和V.铁r-rari。检测视频中的人互相注视。IJCV，2014年。一二四六七[18] M. J. Ma rın-Jim e'nez，A. Zisserman和V. 法拉利“看着你，孩子。检测视频中的人互相注视。在BMVC，2011年。一、二[19] B. 是的，S。Ba，和R. 霍罗德测试凝视和视觉参与社会互动的人的注意力焦点。IEEE PAMI，2018年。二六七[20] A. Nagrani、S. Albanie和A.齐瑟曼。可学习的PIN：个人身份的跨模态嵌入。在ECCV，2018。5[21] C. Palmero，E.A. van Dam，S.埃斯卡莱拉湾Kelia，G.F.利希特尔特湖P. Noldus，A. J. Spink和A.范·维林根。在面对面的二元交互视频中的自动相互注视检测。在测量行为的程序，2018年。一、二[22] A. Patron-Perez，M. Marszaek，A. 泽瑟曼和我D.里德第五步：在电视节目中识别人类互动。在BMVC，2010年。三、四、七[23] A. Recasens，A. 科斯拉角 Vondrick和A. 托拉尔巴他们在看哪里？ 2015年，在NIPS中。一、二、五[24] A.雷卡森斯角Vondrick，A. Khosla和A.托拉尔巴在视频中流动的凝视。InICCV，2017. 一、二[25] J. M. 瑞格行为成像：使用计算机视觉研究自闭症。机器视觉与应用，2011年。2[26] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。2015年，在NIPS中。5[27] N.鲁伊斯，E. Chong和J. M.瑞格细粒度头部姿势没有关键点的估计。在CVPR研讨会，2018年。5[28] G. 辛格，S。萨哈，M。萨皮恩扎山口H. Torr和F.库佐林在线实时多时空动作定位和预测。InICCV，2017. 4[29] A. Torralba和A. A.埃夫罗斯无偏倚地看数据集偏倚。CVPR

下载后可阅读完整内容，剩余1页未读，立即下载