第一人称摄像头在第三人称视频中的识别

109 浏览量更新于2023-10-15 收藏 15.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

51250在第三人称视频中识别第一人称摄像头佩戴者0Chenyou Fan 1，Jangwon Lee 1，Mingze Xu 1，Krishna Kumar Singh 2，Yong Jae Lee 2，David J. Crandall 1和MichaelS. Ryoo 101 印第安纳大学布卢明顿分校 2加利福尼亚大学戴维斯分校0{ fan6,mryoo } @indiana.edu0摘要0我们考虑这样的情况：在多人佩戴身体摄像头的环境中，第三人称静态摄像机也捕捉到了场景。为了做到这一点，我们需要在第一人称和第三人称视频之间建立人员级别的对应关系，这是具有挑战性的，因为摄像机佩戴者在自己的第一人称视频中不可见，无法使用直接特征匹配。在本文中，我们提出了一种新的半连体卷积神经网络架构来解决这个新的挑战。我们将问题定义为学习第一人称和第三人称视频的联合嵌入空间，考虑到空间和动态领域的线索。设计了一种新的三元损失函数，用于最小化正确的第一人称和第三人称匹配之间的距离，同时最大化不正确匹配之间的距离。这种端到端的方法在很大程度上优于几种基线方法，部分原因是通过学习为匹配优化的第一人称和第三人称特征与距离度量本身一起进行匹配。01. 引言0可穿戴摄像机正变得主流化：GoPro和其他第一人称摄像机被消费者用于记录极限运动和其他活动，例如，而身体佩戴摄像机现在是许多警察和军事人员的标准装备[8]。这些摄像机捕捉到了与传统第三人称摄像机的视频数据互补的独特视角。例如，在繁忙的城市街道或战场等复杂和高度动态的环境中，第三人称摄像机提供了场景的全局视图和事件的高级外观，而第一人称摄像机则以更细粒度的方式捕捉有关物体和人员的地面级证据。这些高度互补视角的视频组合可以用于执行各种视觉任务-场景理解、物体跟踪、活动识别等-比任何一种视角单独使用都能提供更高的保真度和细节。在这些情况下，任何时候场景中可能有多个人，人们经常进入和退出第三人称摄像机的视野。这些人中的某个子集可能佩戴着第一人称摄像机，每个摄像机也捕捉到了场景的一部分，但视角是高度动态的，随着佩戴者的移动而变化。因此，在任何时刻，任何给定摄像机的视野中都会出现一些（可能为空的）人的子集，并且每个人都会出现在第一人称和第三人称摄像机的某个（可能为空的）子集中（而且这个人本身可能佩戴着其中一个第一人称摄像机）。与静态摄像机相比，第一人称视频数据由于摄像机运动、场景构图不佳、光照条件差等原因更具挑战性。在多个第一人称和第三人称摄像机之间共同解决计算机视觉问题需要建立人员和摄像机之间的对应关系的关键第一步，包括（1）识别相同的人0静态摄像机0可穿戴摄像机0第一人称视角0第三人称视频0同步的0第一人称视频0问题：这个视频是谁的摄像头拍摄的？0？？？0图1.一个或多个人在场景中佩戴第一人称摄像头，同时第三人称摄像头也在录制。我们希望确定第三人称视角（左侧）中哪个人佩戴了拍摄第一人称视频（右侧）的摄像头。这是具有挑战性的，因为摄像机的视野差异很大，而且摄像机佩戴者几乎从不出现在自己的第一人称视角中。0理解、物体跟踪、活动识别等等，比任何一种视角单独使用都能提供更高的保真度和细节。在这些情况下，任何时候场景中可能有多个人，人们经常进入和退出第三人称摄像机的视野。这些人中的某个子集可能佩戴着第一人称摄像机，每个摄像机也捕捉到了场景的一部分，但视角是高度动态的，随着佩戴者的移动而变化。因此，在任何时刻，任何给定摄像机的视野中都会出现一些（可能为空的）人的子集，并且每个人都会出现在第一人称和第三人称摄像机的某个（可能为空的）子集中（而且这个人本身可能佩戴着其中一个第一人称摄像机）。与静态摄像机相比，第一人称视频数据由于摄像机运动、场景构图不佳、光照条件差等原因更具挑战性。在多个第一人称和第三人称摄像机之间共同解决计算机视觉问题需要建立人员和摄像机之间的对应关系的关键第一步，包括（1）识别相同的人51260出现在不同视角中，以及(2)将一个佩戴摄像头的人在一个视角中与他们对应的第一人称视频进行匹配。前者的问题类似于已经研究过的第三人称摄像头的人物识别和重新识别问题[10]。这些方法通常依赖于在不同视角下匹配一个人的视觉和运动特征；第一人称摄像头版本在原理上类似，但由于第一人称和第三人称视频的视角和特征的差异，它更加困难。第二个问题更具挑战性，因为一个人在一个视频中的外貌可能与同一场景的他或她的第一人称视野几乎没有（如果有的话）共享视觉特征。例如，一个监控摄像头可能捕捉到一个佩戴摄像头的人在街上走路，包括她的外貌、停在街边的汽车和她旁边走路的朋友，而她的正面第一人称摄像头可能没有捕捉到这些，因为它的视野朝下街。因此，寻找对应关系不能依赖于直接外貌特征匹配。相反，我们必须依赖于间接的证据来找到对应关系：(i)将第一人称视频与基于场景的第三人称视角的人的视野的估计进行匹配；(ii)将基于第一人称视频的摄像机运动的人体运动的估计与第三人称静态摄像机观察到的运动进行匹配；(iii)匹配摄像头佩戴者的身体或动作在场景中直接可见的（罕见的）时刻（例如，当伸手拿物品时，第一人称和第三人称摄像头都能看到手）。见图1。尽管这一点很重要，但我们意识到几乎没有人试图解决这个问题。最近的几篇论文提出使用多个摄像头进行联合第一人称识别[3, 5, 26,29]，但是做出了简化的假设，比如场景中只出现一个人。使用视觉SLAM推断第一人称摄像头轨迹并映射到第三人称摄像头（例如，[17,19]）在某些情况下效果很好，但在需要长期精确定位和第一人称视频具有显著运动模糊的拥挤环境中可能会失败。Ardeshir和Borji[2]使用图匹配将一组第一人称视频与出现在顶视图视频中的人进行匹配，但假设在任何给定时间内有多个共享相同视野的第一人称摄像头，并且仅考虑纯粹的顶视第三人称摄像头（不包括斜视或地面级视角）。我们需要一种更通用的方法，将每个个体的第一人称视频与任意位置的第三人称摄像头中出现的相应人物进行匹配。在本文中，我们提出了一种新的半孪生卷积神经网络（CNN）框架，用于学习第一人称视频和第三人称视频之间的距离度量。其思想是学习第一人称视频和第三人称视频各自专门的低级特征，同时共享高级表示和嵌入空间以进行距离度量。我们在新颖的双流半孪生CNN中综合考虑了场景外观和运动信息的证据。最后，我们为我们的半孪生网络引入了一种新的“三元组”损失函数，并在一个现实数据集上验证了它的优势。0第一人称（自我中心）视频识别的核心问题和挑战与传统的第三人称任务共享，但第一人称视频往往更具挑战性，具有高度动态的摄像机运动和困难的成像条件。研究已经专注于提取为第一人称视频定制的特征，包括手部[14]、凝视[16]和自我运动线索[20]。其他工作研究了基于对象的活动识别[18]、视频摘要[15,30]以及自我动作[13]和交互[22]的识别，但是只针对单个第一人称视频。最近的几篇论文已经显示了将第一人称视频分析与其他类型的同步视频的证据相结合的潜力，包括来自其他第一人称摄像头[3,29]、多个第三人称摄像头[26]甚至手持摄像头[5]的证据。然而，这些论文假设每个视频中只出现一个人，避免了人物级别的对应问题。我们的工作是补充性的，并且可以帮助将这些方法推广到场景中出现多个人的情况。传统的解决我们人物对应问题的方法可能使用视觉里程计和其他摄像机定位技术[7,23]来估计可穿戴摄像头的三维轨迹，然后将其投影到静态摄像头的坐标系统中以识别摄像头佩戴者[17]。然而，在拥挤或室内环境中，准确的定位是困难的，人们站得很近。在室内环境中进行精确的在线视觉定位是具有挑战性的，当摄像头未校准或移动过快导致运动模糊时也不适用。也许与我们最相关的工作是Ardeshir和Borji[2]的工作，他们使用基于图的分析将一组自我中心视频与顶视图视频中的一组个体进行匹配。这种技术效果很好，但做出了两个限制其在实际应用中的适用性的重要假设。首先，它要求静态摄像头具有严格的顶视（直接从上方）视角，这在现实世界中相对不常见（例如，壁挂式监控摄像头限制了视野）。02. 相关工作0虽然第一人称（自我中心）视频识别的许多核心问题和挑战与传统的第三人称任务共享，但第一人称视频往往更具挑战性，具有高度动态的摄像机运动和困难的成像条件。研究已经专注于提取为第一人称视频定制的特征，包括手部[14]、凝视[16]和自我运动线索[20]。其他工作研究了基于对象的活动识别[18]、视频摘要[15,30]以及自我动作[13]和交互[22]的识别，但是只针对单个第一人称视频。最近的几篇论文已经显示了将第一人称视频分析与其他类型的同步视频的证据相结合的潜力，包括来自其他第一人称摄像头[3,29]、多个第三人称摄像头[26]甚至手持摄像头[5]的证据。然而，这些论文假设每个视频中只出现一个人，避免了人物级别的对应问题。我们的工作是补充性的，并且可以帮助将这些方法推广到场景中出现多个人的情况。传统的解决我们人物对应问题的方法可能使用视觉里程计和其他摄像机定位技术[7,23]来估计可穿戴摄像头的三维轨迹，然后将其投影到静态摄像头的坐标系统中以识别摄像头佩戴者[17]。然而，在拥挤或室内环境中，准确的定位是困难的，人们站得很近。在室内环境中进行精确的在线视觉定位是具有挑战性的，当摄像头未校准或移动过快导致运动模糊时也不适用。也许与我们最相关的工作是Ardeshir和Borji[2]的工作，他们使用基于图的分析将一组自我中心视频与顶视图视频中的一组个体进行匹配。这种技术效果很好，但做出了两个限制其在实际应用中的适用性的重要假设。首先，它要求静态摄像头具有严格的顶视（直接从上方）视角，这在现实世界中相对不常见（例如，壁挂式监控摄像头限制了视野）。p∗e = arg minp∈P||f(Ie; θ1, θ) − f(Ip; θ2, θ)||.(1)51270它假设多个共享相同视野的自我中心视频可用。即使有多个佩戴摄像机的人，这个假设也很强大：由于相对姿态或遮挡，摄像机可能不共享任何视野，即使记录了具有重叠视野的多个第一人称视频，由于隐私问题，一些用户可能选择不共享它们。相比之下，我们考虑将具有任意视野的多个第一人称摄像机与静态的任意安装的第三人称摄像机进行匹配，这是一个更具挑战性的问题。我们相信这是第一篇将第一人称和第三人称视频对应关系形式化为嵌入空间学习问题并提出端到端学习方法的论文。与以前的工作不同，我们的方法适用于更复杂的环境（例如，具有任意放置的第一人称和第三人称摄像机以及任意数量的人）。03. 我们的方法0给定一个或多个第一人称视频，我们的目标是判断第三人称视频中出现的每个人是否是第一人称摄像机的佩戴者。关键思想是尽管具有非常不同的特征，但同步的第一人称和第三人称视频是同一环境的不同视角，因此捕捉到一些相同的人物、物体和背景（尽管是从两个非常不同的视角）。这种重叠可能使我们能够在空间域（视觉特征）中找到相似性，同时希望忽略由于视角而产生的差异。同时，相应的第一人称和第三人称视频也是同一人执行相同活动的两个反映，这可能使我们能够在视频类型之间找到运动域特征的对应关系。我们通过学习第一人称和第三人称视频共享的嵌入空间来解决这个问题。理想情况下，这些嵌入可以最小化佩戴摄像机的人员观察到的第一人称视频特征与同一时刻静态第三人称摄像机观察到的同一人的视觉特征之间的距离，同时最大化错误匹配之间的距离。我们提出了一种新的半连体网络架构，详细介绍在下一节中，来学习这个嵌入空间。为了处理两种模态（运动和空间域），我们设计了一个新的两流连体CNN架构，其中一个流使用光流（即运动）捕捉时间信息，另一个流捕捉空间信息（即周围场景外观），我们在第3.1.3节中详细介绍。我们还考虑了两种损失函数：传统的对比损失考虑样本对，以及利用同一数据中存在的正负第一人称到第三人称配对的事实的新的三元组损失。0场景。我们在第3.2节中描述了这些损失。03.1. 半连体网络0我们的方法基于具有对比损失函数的连体网络，可以同时学习低级视觉特征和嵌入空间（基于训练数据共同优化它们的参数）。原始的连体网络公式[11]将网络解释为一个函数f(I;θ)，它将每个输入视频I映射到一个嵌入点，使用参数θ，这些参数通常是基于正负样本的嵌入之间的对比损失进行训练的。如果我们将这种方法应用于我们的问题，I将是第一人称或第三人称视频，使得网络（即函数f和参数θ）被两种类型的视频共享。然而，第一人称和第三人称视频非常不同，即使是由同一个人在同一个位置记录同一事件。我们假设尽管第一人称和第三人称视频中捕捉到的对象和动作级别信息的高级表示可能是共享的，但最佳的低级特征（即早期卷积滤波器）可能并不相同。因此，我们提出了一个半连体架构来学习第一人称到第三人称的距离度量。我们为第一人称和第三人称视频找到单独的参数，分别称为θ1和θ2，同时强制它们共享一部分参数θ。给定一个自我中心摄像机集合E和第三人称摄像机视图中检测到的人集合P，我们可以使用这个嵌入空间轻松估计与给定自我中心摄像机e ∈E对应的人员。0我们现在提出具体的网络架构，首先独立考虑两种特征模态（空间域和运动域），然后展示如何将它们组合成集成的两流网络.03.1.1 空间域网络0为了学习第一人称摄像机和第三人称摄像机之间的空间域对应关系，我们的网络接收第一人称视频的单帧和相应的第三人称视频帧（图2(a))）。对于第三人称视频，我们通过将其余部分遮挡并用黑色像素替换来强制网络考虑一个特定的人.这是重要的，因为摄像机佩戴者不会出现在自己的第一人称视频中（偶尔的例外是手臂或手）.因此，我们鼓励网络学习第一人称和第三人称视频帧之间的关系，并将该人从第三人称场景中移除.如图2(a)所示，第一人称和第三人称分支都保持自己的四个早期卷积层.shareContrastive lossSiamese structure 1st person frame3rd person frame with maskshare1st person optical flows3rd person cropped optical flowsSiamese structure Contrastive lossconv5 3x3x256 conv6 3x3x256 Shared-Spatial layersShared-Temporal layersSpatial layersconv1 7x7x96 conv2 5x5x256 conv3 3x3x512 conv4 3x3x512 Temporal layersFC layersfc8 500fc9 64sharesharefc7 1000FC layersfc8 500fc9 64conv1 7x7x96 conv2 5x5x256 conv3 3x3x512 conv4 3x3x512 conv5 3x3x256 conv6 3x3x256 fc7 1000shareshare1st person frame1st person optical flows3rd person masked3rd person shareshareEmbedding Spacex3pd1x1x3nd23rd person masked3rd person optical flowshareshare51280(a) 空间域半连体网络 (b) 运动域半连体网络0对比损失0连体结构0第一人称帧0第一人称光流0第三人称遮挡帧0第三人称光流0(c) 两流半连体网络 (d) 两流半三元组网络0图2. 我们网络的概述.所有网络接收来自时间同步的第一人称和第三人称视频帧的特征，在训练过程中，这些帧由正确的对应关系作为正例和错误的对应关系作为负例. (a) 空间域网络是一个半连体网络，具有单独的早期卷积层（灰色）和共享的后期层（绿色）.相应的输入对由第一人称视频帧和第三人称帧组成，其中第三人称帧中的人（佩戴摄像机的人）被遮挡，因为他或她在自己的第一人称摄像机中不可见. (b)运动域网络也是半连体网络，具有类似的结构，不同之处在于它输入堆叠的光流场而不是图像帧，并且第三人称的光流场由一个人的裁剪图像组成. (c) 两流半连体网络将两个网络结合在一起，通过一个全连接层产生最终的特征向量. (d)通过三元组损失训练的两流半连体网络在训练过程中接收三个输入：第一人称帧，相应的第三人称帧（正确的人被遮挡），以及相同的第三人称帧（随机的错误人被遮挡）.0层，同时共享最后两个卷积层和全连接层.这里的直觉是，虽然我们需要从每个视频中捕捉相同的高级语义信息，但对应于这些语义的低级特征可能会有显著差异.最后的全连接层将两个视角的空间域信息抽象为两个D维特征向量.为了训练网络，我们提供已知的真实和错误对应关系，并使用对比损失函数来最小化真实对的特征向量之间的平方和，以及使用边界损失来检查负对的距离是否大于一个边界值（详见下文）.03.1.2 运动域网络0图2(b)显示了运动域网络，它学习第一人称视频中由摄像机佩戴者的运动引起的运动与第三人称视频中直接可见的运动之间的对应关系. 这个想法是，(1)摄像机佩戴者的身体运动（例如行走）将在第一人称和第三人称视频中都有反映，(2)手部运动也可能在手势或动作（例如喝咖啡）期间在两个摄像机中捕捉到.我们首先为每个视频计算光流，然后将连续五帧的光流场堆叠作为网络的输入. 第一人称输入是整个光流场.Lsiam(θ) =B�iyi||xie − xip||2+(1 − yi) max(m − ||xie − xip||, 0)2(2)Ltrip =B�i||xie − xi1||2+max(0, m2 − (||xie − xi0||2 − ||xie − xi1||2))(3)51290而第三人称输入是围绕一个人裁剪的光流场，与空间域网络的输入不同：在这里，我们鼓励摄像机佩戴者的运动与第三人称摄像机观察到的运动之间的对应关系，而在空间网络中，我们鼓励第一人称场景与第三人称场景之间的对应关系，除了摄像机佩戴者。03.1.3 双流网络0为了结合空间域和运动域特征的证据，我们使用了一个双流网络，如图2(c)所示。与上述空间域网络类似，空间流接收相应的第一人称和遮挡的第三人称帧对，而时间流接收相应的第一人称和裁剪的第三人称堆叠的光流场对。在每个流中，最后两个卷积层和全连接层是共享的，然后两个最后的全连接层和一个对比损失结合了两个流。这个设计受到了Simonyan 和 Zisserman [25]的启发，尽管该网络是为一个完全不同的问题（单个静态摄像头的活动识别）提出的，因此更简单，只使用了一个帧和相应的光流场堆栈。相比之下，我们的网络具有两个半孪生流、两个共享的全连接层和一个最终的对比损失。03.2. 损失函数0我们提出了两种学习距离度量的损失函数：标准对比损失和考虑正确和错误匹配对的新的“三元组”损失。0对比损失：对于孪生或半孪生网络，我们希望由CNN生成的第一人称和第三人称帧表示仅在它们对应于同一个人时接近。对于一个批次的 B 个训练样本，令 x i e 为第 i个样本的第一人称视觉特征，x i p 为第 i个样本的第三人称视觉特征，y i是一个指示器，如果样本是正确的对应关系则为1，否则为0。我们定义对比损失为正样本的欧氏距离和负样本的合页损失，0其中 m 是预定义的常数边界。0三元组损失：在训练时，给定一个包含多个人的第三人称视频和一个第一人称视频，我们知道哪些配对是正确的，哪些配对是不正确的。与对比损失将配对视为独立处理不同，我们提出形成三元组样本，包括正匹配和负匹配。三元组损失鼓励度量使得第一人称帧到正确第三人称帧的距离较低，但到不正确的第三人称帧的距离较高。更具体地说，对于一个批次的 B 个训练样本，第 i 个样本是一个三元组 ( x i e , x i1 , x i 0 )，对应于第一人称帧、正确的第三人称帧和错误遮挡的第三人称帧的特征。每个样本都有一个正对 ( x i e , x i 1 )和一个负对 ( x i e , x i 0 )，我们希望最小化真正对之间的距离，同时确保错误对之间的距离更大。我们使用合页损失来惩罚违反这个条件的情况，0其中 m是一个常数。这个损失函数类似于孪生对比损失函数，但明确强制距离差大于一个边界。我们的损失函数可以看作是Schroff 等人 [24] 和 Bell 和 Bala [4] 之间的混合：像 [4]一样，我们明确地最小化正样本对之间的距离，像 [24]一样，我们最大化负样本和正样本之间的距离差异。图2(d)展示了带有三元组损失函数的双流半孪生网络。在训练过程中，网络的空间流接收第一人称帧、相应的遮挡第三人称帧和不正确的遮挡第三人称帧，而时间流接收第一人称和两个第三人称裁剪的光流堆栈，其中第三人称输入共享所有层，而第一人称和第三人称层分开。04. 实验0我们通过与基准方法比较，评估了我们提出的技术来识别出第三人称视频中出现的人物及其对应的第一人称视频，比较了不同的网络架构、特征类型和损失函数。04.1. 数据0我们要求三到四名参与者在六个室内环境中进行日常活动，其中两名参与者佩戴第一人称摄像头。每个环境还配备了一个静态摄像头，从稍微高于参与者头部的角度拍摄房间的第三人称视频。我们没有给出具体的指导，只是要求参与者进行日常的非结构化活动和互动，例如握手、在白板上写字、喝水、聊天、吃饭等。因此，第一人称视频不仅捕捉到了物体、参与者和背景，还捕捉到了场景中其他人的运动和手部、身体动作带来的自我运动。参与者可以在房间里自由走动，因此经常进入和离开摄像头的视野。我们收集了七组三个同步视频（两个第一人称和一个第三人称），每组视频的时长在5-10分钟之间。其中三组有三名参与者，四组有四名参与者。所有视频都以30fps的高清分辨率录制，第一人称视频使用小蚁Yi行动相机[1]，第三人称视频使用MacbookPro的网络摄像头。在收集视频后，我们将帧率降低到5fps，总共得到11,225帧。我们通过手动在每个帧中绘制边界框，并为每个框分配一个唯一的人物ID来创建真实边界框，总共生成了4,680帧中的14,394个边界框。由于连续的帧通常高度相关，我们按视频级别划分训练和测试集，训练集包括五个视频（3,622帧），测试集包括两个视频（1,058帧）。由于每个第三人称帧通常有多个人物，大多数帧会生成多个正确和错误的人物配对示例（训练集中共有3,489个正例和7,399个负例配对，测试集中共有1,051个正例和2,455个负例配对）。训练集和测试集包含不同场景和演员的视频。1http://vision.soic.indiana.edu/identifying-1st-3rd51300我们在人物对应任务上使用了两种不同的度量标准。在第一种度量标准中，我们将问题转化为二元分类问题，询问第三人称帧中的某个人是否与第一人称帧对应，然后将该分类器应用于每个帧中的所有可能配对。在这种情况下，给定的第一人称视频可能与第三人称帧中的任何人都不对应（如果该人超出了摄像头的视野），此时系统应该拒绝所有候选配对。在第二种度量标准中，我们将任务定义为将给定的第一人称视频分配给第三人称场景中的相应人物的多类分类问题。例如，如果第三人称摄像头中出现了四个人，目标是选择与第一人称视频对应的人物，从而形成一个四分类任务。我们使用Caffe[12]实现了我们的网络，采用固定学习率10^-5、动量0.9和权重衰减0.0005进行随机梯度下降训练，共进行了50,000次迭代，使用了三个NVidia Titan XGPU。空间网络训练约需六个小时，时序和双流网络训练约需一天。我们已经发布了数据。04.2. 评估和训练设置0我们在人物对应任务上使用了两种不同的度量标准来衡量准确性。在第一种度量标准中，我们将问题转化为二元分类问题，询问第三人称帧中的某个人是否与第一人称帧对应，然后将该分类器应用于每个帧中的所有可能配对。在这种情况下，给定的第一人称视频可能与第三人称帧中的任何人都不对应（如果该人超出了摄像头的视野），此时系统应该拒绝所有候选配对。在第二种度量标准中，我们将任务定义为将给定的第一人称视频分配给第三人称场景中的相应人物的多类分类问题。例如，如果第三人称摄像头中出现了四个人，目标是选择与第一人称视频对应的人物，从而形成一个四分类任务。我们使用Caffe[12]实现了我们的网络，采用固定学习率10^-5、动量0.9和权重衰减0.0005进行随机梯度下降训练，共进行了50,000次迭代，使用了三个NVidia Titan XGPU。空间网络训练约需六个小时，时序和双流网络训练约需一天。我们已经发布了数据。0在训练过程中，我们将第一人称视角的帧和光流场输入到网络中，同时提供正负裁剪的光流场（用于运动网络）和遮罩图像（用于空间网络）。在测试过程中，我们使用真实边界框来“突出”第三人称视角中感兴趣的人物，通过遮罩图像来排除他们（用于空间网络），通过裁剪图像来提取他们（用于运动网络）。04.3. 基准0我们实现了多个基准来确认我们的方法的有效性。这些包括将光流特征从第一人称视角映射到第三人称视角，直接匹配预训练的CNN特征，以及使用传统的HOOF特征学习嵌入空间。流量大小到大小计算每个对应的第一人称和第三人称帧上的光流矢量的平均大小，然后学习一个线性回归器将两者关联起来。直观地说，任何时刻一个人的第一人称视角中的运动“数量”与其在第三人称视角中的外观之间应该存在相关性。HOOF到HOOF将图像的光流场划分为一个3×3的网格，然后为每个单元计算5-bin的光流直方图（HOOF）特征[6]。我们将这9个直方图堆叠起来，每帧得到一个45维的直方图，然后在一个10帧的时间窗口上对直方图进行平均，得到最终的45维特征向量。然后，我们学习一个线性回归器将对应的第一人称和第三人称的HOOF特征关联起来。Odom-etry toHOOF通过视觉里程计估计每个第一人称视频的相机轨迹。我们使用LibVISO2[9]来估计一个13维的姿态和速度向量，编码3D位置、4D方向（四元数表示）、每个轴上的角速度和线速度，然后学习一个回归器来预测第三人称视频中的HOOF特征。速度到流量大小学习一个回归器，将第三人称帧由LibVISO2计算得到的仅为3DXYZ速度向量与第一人称帧中的平均流量大小关联起来。除了上述基本基准之外，我们还测试了两种更强的基准：（1）直接比较第一人称和第三人称视频的标准视频CNN特征（两流[25]和C3D[27]），以及（2）使用传统的HOOF（或运动大小）学习嵌入空间。特别是后一种基准与我们的损失函数完全相同，使用全连接层。最后，我们实现了Poleg等人的头部运动特征[19]，该特征跟踪第三人称帧中的人的边界框，并将其与第一人称帧中的平均XY光流相关联。0.0.20.40.60.81.0513100.0 0.2 0.4 0.6 0.8 1.0 召回率0精确率0两流三元组两流半孪生两流孪生空间三元组空间半孪生空间孪生时间三元组时间半孪生时间孪生C3D原始两流头部运动特征流量大小嵌入 HOOF嵌入0图3. 基准和我们提出的方法的精确率-召回率曲线。04.4. 结果0图3展示了我们的技术和基准的精确率-召回率曲线，表1以平均精确率（AP）总结了结果。该图以检索的方式展示了我们的任务，这是我们的第一个度量指标：对于每一帧，我们生成由第三人称视角的人和第一人称视角之一组成的所有可能的候选配对集合，并要求系统返回正确的匹配（可能没有）。该图显示，对于所有特征类型，我们提出的半孪生架构优于孪生网络，这表明第一人称和第三人称的视角足够不同，使得CNN的早期层可以创建专门的低级特征。切换到三元组损失相对于传统的对比损失进一步提高了性能；例如，对于两流网络，它的平均精确率从0.585增加到0.621。在不同的特征类型之间，我们发现空间域网络的性能明显优于时间（运动）域网络（例如，三元组半孪生的平均精确率为0.549，而时间网络为0.456）。时间网络仍然明显优于随机基线（约为0.452 vs0.354），表明运动特征包含了在视角之间进行匹配的有用信息。同时融合两种类型特征的两流网络进一步显著提高了性能（0.621）。表1清楚地表明，我们的方法学习了第一人称和第三人称视频的共享嵌入空间，明显优于基准。与依赖经典手工制作的特征（如头部轨迹）的先前工作不同，我们的方法以端到端的方式从训练数据中学习了最佳的嵌入表示，大大提高了准确性。我们0我们还将我们的连体和半连体架构与不共享任何层的模型进行了比较（表1中的非连体），结果显示半连体具有更好的准确性。0多类别分类：表1还以我们的第二个评估指标显示了准确性，该指标将问题视为多类别分类（目标是将给定的第一人称视频分配给第三人称场景中的正确人物；例如，如果第三人称视频中有四个人，则目标是选择与第一人称视频对应的人物）。我们观察到与平均精度相同的模式：半连体优于连体，三元组损失优于对比损失，双流网络优于单特征网络，所有基线都表现不佳。我们提出的使用三元组损失训练的双流半连体网络具有最佳准确性，约为69.3%的正确分类。0多个可穿戴摄像头：尽管我们专注于静态第三人称摄像头，但我们的方法适用于任何至少有两个摄像头的场景，一个从演员的视角观察，另一个观察演员（包括多个可穿戴摄像头）。为了测试这一点，我们还测试了一种情况，其中来自一个可穿戴摄像头的视频被视为第一人称，而来自另一个（可穿戴的）摄像头的视频被视为第三人称。这些视频的视图很少有任何空间重叠，我们的方法和基线只依赖于时间信息进行匹配。表2显示了结果，表明我们的方法优于基线。51320网络设置评估0类型方法二进制AP 多分类准确率0基线0流量大小到大小 0.285 0.250 HOOF到HOOF 0.316 0.336里程计到HOOF 0.302 0.493 速度到流量大小 0.279 0.216HOOF嵌入 0.354 0.388 大小嵌入 0.276 0.216 头部运动签名[19]0.300 0.290 原始双流[25] 0.350 0.460 C3D[27] 0.334 0.5050空间连体 0.481 0.536 半连体 0.528 0.585 三元组 0.549 0.5880时间连体 0.337 0.372 半连体 0.389 0.445 三元组 0.452 0.4900双流0连体 0.453 0.491 非连体 0.476 0.554 半连体 0.585 0.639 三元组0.621 0.6930表1. 基线和我们方法的变体的平均精度和多类别分类评估结果。0网络设置评估0类型方法二进制AP 多分类准确率0基线0流量大小到大小 0.389 0.442 HOOF到HOOF 0.382 0.365里程计到HOOF 0.181 0.077 速度到流量大小 0.310 0.327HOOF嵌入 0.405 0.365 大小嵌入 0.406 0.442 头部运动签名[19]0.359 0.462 C3D[27] 0.380 0.327 双流[25]（时间部分） 0.3360.3650我们的时间半连体 0.412 0.500 时间三元组 0.386 0.5000表2. 多个可穿戴摄像头实验结果。04.5. 讨论0普遍性：我们的方法设计不依赖于长期跟踪，因此适用于拥挤的场景。只要我们在第三人称视频中检测到相应人物的短时间轨迹（例如，我们的空间网络中仅有1帧），就可以检查匹配分数是否高于阈值。失败案例：我们观察到两种典型的失败案例。第一种情况是实际的第一人称摄像头佩戴者的运动与第三人称视频中的另一个人非常相似。图4(a)展示了这样的情况。我们对人们的光流进行分析表明，蓝色的人正在坐下，而橙色的摄像头佩戴者正在点头，创建了令人困惑的相似流场（垂直方向上的强烈幅度）。另一种常见的失败情况是摄像头佩戴者在第三人称视频中被另一个人严重遮挡，如图4(b)所示。0第一人称帧0第三人称帧0第三人称帧0第一人称帧0（a）运动失败案例（b）空间失败案例0图4.样本失败，底部帧拍摄的人物为橙色，我们的错误估计为蓝色。0凝视：除了我们的方法将人物区域遮挡的空间域网络呈现出来之外，我们还尝试了明确估计出现在第三人称视频中的人的凝视。这个想法是鼓励空间网络专注于人物所看的区域，然后将其与第一人称视频进行匹配。我们尝试了Recasens等人的凝视估计方法[21]，但这提供了噪声估计，损害了我们网络的匹配能力。05. 结论0我们提出了一个新的卷积神经网络框架，用于学习第一人称和第三人称视频之间的距离度量。我们发现，三个创新的组合取得了最好的结果：（1）半连体结构，考虑了第一人称和第三人称视频的不同特征（与完全连体相反），（2）两流卷积神经网络结构，结合了空间和动作线索（与单一流相反），（3）三元损失，明确扩大了第一人称和第三人称视频之间的间隔（与连体对比损失相反）。我们希望这篇论文能激发更多关于在多个第一人称和第三人称摄像头之间找到对应关系的重要问题的研究。0致谢：本工作部分得到了NSF（CAREERIIS-1253549）和IU副校长办公室、艺术与科学学院以及信息学与计算学院通过“学习：大脑、机器和儿童”新兴研究项目的支持。CF得到了Paul Purdom Fellowship的支持。51330参考文献0[1] Xiaoyi Yi动作相机。http://www.xiaoyi.com/en/specs_en.html . [2] S. Ardeshir和A.Borji。Ego2top：匹配自我中心和俯视摄像头的观众。在欧洲计算机视觉大会（ECCV）上，2016年。[3] S. Bambach，D.Crandall和C.Yu。视角整合：从第一人称视角识别社交互动。在ACM多模态交互国际会议（ICMI）上，2015年。[4] S. Bell和K.Bala。使用卷积神经网络学习产品设计的视觉相似性。在ACM图形学交易（SIGGRAPH）上，2015年。[5] C.-S. Chan，S.-Z.Chen，P.-X. Xie，C.-C. Chang和M.Sun。来自手持相机的识别：用深度学习重新审视。在欧洲计算机视觉大会（ECCV）上，2016年。[6] R. Chaudhry，A.Ravichandran，G. Hager和R.Vidal。用于识别人类活动的方向光流直方图和Binet-Cauchy核在非线性动力系统上。在IEEE计算机视觉和模式识别大会（CVPR）上，2009年。[7] H. Durrant-Whyte和T.Bailey。同时定位和建图（SLAM）。IEEE机器人与自动化杂志，2006年。[8] M.Funk。我们应该看到警察看到的一切吗？《纽约时报》，2016年10月18日。[9] A. Geiger，J. Ziegler和C.Stiller。Stereoscan：实时稠密3D重建。在智能车辆研讨会（IV）上，2011年。[10] S. Gong，M. Cristani，S. Yan和C. C.Loy。人物再识别。Springer，2014年。[11] R. Hadsell，S.Chopra和Y.LeCun。通过学习不变映射进行降维。在IEEE计算机视觉和模式识别大会（CVPR）上，2006年。[12] Y. Jia，E. Shelhamer，J.Donahue，S. Karayev，J. Long，R. Girshick，S.Guadarrama和T.Darrell。Caffe：用于快速特征嵌入的卷积架构。在ACM多媒体国际会议（MM）上，2014年。[13] K. M. Kitani，T. Okabe，Y.Sato和A.Sugimoto。用于第一人称体育视频的快速无监督自我动作学习。在IEEE计算机视觉和模式识别大会（CVPR）上，2011年。[14] S.Lee，S. Bambach，D. J. Crandall，J. M. Franchak和C.Yu。这只手是我的手：一种概率方法用于自我中心视频中的手消歧。在IEEE计算机视觉和模式识别大会研讨会（CVPRW）上，2014年。[15] Y. J.

下载后可阅读完整内容，剩余1页未读，立即下载