将以自我为中心的视频集成到顶视监控视频中：联合识别和时间对齐

181 浏览量更新于2023-10-13 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

将以自我为中心的视频集成到顶视监控视频中：联合识别和时间对齐Shervin Ardeshir[0000−0001−5760−1665]和Ali Borji[0000−0001−8198−0335]计算机视觉研究中心（CRCV），佛罗里达州奥兰多市中佛罗里达大学。美国抽象。从第一人称（自我中心）视角记录的视频与从第三人称视角记录的视频（尤其是与由俯视监视摄像机捕获的视频）几乎没有共同的视觉外观。在本文中，我们的目标是从监督的角度来看，这两个来源的信息，即在识别和时间对齐。给定一个以自我为中心的视频和一个俯视视频，我们的目标是：a）识别顶视视频中的以自我为中心的相机持有者（自我识别），b）识别在以自我为中心的视频的内容中、在顶视视频的内容内可见的人（重新识别），以及c）在时间上对准两个视频。主要的挑战是，这些任务中的每一项都高度依赖于其他两项任务。我们提出了一个统一的框架来共同解决这三个问题。我们评估了所提出的方法在一个公开的数据集上的有效性，该数据集包含在不同情况下记录的各种视频。1介绍GoPro相机和智能眼镜等可穿戴设备的广泛使用为轻松大规模收集第一人称（以自我为中心）视频创造了机会。人们倾向于使用他们的手机和可穿戴设备从第一人称视角收集大量的视觉数据。这些视频与静态监控摄像机捕获的传统第三人称视频有很大不同，特别是如果第三人称摄像机是自上而下记录的，因为两个摄像机捕获的帧可能很少重叠尽管已经做了大量的研究，独立地研究这两个领域，将这两种观点系统地联系起来还有待于充分探索。从监视的角度来看，能够将这两个信息来源联系起来并建立它们之间的对应关系，可以为执法提供更多有益的信息。在这项工作中，我们通过解决以下三个问题向这一目标迈出了一步：自我认同：这里的目标是识别另一参考视频（这里是俯视图视频）中的自我中心视频的相机持有者。主要的挑战是，以自我为中心的相机支架在他/她的以自我为中心的视频中是不可见的。因此，通常不存在关于相机支架的视觉外观的信息（图1中的示例）。①的人。人类重新识别：这里的目标是识别在另一参考视频（这里是俯视图视频）中的一个视频（这里是以自我为中心的视频）中看到的人。这个问题在过去已被广泛研究。它被认为是一个具有挑战性的问题，由于在照明，视点和遮挡的变化然而，现有的方法2S. Ardeshir和A. Borji图1：一对俯视图（左）和自我中心图（右）。自我识别是识别以自我为中心的相机支架（红色显示）。人类重新识别是识别在以自我为中心的视频中可见的人，在顶视图视频的内容中（橙色和紫色）。假设由两个相机捕获的帧之间的高结构相似性，因为它们通常从倾斜或侧视图捕获人。这允许关于部件的粗略空间推理（例如，头部、躯干和腿在绑定框中的相关位置）。相比之下，当跨以自我为中心的视频和俯视图视频执行人类重新识别1和2）。时间对齐：直接执行两个视频之间的时间对准是重要的，因为顶视视频包含在以自我为中心的视频中不可见的大量内容。我们利用其他两个任务（自我识别和重新识别）的原因时间对齐，并估计它们之间的时间延迟。上述三项任务的相互依存性鼓励设计一个统一的框架来同时解决所有问题。为了能够确定顶视视频的内容内的相机持有者的身份（任务1），有必要知道两个视频之间的时间对应关系（任务3）。如果我们已经知道相机持有者在相应时间在顶视视频中的位置（任务1和3），则在顶视视频的内容中识别以自我为中心的视频中可见的人（任务2）将更容易，因为我们可以推断相机持有者在任何给定时刻期望看到谁。此外，知道自我视图和顶视图中的人之间的对应关系以及两个视频之间的时间对准（任务2和3）可以暗示相机持有者的身份（任务1）。最后，知道相机持有者是谁（任务1）以及他在每个时刻看到谁（任务2）可以是执行时间对准（任务3）的重要线索。这些问题的鸡生蛋还是蛋生鸡的性质促使我们共同解决这些问题因此，我们将问题公式化为联合最小化总成本Ctot（ls，Lr，τ），其中ls是相机持有者的身份（任务1），Lr是在以自我为中心的视频中可见的人的身份的集合（任务2），并且τ是两个视频之间的时间偏移（任务3）。假设条件：在这项工作中，我们持有类似于[1]的假设。我们假设在顶视图中的边界框和轨迹是给定的（由数据集提供）。因此，我们认为，顶视图中的身份是指随时间属于一个人的一组边界框。我们进一步假设顶视视频包含场景中的所有人（包括自我相机持有者和自我视频中可见的其他人）。在顶视监控视频中集成自我中心视频3图2：示例自我和顶视图边界框。与传统的重新识别情况不同，粗略的空间对准假设不成立。2相关工作在过去的几年里，自我中心相机持有人的自我识别和自我定位已经被研究。[2]使用以自我为中心的观看者的头部运动作为生物测量签名来确定哪些视频是由同一个人捕获的。在[3]中，以自我为中心的观察者通过将他们的头部运动与查询视频的自我运动相关联而在其他以自我为中心的视频中被识别。[4]中的作者通过将以自我为中心的视频与谷歌街景进行匹配来定位它们的视野地标和地图符号已经在[5]中用于在地图上执行自定位，并且[6，7]通过将它们与GIS数据库相关联，使用不同语义实体（对象和语义段）之间的几何结构来最接近我们的作品是[8]和[1，9]。请注意，所提到的工作[8，1]没有解决重新识别和时间对齐的其他两个问题。我们的自我认同问题在三个主要方面与[8]不同：1. [8] Self使用完全监督的方法在第三人称视频中识别以自我为中心的相机持有者。请注意，即使我们执行无监督和监督重新识别并将其用作先验，在自我识别任务中没有监督。2. 在[8]的数据集中，每个以自我为中心的视频包含大多数其他身份，这些身份可以在坐着和进行对话等场景中保持。因此，从第三人称视频中裁剪出一个人将与该人然而，在我们的数据集中，情况并非如此，因为许多以自我为中心的观众根本不观察对方。3.第三章。在[8]的数据集中，第三人称视频具有通用的地面水平视点，这使得它们在空间推理方面具有与自我中心视频相似的特性。当第三人称视频是像我们这样的顶视图时，第一人称视频和第三人称视频之间的差异更加严重。尽管如此，我们在我们的数据集上评估[8]作为基线。[1，9]首次探讨了顶视视频中的自我中心自我认同问题，利用了不同自我中心视频之间的关系。然而，该方法高度依赖于自我中心集的完整性，并且当仅存在一个自我中心视频时表现不佳。我们使用这种方法作为我们实验中的另一个基线。人的重新识别这个问题在过去已经被大量研究（例如，[10– 14, 深度学习方法最近已被应用于人员重新识别[17Yi [20]使用Siamese网络来学习外观相似性。类似地，Ahmed [21]使用双流深度神经网络来确定两个边界框之间的视觉相似性。Cheng等人。 [22]在基于度量学习的方法中使用多通道CNN。 Cho等人[23]建议使用姿势先验来执行比较。4S. Ardeshir和A. Borji图3：我们提出的方法的框图。我们使用三个主要线索：视觉，几何和时空。视觉推理用于初始化重新识别对应关系。结合几何和视觉推理，我们生成一组候选（ls，τ）对。最后，我们使用图切割来评估候选人，同时执行时空一致性，并找到标签和值的最佳组合。不同候选人之间的相互作用，Matsukawa等人 [24]使用基于像素特征的分层高斯分布的区域描述符来完成这项任务。在自我中心域中，[25]中报告的研究在可穿戴设备的网络中执行人的重新识别，并且[26]解决了跨时间同步的据我们所知，我们的工作是第一次尝试，在解决这个问题，跨自我中心和顶视图域。视觉外观往往是人类重新识别的主要线索。由于遮挡、视点和照明，该提示可以从一个摄影机更改到另一个摄影机。然而，由于数据的性质相同（两个摄像机都是地平面或倾斜视点），因此在不同的静态监控摄像机之间的变化通常相对较低。相比之下，在使用一组监视和以自我为中心的相机的情况下，由于以自我为中心的相机运动、视场、照明方向等的更剧烈的差异，外观变化更严重。因此，我们提出了一个网络，以统一的自我中心和顶视视频的人类检测边界框的表示。事实上，我们的视觉重新识别网络可以被任何其他能够测量自我中心和顶视图人体检测边界框之间的视觉相似性的重新识别框架所取代。在实验部分，我们将我们的结果与最先进的人类识别方法进行比较和对比。第一和第三人称视角：[27，28]已经探索了用于改进对象检测的移动和静态相机之间的关系。[29]保险丝信息从第一和第三人称静态摄像机和激光测距数据来改进深度感知和3D重建。Park等人。 [30]使用第一人称和第三人称相机预测社交场景中的凝视行为。Soran等人。 [31]已经解决了存在一个自我中心和多个静态视频的动作识别问题，[32]探索了跨自我中心和离心动作的迁移学习。在顶视监控视频中集成自我中心视频53框架我们的目标是共同处理三项不同的任务为了在统一的框架中找到所有变量的最佳值，我们寻求优化以下目标：l*，L*，τ*=argmin Ctot（ls，Lr，τ）（1）S Rls，L r，τ假设在顶视视频中可见的一组身份为It={1，2，… |It|}，我们在任务1中的目标是识别相机支架（分配自我标识1）。我们假设摄像机支架在顶视视频的内容中是可见的，因此Is∈ I t。在任务2中，我们的目标是对图像中的可见人执行人的重新识别自我中心的视频设D e={d e，d e，.，d ee}是所有人类检测边界的集合。12|D|在以自我为中心的视频的所有帧上设置框在任务2中，我们发现标签L={le，le，...，Le}{|I t||，其是用于人类的重新识别标签的集合|, which is the set of re-identification labelsfor humanr1 2|De|检测边界框。最后，τ是自我中心和顶部之间的时间偏移。在一个实施例中，顶视图视频中的帧τ〇对应于以自我为中心的视频中的帧τ〇+τ，这意味着顶视图视频中的帧τ 〇对应于以自我为中心的视频中的帧τ 〇 + τ我们在任务3中估计τ。在我们的符号中，我们使用上标来编码视图（t：top，e：ego）。我们提出的方法的框图如图所示3.第三章。我们的方法是基于三种类型的推理在两个视图。首先，我们通过将顶部视频中可见的人的视觉外观与以自我为中心的视频中可见的人进行比较，在两个视频中进行视觉推理。该推理将为我们提供用于将自我视图中的人类检测边界框分配给顶视图视频中的身份的一些初始概率它基于人类检测与顶视图身份匹配的可能性给出了初始重新识别先验（第3.1节）。第二个线索被设计成几何推理不同身份在彼此的视野中随着时间的推移然后，我们定义了两个时空约束，以加强我们的重新识别标签（第3.3节）在自我视图之间的一致性在融合步骤（第3.4节）中，我们组合视觉和几何推理以缩小搜索空间并生成一组候选（Is，τ）对。最后，我们实施时空约束并使用图切割来评估候选者[33]。3.1视觉推理跨两个视图执行重新识别的第一个线索是比较边界框的外观。由于在传统的重新识别工作中，两个相机都是静态的，并且它们具有相似的姿态（倾斜或地平面），因此假设两个人体检测边界框（即，两个人体检测边界框）之间存在粗略的空间对应关系。在两个边界框之间的头-躯干-腿的位置的粗略对准）。由于在我们的问题中视点是完全不同的，因此粗略的空间对准假设不成立。图中显示了几个例子。2.我们执行这个任务in unsupervised监督and supervised监督settings设置.在无监督设置中，我们从两个视图中提取一些通用特征，并直接比较它们的特征。在监督设置中，我们设计了一个两个流网络，能够测量两个视图之间的相似性。6S. Ardeshir和A. Borji我我J我JJ对于自我视图中的每个边界框de，我们提取VGG- 19深度神经网络特征[34]fe（最后一个完全连接层，4096个维度特征）。我们对特征进行L2归一化。如前所述，跟踪顶视图边界框，并且已经将身份分配给每个轨迹（属于每个人的边界框的集合）。因此，对于顶视视频中的身份j，我们从其所有边界框中提取VGG特征，并用其特征向量的平均值表示身份j。为了加强概率的概念，我们测量在顶视图（le=j）中被分配给标签j的自我视图绑定框de的概率我我e−||f e−f t||P（le=j）= Σ。（二）我|It| e−||f e−ft ||m=1im监督方法：训练：我们训练了一个双流卷积神经网络来匹配两个视图中的人类。如示于图4，每个流由卷积层和池化层组成，以完全连接的层结束。输出被定义为通过S形激活的每个流的最后全连接层的输出的欧几里得距离如果两个边界框属于相同的标识，则输出被设置为零（否则为一）。这迫使网络找到跨越两个视图的距离度量。测试：我们将边界框de馈送到网络的ego流并提取fe（We我我执行L2归一化）。在俯视图中，对于恒等式j，我们填充它的所有边界框并利用其特征向量fT的平均值来表示身份j。类似于无监督方法，我们根据等式1测量自我视图边界框de被分配给顶视图中的标签j（le= j）的概率。二、我我CNN的实现细节：我们将每个顶视图边界框调整为40 × 40，每个自我视图边界框调整为300 × 100，采用RGB格式（3个通道）。每个流由3个卷积块组成，每个卷积块具有两个卷积层和一个具有2×2池化的池化层。用于卷积层的滤波器的数量依次为16、16、32、32、64和64。最后，每个流投射到两个完全连接层（顶流：512，128;自我流：1024，128）。然后，两个流的输出的欧几里得距离通过S形激活，以便实施概率的概念。我们使用Adam优化器，学习率为0.001，二进制交叉熵损失，并训练网络端到端。使用对数尺度的网格搜索在验证集上微调超参数。3.2几何推理在这里，我们利用几何安排的人相对于对方的顶视图和理由，他们的存在，在对方的视野。我们在顶视图中迭代不同的身份，并假设身份是相机持有人进行几何推理在图5中，我们示出了关于用蓝色和橙色边界框突出显示的身份的存在的推理，假设在红色边界框中突出显示的人是相机持有者。在顶视监控视频中集成自我中心视频7图4：在边界框对上训练的双流卷积神经网络的架构。最后的全连接层的输出之间的欧几里德距离（即，top和ego）在该对属于同一个人时被设置为0，否则被设置为1。给定相机持有者（Is）的身份，我们计算每个人i在任何给定时间存在于Is在[1]之后，我们在所提供的顶视图边界框（由数据集提供）上执行多个对象跟踪[35]。知道每个时刻每个轨迹的运动方向，我们采用与[1]中相同的假设。我们通过假设人们在行走时往往倾向于直视前方来估计每个俯视摄像机持有者的头部方向。由于自我中心相机的内部参数（例如，焦距和传感器尺寸）是未知的，我们考虑相机支架的FOV（图5中的θ 1和θ 2）的角度的下限和上限结果，我们可以确定每个身份存在于1s的视场中的概率（即，在任何给定的时间ζ（图5，右侧）。我们将在时间t1处身份i存在于相机支架的视场中的概率（ls）定义为：1,θiθ1Pgζ（i|1s）=（θ2−θi），θ（θ2−θ1）1<θi <θ2（三）0，θ2<θi直观地，如果边界框在FOV的下限内，则我们将其存在概率分配为1。如果其相对于Is的取向在FOV范围的上限之外对于两个界限之间的值（例如，图左下角的人。5），我们将其概率分配为与其相对于相机支架的方向成比例。在实验中，我们根据经验将θ1和θ2分别设置为30◦和60◦3.3时空推理我们的方法的第三个组成部分强制执行时空约束的重新识别标签内的自我中心的视频。我们定义了一个成本分配相同的身份标签的一对人体检测边界框。我们后来合并8S. Ardeshir和A. BorjiG我SAe∪Ae我J0P（l e|l）1图5：俯视视频中的几何推理。在该示例中（左），两个身份存在于相机支架的视场中（两个红色锥体示出视场的下限和上限使用它们相对于顶视图中的相机支架的移动方向（虚线绿色箭头）的取向（由蓝色箭头示出），我们估计它们在以自我为中心的右侧条形图显示了每个人出现在摄像机支架FOV中的概率。我们的图中的这个成本削减了公式化。两个约束定义如下：约束条件1：同一帧中存在的两个不同边界框不能属于同一个人。注意，在人物检测处理中执行非最大抑制。因此，任何一对共同出现的边界框之间的二进制成本被设置为无穷大。约束2：如果两个边界框在时间上邻近的帧中具有高重叠，则它们的二进制成本应当被降低，因为它们可能属于相同的标识。我们在Cst成本中包含两个约束，如下所示：∞，if ζ de =ζdeijeeADE∩AdeCst（di，dj）=-1，如果为0<|ζde−ζde|<ǫandij>σ（四）De∪Deij0，否则其中A de A de 对应于由人体检测边界覆盖的图像区域I j框de和de，以及ζde和ζde编码边界框de和de的时间。i ji ji j都在场如果de和de在同一帧中可见，则Cst（de，de）将被设置为i j i j无穷大，以防止图形切割将它们分配给相同的标签（约束①的人。在时间邻域（0）的情况下，Cst（i，j）的n ∈ iv e成本<|ζdi−ζdj|<）Ade高分辨率的空间分辨率（IjD d> σ）将鼓励图切割算法I j将它们分配给相同的标签（约束2），因为它们可能对应于相同的标识如果它们具有高重叠。这里，我们根据经验将σ设置为5帧并且将σ设置为0.8。3.4融合在本节中，我们将描述视觉，几何和时空推理是如何结合起来的。首先，我们结合视觉和几何推理来找到一组candidate（ls，τ）对。然后，我们使用图切割来检查每个候选对，以测量其结果（Lr，ls，τ）标记的成本，并选择具有最小成本的一个。θ1θ2θi在顶视监控视频中集成自我中心视频9我我我我SSSS在第3.1节中，我们描述了如何使用视觉推理获得初始人类重新识别先验在第3.2节中，我们描述了独立的信息源（几何推理）如何在给定每个可能的自我认同的情况下提供另一组人类重新识别先验在本节中，我们搜索不同的自我身份和时间延迟，并选择一个几何先验模式与他/她的视觉先验一致。时间表示：在第3.1节中，我们描述了我们如何能够针对任何给定的以自我为中心的人类检测边界框de和顶视图身份j来计算Pv（le = j）。我们可以形成一个T e× |I t|其中Te是自我中心视频中的帧的数量，并且|I t|是在顶视视频中可见的身份的数量。直观地，Rv（ζ，j）捕获俯视图身份j在视场中的可见性的概率在时间ζ处的自我中心相机支架。设D e={d e，d e，.，De}是的集合ζ ζ1ζ 2ζ|D e|ζ在以自我为中心的视频的帧ζ中可见的人体检测边界框。我们定义Σ|D e|Rv（ ζ，j）=ζi=1 P v（le= j）. 因为概率之和可能会得出一个值如果大于1，则将值截断为1。换句话说，Rv（ζ，j）←min（1，R（ζ，j））。一个示例性的Rv矩阵如图6所示（中间图）.我们可以形成一个类似的矩阵的基础上的几何推理的每一个自我身份。如3.2节所述，给定摄像机支架的自身身份（ls），我们可以计算Pg（le=j|l s）。与Rv类似，我们可以形成T t×|I t|矩阵R g，其中T t是顶视视频中的帧数，以及|l= P g（i|s），其为com-ζ根据Eqn。3.第三章。直观地R g（ζ，j）|L是识别的可见性的概率-在顶视图视频的时间ζ处的自我身份1s的视场中的实体j，几何地(an图中所示的示例。6-左）。形成R v和R g|l对于不同的自我认同（l s），我们期望它们对于正确的l s具有相似的模式。对于每个顶视图标识l s，我们计算其Rg的互相关|I矩阵，其中R v跨时间维度，以便评估它们跨不同时间延迟（τ）的相似性。这互相关产生对给定不同时间偏移的两个矩阵的相似性得分进行编码的1D信号如图在图6中，我们通过找到该分数的最大值来估计两个视频之间的时间偏移（假设自我身份为1s）我们搜索所有的自我身份，并根据它们的最大交叉相关得分对其进行排序l*，τ*=argmax R v⊙ R g|Lls，τ（五）其中⊙表示逐元素乘法。请注意，我们数据集中的所有视频都是以相同的帧速率捕获的。因此，我们可以执行所有这些COM-以基于帧的方式进行推断否则，时间域上的预处理和量化将是必要的，以使两个矩阵相关。图切割：给定来自前一部分的一组建议的（Is，τ）对，我们将总体标记成本评估为将Is分配给自我标识、将τ分配给时间延迟以及将Lr分配给重新标识标签的成本。图切割允许重新识别标签调整时空约束。SS10S. Ardeshir和A. BorjiΣΣ我我我图6：估计自我同一性和时间偏移的示例。对于某个自我同一性（ls），执行几何推理并存储建议的重新识别先验在矩阵R g中|L（颜色编码的值）。通过视觉推理获得的矩阵（在这种情况下，基于监督CNN的方法）在中间（Rv）示出两个矩阵中的模式之间的相似性表明，自我身份（LS）是一个很好的候选者。通过在时域上关联两个矩阵（最右边的图），我们可以在τ = 58处观察到峰值。这表明，如果相机持有者实际上具有身份Is，则他的以自我为中心的视频相对于顶视视频的时间偏移是58帧。此外，自我同一性的得分Is是互相关的最大值，在这种情况下为1587。通过计算所有可能的自我同一性的这个值，我们可以选择最可能的自我同一性作为得分最高的一个我们形成图G（V，E），其中节点是人体检测边界框在自我视图中，V={de，de，de，…d ee}（参见图7的图示）。目标是123|D|以将每个节点分配给其中一个俯视图标签。图的边编码了spa-节点之间的tiotemporal约束（如3.3节所述）。给定自标识标签和时间延迟，我们可以执行图切割，其成本定义为：|D e| ΣC（I，τ）=C （l e|τ，l）+|De|C（le，le）Σ（6）托特uisi=1j= l，j/=iStI jEqn的rhs中的第一项6编码用于将de分配给其标签le的一元成本，我我给定两个视频之间的自标识Is和相对时间偏移（τ）我们设定如：C u（l e=j|τ，l s）= 1−P v（l e=j）R g（ζ e− τ，j）|1 s （7）我我我其中Ze是人体检测边界框de出现在ego中的时间。我我风景直观地等式 7意味着边界框de（在自我视图中的时间ζ e处出现）是顶视图中的身份j的概率是顶视图中的时间ζ e-τ处的视野处的身份j的可见性的概率乘以S在顶视监控视频中集成自我中心视频11其在视觉上是身份j的可能性。二进制项确定边缘的成本并对3.3节中描述的时空成本进行编码。该方法的输出为我们提供了每个（ls，τ）对的成本，以及人类检测边界框Lr的一组标记。具有最小成本的对及其相应的Lr是我们的方法的最终解（即，l*，L*，τ*）。S R图图7：图形形成的图示。银色椭圆包含图G（V，E），其中每个节点是自我视图人体检测边界框之一方形边界框以不同的颜色突出显示不同的顶视图标签。使用虚线彩色曲线可视化图形切割。我们总是为所有不匹配任何类的人体检测边界框考虑一个额外的NULL类。4实验结果4.1数据集我们使用公开可用的数据集[1]。它包含在不同的室内和室外环境中拍摄的视频集。每个集合包含一个顶视图和由在顶视图中可见的人捕获的几个自我中心视频。每个自我顶端对被用作我们的方法的输入。我们使用了三个集合来训练我们的双流神经网络，其余的用于测试。有47个自我顶端测试对，因此有47个自我认同和时间对齐的案例。人体检测边界框的总数以及因此人体重新识别实例的总数为28，250。我们对所有28，250个人体检测边界框的标签进行了注释，并评估了重新识别和自我识别的准确性。顶视视频中可见的人数从3到6不等，视频的长度从1,019帧（33.9秒）到3,132帧（104.4秒）不等。4.2评价我们评估我们提出的方法，在解决每个目标，并比较其在不同的设置中的性能。此外，我们分析了我们的方法中的每个组件在最终结果的贡献。12S. Ardeshir和A. Borji(a)（b）第（1）款图8：（a）示出了我们的方法的不同组件的重新识别性能。(b)示出了给定真实自我识别标签的相同评估。4.2.1. 自我认同：我们评估我们提出的方法在识别的顶视图视频的内容中的相机持有人。既然我们进行自我认同基于初始重新识别概率（视觉推理），我们根据监督和非监督重新识别结果评估自我识别，以及状态最先进的基线我们还评估了性能在每个设置之前和之后的最后的图形切割步骤，以评估时空推理的贡献。所提出的方法的上界也通过提供地面实况重新识别和时间对准来评估。累积匹配曲线显示在图？？走了黄色实线曲线是[1]的性能。如前所述，[1]高度依赖于多个以自我为中心的视频之间的关系，并且当仅向其提供一个以自我为中心的视频时表现不黄色虚线曲线显示（8）的表现使用了作者提供的网络正如相关工作部分所解释的那样，这个框架不是为我们这样的场景设计的青色和蓝色曲线分别显示了我们在图形切割步骤之前和之后洋红色和红色曲线分别显示了在图形切割步骤之前和之后的监督设置中黑色虚线曲线示出随机排名（机会的表现）。通过比较图切割前后的曲线，可以观察到图切割的优势和时空约束我们的两个流的视觉推理的贡献是显而易见的，通过比较无监督曲线与其相应的监督设置。通过比较视觉推理结果和GC曲线，可以看出几何推理的效果。图例中的数字显示了用于定量比较的每条曲线下的面积监督和非监督方法之间的差距显示了重新识别质量对自我识别绩效的影响，证实了这两个任务的相互联系。绿色实线和黑色实线显示了所提出的方法的上限。我们评估自我识别，当提供地面实况重新识别标签和所提出的方法的时间延迟。在顶视监控视频中集成自我中心视频13图9：左图示出了说明自我识别任务中的表现的累积匹配曲线。右图显示了使用我们的监督和无监督方法的时间延迟估计误差的分布，与基线和上限相比。4.2.2. 交叉视图人体重新识别：我们计算了在监督和无监督设置下，在图切割之前和之后的人类重新识别性能（如图所示）。（见第8a段）。为了更好地评估性能，我们计算我们提出的方法的性能，给出了真实自识别标签（1sgt）和真实时间延迟τgt（图8b），这导致了重新识别性能的上限。在两个图（a和b）中，黑色虚线示出机会水平性能。青色和洋红色虚线曲线分别显示了使用我们的无监督和有监督视觉推理在两个视图上进行直接视觉匹配的性能。纯青色和洋红色曲线显示了我们的无监督和有监督视觉线索与几何推理相结合的性能。这是重新识别完全基于一元的信心在Eqn。7、在应用图形切割之前。最后，蓝色和红色曲线示出了在图切割步骤之后无监督和监督方法的性能（按顺序），其强制执行空间-时间约束。图8b中的黑色实线曲线示出了所提出的方法的性能，给定了两个视频之间的地面真实时间延迟以及地面真实自我同一性。对比图中的红色曲线。图8a和图8b示出了知道正确的自我同一性对重新识别表现的影响，从而证实了两个任务的相互依赖性。比较图中的红色和黑色实心曲线图8b示出了一旦已知自我身份，正确的时间延迟不会导致重新识别性能的高提升，这与我们关于自我识别和时间延迟估计的结果一致。比较图图8a和图8b表明，知道正确的自我身份有助于重新识别。如前所述，能够产生视觉相似性度量的任何重新识别方法都可以插入到我们的视觉推理组件中。我们在表1中评估了两种现有技术的再鉴定方法的性能在融合之前是每种方法在累积匹配曲线的曲线下面积方面的性能（类似于图1）。（见第8a段）。融合之后是过度-14S. Ardeshir和A. Borji所有的性能后，结合重新识别方法与我们的几何和时空推理。方法融合前融合后我们的（无监督）0.5370.612艾哈迈德[21]0.5630.621[第22话]0.5810.634我们的（监督）0.6680.716表1：不同再鉴定方法的性能。融合前是直接应用于边界框的重新识别方法的性能（仅视觉推理）。融合后显示了我们的方法的性能，如果我们取代我们的两个流网络与上述方法。4.2.3. 时延估计：将τ gt定义为以自我为中心的视频和俯视图视频之间的地面实况时间偏移，我们计算时间偏移估计误差（|τ *−τ gt|），并将其分布与基线和上界的分布进行比较。图- 你好示出时偏估计误差的分布。为了测量我们的时间延迟估计过程的有效性，我们测量原始时间偏移的绝对值。换句话说，假设τ*=0作为基线，我们计算偏移估计误差（如深蓝色直方图所平均误差也被添加到用于定量比较的图例。请注意延时误差是以帧数来衡量的（所有视频都是以30fps录制的）。基线τ=0导致186.5帧误差（6.21s）。我们在无监督设置中估计的τ*添加视觉监督将此数字减少到平均120.6帧（4.02秒）。有上边界和单独评估这项任务的性能，我们隔离它从其他两个通过提供地面实况自我识别（LSgt）和人类重新识别标签（L Rgt）。提供lsgt将导致97.39帧误差（3.24），并且提供lsgt和Lrgt两者将平均误差减小到90.32（3.01s）。类似于我们的重新识别上限，知道自我身份显着提高性能。一旦知道了自我同一性，地面实况重新识别标签将以小幅度改善结果。5结论我们探讨了三个相互关联的问题，在有关自我中心和顶视视频，即人类重新识别，相机持有人自我识别，和时间对齐。我们进行视觉推理在两个域，几何推理在顶视域和时空推理在自我中心域。我们的实验表明，解决这些问题，共同提高了每个单独的任务的性能，因为每个任务的知识可以帮助解决其他两个。在顶视监控视频中集成自我中心视频15引用1. Ardeshir，S.，Borji，A.：Ego2top：匹配以自我为中心和顶视图视频中的观众。在：欧洲计算机视觉会议，Springer（2016）2532. Cheng DS、Cristani M、S.M.B.L.M.V.：来自自我中心视频的头部运动特征。计算机视觉中的ACCV.施普林格国际出版社. （2014年）3. 米谷亮KMK佐藤Y：自我冲浪第一人称视频。计算机视觉和模式识别（CVPR），2015年IEEE会议。IEEE，（2015）4. Bettadapura，Vinay，I.E.，潘托法鲁丙：使用第一人称视点设备的以自我为中心的视场定位。计算机视觉应用（WACV），IEEE冬季会议。（2015年）5. Kiefer，Peter，I. G.，Raubal M：我在哪里？研究在城市环境中利用移动眼跟踪的自局部化期间的地图匹配。《地理信息系统18.5》（2014）6. Ardeshir，S.，Malcolm Collins-Sibley，K. Shah，M.：地理语义分割。在：IEEE计算机视觉和模式识别会议的进展。（2015）2792-27997. Shervin Ardeshir，Amir Roshan Zamir，A.T.，沙阿M：地理资讯系统辅助的目标侦测与地理空间定位。欧洲计算机视觉会议ECCV（2014）6028. Fan，C.李，J.，徐，M.，Kumar Singh，K.，Jae Lee，Y.，Crandall，D.J.，Ryoo，M.S.：在第三人称视频中识别第一人称相机佩戴者。IEEE计算机视觉和模式识别会议论文集。（2017）51259. Ardeshir， S. ， Borji， A. ：以自我为中心的观点。 IEEE Transactions on PatternAnalysis and Machine Intelligence（2018）10. Chen，D.，中国农业科学院，Yuan，Z.，陈伯，Zheng，N.：具有空间约束的相似性学习，用于个人重新识别。IEEE计算机视觉与模式识别会议(June（2016年）11. Cheng DS、Cristani M、S.M.B.L.M.V.：用于重新识别的自定义图形结构。BMVC（2011）12. Bak S、Corvee E、B.F.T.M.：用平均黎曼协方差网格进行多次射击人体再识别。在Advanced Video and Signal-Based Surveillance（AVSS），第8届IEEE国际会议（2011年）13. Bazzani L、Cristani M、M.V.：对称驱动的局部特征积累，用于人体表征和重新识别。计算机视觉和图像理解。（二零一三年）14. 赵，R.，奥扬，W.，Wang，X.：基于显著性学习的人物再识别IEEE Transactions onPattern Analysis and Machine Intelligence39（2）（2017）35615. Martinel，N.Foresti，G.L.，Micheloni，C.：分布式摄像机中的人员重新识别网络框架IEEE Transactions on Cybernetics（2016）16. Garc 'ıa，J.，Martinel，N. Gardel，A.，布拉沃岛Foresti，G.L.，Micheloni，C.：判别式上下文信息分析用于排名后的人员重新识别。IEEE Transactions on ImageProcessing26（4）（2017）165017. 李伟，赵，R.，Xiao，T.，Wang，X.：Deepreid：深度过滤配对神经网络重新识别。2014年IEEE计算机视觉和模式识别会议。(June 2014年）15218. Varior，R.R.，Haloi，M.，王G：用于人类重新识别的门控连体卷积神经网络CoRRabs/1607.08378（2016）19. Varior，R.R.，帅湾卢，J，徐，D.，王G：一种连体的长短期记忆结构，人类重新识别的结构。 CoRRabs/1607.08381（2016）20. Yi，D.，Lei，Z.，李S.Z.：用于实际人员重新识别的深度度量学习。Corrabs/1407.4979（2014）16S. Ardeshir和A. Borji21. Ahmed，E.，琼斯，M.，马克，T.K.：一种用于人员重新识别的改进的深度学习架构。IEEE计算机视觉与模式识别会议（CVPR）(June（2015年）22. 郑，D.，Gong，Y.，Zhou，S.，王杰，Zheng，N.：基于改进三重丢失函数的多通道部件cnn的人员再识别IEEE计算机视觉与模式识别会议（CVPR）(June（2016年）23. 周YJ Yoon，K.J.：通过姿势感知多镜头匹配来改进人的重新识别。IEEE计算机视觉与模式识别会议（CVPR）(June（2016年）24. Matsukawa，T.，Okabe，T.，Suzuki，E.，Sato，Y.：用于人员再识别的分层高斯描述符。IEEE计算机视觉与模式识别会议（CVPR）(June（2016年）25. Chakraborty，A.，Mandal，B.，Galoogahi，H.K.：在可穿戴设备上使用多个第一人称视图的人重新识别2016年IEEE计算机视觉应用冬季会议（WACV），IEEE（2016）126. Zheng，K.，郭，H.，范X余，H.，Wang S.：从由多个可穿戴相机27. Alahi，Alexandre，M.B.，昆特M：与固定摄像机协作的移动摄像机的对象检测和匹配多相机和多模态传感器融合算法和应用研讨会-M2 SFA 2（2008）28. Alahi A、Marimon D、B.M.K.M.：一种主从式的固定和移动摄像机目标检测和匹配方法图像处理，2008年。ICIP 2008。第15届IEEE国际会议（2008）29. Ferland F、Pomerleau F、L.D.C.M.F.：使用实时3d视频投影的自我中心和离心式遥操作接口人机交互（HRI），2009年第四届ACM/IEEE国际会议（2009年）30. Park，Hyun，E.J.，酋长Y：使用社会显著性场预测主要注视行为。IEEE计算机视觉国际会议论文集。（二零一三年）31. Soran，B.，Farhadi，A.，夏皮罗，L.：存在一个自我中心和多个静态相机的动作识别于：亚洲计算机视觉会议，Springer（2014）17832. Ardeshir，S.，Borji，A.：一个以自我为中心的行为，反之亦然。计算机视觉与图像理解（2018）33. Fulkerson，B. Vedaldi，A.，Soatto，

下载后可阅读完整内容，剩余1页未读，立即下载