互补视角视频中的联合摄像机识别和主体关联

40 浏览量更新于2023-10-25 收藏 19.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{han ruize, realgump, threeswords, wff, wfeng}@tju.edu.cn, songwang@cec.sc.edu1. Introduction†Co-corresponding authors.24160连接互补视角视频：联合摄像机识别和主体关联0韩瑞泽 1 ，甘一洋 1 ，李嘉诚 1 ，王飞凡 1 ，冯伟 1 † ，王松 2 †01 天津大学智能与计算学院，中国天津 2 南卡罗来纳大学计算机科学与工程系，美国0摘要0我们试图连接来自互补视角的数据，即来自空中无人机安装摄像头的俯视图和来自地面佩戴摄像头的侧视图。对这种互补视角数据的协同分析可以为各种应用构建空地协同视觉系统。由于俯视图和侧视图之间的视角差异较大，这是一个非常具有挑战性的问题。在本文中，我们开发了一种新的方法，可以同时处理三个任务：i）定位俯视图中的侧视摄像头；ii）估计侧视摄像头的视角方向；iii）在互补视角之间检测和关联相同的主体。我们的主要思想是探索两个视角中主体的空间位置布局。特别地，我们提出了一种空间感知位置表示方法，用于嵌入不同视角中主体的空间位置分布。我们进一步设计了一个跨视角视频协作框架，由摄像机识别模块和主体关联模块组成，可以同时执行上述三个任务。我们收集了一个新的合成数据集，其中包含俯视图和侧视图的视频序列对，用于性能评估，实验结果显示了所提方法的有效性。0随着移动相机技术的进步，人群活动，如惊喜派对，团体游戏和体育赛事，越来越多地由各种移动相机记录。佩戴在地面上的可穿戴相机，如GoPro或手机相机，可以提供人群的侧视图[7, 24,33]。空中的无人机（如空中的无人机）可以提供同一人群的俯视图[10]。这两个视角的视频分析任务0在这两个视角中都有很好的研究[17, 39,40]。然而，这两个视角的协同分析很少被研究。从图1可以看出，从这两个视角收集到的数据互补性很好-俯视图视频不包含相互遮挡，并且很好地展示了主体的全局图像和空间分布，而侧视图视频可以在更近的距离上捕捉到感兴趣的主体的详细外观，行为和活动。我们相信它们的协同分析可以帮助构建全面的场景理解，活动分析等的空地协同视觉系统。为了实现这个目标，首先要解决的挑战性问题是有效地连接这两个互补视角。为此，我们建议研究以下三个任务，如图1所示。任务I：摄像机位置识别-在俯视图中定位侧视摄像机；任务II：视角方向估计-推断侧视摄像机的视角方向（在俯视图中）；任务III：跨视角多人检测和关联-在每个视角中检测每个主体并在两个视角中识别相同的人。这是一个非常具有挑战性的问题，与现有的工作不同。最大的挑战在于我们设置中的大（近似正交）视角差异，这使得经典特征（例如外观和运动）不再适用于连接这两个视角。具体而言，任务I和II与在第三人称摄像机中识别第一人称摄像机的先前工作不同[6,35]，其中第三人称摄像机通常采用自我中心或监控摄像机，并且它们的高度和角度与第一人称摄像机类似。在本文中，第三人称摄像机安装在无人机上，与第一人称视角的视野重叠非常有限。这使得先前的方法[6,35]在我们的任务中建模跨视角对应关系失败。任务III看起来像是一个特定的人员重新识别（re-id）问题-对于一个视图中的每个主体，在另一个视图中重新识别他/她。然而，这是一个非常具有挑战性的人员重新识别问题，因为同一个主体可能完全不同。side-viewcamera24170顶视图0（a）0侧视图0（b）0顶视图0（c）0？0如何连接这两个视图0图1.顶视图（a）和侧视图（b）图像的示意图。前者是由飞行器上安装的摄像机拍摄的，后者是由行走在地面上的佩戴者佩戴的GoPro摄像机拍摄的。为了连接这两个视图，我们尝试回答以下三个问题：Q1：谁在（a）中拍摄了（b）的照片？Q2：他/她在（a）中看什么？Q3：（a）和（b）之间是同一个人吗？这三个问题的正确答案显示在（c）中：蓝色框表示侧视图相机（Q1），两个蓝色箭头表示侧视图相机的视角（Q2），在（b）和（c）之间相同颜色的框表示相同的人（Q3）。0顶视图和侧视图的外观不同，更不用说主体的顶视图只显示头部和肩膀的有限特征，如图1所示。0在本文中，我们开发了一种新的方法来探索和利用上述三个任务之间的相互依赖关系，以同时解决它们。我们的主要思想是探索两个视图中主体的空间位置布局。具体而言，我们分别应用人体检测模块在顶视图和侧视图中检测所有人体。基于检测结果，我们使用空间感知位置表示来嵌入不同视图中主体的空间位置分布。为了弥合顶视图和侧视图之间的视图差距，我们对顶视图表示应用极坐标变换，以呈现出在侧视图相机的视野中出现的360度主体分布。基于这种空间感知位置表示，我们设计了一个相机识别模块和一个主体关联模块，同时推断出顶视图中侧视图相机的位置和视角，并且匹配两个视图中的主体。在实验中，我们收集了一个新的大规模合成数据集，其中包含用于模型训练和性能评估的丰富注释。实验结果验证了所提出的方法可以有效处理所提出的三个任务。0本文的主要贡献包括：�这是第一个同时处理上述三个基本任务的深度模型，用于互补视图拥挤场景分析，包括侧视图相机定位（任务I），视角估计（任务II）和跨视图多人检测和关联（任务III）；�我们开发了一种新的空间感知深度框架，包括空间感知位置表示和互补视图协作网络，以建模和关联互补视图中的主体空间布局；�我们收集了一个新的大规模丰富注释的顶视图和侧视图视频数据集，用于训练和评估所提出的方法。该数据集已在https://github.com/RuizeHan/DMHA上向公众发布。02. 相关工作0我们的任务I和任务II可以被视为识别第三人摄像机的持有者的问题，这个问题已经在几个研究中得到了研究。例如，Fan等人[6]通过结合来自两个摄像机的视频的空间和时间信息，识别第一人摄像机佩戴者在第三人视频中的位置。类似地，在[35]中，通过第一人和第三人摄像机捕获的同步视频之间进行主体分割和关联。不同的是，本文中的第三人摄像机安装在无人机上并产生顶视图图像，使得跨视图外观匹配非常困难。0如上所述，跨视图主体关联（任务III）可以被视为人物再识别（re-id）问题[38]，这个问题近年来已经被广泛研究。大多数现有的re-id方法可以分为两类：相似度学习和表示学习。前者侧重于学习相似度度量，例如基于不变特征学习的模型[19, 27, 37]，经典度量学习模型[16, 20,23]和深度度量学习模型[8, 21,32]。后者侧重于特征学习，包括低级视觉特征，如颜色、形状和纹理[9,22]，以及更近期的CNN（卷积神经网络）深度特征[4, 25,31,41]。这些方法假设所有数据都来自侧视图，具有相似或不同的视角，并且几乎所有这些方法都是基于外观匹配的。在本文中，我们尝试在顶视图和侧视图之间重新识别主体，其中外观匹配不是一个合适的选择。0更相关的是最近的一系列工作[2,0在顶视图和其他摄像机之间的协作分析方面，已有一些相关工作[3, 10, 14, 28]。一些工作[28,29]提出从一组覆盖同一地理区域的顶视图航拍图像中确定地面级图像的位置，这些工作侧重于大场景定位而不是人类。一些工作[10, 13,14]尝试通过探索空间感知推理来获得跨视图的人体关联和跟踪。这些工作需要预定的人体检测结果，并在非常大的参数空间上进行详尽的搜索。在另一系列工作中，与我们的工作更相关的是最近的一系列工作[2,˜Ft(x, y) = Ft(x′, y′),s.t.x′ = cx − r yH sin(2π xW ),y′ = cy − r yH cos(2π xW ),(1)rs = f s ∗ ˜f ts ∈ R,(2)241801,3]，通过同时处理一组自中心视角（第一人称）侧面视图视频和顶视图视频，开发了一种基于图匹配的算法来定位所有侧面视图相机佩戴者在顶视图视频中的位置。在[2]中，该问题被扩展为不仅定位相机佩戴者，还定位顶视图视频中的其他侧面视图对象。然而，这一系列方法基于两个假设：1）顶视图相机具有一定的倾斜角度，以实现人体部分可见性和外观匹配进行跨视图关联，2）侧面视图相机的观察方向与相机佩戴者的移动方向相同。在本文中，我们消除了这两个假设，这在现实世界中可能不成立。03. 提出的方法03.1. 概述0我们概述了所提出方法的主要内容，主要包括三个阶段，如图2所示。首先，我们应用一个人体检测模块，通过应用类似于CenterNet[5]的网络在顶部和侧面视图中获取所有人类的位置（热图）。其次，我们提出使用人体位置热图来表示被拍摄对象的空间位置分布。为了弥合顶部和侧面视图之间的视角差距，我们对顶部视图的热图应用极坐标变换，以渲染从侧面视图相机的360度对象分布（第3.2节）。基于这种空间感知的对象表示，我们设计了一个识别网络，同时定位侧面视图相机并推断其在顶部视图中的视角方向（第3.3节）。最后，我们设计了一个跨视图对象关联网络，用于匹配两个视图中的对象（第3.4节）。03.2. 空间感知位置表示0给定一对从顶部和侧面视图拍摄的图像，我们首先将它们输入到人体检测模块中，如图2所示。我们使用基于CenterNet[5]的CNN架构，其中包括三个头部，即热图头部、框尺寸头部和中心偏移头部。热图头部用于估计被拍摄对象的中心位置。我们可以看到两个视图中被拍摄对象的空间位置布局完全不同。为了弥合这一差距，我们对顶部视图的热图应用极坐标变换进行对象表示。顶部视图的对象表示。通过检查图2中的互补视图图像对，我们可以看到从顶部视图图像中的侧面视图相机位置开始，顶部视图图像中相同方位角方向上的内容正好对应于侧面视图图像的垂直线。这启发我们对顶部视图图像应用极坐标变换，以构建空间位置分布从侧面视图相机的360度对象分布。0意识到这两个视图之间的对应关系。具体而言，我们将顶部视图图像中的侧面视图相机位置作为极坐标的原点，并将任意方向，例如南方向，作为极坐标变换中的0度角。如图2所示，原始顶部视图热图Ft上的点（x'，y'）与扩展热图˜Ft上的目标点（x，y）之间的极坐标变换定义为0其中 ( c x , c y ) 为极坐标在 F t 上的原点，r 为参数，W 和H 分别表示˜ F t的宽度和高度，这些值是预定义的。侧视主体表示。相应地，侧视热图可以直接用作空间感知位置表示 F s。鉴于俯视图和侧视图之间的（适当的）正交视角方向，侧视热图中的垂直线对应于原始俯视图热图 F t中的径向线，即扩展热图˜ F t中的垂直线。类似地，侧视热图中的横向线大致对应于 F t中以极坐标原点为中心的同心圆，即˜ F t中的横向线。通过侧视相机的视场角 θ（一个固定的相机内部参考，例如90°），可以将侧视热图视为扩展的俯视热图的一部分。例如，如图2所示，假设 θ为90°，则侧视热图是宽度上的俯视热图的四分之一。在这里，侧视图上的主体位置的空间分布与俯视图中的相应子区域可以粗略匹配。03.3. 相机佩戴者识别模块0基于上述主体表示，我们提出了一个两阶段的互补视图协作框架，同时解决相机佩戴者识别和人体检测与关联任务。视角方向搜索。首先，我们讨论侧视相机在俯视图中的视角方向搜索，即将侧视热图 F s ∈ R h × w 与扩展的俯视热图˜F t ∈ R H × W进行匹配。如图2所示，我们通过值累积来沿 y轴压缩热图，得到 f s ∈ R 1 × w 和 ˜ f t ∈ R 1 × W。然后我们计算它们之间的相关分数，如下所示：0其中 * 表示卷积操作，˜ f t s 表示使用宽度为 w的滑动窗口从˜ f t 中裁剪出的地图，s ∈ { 1 , 2 , ..., W }表示滑动窗口的左边界。需要注意的是，当 s > W − w时，我们会将˜ f t 的右边界与其左侧区域进行循环填充。tFs̃F sf s̃()c ,cxyx’y’xydi,jy= D(P iy, d(Qj)),(6)24190卷积 L det0F0扩展0压缩方向0压缩 L D L L0裁剪0AssNet0Ft �0L M0r0俯视图图像0侧视图图像0俯视图图像0侧视图图像0图2. 提出方法的框架。放大以获得最佳视图。0将侧视图的热图与扩展的俯视图的热图进行匹配，以此来同时解决相机佩戴者识别和人体检测与关联任务。相机定位。如上所述，我们将侧视相机在俯视图中的位置 O作为极坐标变换的原点。实际上，我们事先并不知道位置 O。因此，我们从俯视图中的所有主体位置 P = { P 1 , P 2 ,..., P M } 中采样 O ，并假设 O ∈ P。在训练过程中，我们将相机定位视为一个分类问题。具体而言，如果采样的位置是 O，则将其视为正样本，而其他采样位置则视为负样本。在测试阶段，我们尝试从 P中选择所有可能的位置，并选择具有最高置信度的预测相机位置。识别网络。基于上述设置，相机位置和视角方向识别网络的框架如图2所示（中间）。接下来，我们介绍训练所提出网络的监督方法。首先，对于视角方向搜索，我们使用以下方向损失函数：0L D = ∥ r − r gt ∥ , (3)0其中 r 表示由公式（2）预测的视角方向得分，r gt表示真实结果，即高斯分布曲线，如图2所示。接下来，对于相机定位，我们使用三元损失函数进行相机位置预测。0L L = log(1 + e τ ( ∥ f s − f o (o) ∥−∥ f s − f o (o ′0其中 τ 是预设参数，f s 是公式（2）中的压缩侧视热图，fo (o) 和 f o (o ′ ) 是在真实原点 o 和错误原点 o ′处扩展的压缩热图，它们被视为正样本/负样本。03.4. 多人关联模块0主体匹配相似性。在相机定位和视角方向搜索之后，我们考虑个体级别的主体匹配。为此，我们首先获得0每个视图中的人体边界框由我们框架中的人体检测模块生成，然后映射到扩展的俯视热图和侧视热图，并分别表示为 Pi 和 Q j ，其中 i ∈ { 1 , 2 , ..., M } ，j ∈ { 1 , 2 , ..., N }。然后，我们通过它们的空间位置布局来衡量出现在俯视图和侧视图中的主体之间的相似性。1）对于 x轴分布（从侧视 FOV的左到右），我们计算两个视图之间每对主体之间的 x轴坐标的距离。0d i,j x = D( P i x , Q j x ) , (5)0其中 P i x ，Q i x 表示主体 P i ，Q i 的归一化 x 轴坐标，D是距离测量函数。然后我们得到相似性矩阵 S x = 1 - [ d i,j x ] i,j ∈ R M × N0在两个视图之间的所有主体之间计算相似性。2）对于 y轴分布（从侧视 FOV的近到远），我们利用每个主体到相机的距离。具体来说，在俯视图中，根据上述的极坐标变换，y轴坐标值直接反映了距离。在侧视图中，根据摄影原理，相机到每个主体的距离可以通过每个主体的深度来反映。我们计算每对主体沿 y 轴的相似性。0其中 P i y 表示主体 P i 的 y 轴坐标，d( Q j y ) 表示主体 Qi 到相机的深度。然后我们得到与 x 轴相似的相似性矩阵 S y。如何在侧视图中估计主体深度？我们尝试了三种不同的方法，包括①通过图像深度估计算法估计每个主体的深度；②使用每个主体底部到图像底部的距离；③取人体边界框高度的倒数。在实验中，我们将比较不同方法生成的结果。关联网络。我们使用双向RNN架构构建关联子网络，受到[12,36]的启发。给定输入的相似性矩阵 S x （或 S y），我们首先将其重塑为向量，按行顺序进行，然后输入到第一个BiRNN中，其输出然后是24200通过按列顺序将其重塑为向量，然后将其输入到第二个BiRNN中。然后，应用三个全连接（FC）层，然后使用sigmoid函数来得到最终的匹配矩阵 M x （或 M y）。我们应用有监督的匹配损失函数。0L M = L cro ( M x , M gt ) + L cro ( M y , M gt ) , (7)0在主题关联网络中，M x ( M y ) 和 M gt分别是预测的匹配矩阵和真实值。我们使用矩阵交叉熵损失函数 L cro 来衡量两个矩阵之间的一致性。04. 实施细节0网络训练。整个框架的总损失函数定义为检测损失L Det 、方向损失L D 、定位损失L L和匹配损失L M 的总和，即L = L Det + L D + L L + LM。在某些情况下，很难要求摄像头的位置（尤其是视角方向）的注释。对于这种情况，所提出的方法也可以不使用L D 或L L或两者都不使用，这显示了所提出方法的普适性，相应的结果在第5.3节中进行了讨论。在检测模块中，我们采用了CenterNet[5]中使用的网络架构作为骨干网络。在实验中，我们将F t的宽度和高度都调整为128。在公式（1）中，我们取r = w。02. 我们将H = h，W = λw设置为˜ F t的宽度和高度，并设置λ =4，因为侧视摄像头的视野角度为90度。我们将公式（4）中的τ设置为10^2。我们使用Pytorch后端实现了所提出的网络，并在一台配备RTX 3090GPU的计算机上运行。网络推断。然后我们详细介绍所提出方法的推断阶段。首先，我们使用卷积来实现视角方向搜索。具体而言，我们将卷积操作应用于f s 和˜ ft，如公式（2）所示，得到r ∈ RW作为响应分数。我们在响应分数上取峰值以获取视角方向。对于摄像头定位，我们尝试所有可能的位置P = {P 1，P2，...，PM}作为极坐标变换的原点，并计算相应的定位误差∥f s − fo(P)∥，如公式（4）中所定义的，以选择具有最小误差的预测摄像头位置。对于主体匹配任务，我们通过对预测的M x和M y进行平均来合并它们并得到M，然后将匈牙利算法[15]应用于预测的软匹配矩阵M，将输出转换为硬（二进制）分配矩阵A作为最终的主体关联结果。05. 实验05.1. 数据集0合成数据集。我们没有找到包含互补的俯视和侧视视频的可用数据集。0侧视摄像头位置、视角方向和交叉视角主体关联的完整注释。特别是对于侧视摄像头的视角方向，无论是使用辅助硬件仪器还是手动后注释，都很难在真实世界的数据收集中准确获取。因此，我们考虑构建一个合成数据集。0• 可控数据收集。我们利用3D建模引擎Unity[26]来渲染背景。我们进一步应用开源工具包PersonX[30]来建模出出现在合成视频中的人物。我们通过使用高空的俯视摄像头和安装在场景中一个主体头部上的侧视摄像头来生成互补视角的视频对。得益于虚拟环境，我们可以控制一系列设置。•多样化的场景设置。我们选择了城市街道、校园和体育场等五个常见的户外监控场景，在这些场景中选择了10个不同的视频采集地点。我们还包括了白天和夜晚的场景，具有各种照明条件。每个视频中的主体数量设置在5-25的范围内，这些主体是从1,000个3D人体模型中随机选择的。所有主体都可以在场景中自由行走/站立，没有特定要求。俯视摄像头的高度设置为15-20米，几乎垂直向下看地面，可以覆盖所有/大部分主体。侧视摄像头可以静止或随着佩戴摄像头的人的移动而移动，包括随机行走和头部旋转/俯仰。我们不要求所有主体在侧视摄像头中可见，但我们使侧视摄像头的视野覆盖大部分主体。这在监控场景中也很常见。侧视摄像头的视野角度设置为90度，这是许多真实世界移动摄像头的设置。•大规模。我们生成了108个视频（54个视频对），长度从500到1,500帧不等，总共包括84,800帧，超过一百万个主体边界框。我们将数据集按2：1的比例分为训练集和测试集，即36个和18个视频。•丰富准确的注释。我们的设置可以准确获取此问题中使用的所有必要注释，包括侧视摄像头位置、视角方向（在俯视视频中）以及具有时间和交叉视角ID编号的人体边界框。0真实世界数据集。我们在实验中还包括一个真实世界数据集[11]。具体而言，该数据集由GoPro相机（安装在佩戴者头部上方）拍摄侧视视频和无人机拍摄顶视视频。该数据集包括15对视频，长度从600到1,200帧不等，这些视频在五个不同的场地拍摄，具有各种背景。每个视频中的主体数量从3到14不等。我们将数据集分为训练和测试数据集，分别包含8个和7个视频对。主体以边界框和ID号的形式进行手动注释：相同的主体在两个视图中用相同的ID号注释。24210在两个视图之间手动关联相同ID号的主体。请注意，鉴于在顶部视图视频中识别主体的困难，这种手动标注非常费时。该数据集仅提供摄像机佩戴定位和交叉视图主体关联的注释，而不提供视角方向的注释，实际上在真实世界的数据集中几乎不可能准确注释。05.2.设置0评估指标。为了全面评估所提出的方法，我们定义以下指标。Metric-I:我们首先评估侧视摄像机定位的准确性。对于每一帧，给定预测的摄像机佩戴者Op和地面真实摄像机佩戴者O g（以人体边界框为单位），如果O p和Og的交并比（IoU）为真，则将定位结果视为真。02.然后，我们根据算法生成的预测分数对顶部视图中的所有检测到的主体进行排名，并评估前κ个准确率，其中真实的摄像机位置位于排名检测到的主体的前κ比例之内。Metric-II:我们还评估侧视摄像机视角估计。给定预测的视角V p和地面真实视角Vg（以[0，2π）的角度表示），我们首先计算视角误差γ = |V p−Vg|。我们将准确度δα定义为预测的视角方向满足γ≤α的百分比。Metric-III:我们最后评估交叉视图多人关联结果。具体而言，我们使用交叉视图主体关联评估的精确度和召回率得分，这些得分分别通过正确匹配的主体数量计算，其中分子是所有预测或地面真实主体的数量。我们还计算F1得分作为指标。我们进一步使用多人关联准确度MHAA = 1−...0在时间t，假阴性、假阳性和交叉视图主体匹配的不匹配对的数量分别为fn t、fp t和mme t，gt是时间t时顶部和侧面视图中主体总数[10]。请注意，Metric-III是一个综合指标，评估了人体检测和关联的性能。我们不单独评估单视图人体检测的精度，因为这不是本研究的主要目的。比较方法。我们没有找到可用的代码来直接处理我们的问题，特别是对于提出的任务I和任务II。具体而言，先前的研究[6，35]都使用具有相同高度和视场的同源第一人称和第三人称摄像机。与此不同的是，本文中的顶部视图使得交叉视图的外观和运动，即先前的研究[6，35]中最重要的特征，非常难以匹配用于摄像机识别。此外，由于无法获得视角的可达注释，以前没有工作来估计视角。0并从第三人称视图评估第一人称视图摄像机的视角。任务III与大多数现有工作的不同之处在于，它专注于匹配具有相似外观/运动特征的主体。即便如此，我们仍然尝试包括更多相关方法，并对主体关联进行一些修改以进行比较。•MOT：我们首先使用基于顶级外观运动的多目标跟踪（MOT）算法TraDes[34]进行比较。具体而言，我们仅在每个主体首次出现在视频中的帧上手动关联顶部和侧视图之间的主体。然后，我们分别跟踪每个视频中的所有主体，并最终使用跟踪结果将主体关联传播到后续帧。•Re-id：交叉视图主体关联任务类似于基于外观匹配的人物重识别方法。因此，我们选择了一种最先进的人物重识别方法[4，25]用于交叉视图主体关联。我们应用re-id网络提取每个主体的特征，并计算两个视图中主体之间的相似性，然后选择具有最大相似性的不同视图之间的匹配主体对。•MHA：与我们的任务最相似的工作是[10，13]中的交叉视图多人关联，该工作构建了一个成本函数来衡量具有大视角差异的两个视图之间的相似性。请注意，上述三种方法都需要人体检测作为输入。为了公平比较，在实验中，它们都使用我们的方法生成的检测结果。• Hungarian +S：我们直接将匈牙利算法[15]应用于相似性矩阵S（S x和Sy的平均值），以获得不使用提出的关联网络预测M的分配矩阵A。05.3. 摄像机识别结果0我们首先评估摄像机佩戴者定位（任务I）和视角估计（任务II）的性能。为了对它们进行更全面的比较，我们应用了两种用于任务III的基线方法，即Re-id和MHA，来处理任务I和任务II。具体而言，根据人体检测和主体关联结果（任务III），我们通过搜索每个主体来定位顶视图中的侧视摄像机，以识别其定位和视角方向，该方向覆盖了除摄像机佩戴者之外的大多数（关联的）主体。消融研究。我们考虑了以下我们方法的变体来验证一些关键组件。• w/o L D / LL：在摄像机佩戴者识别中去除方向或定位损失。需要注意的是，真实世界数据集没有方向注释，因此我们的方法不使用L D。• w/ocompress：在应用Eq.（2）中的相关操作之前，不将热图压缩为向量。δαw/o LLLD&w/o LDw/o compressw/o LLMHARe-idw/o LLLD&Oursw/o LDw/o compressw/o LLMHARe-idw/o compressw/o LLMHARe-idπw/o LD73.72-64.17w/o LL72.6969.2162.09w/o LD & LL71.49-59.65w/o compress71.5171.0260.2924220α0（c）（b）（a）κ κ0准确率0准确率0图3. 我们方法不同变体的任务I（a，b）和任务II（c）的比较结果。0表1. 我们方法不同变体的AUC得分。（%）0方法位置（合成）位置（真实）方向0Re-id [4, 25] 61.86 60.61 56.00 MHA [10] 69.95 52.58 57.900我们的方法 80.50 79.26 68.340对于任务I，根据上述讨论的Metric-I，我们根据预测的摄像机佩戴者可能性对顶视图中检测到的所有主体进行排序。然后，我们绘制准确率CMC（累积匹配特性）曲线来评估顶视图中摄像机佩戴者的检测准确性。图3a和图3b分别显示了不同变体的方法在合成数据集和真实世界数据集上生成的准确率CMC曲线。我们可以看到，我们的方法在任务I和任务II中优于比较方法。对于任务I，我们还可以看到，所提出的损失，包括L D和LL，以及压缩策略对于摄像机定位任务是有用的。对于定量评估，我们计算了CMC曲线的AUC得分，如表1的前两列所示。对于任务II，根据Metric-II，我们绘制了在合成数据集上不同阈值α设置下的δα准确率曲线，如图3c所示。表1的最后一列显示了δα曲线的AUC得分。我们可以看到与任务I类似的结果，即所提出的组件是有效的。对于深入分析，所提出的方法可以在没有相应监督的情况下生成可接受的摄像机定位和视角预测结果，这证明了所提出框架的鲁棒性，它可以以无监督的方式完成这两个任务。05.4. 主体关联结果0比较结果。然后我们评估主题关联结果（任务III）。为了更好地评估关联任务，我们根据[2,10]中的方法计算了在真实应用中相对容易获得的地面真实摄像机位置（但不包括视角方向）下所提出方法的性能。如表2所示，我们可以看到，尽管我们给出了匹配标签，但我们的方法在任务I和任务II中的性能仍然优于比较方法。对于任务I，我们还可以看到，所提出的损失，包括L D和LL，以及压缩策略对于摄像机定位任务是有用的。对于定量评估，我们计算了CMC曲线的AUC（曲线下面积）得分，如表1的前两列所示。对于任务II，我们根据Metric-II，在合成数据集上绘制了不同阈值α的准确率曲线，如图3c所示。表1的最后一列显示了δα曲线的AUC得分。我们可以看到与任务I类似的结果，即所提出的组件是有效的。对于深入分析，所提出的方法可以在没有相应监督的情况下生成可接受的摄像机定位和视角预测结果，这证明了所提出框架的鲁棒性，它可以以无监督的方式完成这两个任务。0在初始帧上，最先进的MOT方法TraDes在我们的任务中仍然表现不佳。原因可能是一个帧中的主体跟踪误差可能导致该主体在之后的所有帧中的关联错误。同样，人体re-id方法生成的性能也不好。这是因为现有的re-id方法在顶视图和侧视图之间的外观特征不一致。方法MHA在其自己提出的真实世界数据集中提供了可接受的结果。与它们相比，所提出的方法在合成和真实世界数据集上都产生了更好的结果。此外，我们可以看到，使用相似性矩阵S和匈牙利[15]算法的比较方法在分配网络方面的性能也不如我们的好。这验证了所提出的分配网络的有效性，它可以处理S中的相似度测量误差。0消融研究。我们还考虑了几种提出方法的变体。• w/o x(y)：分别删除由x坐标（y坐标）提供的匹配相似性。•w深度/底部：我们使用[18]估计的每个主体的深度或每个主体底部到图像底部的距离，用于公式（6）中的y轴分布。0如表2底部所示，我们可以看到仅使用x轴分布的主体匹配相似性可以提供可接受的性能。相比之下，仅使用y轴分布的方法表现不佳。这是因为在给定侧视摄像机的预测视角方向的情况下，两个视图中的主体分布沿x轴对齐，但在俯视和侧视图中反映的y轴分布的尺度是不均匀的。无论如何，我们方法的最终版本将它们两者结合起来提供了比任何一个都更好的性能。这证明了x轴和y轴分布在我们的方法中可以互补。我们还可以看到，由深度估计方法[18]生成的人体深度和通过底部距离计算的人体深度在我们的方法中表现不佳。原因可能是使用[18]进行的人体深度估计对于这个问题来说不够准确，并且底部距离的使用容易受到侧视摄像机的滚动影响。24230表2. 不同方法和我们方法的不同变体的比较结果。（%）0方法合成数据集真实世界数据集0精确率召回率 F1得分 MHAA精确率召回率 F1得分 MHAA0TraDes [34] 15.34 3.79 6.07 19.03 18.68 6.72 9.89 28.51 Re-id [4, 25] 35.28 20.50 25.93 30.89 26.37 15.3319.39 33.21 MHA [10] 49.99 41.06 45.09 45.42 73.14 69.04 71.03 67.70 Hungarian [15] 57.44 59.64 58.2852.07 67.17 75.77 70.76 73.210w x (w/o y ) 58.33 60.71 59.24 57.11 69.54 80.36 74.04 79.43 w y (w/o x ) 39.94 41.97 40.73 34.1340.67 48.33 43.80 47.97 w深度[18] 59.63 61.81 60.46 57.40 70.41 81.11 74.90 79.76 w底部 63.23 66.0564.32 60.58 70.47 80.85 74.82 79.160我们的 67.06 69.91 68.16 66.07 72.05 83.50 76.81 80.800跨领域测试。显然，对于真实世界数据的视角方向注释非常困难。即使使用智能手机和相机中集成的陀螺仪，也无法解决这个问题，例如，外部干扰会产生随机漂移误差。因此，我们使用在合成数据上训练的模型对真实世界数据进行测试和评估，以评估我们方法的泛化能力。如上所述，无法获取真实世界视频的视角方向。因此，我们评估跨视角主体关联性能，如表3所示。我们可以看到，尽管有一些准确性下降，跨领域测试仍然提供可接受的性能。请注意，我们直接应用在合成训练数据集上训练的保存模型对真实世界数据进行测试，无需任何额外修改。我们相信通过整合一些跨领域适应或合成数据生成技术，性能可以更好。从这一点来看，本文提供了一个新的见解，即使用合成数据可以帮助检测（不可测量的）真实场景中的第一人称视角方向。0表3. 我们方法的跨领域评估。（%）0方法现实世界数据集0精确率召回率 F1得分 MHAA0我们的（跨领域）52.76 65.88 57.85 70.6206. 讨论0限制。1）我们假设侧视摄像机始终位于俯视摄像机的视野范围内，但在实际中可能并不总是满足这一条件。2）我们没有使用视频中的时间信息。虽然这种方法适用于单个图像对，但视频可以提供更多信息，例如时间一致性，以提高性能。我们还在补充材料中展示了一些特殊情况来讨论限制。应用。实际上，这项工作处理了空地协同摄像机系统的新问题设置。请注意，在没有预安装摄像机的户外场景中，快速设置传统固定摄像机进行监视可能是不切实际的。因此，所提出的摄像机系统可以0可以应用的两种摄像头：一种是无人机上的摄像头（俯视图），另一种是地面上由多名执法人员佩戴的摄像头（侧视图），通过提出的关联方法，可以用于协同定位、跟踪和人体活动识别等。互补视图摄像头配置可以提供更好的室外监控覆盖范围和灵活性，因为俯视图和侧视图相互补充，俯视图提供整个场景的全局图像但缺乏细节，而侧视图提供具有频繁遮挡的主体的局部细节。随着移动摄像技术的进步，这类摄像头的协同分析的好处也将增加，有许多潜在的应用领域，如视频监控中的人群活动识别[39]，重要人物检测[14]以及体育场景理解，如足球比赛中的球员定位分析。07. 结论0在本文中，我们研究了一种新的互补视图视频协同分析问题。为此，我们开发了一种新方法，可以同时处理三个任务-摄像头佩戴者位置、视角估计和交叉互补视图多人检测和关联。具体而言，我们提出了一种空间感知位置表示方法，用于嵌入主体的空间分布，并设计了一个摄像头识别和主体匹配网络，同时执行上述三个任务。我们还构建了一个新的带有丰富注释的合成数据集，用于提出的问题。在合成数据集和真实数据集上的实验结果非常有希望。未来，我们计划将视频的时间信息整合到我们的框架中，以进一步提高性能。致谢。本工作部分得到了中国国家自然科学基金会的支持，批准号码为U1803264、62072334，以及天津市研究生创新项目，批准号码为2021YJSB174，以及天津市自然科学基金，批准号码为18JCYBJC15200。[11] Ruize Han, Wei Feng, Jiewen Zhao, Zicheng Niu, YujunZhang, Liang Wan, and Song Wang. Complementary-viewmultiple human tracking. In AAAI, 2020. 5[12] Ruize Han, Yun Wang, Haomin Yan, Wei Feng, and SongWang. Multi-view multi-human association with deep as-signment network. IEEE TIP, 31:1830–1840, 2022. 4[13] Ruize Han, Yujun Zhang, Wei Feng, Chenxing Gong, Xi-aoyu Zhang, Jiewen Zhao, Liang Wan, and Song Wang. Mul-tiple human association between top and horizontal views bymatching subjects’ spatial distributions. In arXiv, 2019. 2, 6[14] Ruize Han, Jiewen Zhao, Wei Feng, Yiyang Gan, Liang Wan,and Song Wang. Complementary-view co-interest person de-tection. In ACM MM, 2020. 2, 8[15] Harold W Kuhn. The hungarian method for the assignmentproblem. Naval Research Logistics Quarterly, 2(1-2):83–97,1955. 5, 6, 7, 8[16] Martin K¨ostinger, Martin Hirzer, Paul Wohlhart, Peter MRoth, and Horst Bischof. Large scale metric learning fromequivalence constraints. In CVPR, 2012. 2[1

下载后可阅读完整内容，剩余1页未读，立即下载