没有合适的资源?快使用搜索试试~ 我知道了~
6049基于堆叠单应变换的多视点行人Liangchen Song1、Jialian Wu1、Ming Yang2、Qian Zhang2、Yuan Li3和Junsong Yuan11University at Buffalo2 Horizon Robotics,Inc.3Google,Inc.{lsong8,jialianw,jsyuan} @ buffalo.edu摘要多视图行人检测旨在从多个相机视图预测鸟瞰这项任务面临两个挑战:如何建立从视图到BEV地图的3D对应关系以及如何跨视图组装占用信息。在本文中,我们提出了一种新的堆叠同态变换(SHOT)的方法,这是出于通过一堆单应性近似投影在三维世界坐标。我们首先构建一个堆栈的变换,formations投影视图的地平面在不同的高度水平。然后,我们设计了一个软选择模块,以便网络学习预测转换堆栈的可能性。此外,我们提供了一个深入的理论分析,构建SHOT和如何以及SHOT近似投影在3D世界坐标。SHOT经经验验证能够估计从各个视图到BEV图的准确对应关系,从而在标准评估基准上产生新的最先进性能。1. 介绍多视图检测,又名多相机检测[20,1]旨在从场景的不同感测视点的一组同步图像中检测对象与单视图检测相比,多视图对象检测使得能够聚合跨多个视点的信息并推断场景的3D结构[8,5],因此通常对遮挡是鲁棒的,遮挡是拥挤场景中单视图检测在本文中,如图1所示,我们专注于从多视图图像中检测行人,其中输入是来自不同视点的一批图像,输出是来自飞机的鸟瞰图(BEV)的占用图从一组多视图图像估计占用图在两个方面具有挑战性。首先,由于视点的变化,在不同的视角下,物体外观往往存在遮挡和模糊,因此匹配行人的特征是一个不小的问题。输入:多视图图像输出:鸟瞰图图1.多视角行人检测的任务:给定从不同视角捕获的一批同步图像,我们的目标是预测场景的占用图。在输入视图中精确地第二,即使充分估计了对应性,一个视图也仅提供了整个场景的不完整表示,这在汇集所有视图的占用知识方面带来了困难。例如,由于遮挡,区域可能仅在一个视图中可见,因此我们必须识别该视图并根据预先建立的对应关系从其他视图中排除干扰。为了以端到端的方式联合优化对应关系和特征提取,最近的工作[13,12]提出将从2D图像提取的特征投影到共享空间,用于聚合来自所有视图的信息,同时保持框架可区分。然而,先前的工作要么将特征投影到大的3D网格[13],要么仅将特征投影到地平面[12]。由[13]提出的全3D投影是昂贵的,因为3D卷积涉及处理投影特征。同时,[12]中使用的2D投影由于未对准而不在本文中,对于建立3D对应关系的第一个挑战,我们建议根据行人的不同语义部分将特征图投影到不同的高度水平上如图2所示,我们的模型6050图2.不同投影方案的图示:(a)所提出的堆叠单应性变换(SHOT)利用单应性堆叠来近似3D投影;(b)[ 13 ]中提出的3D投影将2D特征点投影到3D网格;(c)[ 12 ]中提出的2D投影将2D特征投影到2D地平面上。我们的方法实现了更好的投影效率和准确性之间的权衡比其他两个计划。激励的关键在于每个像素应当以适当的高度投影到地平面为了实现这一点,我们构建了一堆单应投影,在图中是H0,H1和H2对于第二个挑战,组装占用信息跨视图,我们设计了一个软选择模块,以确保网络可区分,从而学习如何聚合占用信息端到端。具体地说,对于从各个视图中提取的特征的每个像素,我们设计了一个似然图预测模块来从变换堆栈中软选择投影。由于每个像素都是用一堆单应性变换投影的,因此我们的方法被称为堆叠单应性变换(SHOT)。直观地,SHOT可以被视为具有单应性堆叠的3D投影的近似。 然后,我们从两个方面对SHOT的性质进行了理论分析:(1)获取预先计算的单应性的要求和(2)用作3D投影的要求。SHOT在WILDTRACK上实现了90.2%的MODA,在WILDTRACK上实现了88.3%的MODA。MultiviewX,其在WILDTRACK上比最近的方法[12]高2%,在MultiviewX上比最近的方法[12]高4.2%。此外,我们调查了一个实际的,但具有挑战性的设置下的SHOT的性能:场景和摄像机的位置是明显不同的训练和测试。结果验证了SHOT的泛化能力总而言之,我们的贡献如下:• 我们提出了一种新的堆叠单应性变换(SHOT),以建立准确的3D之间的对应关系的个人输入视图和BEV占用地图。• 我们从理论上分析了SHOT的几何性质,证明了两个性质:1)在不知道外部参数的情况下,可以有效地构造变换栈;2)在适当的超参数下,SHOT可以将所有人体部位投影• 我们在标准基准上进行实验,并取得了新的最先进的结果。此外,我们研究了SHOT在新的挑战设置下的性能:训练和测试涉及不同的场景和摄像机视点。2. 相关工作多视角检测。多视图检测最具挑战性的部分是从多个视图中收集关于物体或行人的占用知识。在深度神经网络激增之前,对相机之间的对应性进行建模主要是通过对象的概率建模来完成的[8,5,20,18]。Rubino等人[19]从一组2D椭圆估计3D中的二次曲面(椭圆体),所述2D椭圆拟合到多个视图中的对象检测边界框。Baque等[2]提出了一种基于CRF的端到端可训练模型,并使用高阶CRF项来表示潜在的闭塞。在[25]中,Xuet al.提出将视图之间的对应性的计算重新公式化为组合结构优化的问题。在[3]中,作者提出了一个大规模数据集WILDTRACK,并系统地回顾了最近的多视图检测方法的性能。最近,Hou等。[12]提出了用于多视图检测任务的简单而有效的特征透视变换,该变换经过端到端训练并达到新的SOTA。平行平面的多个投影。所提出的SHOT将每个视图投影到相对于地平面的多个平行平面。[6]中发表的结果使平行平面的多重投影的想法成为可能。Khan等人[15]提出了用于跟踪被遮挡的人的多场景平面。类似地,Eshelet al. [7]提出了检测头部和应用平面变换。此外,类似的想法已经成功地应用于多视图人群计数领域[27,29,28,30]。我们的方法不同于以前的方法的原因,建议拍摄相结合的软选择模块的行人检测。几何集成深度网络。 多视图ge-60510∈H∈0······∼ii|i|∈1--2340投影特征图3.建议拍摄的插图。每个特征图将用一堆单应性进行投影,并且投影结果被柔和地选择以形成适当的屏幕→BEV投影。从Z= 0平面到屏幕平面。 也就是说,如果我们将外矩阵定义为Ei=[Ri|ti]=(ei,e i,ei,ei),其中,每个e是列向量,用于前向量的矩阵为从Z= 0平面到屏幕平面的投影为KiEi其中Ei=(ei,ei,ei),因为世界坐标将是图4.有关软选择模块的网络详细信息。0 1 2 4我e1X+eiY+ei.2 4几何学是计算机视觉的基石之一[9]。在我们的工作中,每个投影本质上是一个单应性,它描述了针孔相机模型的平面平移。在[24,26]中,作者使用透视投影将2D估计连接到3D世界。Shi等人[21]提出了极坐标变换以将空中图像与地面视图全景对准。透视变换也广泛用于姿势估计任务[13,11,23],以推断身体关节的3D位置。 在[16]中,Nassaret al.提出了学习变形和检测与几何软约束。此外,罗迪克等。[17]提出将特征投影到地平面上并预测BEV语义分割图。我们的方法不同于以前的方法,因为我们的目标是学习预测的可能性,每个像素的行人检测任务的转换。3. 预备和注释我们将来自N个视图的输入图像表示为(I1,,IN),并且将针对每个图像的提取的特征图表示为(J1,,IN)。将摄像机i(对于视图i)的内部参数表示为KiR3×3。假设对于来自相机i的点,其图像坐标是(u,v)T并且世界坐标是(X,Y,Z)T,则通过针孔相机模型,我们有其次,我们把从世界坐标到占有映射的射影映射记为KgR3×3.我们可以将Kg视为“地面摄像机”的固有参数现在使用Kg,从图像i到地面占用图的变换可以表示为i=Kg(Ei)−1(Ki)−1,这是一个单应矩阵。最后,我们将输入图像的大小表示为H×W,将输出地平面占用图表示为Hg×Wg。4. 该方法我们的动机是用单应性的堆叠来近似3D世界坐标中的变换,使得我们可以将一个人的所有身体部位投影到BEV图上的相同位置。为了实现这一目标,我们提出堆叠单应性变换(SHOT),其由两个步骤组成:单应性的堆叠的构造和变换的软选择。4.1. 单应性栈的构造我们不是直接估计pedes- trians的3D位置,而是用一堆单应性来近似3D世界坐标中的变换堆叠中的每个同态被设计为将视图投影到特定高度处的地平面。具体地,对于每个视图i,我们uX定义总共有D+ 1个变换,以及YvK[R t],(1)Z∆z是每两个目标平面之间的距离,平行于地平面。 单应性是11从屏幕平面到Z={k∆z|k=0,...,D}个平面,其中D表示其中[Riti]R3×4表示相机i的外部参数。 在[12]中,我们将地平面d0定义为世界坐标中的Z= 0平面。从等式(1)我们可以看出,如果Z=0,则投影矩阵Ki[Ri]|ti]可以转换为3×3矩阵,表示项目设置堆栈的大小。 在图3中,我们展示了一个D= 3的例子,它将屏幕平面投影到Z= 0,∆z,2∆z平面。 从图中可以看出,通过选择投影的目标,我们可以将一个人的不同身体部位对准到相同的BEV位置。输入图像特征图投影图像0.600.280.12软选择特征convconvsoftmax项目共nv总和6052堆叠单应变换视图视图视图视图视图视图重量:投影功能:convsoftmax×HF.Σ···k=0--2则次数总共为N(D+1),即, {(H0,···,Hd)}i=1。∥ −∥我 HH 2FF 2i,si和slKk=0输入:特征提取功能:图5.概述我们提出的框架。如果外部参数已知,则计算单应性矩阵是直接的。在第3节中的符号之后,用于从图像的投影的单应性Hi4.3.总体框架在图5中,我们展示了i到k∆zK平面可以计算为多视图行人检测,这是灵感来自结构设计[12]。 ResNet-18 [10]Hi= Kg(Ei)−1(Ki)−1,其中Ei=(ei,ei,ei+k∆zei)。选择具有膨胀的作为主干,并减少k k k1 2 43(二)分辨率为输入的8倍。 则特征由于我们具有N个相机并且存在针对每个相机预先计算的D+ 1个变换,因此变换的数量为N。映射被上采样到Hf Wf,并被发送到分类器,用于检测每个图像中的行人的fier损失i i i=NLsingle=Σsi−yi2+si−yi2,其中对于图像HF不知道外部参数和进一步的分析并且yi和yi是用a模糊的地面真值标签。在6.4节中讨论。4.2.软选择模块随着单应性堆栈,我们现在面临着一个新的问题:单应性应用于哪个像素?由于我们需要保持网络端到端的可区分性,我们建议从提取的特征中为每个输入视图生成选择掩码,即,(J1,,JN)。使用特征作为输入的动机是网络可以根据由特征呈现的语义信息来预测用于变换的适当的似然得分例如,网络可以识别人的头部,然后分配最适合头部高度的变换软选择模块的计算图如图4所示。以特征Ji作为输入,我们首先用softmax估计所有变换的特征图的每个像素上的选择似然分数令似然张量为gk(Ji)k=D,其中gk()表示变换k的似然预测。然后相应地应用homography矩阵,我们有{Hi·g k(J i)o J i}k=D。 在应用卷积分别针对头部和脚部的高斯核接下来,用所提出的SHOT投影特征来自所有视图的特征被连接并发送到分类器层以用于行人检测。在生成最终BEV检测结果之后,使用L接地=sgyg2计算损耗。 这里,sg和yg分别是BEV占用图的预测和用高斯核模糊的BEV占用图的地面实况。最后,总损耗是上述两种损耗的组合,即L = L单+L地。 所有网络模块以端到端的方式联合优化:用于行人的特征提取的卷积骨干、用于建立对应关系的软选择模块以及用于检测行人的分类器层。5. SHOT的属性在本节中,我们从两个方面分析所提出的SHOT的属性:1)除了摄像机的内部参数,我们还应该知道什么来构造全息图?2)SHOT如何近似3D点层到每个特征,对于每个视图,我们总结由单应性堆栈投影的所有特征。为简单起见,本节中的摄像机脚本i视图视图视图视图视图视图BEV检测conv连接转换单视图检测这里,请注意,我们仍然可以计算单应性与-是头和脚的分类图投影? 在不丧失一般性的情况下,我们省略了超60530 0t.(三)二联系我们D.⌈∥ −∥⌉ ⌈·⌉−−⌈∥ −∥⌉5.1. 运行SHOT在第4.1节中,我们说明了我们的方法,假设知道相机的外部参数这有时可能是不切实际的。同时,由于H0是一个单应矩阵,我们可以很容易地标记出地面上的对应点,如路面上砖块的交点。注意,理论上仅4点对应性就足以估计H0[9]。一个问题自然出现了:在我们的方法中,构建单应性堆栈需要哪些额外的信息我们首先表明,具有相同高度的行人的两个额外的注释足以获得一堆变换。如图6所示,对于图像坐标中的行人,我们将脚的位置表示为f,将头部的位置表示为h。接下来,我们将这个人的BEV占用图上的坐标相应地表示为o然后,形式上,我们有以下命题(完整的证明包括在补充):图6.射击几何这减少了不满足高度约束的影响。事实上,我们发现在我们的实验中,我们甚至可以设置∆t3= 0,同时仍然可以获得良好的投影结果。换句话说,在我们的实验中,只有一个行人的注释显示出有希望的结果原因可能是整个场景与行人高度的尺度差距较大。我们在第6.4节中给出了真实图像的结果,并使用1.提案 如果K,KgH0我们可以骗...公式(5)来自一个注释。struct转换堆栈(H0,、HD) 如果行人具有相同的高度,则仅具有两个额外的行人注释。两个额外的注释意味着两组在照相机图像和BEV图像中的点对应,即, (f1,h1,o1)和(f2,h2,o2)。证据(草图)首先,我们可以观察到,我们可以恢复部分的外部参数E0=K−1H−01Kg,然后,如果我们定义ED=K−1H−1Kg,我们有ED=E0+∆T其中T为00∆t100 ∆t3为了构造一组变换,我们只需要知道∆t1、∆t2和∆t3。接下来,从一个注释(f,h,o)我们得到方程.E0K−1oK−1f,5.2. 用SHOT由于单应性矩阵是平面之间的投影,但我们在多视图检测中需要3D点投影,因此我们现在研究SHOT如何近似3D点投影。关键的发现是在整个框架中有两个离散化:第一,一个同相图的堆叠是世界坐标Z轴的离散化;其次,BEV地图是地平面的离散化。这两种离散化起着不同的作用。Z轴的离散化可以被视为量化输入占用图,而BEV图可以被视为量化输出占用图。因此,理论上,我们可以对齐两个离散化,使得对象的所有在图6中,我们展示了一个D= 3的SHOT示例,它能够GEDK−g1oK−1h。有两个方程求解∆T,∆t1−hu ∆t3 =(hu−fu)(e31ox+e32oy+e33),∆t2−hv ∆t3 =(hv−fv)(e31ox+e32oy+e33),(四)(五)将所有点投影到BEV上的一个网格中。从形式上讲,我们有以下对路线的第二个提案。 如果我们设置D=H0(fh)(一)是天花板函数)并且DΔze3是等式(5)中的(Δt1,Δt2,Δt3)的解,具有相同Z值的所有点可以被投影到BEV地图上的相同网格其中h u,h v,f u,f v和o x,o y是K−1h,K−1f和K−g1o中的第一个和第二个元素,关于iv el y。e31,e32证据 由于H0是单应性,向量f−h将是和e33是E0的第三行的元素。由于每个点提供两个方程并且有三个变量,因此我们需要两个额外的注释来构造变换。在上述命题中,可能难以满足两个具有相同高度的脚踏车的要求。不幸的是,在实践中我们通常有一堆点对在BEV占用图上投影为另一个向量观察到H0(fh)的占用像素的数量反映了需要对齐的 网 格 的 数 量 , 因 此 变 换 的 数 量 应 该 是 D=H0(fh)。接下来,如果投影H_D可以将最高点变换为相同的占用像素,则可以将f_h从上一节所介绍的命题来看,转换最高点的意思是6054N−TPΣFP+ TPN方法WILDTRACK MultiviewX表1.与最先进的方法进行比较。我们的结果是5次重复运行的平均值。*Volumetric是我们的重新实现,所有其他比较方法的结果都引用自[12]。设置MODA MODP Prcn Rcll将图像投影MVDet [12] 19.5 51.0 84.4 24.0我们的32.3 73.2 92.4 35.1项目成果MVDet [12] 73.279.787.6 85.0我们的77.079.689.8 86.8w/o大内核一下有400个图像的现场和总数因为有7个摄像机,所以图像数量为2,800。平均而言,每帧捕获23.8人,每个人在30.41帧中被看到。MultiviewX [12]. 该数据集是使用Unity引擎和来自PersonX 的 人 体 模 型 生 成 的 合 成 数 据 集 [22] 。 与WILDTRACK相同,400帧的大小为1080×1920,注释为每秒2帧地面飞机大小为16×25m2,略小于WILD-MVDet [12]77.2(6.7↓)我们的86.1(2.2↓)76.3(3.3↓)81.8(0.2↓)89.5(7.3↓)91.9(4.7↓)85.9(0.8↓)94.4(2.9↑)轨道与WILDTRACK不同,该数据集中使用了6台摄像机,每帧中有40个人。6.2.实施细节和指标表2.在不同设置下应用SHOT报告了MultiviewX上的结果。设置投影图像和投影结果是对图像和结果应用透视投影设置w/o大内核意味着在最终的占有率图分类层中不使用大内核,其用于跨[12]中的视图聚合知识。括号中的数字是与大内核设置相比的性能下降。D∆ze3是方程(5)中(∆t1,∆t2,∆t3)的解。上述理论分析证明,所提出的SHOT可以有效地构建与非常少的注释,这表明行人检测任务的适用性。此外,通过适当的D和∆z,SHOT能够将所有感兴趣的点完美地投影到BEV地图上的同一网格,这证明了广泛的适用性。6. 实验为了评估我们提出的SHOT,我们首先按照[3,12]中使用的评估方案进行实验。然后,我们进行各种消融研究,并提出可视化,以验证我们的方法1的有效性。6.1. 数据集WILDTRACK [3]. 在该数据集中,从7个相机捕获12米乘36米区域上的行人。图像大小为1080×1920,每帧标注2帧1我们的代码在补充中可用。我们的实现基于已发布的代码[12]。具体地,作 为 [12] , 输 入 图 像 尺 寸 ( H , W ) 被 设 置 为(720,1280),并且每个视图的输出特征的尺寸(H f,W f)被设置为(270,480)。对于训练,我们使用学习率为0.15和动量的SGD优化器0.9. D设置为4。∆z在WILDTRACK上设置为10,在MultiviewX上设置为0.1。在我们的实验中,所有网络都在两个Titan XP GPU上使用批量大小1进行训练。评估指标。我们使用[12]中的数据分割,并遵循[14]中提出的度量报告了四个度量为了计算度量,首先计算假阳性(FP)、假阴性(FN)和真阳性(TP)然后,MODA通过IFP+FN计算,其中N是地面实况行人的数量。MODP的计算公式为1−d[dt]/t,其中d是从检测到它的基础事实,并且t是设置为20的阈值。MODP告诉我们的检测精度最后,精确度由TP计算,召回率由TP计算。对于所有指标,我们报告百分比。6.3. 与最先进方法的我们比较SHOT的国家的最先进的方法在多个方面。我们提出了定量比较标准的验证基准,然后证明我们提出的SHOT的有效性。ModaMODP精度召回ModaMODP精度召回RCNN聚类[25]11.318.4684318.746.463.543.9POM-CNN [8]23.230.57555----DeepMCD [4]67.864.2858270.073.085.783.3深度闭塞[2]74.153.8958075.254.797.880.2MVDet [12]88.275.794.793.683.979.696.886.7体积[13]*88.673.895.393.284.280.397.586.4我们90.276.596.194.088.382.096.691.56055输入视图%0地面实况输入视图1地面实况投影要素所有投影要素的连接图7.提取的特征图和投影的特征图的视觉比较。第一列:一个示例视图和当前地面实况BEV占用图。第二列:为演示视图提取的特征图。第三列:投影到BEV图后视图的特征图。第四列:所有视图中投影要素的连接。在标准的多视角检测基准测试中。作为第一个实验,我们报告了我们的方法的性能,并将其与表1中的现有技术方法进行比较。比较表明,我们的方法优于所有竞争的方法显着。更确切地说,在WILDTRACK上,我们的方法在所有指标上都优于其他方法。对于MultiviewX,我们的方法在MODA度量方面优于其他方法(比当前最佳方法高4.4%此外,我们的召回率明显优于其他人(比目前最好的高4.8%),而精度仍然与最好的一样好。在不同设置下应用SHOT。在[12]中,作者首先研究了三种不同的投影方案:图像级、结果级和特征级。他们发现,投射中间特征是最有效的方案,这是表1中报告的最终结果。然后他们发现,在最终的占用分类层中使用一个大的内核有利于跨视图聚合知识。作为比较,我们进行了实验,以验证相应的SHOT的有效性。首先,我们观察到将SHOT应用于其他两个方案也是有益的。从表2所示的结果中,我们可以看到,我们的SHOT模块始终提高了检测性能。此外,在W/O大内核的设置下,很明显,当执行BEV占用率图分类时,我们的方法通过使用小内核而受到的影响较小。原因是SHOT能够对齐特征,因此放松了对最终占用图分类层的要求,以聚合跨视图的占用知识。投影特征图的视觉比较。为了进一步验证我们的主张,即SHOT可以直接帮助收集知识跨视图,我们可视化我们的方法的中间特征图。在图7中,我们展示了从WILDTRACK测试集中随机选择的两个样本为了可视化特征,我们沿着通道维度对特征张量进行归一化。我们可以观察到的第一点是,MVDet和我们的MVDet之间在投影和连接(第3列和第4列)之后的特征非常不同用我们的方法投影的特征更聚焦,而来自MVDet的特征更模糊,这表明SHOT确实可以帮助对齐BEV图上的特征。第二个观察结果是,通过比较所提取的图像特征(第2列),我们的方法还关注其他人体部位。例如,从最后一行,我们可以观察到人体上的响应高于对应物,这表明来自人体的特征对于BEV图上的分类是有用的。综上所述,所有上述结果验证了我们的动机,并声称SHOT可以帮助对齐BEV地图上的特征。6.4. 分析实验结果验证了该方法的有效性。在本节中,我们分析我们的方法在解释能力和适用性。转换选择模块。如 第4.2节所述,我们预测每个像素从堆叠的单应性变换中软选择特定单应性的可能性。重要的是分析似然预测模块g()是否如预期的那样起作用。在图8中,我们展示了针对每个像素的选择似然值观察到MVDetMVDet我们我们特征图6056(一)(c)第(1)款(b)第(1)款(d)其他事项图8.对每一个的单应变换D1 2 3 4 5 6Moda八十五点五86.2八十七点二八十八点三八十八点六OOM表3.在具有不同D值和每个D的MultiviewX上的性能意味着使用D+ 1单应性。OOM表示内存不足。图9.用一个行人注释从H 0计算H D。(a)用一个注释计算的具有H D的投影。(b)用外部参数计算的H D投影。(c)投影为H0.(d)(a)和(b)的区别。在新环境中评估:场景和摄像机位置在训练和测试之间是不同的。为了研究此设置下的性能,我们在MultiviewX上创建了一个新的训练-测试分割,使用摄像机0、1、2和3。5用于训练,摄像机2、3和4用于测试。还有,MVDet我们的MODA 33.0MODP 76.5价格64.5 73.3Rcll 73.4表4.左图所示设置下的性能比较。摄像机和地平面在训练和测试之间是不同的。左图中的数字是摄像机ID。随着更高级别的变换,人体变得更暗,这表明选择更高级别变换的可能性不同身体部位的可能性的变化证明相似性预测模块是有效的。堆叠单应性变换的数量D。回想一下,堆叠的单应性变换可以被视为世界坐标中的Z轴的离散化,因此数字D表示离散化的精细程度。虽然我们在5.2节中介绍了实现完美对齐的条件,但由于网络的感受野通常很大,因此特征映射尽管如此,D的可预见的影响是,随着D增加,性能变得更好,直到D达到某个值。结果如表3所示,从中我们可以观察到性能的变化符合我们的预期。具体地,在D较大的情况下,性能随着增益减小而保持改善D= 4和5之间的性能差距变得相当小。测试时更改输入视图。在本文中,我们遵循场景和训练和测试视图相同的设置。虽然这种设置有其实际的应用场景,如监控摄像头。一个更实际和更具挑战性的设置是训练模型一次,然后部署到不同的场景。因此,我们建议我们将地平面从中间垂直地分成两部分,然后左部分用于训练,而右部分用于测试。在表4中,我们展示了我们的设置和性能比较的可视化。我们的方法在这个更具挑战性的设置中再次优于基线方法MVDet。计算没有外部参数的转换。在第5节中,我们提到,在实践中,我们可以构建SHOT与地面单应性只有一个行人 标 签 。 在 这 里 , 我 们 在 图9 中 展 示 了 一 个 来 自WILDTRACK的示例。从图像中可以看出,(a)和(b)之间的差异很小,因此计算一堆变换不会限制适用性。7. 结论在本文中,我们提出了堆叠单应变换(SHOT)作为一种近似的三维点投影。SHOT包含两个步骤:首先构造变换,然后软选择变换。从理论上分析了SHOT的应用要求以及SHOT如何在框架中逼近三维投影。在标准基准测试中,我们的方法达到了新的最先进的显着增益。此外,广泛的分析验证了我们的主张和动机。确认这项工作的部分支持是由Hori- zon机器人公司和国防 高 级 研 究 计 划 局 ( DARPA ) 根 据 合 同 号 为100000000的赠款。HR001120C0124。本材料中表达的任何观点、发现和结论或建议均为作者的观点,不一定反映国防高级研究计划局(DARPA)的观点。作者感谢龚轩、李润泽、方洁敏和审稿人的意见和支持。培训测试3420516057引用[1] Hamid Aghajan和Andrea Cavallaro 多摄像机网络:原则和应用。学术出版社,2009年。1[2] PierreBaqu e´,Fran coisFleuret,andPascalFua. 多摄像机多目标检测的深度遮挡推理 在国际会议计算中目视,第271-279页,2017年。二、六[3] TatjanaCha vdarov a , PierreBaque´ , Ste´phaneBouquet , An-drii Maksai , Cijo Jose , TimurBagautdinov,Louis Lettry,PascalFua,LucVanGool,andFran coisFleuret. Wildtrack:用于密集无脚本行人检测的多摄像头高清数据集。 在IEEE会议Comput. 目视模式识别,第5030-5039页二、六[4] 这是查雅娜和弗朗索瓦·弗勒雷。深度多摄像头人物检测 。 在 IEEE International Conference on MachineLearning and Applications,第848- 853 页中。IEEE,2017年。6[5] Adam Coates和Andrew Y Ng。机器人的多相机目标检测。在IEEE机器人和自动化国际会议上,第412-419页。IEEE,2010。一、二[6] Antonio Criminisi,Ian Reid,and Andrew Zisserman. 单视图计量。国际计算机目视,40(2):123-148,2000.2[7] 兰·埃谢尔和雅艾尔·摩西。使用多个摄像机在密集人群中进行跟踪 Int. J. Comput. 目视,88(1):1292[8] Francois Fleuret,Jerome Berclaz,Richard Lengagne,and Pascal Fua.使用概率占用图的多摄像机人员跟踪。IEEE Trans. 模式分析马赫内特尔,30(2):267-282,2007. 一、二、六[9] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。三、五[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在IEEE会议Comput. 目视模式识别,第7704[11] Yihui He,Rui Yan,Katerina Fragkiadaki,and Shoou-IYu.对极变压器。在IEEE Conf. Comput.目视模式识别,第7779-7788页,2020。3[12] Yunzhong Hou,Liang Zheng,and Stephen Gould.基于特征透视变换的多视点检测EUR. Conf.Comput.目视,2020年。一二三四六七[13] Karim Iskakov ,Egor Burkov, Victor Lempitsky ,andYury Malkov. 人体姿势的可学习三角测量 在Int. Conf.Comput.目视,第7718-7727页,2019年。一、二、三、六[14] Rangachar Kasturi 、 Dmitry Goldgof 、 PadmanabhanSoundararajan、Vasant Manohar、John Garofolo、RachelBowers、Matthew Boonstra、Valentina Korzhova和JingZhang。视频中人脸、文本和车辆检测和跟踪的性能评估框架:数据、指标和协议。IEEE传输模式分析马赫内特尔,31(2):319-336,2008. 6[15] Saad M Khan和Mubarak Shah。通过在多个场景平面上定位来跟踪多个包括人在内的人。IEEE传输模式分析马赫内特尔,31(3):505-519,2008. 2[16] AhmedSamyNassar,Se' bastienLefe' vre,andJanDirkWeg-ner.学习的同时多视图实例检测几何软约束在国际会议计算中目视,第6559-6568页,2019年。3[17] 托马斯·罗迪克和罗伯托·西波拉。使用金字塔占有网络从图像预测语义地图表示。 在IEEE会议Comput. 目视模式识别,第11138-11147页3[18] Gemma Roig、Xavier Boix、Horesh Ben Shitrit和PascalFua。用于多相机对象检测的条件随机场。在国际会议计算中目视,第563-570页。IEEE,2011年。2[19] Cosimo Rubino,Marco Crocco和Alessio Del Bue。根据多视图图像检测的3d对象定位。IEEE传输模式分析马赫内特尔,40(6):1281-1294,2017. 2[20] Aswin C Sankaranarayanan 、 Ashok Veeraraghavan 和Rama Chellappa。多个智能摄像机的目标检测、跟踪和识 别 。 Proceedings of the IEEE , 96 ( 10 ) : 1606-1624,2008. 一、二[21] Yujiao Shi,Liu Liu,Xin Yu,and Hongdong Li.用于基于图像的跨视图地理定位的空间感知特征聚合。在高级神经信息。过程系统,第10090-10100页,2019年。3[22] 孙笑笑和梁正。从视点的角度剖析人的再认同。在IEEE Conf. Comput.目视模式识别,2019年。6[23] Hanyue Tu , ChunyuWang , and Wenjun Zeng.Voxelpose : Towardsmulti-camera3dhumanposeestimation in wild environment.EUR.确认补偿可见,2020.3[24] Jiajun Wu , Tianfan Xue , Joseph J Lim , YuandongTian , Joshua B Tenenbaum , Antonio Torralba , andWilliam T Freeman. 单图像三维解释器网络。 以Eur.Conf.Comput.目视,第365-382页。施普林格,2016年。3[25] Yuanlu Xu , Xiaobao Liu , Yang Liu ,and Song-ChunZhu.通过分层轨迹合成的多视角人物跟踪。在IEEEConf. Comput.目视模式识别,第4256-4265页,2016。二、六[26] Xinchen Yan,Jimei Yang,Ersin Yumer,Yijie Guo,and Honglak Lee.透视Transformer网络:学习单视图三维物体重建,无需三维监督。 在高级神经信息。过程系统,第1696-1704页,2016年。3[27] Qi Zhang和Antoni B Chan.通过地平面密度图和多视图融合cnns进行广域人群计数在IEEE Conf. Comput.目视模式识别,第82972[28] Qi Zhang和Antoni B Chan.通过与3D高斯核的多视图融合的3D人群计数。在AAAI,第34卷,第12837-12844页,2020中。2[29] Qi Zhang和Antoni B Chan.广域人群计数:用于大场景计 数 的 多 视 图 融 合 网 络 。 arXiv 预 印 本 arXiv :2012.00946,2020。2[30] Qi Zhang,Wei Lin,and Antoni B Chan.跨视角跨场景多视角人群计数。在IEEE Conf. Comput.目视模式识别,第557-567页,2021。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功