没有合适的资源?快使用搜索试试~ 我知道了~
75120为群体再识别建模3D布局0张权1,党凯恒1,赖建煌1,2,3,4*,冯占祥1,谢晓华1,2,301. 中山大学计算机科学与工程学院,中国广州 2. 广东省信息安全技术重点实验室,中国广州 3.机器智能与先进计算教育部重点实验室,中国 4.公安部视频与图像智能分析与应用技术重点实验室,中国0{zhangq48, dangkh}@mail2.sysu.edu.cn, {stsljh, fengzhx7, xiexiaoh6}@mail.sysu.edu.cn0摘要0群体再识别(GReID)旨在在不同的摄像头下正确关联具有相同成员的群体。主要挑战是如何抵抗成员和布局的变化。现有的工作试图在外观特征的基础上融入布局建模,以实现稳健的群体表示。然而,由于这些方法只考虑成像平面上的2D布局,引入了布局的歧义。在本文中,我们通过3D布局建模克服了上述限制。具体而言,我们提出了一种新颖的3D变换器(3DT),它重建了成员之间的相对3D布局关系,然后应用采样和量化沿三个维度预设一系列布局令牌,并选择相应的令牌作为每个成员的布局特征。此外,我们构建了一个合成的GReID数据集City1M,包括184万张图像、4.5万人和11.5万个群体,带有3D注释,以缓解数据短缺和注释不足。据我们所知,3DT是第一个处理具有3D视角的GReID的工作,而City1M是目前最大的数据集。几个实验证明了我们的3DT和City1M的优越性。我们的项目已在https://github.com/LinlyAC/City1M-dataset上发布。01. 引言0群体再识别(GReID)旨在在不同的摄像头下将具有相同成员的群体进行匹配。通常,我们处理由2到6个成员组成的群体,并将具有超过60%相同成员的群体图像视为同一群体类别。GReID旨在为人类社会带来积极的服务和贡献,并消除潜在的社会风险,如儿童贩卖和绑架。0*通讯作者。0成像平面0X0Y0深度0(忽略)0成像平面0Y0深度02D布局0建模03D布局0建模0现有方法0我们的方法0ID10ID20ID30ID10ID20ID30输入0深度图(重建)0图1.我们创新的示意图。X-Y平面代表成像平面。深度维度表示人到相机的距离。在深度图中,颜色越暗,离相机越近,反之亦然。0GReID在检测和预防这些事件方面具有潜在的应用,保护市民的安全。GReID的挑战在于如何共同建模群体图像的外观和布局特征。0大多数现有方法[4, 9, 22,23]仅采用组的外观特征。然而,组图像的外观容易受到成员遮挡和变化的影响,导致性能大幅下降。此外,一些方法[24]试图从布局关系中提取特征以缓解外观不足。不幸的是,现有的基于布局的方法属于2D建模,忽略了成员的深度信息,导致性能不理想。我们将这个缺点称为2D布局的歧义。如图1所示,ID2和ID3被错误地建模为2D上的邻居。2.3. Transformer75130图像,但它们在3D场景中相距很远,这意味着在没有深度的情况下几乎无法重建真实布局。在本文中,我们从3D的角度建模布局关系,可以有效消除2D布局的歧义。具体而言,我们通过深度估计计算群组图像中每个成员的深度,以重建群组的3D布局关系。如图1所示,尽管ID2和ID3在X-Y平面上相邻,但深度图表明它们具有不同的深度分量。我们的方法可以正确反映这个线索并重建一个相对准确的群组布局。基于此,我们提出了一个3DTransformer(3DT),它在X-Y-D空间中进行采样和量化,并沿每个维度预设一系列布局令牌。3DT计算每个成员的平均中心位置,并将相应的布局令牌在三个轴上连接起来作为布局特征。最后,3DT通过联合建模外观和布局特征来提取群组特征。此外,我们发现现有数据集没有提供3D标签,并且构建一个具有丰富标注的数据集非常昂贵。因此,我们贡献了一个名为City1M的合成GReID数据集,具有以下三个优点。1)更大的数据规模。City1M包括184万张图像,4.5万个人和11.5K个群组。与当前最大的数据集CSG[19]相比,图像数量和群组身份的数量分别是CSG的600倍和7倍。2)更多样化的样本。为了模拟真实的监控场景,City1M考虑了光照变化、遮挡、分辨率变化、群组成员内部和布局变化。3)更详细的注释。我们不仅提供了每个成员的3D位置标签,还提供了其他注释,如拍摄时间、摄像机坐标和方向。这些优势极大地促进了GReID的研究。我们的贡献可以总结如下:01. 我们提出了3DTransformer(3DT)来进行3D布局建模,消除了现有方法中的布局歧义。据我们所知,我们是第一个基于3D的方法。与基于2D的方法相比,我们的方法可以获得更准确的布局特征。02.我们提出了一个大规模的合成GReID数据集,以缓解数据短缺和注释不足的问题,其中包含了184万张图像和11.5K个群组,比现有数据集大三个数量级。03.大量实验证明了提出的3DT和City1M的优越性。3DT在CSG、DukeGroup和RoadGroup的Rank1上超过现有方法29.7%、25.6%和6.9%。在City1M上预训练的3DT+将进一步提高Rank1的2.2%、7.9%和2.4%。令人惊讶的是,直接在真实数据集上测试预训练模型取得了很好的性能。0通过直接在真实数据集上测试预训练模型,取得了很好的性能。02. 相关工作02.1. 群组再识别0GReID的深度学习方法超过了传统方法[4, 11, 22,23],成为主流,主要分为两个方面:基于外观和基于布局的方法。LIMI [18]和MGR[10]设计了一个多阶网络来表示多粒度的群组。DotSCN[9]通过学习两个图像中成对成员的差异特征来提取群组一致性特征。DotGNN[8]采用图卷积网络来整合外观群组特征。MACG[19]设计了复杂的多重注意力来捕捉关键群组特征。0这些工作侧重于外观特征,忽略了布局特征。GCGNN[24]计算成员之间的空间关系以增强特征。然而,GCGNN只关注2D图像坐标上的布局关系,忽略了成像过程中引起的歧义。在本文中,我们关注这一限制,并提出了一种基于3D的布局关系建模方法,有效减轻了2D布局的歧义。02.2. 合成数据集0合成数据集对于ReID也很重要,这是一种低成本且有效的方法。PersonX [12]基于Unity3D[13]引入了一个基于手工制作的3D人物模型的合成数据引擎。RandPerson[15]提出了一种将UV贴图与随机颜色和纹理相结合的方法,使用MakeHuman[3]泛化了大量的人物模型。UnrealPerson[20]设计了一个低成本的流程来构建ReID数据集,合成的图像更加多样和逼真。然而,在GReID中,合成数据缺乏关注。我们的City1M是GReID中第一个大规模的合成数据集。0Transformer[14]最初在NLP任务中提出,然后推广到许多CV任务,并取得了良好的性能。例如,TransReID[7]是第一个将Transformer引入人物ReID的工作。然而,在GReID中,Transformer并没有引起太多关注。为此,我们提出了PST,因为Transformer的位置建模适用于GReID中的布局建模。XYDID1ID2ID3ID1 ID2 ID3Pi =�(xi�.(3)3.2. 3D Transformer75140深度估计0裁剪和调整大小0人物Transformer0群组Transformer0外观特征建模 布局特征建模0特征连接0交叉熵损失和三元组损失0交叉熵损失和三元组损失0群组特征0成员外观特征0布局令牌0布局重建采样和量化 布局特征提取0输入0图2. 我们整个框架的示意图。提出的3DTransformer包括人物Transformer和群组Transformer,带有3D布局令牌。布局关系在X-Y-D空间中重建。X-Y平面表示成像平面。“D”是深度维度,表示人物到相机的距离。绿色/黄色/红色的块是布局令牌,表示相应位置的特征。彩色的立方体代表X-Y-D空间中成员的平均中心位置。03. 方法03.1. 3D布局重建0由于现有数据集通常提供成员的二维位置坐标,从2D图像中重建3D布局的直观想法是使用深度估计方法估计每个成员的深度。需要强调的是,我们不需要重建整个场景的准确绝对深度信息。在组内成员之间,相对深度信息对于重建布局关系是非常充分的。对于一张组图像 I ∈ R 3 × H × W,我们采用一种强大的深度估计方法Adabins[1]来获得深度图,可以描述如下。0D = N Ada ( I ) ,(1)0其中,深度图 D ∈ R H × W 与 I 具有相同的大小,D的每个像素都在区间 (0, 1)内,表示相对深度。需要注意的是,如果数据集提供深度信息,例如我们提出的City1M,上述估计过程可以省略。之后,我们将每个成员的深度定义为给定边界框中所有像素的平均值,可以描述如下。0D i = 10h i × w i0h i− 10s = 00t = 0 D ( x i + s, y i + t ),(2)0其中,D i 表示第 i 个成员的平均深度,Rect [ x i , y i , h i ,w i ] 表示第 i个成员的给定边界框。同样,我们使用边界框的归一化中心坐标作为二维相对位置。0第 i 个成员的坐标 P i 可以描述如下。0H , ( y i + 0W , D i0我们的3DTransformer(3DT)的整体结构如图2所示。提出的3DT主要由带有3D布局标记的个体Transformer和组Transformer组成。对于一个组图像,我们首先裁剪和调整每个成员的大小,并将它们发送到个体Transformer网络(如ViT[6])中提取外观特征。接下来,我们从原始图像中建模成员之间的布局关系,并提取每个成员的布局特征。然后,我们将每个成员的外观特征与相应的布局特征进行连接。最后,我们在组Transformer中整合所有成员的特征,得到整个组的特征表示。在3DT的上述过程中,核心步骤是从第3.1节中获得的布局关系中提取每个成员的布局特征。3D布局重建实质上构建了一个归一化的连续的X-Y-D空间。然而,X-Y-D空间中的位置坐标是不穷尽的,这导致了布局特征的提取困难。因此,我们对X-Y-D空间进行采样和量化操作,将其转换为离散空间。采样操作意味着X-Y-D空间沿着三个维度均匀划分,采样率为10σ ,将每个维度划分为 σ 个块,并将原始空间划分为 σ 3 个立方体。例如,104 ,原始空间被划分为 4 3个立方体。量化操作意味着每个维度上的 σ 个块被分配 σ个可学习的特征嵌入,DukeGroup [18]GReal35487041772DNoVary(max: 1392×630)RoadGroup [18]GReal32421,0991622DNoVary (max: 450×255)CSG [19]GReal3,989Vary3,5001,5582DNoVary(max: 800 800)T σx = (t0x, t1x, · · · , tσ−1x),T σy = (t0y, t1y, · · · , tσ−1y),T σd = (t0d, t1d, · · · , tσ−1d),(4)Iti =�T σx (⌊Pi(0)σ⌋), T σy (⌊Pi(1)σ⌋), T σd (⌊Pi(2)σ⌋)�. (5)Lc = − 1MM�j=1C�i=1yji log (yji),(6)M i=1+Lp = Lc + αLt,(8)Lall = Lg + βLp,(9)75150表1.主流数据集的详细比较。“P/G”代表传统的个体ReID和组ReID。3D位置标签表示为每个人在三个维度上提供空间坐标。摄像机方向表示为在3D场景中提供每个摄像机的位置和视角。0数据集 任务 真实或合成 图像数量 摄像机数量 个体ID数量 组ID数量 位置标签 摄像机信息 图像分辨率0Market1501 [ 21 ] P 真实 32,668 6 1,501 - 2D 否 128 × 64 MSMT17 [ 16 ] P 真实 126,441 15 4,101 - 2D 否 变化 PersonX [ 12 ] P 合成273,456 6 1,266 - 2D 否 变化 RandPerson [ 15 ] P 合成 228,655 19 8,000 - 2D 否 变化 UnRealPerson [ 20 ] P 合成 120,000 34 3,000 -2D 否 变化0City1M(我们的数据集) G 合成 1,840,000 8 45,000 11,500 3D 是 1920 × 10800其中 t n m , m ∈ { x, y, d } , n ∈ { 0 , 1 , ∙ ∙ ∙ , σ − 1}是64维特征嵌入。每个标记在训练开始时随机初始化。随着网络学习的更新,当网络训练收敛时,标记可以表示当前维度下当前位置的布局特征。经过空间离散化后,我们可以从第3.1节中获得的布局关系中提取3D布局特征。对于每个成员,我们根据通过公式(3)获得的位置计算相应的三个标记 It i 作为布局特征,可以描述如下。0然后,将成员的外观和布局特征连接起来,发送到群组变压器以获得群组特征表示。提出的3D令牌具有以下三个优点。(1)3D令牌考虑了成员的深度,这在以前的方法中被忽略了。(2)3D令牌离散化了X-Y-D空间,允许每个令牌表示某个邻域内的位置,并且对可能的布局变化或潜在干扰具有鲁棒性。(3)我们的3D令牌非常高效,只需要 3个σ令牌。如果采用一些经典的策略,如ViT[6],可能需要σ的3个令牌。在这种情况下,很难确保所有令牌都得到充分的训练,导致布局特征不佳。最后,我们需要为训练人物和群组变压器提供监督信息,包括交叉熵损失和难三元组损失。0其中 M 代表当前批次的成员数量, C代表整个成员类别,指示函数 y ji 在第 j 个成员属于第 i个类别时等于1, � y ji 是变压器的预测结果。0其中 d ( ∙ , ∙ ) 代表两个特征之间的欧氏距离, f i / f + i /f − i 代表当前批次中的锚定/难正例/难负例特征, [ ∙ ] +表示 max( ∙ , 0) , m 为边界。0其中 L g 与 L p 类似, α 和 β控制着两种不同损失之间的平衡。04. 合成数据集:City1M04.1. 人物生成0我们使用MakeHuman[3]生成多样化的3D人物模型,通过在人体和服装中引入随机化来实现。首先,我们随机分配平均人体的年龄、体重、身高、肌肉、皮肤、头发和眼睛属性,以实现人体的多样性。然后,我们随机选择GoogleLandmarks数据集[17]中的2,000个不同图像来生成人体的上衣和下衣。我们总共生成了45,000个3D人体模型。人体属性的随机设置和上下衣的随机组合可以充分保证行人外观的多样性。2110720007797638300057392282500251570200096412000833175160(a) 一组图像。0(b) 光照变化。0(c) 光照变化。0(d) 光照变化。0(e) 成员尺度变化。0(f) 遮挡。0(g) 成员数量变化。0(h) 成员布局变化。0图3. 所提出的City1M采样多样性的可视化。图3b � 图3h 是关于图3a 的比较。02 3 4 5 6 其他0图4.主流数据集中每个成员数量的群组类别数量的统计。垂直轴的值已经通过对数运算显示。04.2. 数据集构建0我们在Unity3D[13]中实现了City1M的构建。提出City1M的动机主要有以下三个方面。首先,现有的GReID数据集非常小。如表1所示,现有最大的数据集CSG只有传统人物ReID数据集Markets1501的十分之一。此外,CSG中的群组图像并非完全来自监控场景,有些图像来自电影的截图。相比之下,提出的City1M中的所有图像都是从现代城市场景中的8个街道摄像头中捕获的。我们的City1M包含了1.84M张图像,分辨率统一为1920×1080,有45,000个人和11,000个群组,分别是CSG的470倍、12倍和7倍。此外,City1M模拟了真实场景中可能发生的变化。如图3所示,图3b � 图3d显示了由于白天和夜晚的变化而引起的光照颜色的变化。图3e 显示了由不同视角引起的成员尺度变化。图3f 主要0图3g显示了监控场景中成员的不可避免的遮挡,还可能显示由阴影引起的照明强度变化。图3g和图3h显示了GReID中的数量变化(只有5个成员中的3个可见)和布局变化(蓝裤子的成员在图3a的右侧和图3h的左侧)。City1M中的数量变化也遵循同一组类别的图像具有超过60%相同成员的规律。其次,现有数据集的注释不够丰富。表1中的大多数数据集仅提供每个人的2D平面坐标,并不提供关于摄像机的额外信息,而这些信息很容易获取。提出的City1M为每个成员的位置提供了详细的3D坐标(成像平面的2D坐标和绝对深度信息)。我们还提供了3D场景中每个摄像机的位置坐标和拍摄角度,方便研究人员分析摄像机网络的影响。此外,我们还为每个组图像提供了一个时间段标签(白天或夜晚拍摄)。最后,合成数据集对GReID的影响缺乏探索。如2.2节所介绍的,合成数据集已被广泛创建,以低成本的方式生成大规模数据,并可以提升真实数据集的性能,但在GReID领域研究较少。City1M以极低的成本生成了大量数据,并模拟了真实的监控场景和潜在的变化。后续实验表明,通过City1M预训练的模型可以进一步提高在真实场景中的性能,这表明了City1M的有效性。05. 实验05.1. 数据集和设置0数据集。我们在我们的City1M、DukeGroup[18]、RoadGroup [18]和CSG[19]上评估了提出的3DT。关于组图像数量、摄像机数量、人物类别和组类别的详细信息已在上表中显示。75170表2. 与主流方法的性能比较。报告了Rank1、Rank5、Rank10和mAP的值(%)。“+”表示3DT在提出的City1M上进行了预训练。0方法 发表 CSG DukeGroup RoadGroup0Rank1 Rank5 Rank10 mAP Rank1 Rank5 Rank10 mAP Rank1 Rank5 Rank10 mAP0CRRRO-BRO [22] BMVC 2009 10.4 25.8 37.5 - 9.9 26.1 40.2 - 17.8 34.6 48.1 - Covariance [4] ICPR 2010 16.5 34.1 47.9 - 21.3 43.6 60.4 - 38.061.0 73.1 - PREF [11] ICCV 2017 19.2 36.4 51.8 - 30.6 55.3 67.0 - 43.0 68.7 77.9 - BSC+CM [23] ICIP 2016 24.6 38.5 55.1 - 23.1 44.3 56.4 - 58.680.6 87.4 -0LIMI [18] MM 2018 - - - - 47.4 68.1 77.3 - 72.3 90.6 94.1 - DotGNN [8] MM 2019 - - - - 53.4 72.7 80.7 - 74.1 90.1 92.6 - GCGNN [24] TMM2020 - - - - 53.6 77.0 91.4 - 81.7 94.3 96.5 - MGR [10] TCYB 2021 57.8 71.6 76.5 - 48.4 75.2 89.9 - 80.2 93.8 96.3 - MACG [19] TPAMI 202063.2 75.4 79.7 - 57.4 79.0 90.3 - 84.5 95.0 96.9 - DotSCN [9] TCSVT 2021 - - - - 86.4 98.8 98.8 - 84.0 95.1 96.3 -03DT(我们的方法)- 92.9 97.3 98.1 92.1 83.0 98.9 99.9 89.8 91.4 97.5 98.8 94.3 3DT+(我们的方法)- 95.1 97.7 98.6 94.4 90.9 99.9 99.9 94.193.8 97.5 98.8 94.80表1.与[10]中的协议类似,DukeGroup和RoadGroup的训练集和测试集均等分。根据[19]中的协议,1,558个组中的859/699个组用于训练/测试。如果没有额外的要求,我们在每个数据集上进行训练时不使用任何额外的数据,以进行公平比较。我们使用Rank-1、Rank-5、Rank-10和平均平均精度(mAP)作为评估指标。设置。我们采用标准的ViT-Base[6]作为人物变换器,该模型在ImageNet[5]上进行了预训练。对于组图像,我们通过给定的边界框裁剪所有成员,并将它们调整为256×128。在训练阶段,我们应用随机水平翻转和随机擦除。每个小批量采样16个组身份,每个组身份选择4个图像。我们选择SGD[2]作为优化器。采用余弦退火学习率策略。初始学习率为2e-3,最小学习率为1.6e-4。权重衰减为1e-4。在测试阶段,我们不使用任何数据增强和重新排序。采用欧氏距离。所有消融研究、参数分析和可视化都在RoadGroup数据集上进行。05.2. 性能0我们在三个GReID数据集上评估了所提出的方法与现有方法的性能。如表2所示,现有方法分为两组:手工设计的方法和深度学习方法。需要注意的是,深度学习方法中的DotSCN使用额外的数据集进行辅助训练。我们将MACG视为单数据集训练的最佳方法,将DotSCN视为多数据集训练的最佳方法。我们还评估了所提出的方法在单数据集和多数据集设置下的性能,分别称为3DT和3DT+。3DT+首先在City1M上进行预训练,然后在每个数据集上进行微调和测试。从表2中可以得出三个结论。首先,本文提出的方法在单数据集训练中取得了最先进的性能。与MACG相比,3DT在CSG/DukeGroup/RoadGroup数据集上的Rank1分别超过了29.7%/35.6%/6.9%。即使没有额外的数据集,3DT在大多数情况下也超过了DotCSN,这证明了我们方法的优越性。与现有方法相比,3DT/3DT+的优势主要来自以下两个方面:(1)3DT基于3D空间中的位置进行布局特征提取,而不是基于成像平面的2D位置。由于引入了深度信息,可以消除某些场景中2D布局的歧义。(2)3DT是基于Transformer的框架。3DT可以借助布局令牌对布局特征进行建模,这在传统的CNN-GNN框架中很难提取。其次,在City1M数据集上进行预训练可以进一步提高性能(多数据集训练)。与3DT相比,3DT+在CSG、DukeGroup和RoadGroup数据集上的Rank1/mAP分别提高了2.2%/2.3%、7.9%/4.3%和2.4%/0.5%。这个结果表明City1M与真实数据集之间的差异足够小。通过在City1M上进行预训练,可以转移群组先验知识并提高在真实数据集上的模型性能。最后,3DT/3DT+在大型(CSG)和小型(DukeGroup和RoadGroup)数据集上都可以提高性能,这表明我们的方法对数据集的规模具有鲁棒性。0与MACG相比,3DT在CSG、DukeGroup和RoadGroup数据集上的Rank1分别超过了29.7%/35.6%/6.9%。即使没有额外的数据集,3DT在大多数情况下也超过了DotCSN,这证明了我们方法的优越性。与现有方法相比,3DT/3DT+的优势主要来自以下两个方面:(1)3DT基于3D空间中的位置进行布局特征提取,而不是基于成像平面的2D位置。由于引入了深度信息,可以消除某些场景中2D布局的歧义。(2)3DT是基于Transformer的框架。3DT可以借助布局令牌对布局特征进行建模,这在传统的CNN-GNN框架中很难提取。其次,在City1M数据集上进行预训练可以进一步提高性能(多数据集训练)。与3DT相比,3DT+在CSG、DukeGroup和RoadGroup数据集上的Rank1/mAP分别提高了2.2%/2.3%、7.9%/4.3%和2.4%/0.5%。这个结果表明City1M与真实数据集之间的差异足够小。通过在City1M上进行预训练,可以转移群组先验知识并提高在真实数据集上的模型性能。最后,3DT/3DT+在大型(CSG)和小型(DukeGroup和RoadGroup)数据集上都可以提高性能,这表明我们的方法对数据集的规模具有鲁棒性。05.3. 消融研究0如表3所示,我们分析了忽略不同空间信息的每种情况,仅使用1D位置、2D位置和3D位置。可以得出三个结论。首先,如果不考虑布局特征,性能不尽如人意。在这种情况下,模型仅通过外观特征区分不同的群组类别,这将在外观相似的困难负样本之间获得高的检索相似度。其次,仅使用X或Y的1D布局可以提高性能。具体而言,1D-X和1D-Y的性能提高了0.46%和0.78%的mAP,因为X和Y的位置是真实注释,并包含与外观不同的额外信息。引入更多的先验知识将带来更多的性能提升。然而,仅使用D的性能优势并不明显。这是因为D维度中的信息是通过估计获得的,这意味着D维度本身并不完全准确。在2D类型中也可以找到类似的现象。使用X-Y的性能改进最大,X-D和Y-D将受到未使用全部先验知识和引入不准确估计信息的限制。最后,当同时采用X、Y和D时,可以实现最佳性能。与忽略布局建模的策略(表3中的第1行)相比,使用布局建模可以额外提高2.47%/3.02%的Rank1/mAP。与具有2D布局建模的策略(表3中的第5行)相比,额外的D信息可以额外提高1.24%/1.39%的Rank1/mAP,充分证明了我们方法的优越性。TypeXYDRank1mAP✓88.8991.711D✓88.8992.03✓87.6591.49✓✓90.1292.882D✓✓88.8991.36✓✓87.6591.423D✓✓✓91.3694.27σ25102050Rank190.1291.3691.3691.3690.12mAP92.9292.9094.2793.3492.62the performance. Specifically, the performance of 1D-X and1D-Y is improved by 0.46% and 0.78% mAP because thepositions of X and Y are true annotations and contain extrainformation that is different from the appearance. Introduc-ing more prior knowledge will result in more performancegains. However, the performance benefit of using only D isnot obvious. This phenomenon is because the informationin the D dimension is obtained by estimation, which meansthat the D dimension itself is not completely accurate. Sim-ilar phenomenons can be found in 2D types. The perfor-mance improvement of using X-Y is greatest, X-D and Y-Dwill be limited by not using the whole prior knowledge butalso introducing inaccurate estimation information.Finally, the best performance is achieved when X,Y, andD are jointly adopted. Compared to the strategy that ig-nores layout modeling (Row1 in Tab. 3), using layout mod-eling brings an extra 2.47%/3.02% Rank1/mAP. Comparedto strategies with 2D layout modeling (Row5 in Tab. 3), ad-ditional D information brings an extra 1.24%/1.39% Rank1/mAP, which fully proves the superiority of our method.0.60.81 1.21.4889092940.60.81 1.21.48890929475180表3.3D布局建模消融研究。X、Y和D分别代表重建的3D空间的三个维度。报告Rank1和mAP(%)。0无 88.89 91.250表4. 3D布局采样参数分析。报告Rank1和mAP(%)。05.4. 参数分析0σ的影响。超参数σ控制布局建模中重建的3D空间的离散粒度。σ越大,对应的空间离散化越细粒度,这也意味着需要使用更多的布局令牌来表示布局特征。如表4所示,当σ从2增加到10时,性能也逐渐提高,并且在σ=10时达到最佳性能。这表明小的σ对于离散化来说太粗糙,以至于距离较远的成员使用相同的布局令牌,导致性能受限。当σ进一步增加到50时,性能开始下降,这表明σ太大会导致令牌数量过多,模型无法保证每个令牌都得到充分训练。0影响0性能(%)0排名1 平均准确率0(a) 超参数α。0影响0性能(%)0排名1 平均准确率0(b) 超参数β。0图5. 损失函数的参数分析。0查询(a)0排名1 → 排名50查询(b)0无布局02D布局03D布局0无布局02D布局03D布局0图6.前五个检索结果的可视化。每一行代表不同的方法,其中“3D布局”是我们的方法。请注意,每个查询在图库中只有一个正确的图像。绿色/红色边界框表示正确/错误匹配。0开始下降,这表明σ太大会导致令牌数量过多,模型无法保证每个令牌都得到充分训练。超参数α控制交叉熵损失和三元组损失的贡献。如图5a所示,当α=1.0时,我们的方法达到最佳性能。过大或过小的α都会导致性能下降,这表明模型倾向于对这两个损失函数有相同的贡献。超参数β控制单个人分类和群组分类的贡献。如图5b所示,当β=1.0时,我们的方法达到最佳性能,这也是合理的,因为对于GReID来说,识别个体成员和群组同样重要。05.5. 可视化0在图6中,我们列举了两个视觉检索示例,以证明我们方法的优越性。在查询(a)中,正确的图库只与查询有三个成员共同。63.266.792.995.157.462.58386.490.984.576.691.48493.8CSGDukeGroupRoadGroup556065707580859095100MACGDiTransfer3DTDotSCN3DT+Protocol@185.6486.5386.81Protocol@285.3486.4886.773DTOverall85.4986.5186.7975190表5.不同布局建模策略的性能比较(%)。#tokens表示每种策略所需的令牌数量。0策略 #tokens 排名1 平均准确率0变体1 σ 3 88.89 92.28 变体2 3 90.1292.15 我们的 3 σ 91.36 94.270这种情况无法仅通过外观来解决。基于2D的方法也不理想,因为布局的不确定性会误判正确图库中穿着深色衣服的成员与穿着浅色衣服的成员非常接近。我们的方法将外观建模与3D布局建模相结合,以获得正确的检索结果。在查询(b)中,查询中的一个群组成员消失了,另一个成员被路人遮挡。没有布局或2D布局的方法几乎无法处理这种情况。我们的方法可以提取剩余两个人的外观和布局特征,从而实现高相似度匹配。05.6. 讨论0备选布局策略的分析。除了我们的布局特征建模策略,我们还设计了另外两种可选策略。变体1采用独立的令牌表示离散3D空间中的每个小立方体,因此对于采样率σ,需要σ3个令牌。变体2只考虑三个维度上的三个基向量,并使用三个基向量的线性组合来表示每个小立方体的布局特征。比较结果如表5所示,证明了我们的策略优于这两种变体。变体1所需的令牌数量非常大,会导致训练不足。变体2的性能仍然有限,表明布局空间与线性空间不一致。我们的策略在令牌成本和性能之间取得了平衡,并且在相对较少的令牌数量下实现了最佳性能。在City1M上的预训练效果。我们分析了我们在其他数据集上对City1M进行的跨数据集评估,并且性能如图7所示。如果在City1M上预训练的模型直接在其他数据集上进行测试,Rank1已经超过了CSG和DukeGroup上的MACG。这表明City1M已经包含了更多多样的群组,接近真实数据集的分布。RoadGroup提供的是裁剪后的图像,而不是原始图像。因此,在City1M上预训练的令牌不能直接满足RoadGroup的布局。DotSCN使用了额外的Market1501数据集。与3DT+相比,使用City1M会带来更多的性能提升,这表明City1M更适合GReID,并且可以广泛应用于预训练中。0不同的方法0Rank1性能(%)0图7.提出的预训练数据集City1M的效果。在三个数据集上报告了Rank1(%)。“DiTransfer”代表直接在每个数据集上测试在City1M上预训练的模型。0表6. City1M的性能(%)。0方法设置 Rank1 Rank5 Rank100训练阶段以获得更好的性能。City1M的性能。我们提供了两个评估协议。Protocol@1和protocol@2将City1M平均分为两部分。每个协议中的训练集和测试集分别具有5.75K个群组和460K个图像。在查询中不存在的画廊中的群组被视为干扰。可选地,训练集的最后10%可以作为验证集。Protocol@1侧重于在成员较少的群组中进行训练和在成员较多的群组中进行测试,而protocol@2则相反。整体性能是这两个协议的平均值,如表6所示。06. 结论0在本文中,我们使用3D布局建模提取群体特征。具体而言,提出的3DT对重建的3D空间进行离散化和采样。对于每个空间立方体,我们使用三个维度的令牌组合作为其布局特征。此外,我们提出了一个大规模的合成数据集City1M,以弥补现有GReID数据集的不足。实验结果表明了我们的方法和数据集的优越性。0致谢0该项目得到了国家自然科学基金委员会(62076258,61902444),广东省自然资源厅项目([2021]34)和中国公安部项目(2019GABJC39)的支持。75200参考文献0[1] Shariq Farooq Bhat, Ibraheem Alhashim, and PeterWonka. Adabins: 使用自适应分箱进行深度估计. In CVPR ,pages 4009–4018, 六月 2021. 30[2] L´eon Bottou. 随机梯度下降技巧. In 神经网络:技巧的诀窍 ,pages 421–436. 2012. 60[3] Leyde Briceno and Gunther Paul. Makehuman:一个建模框架的综述. In 国际人类工效学会大会 , pages224–232, 2018. 2 , 40[4] Yinghao Cai, Valtteri Takala, and Matti Pietik¨ainen.通过协方差描述符匹配人群. In ICPR , pages 2744–2747, 2010.1 , 2 , 60[5] Jia Deng,
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功