以人为本的多模态预训练框架HCMoCo的性能分析及应用

102 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16156以人为本感知的多模态预训练洪方舟1，潘良1，蔡忠昂1，2，3，刘紫薇11南洋理工大学S-Lab 2商汤科技3上海人工智能实验室{fangzhou001，liang.pan，ziwei.liu}@ ntu.edu.sgcaizhongang@sensetime.comIN预训练我们5654.5IN预训练我们8074.2IN预训练我们5552.6IN预训练我们9076.354758051.552 705046.87062.4密集表示（1）（3）50484644.344424049.16560.9605548.950454060.8454035.03530二十八点六2560五十四点三5040302010014.2GPS APGPSM APmIoUmAccmIoUmAcc0.5%加速0.1%接入稀疏表示2）4）a) 系统概述1) 密集姿态估计2)RGB人体解析3)深度人体分析4）深度3D姿态估计。b) 下游任务的性能图1. HCMoCo的概述。a）我们提出了HCMoCo，这是一个通用的多模态预训练框架，它将人体的多模态观察作为以人为中心的感知的输入。预训练模型可以被转移到具有不同模态的各种以人为中心的下游任务。b）我们的HCMoCo在所有四个下游任务上都表现出卓越的性能，特别是对于数据高效设置（10% DensePose，20% RGB/深度人类解析，0. 5/0。1%的3D姿态估计）。‘IN’ stands for可在https://github.com/hongfz16/摘要以人为中心的感知在视觉和图形中起着至关重要的作用但是他们的数据注释是非常昂贵的。因此，期望具有通用的预训练模型，其用作数据高效的下游任务转移的基础。为此，我们提出了以人为中心的多模态对比学习框架HCMoCo，它利用了人类数据的多模态性质（例如，RGB、深度、2D关键点），用于有效的表示学习。该目标有两个主要挑战：多模态数据的密集预训练，稀疏人类先验的有效使用。为了解决这些问题，我们设计了新的密集样本内对比学习和稀疏结构感知对比学习目标，通过分层学习一个模态不变的潜在空间，该潜在空间具有连续和有序的特征分布以及结构感知语义一致性。HCMoCo通过组合异质数据集为不同模态提供预训练，这允许有效使用现有的任务特定的人类数据。在不同模态的四个下游任务上的广泛实验证明了HCMoCo的有效性，特别是在数据有效设置下（DensePose估计和Human Parsing分别提高了7.16%和12%）。此外，我们通过探索跨模态监督和缺失模态推理，证明了HCMoCo的通用性，验证了其强大的跨模态联想和推理能力。代码通讯作者HCMoCo。1. 介绍作为一个长期存在的问题，以人为中心的感知已经研究了几十年，范围从稀疏预测任务，如人类动作识别[8，27，42，50]，2D关键点检测[2，26，43，48]和3D姿态估计[22，31，40]，用于密集预测任务，例如人类解析[7，11，12，25]和DensePose预测[14]。不幸的是，为了训练一个具有合理的泛化能力和鲁棒性的模型，需要大量的标记真实数据，这是非常昂贵的收集和注释。因此，期望具有通用的预训练模型，其可以用作所有前述以人为中心的感知任务的基础。随着传感器的发展，人体可以更方便地被感知和表示为多种形式，如RGB，深度和红外。在这项工作中，我们认为，以人为中心的数据的多模态性质可以诱导有效的表示，以及转移到各种下游任务，由于三个主要的优点：1）通过预训练学习模态不变的潜在空间有助于有效的任务相关的相互信息提取。2）多模态数据上的单一通用预训练模型有助于使用各种模态的多个下游任务。3）我们的多模态预训练设置通过它们的共同模态将异构的以人为中心的数据集连接起来，这有利于预训练模型的通用性。16157我们主要探索两组模态，如图1a）所示：密集表示（例如，RGB、深度、红外）和稀疏表示（例如，2D关键点、3D姿势）。密集表示可以提供丰富的纹理和/或3D几何信息。但他们大多是低层次和嘈杂。相反，通过现成的工具[4，9]获得的稀疏表示是语义和结构化的。但是稀疏性导致细节不足。我们强调，将这些异构模态集成到统一的预训练框架中对于以下两个主要挑战是重要的：1）学习适用于多模态设置中的密集预测任务的表示;2）有效地使用稀疏表示的弱先验进行预训练。挑战1：密集目标。现有方法[21，30]在像素级特征上密集地执行对比学习，以实现密集预测任务的视图不变性然而，这些方法需要静态3D场景的多个视图[10]，这不适用于仅具有单个视图的以人为中心的应用。此外，优选地学习连续且有序地分布在人体上的表示。有鉴于此，我们对广泛使用的InfoNCE [33]进行了归纳，并提出了一种密集样本内对比学习目标，该目标应用了软像素级对比目标，可以促进学习有序和连续密集特征分布。挑战2：稀疏先验。为了在对比学习中使用先验知识，以前的工作[3，23，46]主要使用监督来生成语义正对。然而，这些方法只关注样本级的对比学习，这意味着每个样本都被编码为一个全局嵌入。它不是最佳的人类密集的预测任务。为此，我们提出了一种稀疏结构感知的对比学习目标，它使用样本之间的语义对应作为正对来补充正的样本内对。特别地，利用稀疏的人类先验导致语义上对应的部分更紧密地对齐的嵌入空间综上所述，我们提出了HCMoCo，一个以人为中心的多模态对比学习框架，用于通用的多模态预训练。为了充分利用多模态观测，HCMoCo有效地利用密集测量和稀疏先验，使用以下三个层次的分层对比学习目标：1）样本级模态不变表示学习;2）密集样本内对比学习;3）稀疏结构感知对比学习。为了建立一个一个全面的多模态人类解析基准数据集，我们标记了来自NTU RGB+D数据集[42]的RGB-D图像的人类片段，并贡献了NTURGBD- Parsing-4K数据集。为了评估HCMoCo，我们将预训练模型转移到四个以人为中心的下游任务中，这些任务使用不同的模式，包括DensePose，估计（RGB）[14]，使用RGB [22]或深度帧的人类解析，以及3D姿态估计（深度）[16]。在完整的数据高效训练设置下，HCMoCo不断取得比从头开始训练或ImageNet上的预训练更好的性能。举几个例子，如图所示。1b），我们在以下方面实现了7.16%的改善GPS AP在10%的DensePose估计训练数据上的改进;在Human3.6M人类解析的20%训练数据上的mIoU方面的改进为 12% 。此外，我们评估了 HCMoCo 在NTURGBD-Parsing-4K上学习的潜在空间的模态不变性，其中有两种设置：跨模态监督和缺失模态推理。与传统的对比学习目标相比，我们的方法在两种设置下分别将分割mIoU提高了29%和24%。据我们所知，我们是第一个研究以人为中心感知的多模态预训练的公司。本文的主要贡献如下：1）首先，对以人为中心的预训练问题进行了深入的分析，将其表述为一个具有挑战性的多模态对比学习问题。2）结合新的层次对比学习目标，提出了一个综合框架HCMoCo，用于有效地进行以人为中心的任务预训练。3）通过大量的实验，HCMoCo方法取得了优于现有方法的性能，同时表现出了良好的模态不变性。4）为了使多模态以人为中心的感知受益，我们贡献了RGB-D人类解析数据集NTURGBD-Parsing-4K。2. 相关工作以人为中心的感知。几十年来，人们已经为以人为本的感知做出了许多努力。2D关键点检测[2，26，43，48]中的大量工作已经实现了鲁棒性和准确性。3D姿态估计长期以来一直是一个具有挑战性的问题，并且从两个方面进行处理，从2D关键点提升[22，31，40]和从深度图预测[16，49]。人工解析可以用两种方式定义。第一个是将服装与可见的身体部位一起解析[11，12，25]。第二个只关注解析人体部位[7，20，22]。在这项工作中，我们专注于第二种设置，因为深度和2D关键点不包含服装解析所需的纹理信息。有一些作品[19，32]是关于人类在深度图上的解析。但是，数据和注释太粗糙或不可用。为了进一步推动以人为中心的感知的准确性，提出了DensePose [14，44]来对每个人体表面点进行密集建模。DensePose注释的成本是巨大的。因此，我们还探索了DensePose的数据高效学习。多模态对比学习。多模态本质上提供了同一样本的不同视图，这非常适合对比学习框架。CMC [45]161582002年D D中文D D）布吕D$布吕D2中文&&&D$&D22002年&&&&$ℳ∘&∗#ℳ∘d *#&&∗∘d *&dd(c)稀疏&&$$$$SSDMGDDGD$SsSs ∈◦∈S1212下游任务转移的表示。为了支持密集的下游任务，除了在[5，6，13，18，28，45]中使用的通常的样本级全局嵌入之外，我们建议考虑不同级别的嵌入，即全局嵌入fg，稀疏嵌入fs和稠密嵌入...11嵌入fd1，其定义如下：1）对于稠密表示Id，通过将映射器网络Mg应用于均值池来对应的特征图，其公式为：f g= M g<$M<$E d（I d）。同样，对于稀疏表示，22s，全局嵌入被定义为fg=Mg <$M <$你好，…图2. HCMoCo的一般范例的说明。我们将人类数据的模式分为密集数据和稀疏表示。提取了三个层次的嵌入（3.1）。结合人类数据和任务的性质（3.2），我们提出了每个嵌入级别的对比学习目标（3.3）。提出了第一个多视图对比学习范式，它采用任何数量的视图。[39]第三十九话E s（I s）。2）稀疏嵌入与稀疏表示具有相同的大小。形式上，对于稀疏表示Is=G（V，E），其中VRJ×K，相应的稀疏嵌入定义为fs=MsEs（Is），其中fsRJ×K′，Ms是映射网络.对于密集表示，使用对应性从密集特征图汇集对应的稀疏特征然后将稀疏特征映射为稀疏嵌入如fs=Ms <$G <$E d（I d）。 3）密集嵌入仅大规模成对图像-语言数据联合潜空间数据集。广泛的研究[1，15，17，34，35，41]集中在定义在稠密表示上，其公式为fd=Md<$Ed（Id）。有三个层次的嵌入，视听对比学习最近，2D-3D con-d dd随着3D计算机视觉的发展，也研究了传统学习[21，29，30]。在这项工作中，除了常用的方式，我们还探讨了2D关键点在以人为中心的对比学习中的3. 我们的方法在本节中，我们首先介绍HCMoCo（3.1）的一般范式。遵循设计原则（3.2），正式引入了分层对比学习目标（ 3.3 ）。接下来，介绍 HCMoCo 的实例化（3.4）。最后，我们提出了HC- MoCo的两个应用，以显示其多功能性（3.5）。3.1. HCMoCo如图2所示，HCMoCo将感知到的人体的多个模态作为输入。目标是学习以人为中心的表示，这些表示可以转移到下游任务。输入模态可以被分类为密集表示和稀疏表示。密集表示Idddd是成像传感器的直接输出，例如，RGB，深度，红外线。它们通常包含丰富的信息，但层次较低且有噪声。稀疏表示是对人体的结构化抽象，例如. 2D关键点，3D姿态，其可以公式化为图Isk=G（V，E）。人类的相同视图的不同表示应该在空间上对齐，这意味着可以获得样本内对应以用于密集对比学习。HC-MoCo用于预训练多个编码器E_d和E_s，其产生密集表示和稀疏表示的嵌入。最后，我们将整体学习目标制定为L=λ gLg（f）+λ dLd（f）+ λ sLs（f），（1），分析和解释如下。3.2. 学习目标设计原则在这一节中，我们分析了设计学习目标时的直觉，并提出了以下三个原则。1）互信息最大化：受[36，47]的启发，我们提出最大化互信息的下限，这已经被许多先前的作品[5，6，18，45]证明能够产生强大的预训练模型。2）连续有序的特征分布：受以人为中心的特征分布特性的启发，期望人体的特征图是连续有序的。人体是一个结构性的连续表面。密集的预测，例如。[11][12][14][15][16][17][18][19][因此，这种属性也应该反映在学习的表示中。此外，对于人体表面上的锚点，距离较近的点与锚点共享相似语义的概率高于距离较远的点。因此，学习到的密集表示也应该与这种顺序关系对齐。3) 结构感知的语义一致性：稀疏表示是人体的抽象，它包含了关于人体的有价值的结构语义。而不是身份信息，人类的姿势和结构，1为了更容易理解符号，f和M的上标代表嵌入的类型。下标代表表示的种类#D$#D2#&2#&$(b)密集(a)全球16159w=0.1w=0.01$$XY≤ ≤ ≤≤W√−−MN12dd∗1J2JE日志1 2∗D1D2F1，F2∈Sgfg∈Fgexp（f1·f2/τ）保证有序特征分布。相反，D1D2log1j2jx为ohm，nexp（fd1（x，y）·′SSS∗1112∈正对软正对负对%$d1dd1D1%$d2d2D%d2$编码a) 样本级模态不变表示学习b) 稠密样本内对比学习c) 稀疏结构感知的对比学习图3. 我们提出的HCMoCo实例化。对于密集表示，我们选择使用RGB和深度。对于稀疏表示，为了便于获得，使用2D关键点。a）在样本级，全局嵌入用于模态不变表示学习。b）在成对密集嵌入之间，提出了软对比学习目标，用于连续和有序特征学习。c）使用稀疏表示提供的人类先验，提出了样本内和样本间对比学习目标真正的理解是我们目标下游任务的关键。因此，通过增强结构感知的语义一致性来消除身份信息并增强结构信息是合理的，其中在语义上接近的嵌入（例如，左手嵌入sentation，1x，x′，mH，1y，y′，nW. 上面的等式是InfoNCE的广义版本[33]。InfoNCE是一种特殊情况，如果x=m且y=n，则mn设置为1，否则为0。我们使用归一化距离作为权重，其公式为：来自不同样品）被拉近，反之亦然。3.3. 层次对比学习目标Wxy=0exp（（x m）2+（y n）2）exp（<$（x-x ′）2+（y-y ′）2）.（四）基于以上三个原则，我们在本小节中正式定义了层次对比学习目标。对于每一对稠密表示，上述学习在每对密集嵌入之间计算目标因此，整个学习目标被定义为样本级模态不变表示学习Ld=EL（f（f）、（5）DFd，Fd∈S第一天第二天使用全局嵌入，这满足了第一个原则。fd，fd∈Fd，Fd受[45]的启发，学习目标可以公式化为其中Fd是一种模态的密集嵌入集，Sdexp（fg·f<$g/τ）E22是所有Fd，fd（二）而fd是两个成对的嵌入Lg=− ggΣGGg g ，应该注意的是，f1∈F1其中Fg是一个模态S的全局嵌入的集合g′g作为对要求的g的有序分布。是所有模态的F的集合，f2是fg的成对视图，τ是温度。应该注意的是，fg可以从全局嵌入中稀疏结构感知对比学习采用两个稀疏表示fs和fs作为输入。两人的关系密集或稀疏的表示。图FS和FS（即，第j个关节的特征）应该是稠密样本内对比学习是在成对的稠密表示上进行的。对于任意两个成对的稠密嵌入fd，fdRH×W×K′，为了同时满足第一和第二个原则，它们之间的稠密样本内对比学习目标以“软”方式定义为被拉近而未配对的特征被推开。这两个稀疏表示可以从相同或不同的模态、样本内或样本间采样。样本内对齐满足第一原则。样本间对齐遵循第三个原则。稀疏结构感知对比学习目标被公式化为x_p（fd（x，y）·fd（m，n））/τ）12MNd1d2x_p（f s·f s/τ）F1，F2∈Ssj;fs，fs∈{Fs，Fs}exp（f1j·fij′/τ）、Ld=−EWxylogdfd（x′，y′）/τ）（三）Ls= −ss12j;fi∈{F1，F2}21ss（六）哪里WMn是的重量，τ是温度，其中Fs是一种模态的稀疏嵌入的集合xy′′ s ss s$1D2Dw=0.5′′x，y、ing的目的是在样本水平12D1D212x′，y′D216160（x，y），（m，n），（x，y）是稠密表示上的坐标-Ss是F的集合，τ是温度，f1，f2是sam-16161LL12DDI2 2��关于我们标签分发企业文化(a) 跨模态监督(b) 缺失情态推理推理右髋右膝右脚左髋左膝左脚左肩左肘左手右肩右肘右手裆右大腿右小腿左大腿左小腿下棘左臂上棘头左前臂右前臂图5.RGB-D人类解析数据集NTURGBD-解析-4K。图4. HCMoCo的两个应用的管道从F和F的联合会恳求。总而言之，整体学习目标用公式表示为Eq. 1，其中λλ是平衡目标的权重。3.4. HCMoCo实例化在本节中，我们将介绍HC- MoCo的一个实例化. 如图3所示，对于密集表示，我们使用RGB和深度。大规模配对的人类RGB和深度数据很容易获得负担得起的传感器，例如。Kinect这两种模式是以人为中心的任务中最常见的[7，11，12，22，25]。此外，非常需要适当的深度预训练模型。因此，RGB和深度是人类稠密表示的合理选择，这两者都易于获得并且对下游任务很重要。对于稀疏表示，使用2D关键点，其提供人体关节在图像坐标中现成的工具[4，9]可用于快速和鲁棒地提取给定RGB图像的人类2D关键点。使用2D关键点作为稀疏表示是人类先验量和采集难度之间的良好平衡。对于RGB输入I1，应用图像编码器E1[43以获得特征图E1（I1）。类似地，对于深度输入，样本内对比学习目标。随着不同模态的特征图对齐，实现两个扩展是简单的4.第一章跨模态监督是一个新的任务，我们在源模态上训练网络，而在目标模态上测试。这是一个实际的场景，人们将一些单一模态数据集的知识转移到其他模态。在训练时，一个额外的下游任务头（例如，分段头）D附接到源模态的主干分层对比学习目标与下游任务丢失一起用于端到端训练。在推理时，D被附加到目标模态的主干目标模态的提取的特征图被传递到D用于预测。缺失模态推理是另一个新的任务，我们使用多模态数据和单模态推理来训练网络。在实际的多模态数据采集中，不可避免地会产生模态不完备的数据，这就产生了缺失模态推理的需求。在训练时，使用最大池化融合多个模态的特征图，并将其馈送到下游任务头D.类似地，分层对比学习目标L和下游任务损失L'用于协同训练。DDd、图像编码器[43]或3D编码器[37，38]应用于提取特征图E2（I2）。2D关键点在推理时，单个模态的特征图是传递给D进行缺失模态推断。DD由基于GCN的编码器[51]Es编码以产生稀疏特征Es（Is）。映射器网络包括单个线性层和归一化操作。在对比学习目标的实现稀疏嵌入和密集嵌入不可能都适合内存。因此，对于最后两种类型的对比学习目标，在小批量内对负样本进行采样。3.5. HCMoCo的多功能性在预训练框架HCMoCo的基础上，我们提出在两个直接应用上进一步扩展它：跨模态监督和缺失模态推理。这些扩展基于HCMoCo的关键设计：密集4. NTURGBD-解析-4K数据集虽然RGB人类解析已经得到了很好的研究[7，11，12，25]，但由于缺乏标记数据，深度[19，32]或RGB-D数据的人类解析尚未完全解决因此，我们贡献了第一个 RGB-D 人类解析数据集： NTURGBD-Parsing-4K。RGB和深度从NTU RGB+D（60/120）均匀采样[27，42]。如图5所示，我们为配对的RGB-D数据注释了24个人体部位。分区协议遵循[22]的协议。训练集和测试集都有1963个样本。整个数据集包含3926个样本。希望通过贡献这个数据集，我们可以促进人类感知和多模态学习的发展1D1Dℒ公司简介2D或推理2DRGB注释深度16162表1.COCO上的密集姿态估计结果*在预训练之前随机地对模型进行训练†在预训练之前，通过ImageNet预训练模型所有结果均以[%]表示。方法训练前数据集BBox AP充分GPS AP数据GPSM APIOU APBBox AP百分之十GPS AP数据GPSM APIoU AP从头-57.2762.0363.6165.8839.3835.7541.6249.92CMC* [45]NTURGBD+MPII60.3364.9765.6666.9644.9243.8447.9454.00MMV* [1]NTURGBD+MPII59.8964.2365.4767.0343.2441.4045.9952.52我们的 *NTURGBD+MPII61.3365.8966.9267.6647.7648.4751.6556.15IN预训练-62.6666.4867.4268.6348.2844.3449.1156.11CMC[45]NTURGBD+MPII62.7666.1667.3068.0649.2148.8252.5757.94MMV† [1]NTURGBD+MPII62.9766.6767.5168.2950.1650.2853.5458.32我们的†NTURGBD+MPII63.1167.3368.1268.7250.2951.5054.4758.66CMC[45]NTURGBD+COCO63.5867.2267.7768.4651.7753.5356.1859.37我们的†NTURGBD+COCO62.9567.7768.2968.6352.1854.0156.6459.93表2.在Human3.6M上的人类解析结果*在预训练之前随机地对模型进行训练†在预训练之前，通过ImageNet预训练模型所有结果均以[%]表示。方法Miou完整数据MACCAACCMiou20%数据MACCAACCMiou10%数据MACCAACCMiou1%数据MACCAACC从头44.1358.8898.8242.4156.2598.8132.6143.7698.527.2710.9797.45CMC* [45]54.3368.0199.0952.1065.6599.0348.3761.1898.9514.6120.0798.07MMV* [1]52.6965.8299.0650.6663.5599.0146.2358.5298.9012.8617.1097.94我们的 *61.3675.0999.2559.1773.4499.1957.0871.7599.1316.5522.2798.18IN预训练56.9069.9499.1448.8660.7598.9744.5556.8698.8714.6520.2298.09CMC[45]58.9371.7099.2057.4170.1399.1754.3567.4799.0917.7723.7798.20MMV† [1]59.0871.5799.2057.2869.6999.1753.8666.4699.0817.6623.5498.20我们的†62.5075.8499.2760.8574.2399.2358.2871.9999.1720.7827.5298.345. 实验5.1. 实验装置实施详情。默认的RGB和深度编码器是HRNet-W18[43]。预训练的默认数据集是NTU RGB+D [27]和MPII[2]。前者提供成对的室内人体RGB、深度和2D关键点，后者提供野外人体RGB和2D关键点。混合来自不同领域的人类数据有助于我们的预训练模型适应更广泛的领域。下游任务。我们在四个不同的以人为中心的下游任务上测试了我们的预训练模型，两个在RGB图像上，两个在深度上。 1 ） COCO 上的 DensePose 估计 [14] ：DensePose旨在将观察到的人体的像素映射到3D人体的表面，这是一项极具挑战性的任务。2）在Human3.6M上进行RGB人体解析[22]。Human3.6M提供纯粹的人体部位分割，这与我们的目标一致。我们统一采样2fps的视频进行训练和评估。 3）基于NTURGBD-Parsing-4K的深度人工解析。4) 根据ITOP [16]上的深度图进行3D姿态估计（仅侧视图）。对于上述所有下游任务，我们使用预训练骨干进行端到端微调。比较方法。由于以前很少有以人为中心的多模态预训练方法，我们提出16163使用通用多模态对比学习方法CMC [45]和MMV [1]作为基线。虽然还有其他多模态对比学习工作，但它们要么需要多视图校准[21]，要么专注于多模态下游任务[17，29]，因此不适合进行比较。此外，对于RGB任务，我们还在两种设置下进行了实验，一种是使用有监督的ImageNet [24]（IN）预训练的编码器，而另一种则没有。5.2. 下游任务的性能密集姿态估计。如Tab.所示。1，我们在两种设置下测试了Dense- Pose估计[14]：完整和10%的训练数据。训练的模型在DensePose的完整验证集上进行测试。首先，如果不使用IN预训练，我们的预训练模型明显优于“从头开始”和两种基线方法。特别是在10%的训练数据下，观察到GPS AP的12.7%的在GPS AP方面，我们的预训练模型甚至比使用IN预训练的模型高出4.13%当我们使用IN预训练作为初始化时，这是2D任务的常见做法，我们的方法仍然优于所有基线。在 10% 的设置下，我们的方法在GPS/GPSM AP方面超过IN预训练7.2%和5.4%。为了进一步测试域内传输的性能，我们还16164表3.Densepose/Human3.6M/ITOP/NTURGBD-解析-4K的消融研究所有结果均以[%]表示。方法BBoxDensePose10%GPS GPSMIOUiTopACC0的情况。1%/0。百分之二ACC人3.6M10%mIoU mAccNTURGBD20%mIoU mAcc样本级模不变量49.2148.8252.5757.9457.7350.0854.3567.4730.4051.54+硬致密样品内49.4049.1452.4957.3056.4354.0555.3668.4331.2651.54+软密集样本内50.2150.2553.4257.7062.3351.5056.3569.2632.2051.06+稀疏结构感知50.2951.5054.4758.6665.8362.3658.2871.9935.0152.55使用NTU RGB+D和COCO的训练集预训练模型。在GPS/GPSM AP方面，10%设置下的性能增益进一步提高到9.7%和7.5%RGB人体解析。如Tab.所示。2，我们在Human3.6M上测试了四种设置[22]：完整，20%，10%和1%训练数据。在所有设置中，我们的方法在所有指标上都优于所有基线。在完整的训练数据上，我们在mIoU方面比IN pre-train高出5.6%。性能增益随着训练数据量的减少而增加。值得注意的是，仅使用10%的训练数据，我们的方法就优于使用完整训练数据的IN预训练。表4.NTURGBD-Parsing-4K上的人类解析结果[%]。方法Miou完整数据MACCAACCMiou20%数据MACC AACCIN预训练37.4957.5298.3628.5646.8198.10CMC [45]38.2058.7398.3930.4051.5498.02MMV [1]38.0958.4998.3730.4150.6298.07我们39.3258.7998.4735.0152.5598.53深度人类解析。如Tab.所示。 4.我们在我们提出的数据集 NTURGBD-Parsing-4K 上测试了预训练深度骨干，其中包含所有训练数据和20%的训练数据。我们在两个设置上优于所有基线。特别是，仅使用20%的训练数据，我们在mIoU方面超过IN预训练6.4%和MMV [1]4.6%表5.ITOP上的3D姿态估计结果所有结果均以[%]表示。方法百分百百分之十百分之一百分之零点五百分之零点二百分之零点一IN预训练85.1983.4477.2054.3113.2714.21CMC [45]87.0885.3679.4975.0757.7350.08MMV [1]86.1383.4979.7071.7060.8354.44我们87.1985.4978.7176.3465.8362.363D姿态估计。如Tab.所示。5，我们使用六种不同的训练数据比率在ITOP [16]上测试预训练深度骨干。我们的预训练模型在大多数设置下都优于所有基线。在只有10%的训练数据的情况下，我们的方法的准确性优于使用所有训练数据的IN值得注意的是，0。1%的训练数据是17个样本，这使得这是一个少量的学习设置。在训练数据如此有限的情况下，IN预训练几乎不能产生有意义的结果，而我们的方法将准确率提高了48.2%。5.3. 消融研究在本小节中，我们对HCMoCo进行了全面的消融如Tab.所示。 3、我们首先报告的结果只适用于-样本级模态不变表示学习。然后依次加入稠密样本内对比学习和稀疏结构感知对比学习。为了进一步证明“软”设计在密集样本内对比学习中的效果我们报告了在数据高效设置下所有四个下游任务的消融研究结果。对于DensePose估计，重要的是学习连续且有序分布的特征图，这是软密集样本内对比学习的预期结果软学习目标相对于硬学习目标的性能增益证明了观察和学习目标设计的合理性。密集样本内对比学习在其他三个下游任务上也显示出优越性，这表明细粒度对比学习目标对于密集预测任务的重要性。通过稀疏结构感知的对比学习将人类先验知识引入网络，进一步提高了DensePose的性能，证明了其有效性。由于2D关键点提供的强提示，3D姿态估计的性能得到了提高。此外，稀疏结构感知对比学习在mIoU方面分别将RGB和深度图上的人类解析性能提高了1.9%和2.8%。虽然2D关键点是稀疏先验，但它们仍然提供人体每个部位的粗略位置，这有助于相同身体部位的特征对齐。总之，稀疏和密集学习目标都有助于我们方法的性能，这与我们的分析一致。5.4. HCMoCo Versatility性能跨模态监督。我们在NTURGBD-Parsing-4K上测试了人类解析任务的跨模态监督管道，因为它有两种模态和各自的密集注释。采用两种基线方法：1）使用CMC [45]对比学习目标; 2）无对比学习目标。为了进行公平的比较，所有方法的主干都由CMC [45]预训练初始化。在训练时，训练数据16165→→表6. NTURGBD-Parsing-4K上的跨模态监督人类解析结果。所有结果均以[%]表示。方法RGB→深度MioumAcc aAcc深度→RGBMioumAcc aAcc无对比3.944.3692.243.714.0391.63CMC [45]3.865.5986.813.854.2791.75我们33.1954.3894.7026.8048.8092.84不可用.我们在两个设置上进行实验，其中我们监督RGB，测试深度（RGB深度），反之亦然（RGB深度）。如Tab.所示。6，我们的方法在两种设置下优于两种基线具体来说，我们的方法将两种设置的mIoU分别提高了29.2%和23.0%。即使与直接监督的方法相比，我们也可以达到相当的结果。表7. NTURGBD-Depth上的缺失模态人类解析结果。所有结果均以[%]表示。方法只有RGBMioumAcc aAcc仅深度MioumAcc aAcc无对比13.4514.7793.3524.4130.4995.27CMC [45]19.6228.1992.9416.5819.8393.94我们43.8864.2796.1543.9863.6696.34缺失模态推理。对于缺失模态干扰，我们报告了与上述相同数据集和相同基线的实验。如Tab.所示。7，没有像素级对齐，这两种基线方法在两种缺失模态设置中挣扎，即：“只有RGB”和“只有深度”而我们的方法在两种设置下将分割mIoU提高了24.3%和19.6%IN预训练CMC我们的表8.关于改变主干的实验。* 代表所有结果均以[%]表示。方法BBoxDensePose10%GPS GPSMIOUNTURGBD20%mIoU mAcc*55.1054.6057.6061.7345.3659.51CMC [45]53.8854.6257.4661.1448.7462.94我们54.5555.8058.3661.7549.4363.52完整的训练数据和数据高效设置。改变脊椎。到目前为止，我们的实验都在HRNet-W18上进行。为了进一步证明HC-MoCo对于深度骨干，我们选择使用PointNet++进行测试[38]。对于RGB预训练模型，我们对10%的DensePose估计进行了实验。对于深度预训练模型，我们在20%NTURGBD-Parsing-4K上进行了实验。如Tab.所示8，我们的方法比预训练的方法有一个合理的幅度，这与我们以前的实验结果一致。6. 讨论和结论在这项工作中，我们提出了第一个多功能的多模态预训练框架HCMoCo专门设计用于以人为中心的感知任务。基于人类数据集的性质和以人为中心的下游任务的要求，设计了分层对比学习目标。在四个不同模态的人类下游任务上的广泛实验证明了我们的预训练框架的有效性。我们贡献了一个新的RGB-D人类解析数据集NTURGBD-655545352515110192837 4660504030201000 306090 120解析-4K支持人类对RGB-D数据的感知研究。除了下游的任务转移，我们还提出了两个新的应用HCMoCo显示其在跨模态推理的通用性和能力。潜在的负面影响限制。使用大量数据和长时间训练可能会对环境产生负面影响。此外，尽管我们在这项工作中没有收集任何新的人类数据，人类数据时代图 6. 验证 mIoU 随着训练时期的增加而变化。左图：Human3.6M人类解析完整训练集。右：Human3.6M人类解析20%训练集。5.5. 进一步分析更快的收敛。预训练的优点之一我们的HCMoCo在这方面也表现出了优势。我们在不同的训练时期记录Human3.6M人类解析的验证mIoU。如图6所示，与IN预训练和CMC [45]相比，我们的预训练模型能够在几个训练时期内收敛，如果我们的框架用于其他应用程序，可能会发生收集，这可能会引起隐私问题。至于局限性，由于资源有限，我们只能对HCMoCo的一个可能实例进行试验。出于同样的原因，即使理论上存在可能性，我们也没有机会进一步扩大人类数据集的数量和网络规模。鸣谢本工作得到了NTU NAP、MoE AcRF Tier 2（T2EP 20221 -0033）、RIE 2020行业协调基金-行业合作项目（IAF-ICP）资助计划以及行业合作伙伴的现金和实物捐助的Miou16166引用[1] Jean-BaptisteAlayrac 、 AdriaRecasens 、 RosaliaSchneider 、 Relja Arandjelovic 、 Jason Ramapuram 、Jeffrey De Fauw 、 Lu-cas Smaira 、 Sander Dieleman 和Andrew Zisserman 。自监督多模态通用网络。NeurIPS，2（6）：7，2020。三六七[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿势估计：新基准和最新分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月一、二、六[3] Mahmoud Assran，Nicolas Ballas，Lluis Castrejon，andMichael Rabbat.监督加速视觉表征的对比半监督学习中的预训练arXiv预印本arXiv：2006.10803，2020。2[4] Z. Cao，G. Hidalgo Martinez，T.西蒙，S。Wei和Y. A.酋长Openpose：实时多人2D姿态估计使用部分亲和字段。IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。二、五[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛

下载后可阅读完整内容，剩余1页未读，立即下载