自下而上的关键点加权方法用于人/物体的姿态估计和细粒度关键点标注，超过100个关键点

33 浏览量更新于2023-10-13 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11057Keypoint社区Duncan Zauss，Sven Kreiss，AlexandreAlahi EPFL VITA实验室CH-1015洛桑duncan. epfl.ch摘要我们提出了一种快速的自下而上的方法，联合检测超过100个关键点的人或物体，也被称为人/物体的姿态估计。我们将属于人类或物体的所有关键点（姿势）建模我们使用图中心性度量来为姿势的不同部分分配训练权重。我们提出的措施量化了一个关键点是如何紧密地连接到它的邻居。我们的实验表明，我们的方法优于所有以前的方法，人类姿态估计与细粒度的关键点注释的脸，手和脚，共有133个关键点。我们还表明，我们的方法推广到汽车构成。1. 介绍最近的大规模数据集与细粒度的复杂姿态的注释提出了一个新的挑战，姿态估计方法。除了检测粗略的人物边界框和用于大身体关节的一小组关键点之外，我们现在具有包括面部、手部和脚部中的超过100个额外细粒度关键点的大型数据集。重新解决这些细节将使我们能够为动作识别[24，2]和意图预测[25，31]等下游任务构建强大的人类代表。在具有混合的粗关键点和细关键点的姿势上训练我们当前的姿势估计算法我们介绍了一个原则的关键点加权方法，以考虑到粗粒度和细粒度的关键点的重要性的差异。图1显示了一个复杂的人和汽车构成。例如，人物姿势包含臀部和肩膀等粗关键点以及眉毛等细粒度关键点。在[12]中，Jin等人共享复杂人体姿势的大规模注释，并提出了他们的方法，Zoom- Net，为这种类型的复杂设置了最先进的技术图1：我们提出的复杂姿势的关键点加权方法在高帧速率下运行时，为全身人体姿势估计和复杂汽车姿势产生了最先进的结果人体姿势。他们的方法首先用他们的主要关键点定位一个人，然后估计手和脸的面积。在估计的区域上，其运行单独的头部，该头部在该区域上放大以确定细粒度的关键点位置。相比之下，我们提出了一种快速，自下而上的方法，直接估计所有的关键点并行。我们的方法不需要预定义的细粒度估计的区域，因此，概括到任何姿势，如细粒度的汽车姿势。在ApolloCar3D数据集[35]中提出了这样的汽车姿势，并且我们表明我们的方法也适用于这种姿势。复杂的、粗粒度的和细粒度的姿态对当前姿态估计方法提出了挑战，当前姿态估计方法假设关键点在人或对象上均匀分布。细粒度关键点的集群过度强调该区域，并将神经网络优化集中在该区域上，从而降低了仅具有单个关键点的其他区域的重要性我们提出了一种方法，量化这些关键点的紧密连接程度，并重新平衡训练权重，使姿势的所有区域都是平等的11058与其他姿势衔接得很好。我们将在第3节中介绍详细信息。我们的贡献是（i）基于用于社区检测的基于图的方法来权衡关键点及其连接在复杂姿势中的重要性的方法，（ii）用于细粒度人类姿势的有效实现我们展示了我们的贡献对具有挑战性的COCO WholeBody数据集[12]和ApolloCar3D数据集[35]的最新结果的影响。该软件是开源和公开可用的1。2. 相关工作存在关于姿态估计的大量文献。虽然许多工作都集中在人类姿态估计上，但最近的工作将该方法扩展到动物姿态估计[23]和汽车姿态估计[35]。最近的数据集包括更多的关键点，这些关键点代表了人类和汽车姿势的更精细的细节，并在下面进行了审查。人体姿态估计。最近发布的COCO WholeBody数据集[12]包含133个关键点单一的人体姿势对现有方法提出了新的挑战。作者Jin等，在他们的数据集上建立了现有方法的基线数字，并提出了ZoomNet，这是一种新的神经网络架构，可以使用专用网络来细化具有细粒度注释的区域。通常，用于人类姿势估计的现有技术方法基于卷积神经网络[37，10，6，27，29，40，36，38，28，16，7]。存在两种用于姿态估计的主要方法。自下而上的方法首先估计每个身体关节，然后将它们分组为姿势。自顶向下方法首先运行人检测器以在估计每个边界框内的身体关节位置之前估计人边界框。第一个自下而上的方法被引入，例如由Pishchulin等人与DeepCut [30]。他们用整数线性规划来解决关键点关联问题.在这些早期的方法中，单个图像的处理时间是几个小时的量级。较新的方法引入了额外的概念来减少预测时间，例如，在部分亲和域[6]，关联嵌入[27]，PersonLab [29]和具有关联嵌入的多分辨率网络[7]中。如PifPaf [17]中引入的复合场预测比开放式的部分亲和场[ 6 ]和PersonLab的中档场[ 29 ]更精确的关联1https://github.com/DuncanZauss/Keypoint_社区汽车姿态估计。的新 ApolloCar 3D数据集[35]及其66个汽车姿态估计关键点-tors提出了与WholeBody数据集类似的挑战 [12] 。作者 [35] 使用卷积姿态机（CPM）[38]呈现了基线性能数字，并且还量化了人类标记器在其数据集上的性能。直到最近，为人类姿态估计开发的方法才被应用于其他类别。汽车姿势为汽车提供比2D或3D检测边界框更精细的细节。当人体姿态估计集中在人体内的身体关节的位置时，汽车姿态注释汽车表面上的点。Reddyet al的早期作品之一。提出了遮挡网络[32]，其突出了对象表面上的这些关键点的自遮挡问题。当从不同侧面查看汽车时，可见关键点的集合由于自遮挡而急剧变化。他们的工作包括使用3D图形网络进行广泛的建模，以及使用CarFusion数据集[8]进行自我监督训练，以预测2D和3D关键点。在OpenPose [5]中，Caoet al. 示出了汽车姿态估计定性结果。 SimpleBaseline [33]在Pascal 3D+数据集[39]的汽车注释上训练自上而下的姿势估计器其他作品选择不同的表现形式，以获得边界框以外的更精细的细节。在GSNet [14]中，3D空间中的汽车方向与3D形状估计一起预测。通常，先前的方法使用均匀分布来对单个网络的训练中的关键点进行加权，或者针对不同的细粒度区域使用单独的网络。我们表明，与我们的关键点加权方法的性能，单神经网络的作品预测构成，包含细粒度和粗的功能可以显着提高。3. 方法我们需要为姿势设计一个训练过程，这些姿势结合了定位大身体部位（臀部、肩膀等）的粗糙关键点和细粒度的关键点，如手的轮廓。个体细粒度关键点是从相邻关键点高度可预测的，而粗关键点是更加独立的。然而，关键点的重要性不仅基于其单独的可预测性，而且还基于其如何对关键点的局部群组做出贡献换句话说，五个关键点的群组中的每一个别关键点可能具有可忽略不计的重要性，五个关键点的群组一起仍然重要。3.1. 姿态估计架构图2提供了我们的架构的概述。我们的方法是独立的姿态估计器的特定选择，并可用于任何自顶向下或自底向上11059KKΣΣ。×KKKΣΣ图2：我们的方法概述。我们从训练数据集中获得姿势图中每个连接的平均欧氏距离。然后，我们为每个顶点创建半径为3的自我图，并计算自我顶点的局部中心性。中心性与关节的训练权重直接相关。连接的训练权重通过从该连接的顶点取权重的最大值来获得。(a)（b）第（1）款s i，j来估计关键点的大小。关键点si，j的学习尺度取决于图像中该特定关节的大小，并且在解码步骤中用作非归一化高斯卷积的宽度以创建高分辨率置信度场。类似地，CAF头还具有指示两个关键点之间的关联的附近的强度分量、回归到要关联的两个关键点实例的两个向量分量、以及估计两个关键点大小的两个尺度分量。CIF损失加上一个扩展项，按关键点类型k和wk来衡量所有损失分量，即：图3：接头和连接的建议权重的可视化颜色表示训练权重。对于关节，圆半径也与关节权重成比例。在（a）中，考虑所有最短路径。在（b）中，仅考虑半径为3的范围内的最短路径。LCIF=wkBCE（c，c）（1）kmk，c+Laplacee（v，v，b）（2）mk，v位姿估计算法我们将使用OpenPifPaf [17]，+拉普拉斯mk，ss1，s，bsΣΣ（3）其是基于复合场的自底向上姿态检测器。ResNet [11]或Shuf-fleNetV 2 [21]形式的主干处理单个图像以创建头部网络的公共表示。头部网络是复合强度场（CIF）和复合关联场（CAF），其是11次卷积，随后是子像素卷积[34]。头部被训练以分别检测关键点和关联关键点。对于每个关键点类型k并且对于输出场中的每个位置i，j，CIF头预测强度分量ci，j以指示关键点在附近，预测二维矢量分量vi，j以精确地回归到关键点位置。位置bi，j的不确定性和比例分量其中，c、v、b和s是具有针对关键点类型和特征图位置的抑制索引（k，i，j）的复合场的分量，并且其中，具有帽子的符号指示预测量。利用mk，c、mk，v和mk，s，我们在特征图上指示关键点特定掩码 BCE是具有焦点损失扩展的二进制交叉熵损失[19]，拉普拉斯是通过预测的或固定的b衰减的向量分量的线性回归损失[15，18]。损失函数的概率解释为联合似然函数的负对数，要求损失的三个组成部分相对于彼此具有相等的权重。CAF头用具有两个矢量分量（2）和两个矢量分量（3）的Σ11060--1ΣΣ我 J(a)（b）第（1）款图4：ApolloCar3D数据集实例骨架的建议权重可视化[35]。在（a）中，考虑所有最短路径。在（b）中，仅考虑半径为3的范围内的最短路径。虚线表示汽车左侧的连接，以便更清晰地可视化。比例分量（3）。我们现在将注意力集中在图2的蓝色分支上，该分支确定CIF和CAF头部的训练权重wk3.2. 图中心性我们将姿态表示为图V、E，其中顶点V表示每个关键点，并且边缘E表示关键点之间的图像平面中的欧几里得距离。该欧几里德距离是用所有训练注释上的平均值来估计的。关键点的重要性不仅取决于其直接邻居，还取决于其在邻域中的连通性。因此，我们考虑图中心性措施。存在大量的图中心性路径。在实践中，我们通过为每个顶点提取半径为3的自我图（具有可以在三个步骤中到达的特定顶点周围的所有顶点的子图）并且仅在该子图内计算该顶点的中心性来两个顶点v1和v2之间的最短路径的加权长度（由欧几里德距离加权）是d（v1，v2）。由于我们对单位长度的平均加权感兴趣，因此谐波平均值是合适的。对于每个顶点vi，我们计算所有起源于vi的最短路径的调和平均值h：度量，例如接近中心性[1]，特征向量中心性[3]，Katz中心性[13]，介数中心性[9]和和谐中心[22]等。h（vi）=0−1d（v，v）（四）传统上，中心性度量用于确定社交网络中的人的中心性或重要性，或者更一般地，用于确定复杂图中的节点的重要性高度中心化的节点被分配高中心性值。对于我们的应用程序，高度中心节点是社区的一部分，因此我们使用中心性的逆。我们希望使用我们对特定问题的理解为了训练复杂的姿势，我们的目标是使每个关键点与姿势的其余部分同样大多数中心性度量是基于从一个顶点到所有其他顶点的最短路径。顶点的例如，踝关节关键点连接得不是很好，并且起源于踝关节的所有最短路径的平均长度很高，因为到面部和手部关键点的所有路径为了重新平衡我们的训练，使所有顶点都连接得同样好，我们希望为最短距离中的平均距离单位分配相等的权重。其中我们可以确定方括号中的调和中心H[22]，导致h=H−1。在数值上，紧密中心性[1]和调和中心性是相似的，并且根据向具有低“接近度”的关键点分配高权重来解释该加权可能是有帮助的3.3. 训练权重我们使用图中心性度量来导出关键点及其连接的训练权重。关键点权重是通过将ih（vi）归一化到关键点的数量而直接从中心性获得的这种标准化便于不同加权方法之间的比较。我们还需要获得关键点连接的训练权重同样，连接的权重不应仅取决于其自身的长度，还应考虑此边缘是一部分vj∈V\{vi}11061.Σ×的. 鉴于我们已经有了顶点的原则性方法，我们为从h连接顶点vi和vj的边定义权重w ij：wij∝maxh（vi），h（vj）.（五）我们将边缘权重的总和归一化为边缘的总数。图3和图4中示出了针对人类全身姿势[12]和汽车姿势[35]的所得权重。我们展示了我们的方法的两种配置。一个是我们使用整个姿势来计算我们的图形中心性度量，另一个是我们使用半径为 3 的自我图。WholeBody骨架在手部和面部以及下一级的眼睛和手指中具有清晰的关键点分层群集。ApolloCar3D骨架分布更均匀。在汽车前部和后部的灯和牌照区域中存在关键点聚集。屋顶中的关键点与其他关键点的分离程度最高。与COCO整体骨架相反，群落没有那么强烈地分离。对于全身姿势，计算的权重范围为0.21至5.15，对于ApolloCar3D，计算的权重范围为0.57至1.63。我们的方法自动确定的关键点社区的整体构成，并产生高度变化的训练权重。彼此高度可预测的关键点组我们的方法还成功地确定了汽车姿势中关键点的更均匀分布，并产生变化较小的训练权重。对于任何通用姿势和训练数据集，该方法以原则性的方式自动创建关键点和关联的训练权重，并且我们在下一节中展示了其4. 实验我们进行了广泛的实验，复杂的姿势，以证明我们的方法的有效性和效率我们调查了一个人的姿势，17个COCO关键点作为主要的骨架，然后扩展了额外的116个关键点，在脸上，手和脚的细粒度细节我们还证明了我们的方法一般化到一个细粒度的汽车姿势与66个关键点。数据集。对于人体姿势估计，我们在 COCOWholeBody [12]数据集上进行实验。该数据集包含COCO [20]的64，000个训练和5，000个验证图像完整姿势包含133个关键点和152个连接。大约有130，000个实例带有左手、右手和脸部的注释。正文注释取自COCO [20]，其中包含约250，000个实例。方法WB身体脚脸手HRNet [36]43.265.931.452.330.0ZoomNet [12]54.174.379.862.340.1[27]第二十七话27.440.57.747.734.1OpenPose [6]33.856.353.248.219.8我们60.469.663.485.052.9表1：COCO WholeBody数据集的平均精度（AP）结果（百分比）[12]。WB表示对所有133个关键点的评价。前两种方法是自上而下的方法，后三种方法是自下而上的方法。参考编号来自[12]。对于汽车姿态估计，我们使用ApolloCar3D数据集[35]。它提供了66个关键点的汽车注释，我们为它们分配了108个连接。该数据集由4283个训练图像和200个验证图像组成，分别具有52942和2674个注释实例。由于汽车仅从一侧可见并且通常彼此部分遮挡，因此每个实例仅注释平均16.2个关键点。评价我们遵循COCO WholeBody [12]数据集论文中提出的评估方法。它基于COCO关键点任务[20]推广的基于关键点的平均精度（AP）评估对133个关键点中的每一个都进行了同等的加权。对于ApolloCar3D数据集，我们报告了Song等人提出的检测率。[35 ]第35段。如果从预测到地面实况的距离小于10个像素，则关键点被计数为检测到。此外，我们还报告了基于关键点的AP，因为它已经常见于人体姿势检测[20]。我们基于对象关键点相似性计算AP，对于所有汽车关键点，σ为0.05。实施详情。我们扩展了OpenPifPaf [18]，其中包含一个选项来权衡关键点和连接类型的训练。我们以第3节中描述的通用方式填充给定姿势的权重。我们使用ShuffleNetV2 [21]骨干训练模型，这些骨干是预先训练的，没有加权MS COCO关键点任务。头部网络CIF（复合强度场）和CAF（复合关联场）是单个11卷积，随后是子像素卷积[34]。主干网之后的总步幅为16，在头网络中减少到8。我们使用SGD [4]优化器训练了100个epoch，学习率为0.0001，Nesterov动量为0.95，批量大小为16。COCO WholeBody 数据集上的结果。COCOWholeBody数据集[12]的定量结果见11062图5：COCO整体确认集的定性结果[12]。我们的方法解决了每个图像多个人，并捕捉他们的面部表情和手势，如招呼出租车。左下角的图像用人和汽车姿态估计器处理。图6：我们从flickr中获得的传输域图像的定性结果。最下面一行的两张图像是用我们的人和汽车姿态估计网络处理的。11063表1.我们的结果是基于针对预测关键点的全部（WB）或子集评估的单个模型。我们的方法优于以前的方法，并实现了es-especially高精度的细粒度区域，如脸或手。 The “body” task is equivalent to the COCOkeypoint 我们的方法是基于表2：ApolloCar3D数据集上的检出率[35]。OpenPifPaf [18]在COCO val集上仅实现了71.6%，其中模型在该特定任务上进行了训练，因此我们并不期望它优于ZoomNet [12]。我们的方法弥补了其下半身AP与面部和手部AP的优秀结果，是近两倍的精度比任何其他自下而上的方法。定性结果如图6和图5所示。面部中的附加关键点可以用作有力的表示，从该有力的表示可以导出诸如幸福和惊讶的人类情感以及注意力和意图。细粒度和粗粒度的全身姿势可用于从图像预测动作。对于图5的右下角的示例图像，可以预测该人在拿着手机的同时正在吃饭，并且对于底行中的中间图片上的人，可以预测该人对猫跳到桌子上感到惊讶。通过添加细粒度的手部关键点，可以检测人与物体之间的在交通领域，手部区域上的细粒度关键点有助于理解行人的意图例如，在图6的左下图像中，有可能检测到行人想要招呼出租车并且不打算穿过道路，即使她站在路边。ApolloCar3D数据集上的结果。我们的方法不是特定于人类的姿势，可以应用于任何姿势。为了证明我们的方法具有普遍性，我们将其应用于ApolloCar3D数据集[35]，其中每个汽车实例都用多达66个关键点进行注释。我们的方法实现了72.0%的平均精度（AP）与所有的sigmas的计算对象的关键点相似性设置为0.05。先前的工作[35]评估检测率而不是AP，并且我们的方法与他们的卷积姿态机[38]评估和人类注释器的比较如表2所示。我们实现了91.9%的检测率，因此优于来自[35]的先前最先进技术，其实现了75.4%的检测率。他们还报告了人类注释者的检测率为92.4%。我们提出的方法将人类水平性能的差距从17.0%减少到0.5%。我们在图7中分享了Apol-loCar 3D [35]验证集的定性结果。我们预测细粒度的关键点附近和远处的汽车。用于自动驾驶技术的相机覆盖广角，因此即使对于中等距离的汽车，也必须感知小型汽车实例。确定以下位置是安全相关的卷积姿态机和人类注释器的度量来自[35]。方法WB身体脚脸手基线55.360.854.286.250.6平等-3.1%-4.8%-8.1%+1.5%+0.8%全球下降百分之一点二-2.5%下降百分之一点一+0.8%+2.6%制作下降百分之一点二-1.6%-1.7%+1.2%-1.0%表3：消融研究。COCO WholeBody val数据集的平均精度（AP）结果（以百分比表示）[12]。我们报告其他加权方法与基线方法相比的百分比增益。除了我们的主要方法之外，我们还比较了不应用权重（Equal），将我们的方法应用于全局图而不是自我图（Global）以及使用手工制作的权重（Crafted）。所有结果都是用ShuffleNetV2k16骨架产生的WB指示对所有133个关键点的评估。我们以高精度实现下游任务的中断和指示灯。消融研究。我们研究了不同的损失重量的平均精度（AP）的影响。在表3中，示出了使用不同加权方案的训练的结果。对于该消融研究，我们从在133个关键点上预训练而没有加权的模型开始训练50个时期。“Crafted”表示身体和脚关键点的权重是其余关键点的三倍。手工制作权重可以被视为选择133个额外的超参数，这通常是不可行的，也是我们方法的动机。基于局部谐波中心性的加权，这是我们的基线方法，实现了55.3%的AP，这是对未加权训练的显著改进，其导致53.6%的AP。基于局部谐波中心性的加权还实现了比基于普通谐波中心性和手工制作的权重的加权更高的AP这表明a）关键点之间的局部影响比全局影响更重要，以及b）使用我们提出的中心性度量比手工制作权重更优化。我们研究了不同的参数选择对我们的方法的精度和预测时间的权衡的影响我们的方法的运行时间是由解码算法的影响。由于全身姿势有133个关节和152个方法检出率[%]人类注解者92.4CPM [38]75.4我们91.911064图7：ApolloCar3D确认集的定性结果[35]。我们展示了出色的检测率和空间定位的所有可见的汽车关键点，即使在很远的距离。播种阈值 CAF阈值APt [ms]tdec [ms]ZoomNet [12]54.1175-0.20.00160.4153600.50.00158.4120270.50.0154.611220表4：消融研究。平均精度（AP）在COCO WholeBodyval数据集[12]上以百分比表示的结果以及不同解码方法的相关预测时间。我们展示了ZoomNet我们的神经网络在NVIDIA GTX 1080 Ti上运行时间为93 ms解码从置信度超过种子阈值的关节开始仅当置信度高于CAF阈值时，才使用来自CAF场的单元的向量和尺度关联解码的持续时间比具有较低数量的关节和关联的姿势更普遍。解码过程中的第一步是确定种子关节，解码从该种子关节开始，并且将在CAF字段的帮助置信度高于某个种子阈值的所有关节增加种子阈值将减少种子的数量，从而导致更快的解码过程。然而，在较高种子阈值的情况下，可能无法检测到一些人，这可能导致较低的平均精度。使用较高的CAF阈值通常会增加解码速度以换取较低的准确度，因为考虑较少的关联用于解码。这些参数变化产生的定量结果见表4。使用我们的标准解码器设置，我们已经实现了比ZoomNet更高的AP [12]，同时快22 ms。在种子阈值为0.5和CAF阈值为0.01的情况下，我们的模型实现了54.5的AP，预测时间为112 ms，这是推理速度和精度之间的极好折衷我们的ShuffleNetV2K16骨干在NVIDIA GTX1080 Ti上以每秒15.2帧的帧速率实现了50.9的AP，这使得它适合于需要细粒度姿态估计的大多数实时应用。5. 结论我们提出了一种通用的原则性方法来训练具有精细和粗粒度细节的复杂姿势。我们的实验证明了我们感知详细的面部表情和手势的能力，并在人类和汽车姿势的标准姿势基准上产生最先进的结果我们已经表明，我们的方法操作在国家的最先进的预测速度，我们已经研究了准确性和预测速度之间的权衡。6. 致谢该项目获得了瑞士洛桑洛桑联邦理工学院媒体中心媒体创新11065引用[1] 亚历克斯·巴韦拉斯任务导向小组中的沟通模式。美国声学学会杂志，22（6）：725-730，1950。4[2] Lorenzo Bertoni，Sven Kreiss，and Alexandre Alahi.感知人类：从单眼3D定位到社交距离。IEEE Transactionson Intelligent Transportation Systems，2021。1[3] 菲利普·博纳奇权力和中心性：一个家庭的措施。美国社会学杂志，92（5）：1170-1182，1987。4[4] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT’2010的Proceedings施普林格，2010年。5[5] 曹哲，Gines Hidalgo Martinez，Tomas Simon，Shih-EnWei和Yaser A Sheikh。使用部分亲和场的实时多人2d姿态估计。 IEEE transactions on pattern analysis andmachine intelligence，2019。2[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。在计算机视觉和模式识别会议（CVPR），第7291-7299页，2017年。二、五[7] Bowen Cheng ， Bin Xiao ， Jingdong Wang ， HonghuiShi，Thomas S Huang，and Lei Zhang.上级网络：自底向上人体姿势估计的尺度感知表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第5386-5395页，2020年。2[8] N Dinesh Reddy，Minh Vo，and Srinivasa G Narasimhan.Carfusion：结合点跟踪和部件检测，用于车辆的动态3D重建在IEEE计算机视觉和模式识别会议论文集中，第1906-1915页2[9] 林顿 ·C· 弗里曼一组基于介数的中心性度量。Sociometry，pages 35-41，1977. 4[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在计算机视觉和模式识别会议（CVPR）中，第770-778页3[12] Sheng Jin ， Lumin Xu ， Jin Xu ， Can Wang ， WentaoLiu，Chen Qian，Wanli Ouyang，and Ping Luo.野外人体整体姿态估计。欧洲计算机视觉会议（ECCV），2020年。一、二、五、六、七、八[13] 利奥·卡茨。一个新的地位指数来自社会计量分析。Psychometrika，18（1）：39-43，1953. 4[14] Lei Ke ，Shichao Li，Yanan Sun，Yu-Wing Tai，andChi- Keung Tang. Gsnet：联合车辆姿态和形状重建与几何和场景感知监督。在欧洲计算机视觉会议（ECCV）中，第515-532页。Springer，2020年。2[15] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？InAdvances神经信息处理系统，第5574-5584页，2017年。3[16] Muhammed Kocabas、Salih Karagoz和Emre Akbas。多个标签：基于姿态残差网络的快速多人姿态估计。在欧洲计算机视觉会议（ECCV）中，第417-433页，2018年。2[17] Sven Kreiss Lorenzo Bertoni和Alexandre Alahi。Pifpaf：用于人体姿势估计的复合场。在计算机视觉和模式识别会议（CVPR）上，2019年6月。二、三[18] Sven Kreiss Lorenzo Bertoni和 Alexandre Alahi。打开-PifPaf：用于语义关键点检测和时空关联的复合场。IEEE Transactions on Intelligent Transportation Systems，2021。三、五、七[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE国际计算机视觉会议（ICCV）的论文集，第2980-2988页，2017年3[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议（ECCV），第740Springer，2014. 五、七[21] 马宁宁，张翔宇，郑海涛，孙健。Shufflenet v2：高效CNN 架构设计实用指南在欧洲计算机视觉会议（ECCV），第116-131页，2018年。三、五[22] 马西莫·马基奥里和维托·拉托拉小世界里的和谐。Physica A：Statistical Mechanics and its Applications ，285（3-4）：539-546，2000. 4[23] Alexander Mathis，Pranav Mamidanna，Kevin M Cury，Taiga Abe，Venkatesh N Murthy，Mackenzie WeygandtMathis，and Matthias Bethge.Deeplabcut：使用深度学习对用户定义的身体部位进行技术报告， NaturePublishing Group，2018。2[24] Sina Mokhtarzadeh，Mina Ghadimi，Ahmad Nickabadi，and Alexandre Alahi.用于群体活动识别的卷积关系机。在IEEE计算机视觉和模式识别会议，2019。1[25] 泰勒·莫丹，马修·科德，帕特里克·佩雷斯，和亚力山大 · 阿拉希 . 自动驾驶汽车检测 32 个行人属性 IEEETransactions on Intelligent Transportation Systems - UnderReview，2020。1[26] 尤里·涅斯捷罗夫一个收敛速度为o（1/k2）的凸规划问题的求解方法在Soviet Mathematics Doklady，第27卷，第372-376页5[27] Alejandro Newell，Zhiao Huang，and Jia Deng.关联嵌入：用于联合检测和分组的端到端学习。神经信息处理系统进展，第2277-2287页，2017年。二、五[28] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在欧洲计算机视觉会议（ECCV）中，第483施普林格，2016年。2[29] George Papandreou 、 Tyler Zhu 、 Liang-Chieh Chen 、Spyros Gidaris 、 Jonathan Tompson 和 Kevin Murphy 。Person- lab：使用11066自下而上、基于零件的几何嵌入模型。在欧洲计算机视觉会议（ECCV）中，第2692[30] Leonid Pishchulin ， Eldar Insafutdinov ， Siyu Tang ，Bjoern Andres，Mykhaylo Andriluka，Peter V Gehler，and Bernt Schiele. Deepcut：联合子集划分和标记用于多人姿势估计。在计算机视觉和模式识别会议（CVPR）中，第4929-4937页，2016年。2[31] Haziq Razali和Alexandre Alahi。行人意图预测：卷积自底向上方法。运输研究C部分，2021年。1[32] N Dinesh Reddy，Minh Vo，and Srinivasa G Narasimhan.闭塞网：使用图网络的2d/3d遮挡关键点定位。在IEEE计算机视觉和模式识别会议（CVPR）集，第7326-7335页2[33] 科拉莱斯·桑切斯、安东尼奥·赫尔南德斯·马特尼斯、鲁布·恩·伊斯基耶多·贡萨洛、诺埃利亚·赫尔南德斯·帕拉、伊格纳-西奥·帕拉·阿隆索和大卫·费尔南德斯-略尔卡。车辆姿态估计的简单基线：实验验证。IEEE Access，8：132539-132550，2020。2[34] WenzheShi，JoseCaballero，FerencHusza´r，JohannesTotz ， Andrew P Aitken ，Rob Bishop，DanielRueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在计算机视觉和模式识别会议（CVPR），第1874-1883页，2016年。三、五[35] Xibin Song ， Peng Wang ， Dingfu Zhou ， Rui Zhu ，Chenye Guan，Yuchao Dai，Hao Su，Hongdong Li，andRuigang Yang. Apollocar3d：自动驾驶的大型3d汽车实例理解基准。在IEEE计算机视觉和模式识别会议集，第5452-5462页，2019年。一、二、四、五、七、八[36] Ke Sun，Bin Xiao，Dong Liu，and Jingdong Wang.用于人体姿势估计的深度高分辨率表示学习。在计算机视觉和模式识别会议（CVPR），第5693-5703页，2019年。二、五[37] 亚历山大·托舍夫和克里斯蒂安·塞格迪。Deeppose：通过深度神经网络进行人体姿势估计。在计算机视觉和模式识别会议（CVPR）中，第1653-1660页2[38] Shih-En Wei，Varun Ramakrishna，Takeo Kanade，andYaser Sheikh.卷积姿势机器。在计算机视觉和模式识别会议（CVPR）中，第4724-4732页，2016年。二、七[39] Yu Xiang，Roozbeh Mottaghi，and Silvio Savarese.超越Pascal ：野外三维物体检测基准。 IEEEWinterConferenceonApplicationsofComputerVision（WACV），第75-82页。IEEE，2014。2[40] Bin Xiao，Haiping Wu，and Yichen Wei.用于人体姿态估计和跟踪的简单基线。在欧洲计算机视觉会议（ECCV）的会议记录中，第466-481页2

下载后可阅读完整内容，剩余1页未读，立即下载