基于混合稠密回归的目标检测和人体姿态估计

49 浏览量更新于2023-10-23 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13086基于混合稠密回归的目标检测和人体姿态估计Ali Varamesh，TinneTuytelaars ESAT-PSI，KULeuven{ali.varamesh，tinne. pastelaars}@ esat.kuleuven.be摘要混合物模型是完善的学习AP-H在计算机视觉中，这些方法大多是可行的，应用于逆问题或定义不清的问题。然而，它们是通用的分治技术，以数据驱动的方式将输入空间分割成相对均匀的子集。不仅不好定义，而且很好-Cp'第1（I）条第1（I）条第1（I）条M（I）确定的复杂问题应从中受益为此，我们设计了一个使用混合密度网络的空间回归框架。我们实现了目标检测和人体姿态估计的框架对于这两个任务，混合模型产生更高的准确性，并将输入空间划分为可解释的模式。对于目标检测，混合分量集中在目标尺度上，分量的分布紧密跟随目标尺度的地面真值的分布这实际上证明了多尺度测试的需要，提供了优越的速度-精度权衡。对于人体姿态估计，混合模型基于视点和不确定性（即，前视图和后视图）划分数据我们在MSCOCO数据集上进行实验，没有遇到任何模式崩溃。1. 介绍在几年的时间里，在为主流计算机视觉任务（如图像分类、对象检测、语义分割和姿态估计）设计越来越高效的架构、损失函数和优化程序方面取得了巨大进展[18，37，39，31，25，16，3，14，35]。然而，从机器学习的角度来看，还有很多需要改进的地方。例如，当涉及到捕获视觉数据的多模态特性时，大多数对象检测解决方案尽管如此，考虑到机器学习的基本局限性[41，40]，这是一个不切实际的期望。使用单一模式模型对多模式分布进行建模将始终导致次优预测。作为一个恰当的例子，让我们考虑密集对象检测。图1：提出的混合空间回归框架.在实现人体姿态估计时，基于视点检索两种模式。对于给定的输入图像，在每个空间位置，模型应该具有分类输出并进行空间回归。分类部分自然是一个多模态问题.因此，任何解决方案都必须学习不同的模态，通常通过多项式分类来实现。另一方面，对于空间回归，要么不存在这种可辨别的模态，要么不直接如何对它们建模。在对象检测中，可能是类别决定了边界框的回归，仅仅是前景还是前景。背景分割或更粗略的分类。我们不能确定是哪一个。类似地，在使用偏移回归的密集人体姿势估计中，存在针对每个身体部位的单独输出。但是，给定一个部分，一个人的规模或姿势可能是回归任务的主导模式。正如我们所看到的，显式地识别底层模式通常是不可能的。然而，在机器学习中，存在用于处理多模态的成熟技术。例如，混合模型[29]，包括混合密度网络[4]和专家混合[15]，是对模型的预测机制施加结构的强大技术特别地，它们基于输入和输出之间的关系来划分输入空间换句话说，根据目标，它们最佳地分割输入空间，以便可以实现更高的性能。当然，这些技术对我们的社区来说并不陌生，但到目前为止，它们几乎被排除在外。我WC'........W'对比1Comps 2至M-1Comp. MCNNH'输出单元格p....13087特别适用于定义不清的问题，如3D姿态估计[22，42]或视频帧预测[28]。在这项工作中，我们主张更广泛地使用混合模型。我们展示了如何通过将空间回归子任务合并到混合密度网络中来改进自下而上的密集我们的框架在准确性、速度-准确性权衡、收敛性和可解释性方面对这两项任务都有显著的改进。据我们所知，我们是第一个成功地将混合密度网络集成到2D对象检测和人体姿态估计任务中的公司。我们已经发布了源代码1。以下是我们的贡献摘要：• 为了解释视觉域的多模态性质，我们提出了一种新的使用混合密度网络的密集空间定位公式，证明优于单模模型。• 我们表明，混合对象检测模型通过不同的组件学习处理对象尺度变化，提供了显着更好的速度，准确性权衡，收敛速度更快。• 我们使用混合模型在人体姿态估计模型偏移回归。我们的模型产生了显著的获得准确性，并将视点揭示为占主导地位的多模态因素。进一步的分析表明，实际上，不确定性决定了混合成分。2. 相关工作用于对象检测和人体姿态估计的现代解决方案使用自顶向下设计或自底向上设计。在这里，我们回顾了这两种方法的相关工作。然而，我们的框架是基于自底向上的方法。2.1. 自上而下模型在自顶向下模型中，图像首先由CNN处理，以提出可能包括感兴趣对象的初始区域集。然后进一步处理这些建议，以实现更准确的对于对象检测，这意味着对给定区域中的对象进行分类，并在其周围生成一个紧密的边界框[10，35，13，38]。在第二阶段之前，区域被重新调整大小为固定大小，因此获得对尺度变化的一些内置鲁棒性在自顶向下的人体姿态估计中，首先，由对象检测器生成一组包含人的区域;接下来，在每个区域内，预定义的身体关键点集合（例如，眼睛、肩膀等）是本地化的[31，23，13，6，23]。一般来说，两阶段程序比单阶段模型更准确，但会产生显著的延迟。最先进的模型可以在大约一秒钟内处理图像[24]。1https://github.com/alivaramesh/MixtureDenseRegression2.2. 自下而上模型在自下而上的方法中，在单个阶段中，模型模拟器以密集的方式在所有给定的空间位置处进行分类，并且还估计姿态参数。分类头确定位置是否指示对象的中心，或者位置是否在对象区域内在对象检测中，所需的姿态参数表示对象边界框[27，34，25，44]。在自下而上的人体姿势估计中，传统方法是为每个身体部位生成密集热图，以预测该部位在每个空间位置处的存在。同时，在每个位置，生成嵌入以区分不同人物的关键点[5，32，30]。在另一种方法中，每个位置都被分类为人的中心或非中心，并且从该位置到每个身体部位生成偏移矢量[44]。该方法更快，并且消除了使用由前一种方法生成的嵌入对关键点进行分组的次优后处理步骤。然而，优化是一项艰巨的任务。事实上，在[44]中，偏移回归不能提供高空间精度，并且身体部位热图被用于改进预测，从而导致延迟。我们工作的一个中心动机是改进偏移回归，这样就不需要细化步骤2.3. 多项选择模型多选择模型包括这样的方法，其中对于给定的输入，模型进行多个预测，从中选择一个作为最佳预测在本质上，它们类似于混合模型。在图像分类的背景下，许多作品表明，生成多个不同的预测比单个头部或模型集合更好[12，21，20，36]。然而，它们依赖于预言机来为给定的输入选择最佳预测当另一个下游应用程序进一步检查预测时，这可能是好的此外，与混合密度网络不同，这些方法没有学习以输入为条件的输出密度的机制。近年来，混合密度网络[4]引起了人们的广泛关注.特别是，它已被应用于3D人体姿势估计[22]和3D手部姿势估计[42]。在2D人体姿态估计中，[36]已经报道了MDN的不成功应用，由于数值不稳定性而失败。在这里，我们表明，适当修改高斯内核的方差激活函数消除了这种不稳定性。Prokudin等人[33]也使用MDN来量化角度姿态估计中的然而，据我们所知，混合密度网络尚未适用于大规模真实世界数据集上的目标检测和人体姿态估计的主流视觉任务13088p、xp，yp、xp，y3. 方法在这一节中，我们首先回顾混合密度网络.接下来，我们将说明如何使用混合模型对密集空间回归进行建模。3.1. 混合密度网络混合模型是估计任何分布密度的强大工具[29]。理想情况下，它们恢复有助于生成数据及其分布的模式。对于回归任务，混合模型有助于避免收敛到给定输入的平均目标。例如，考虑估计由双峰高斯分布生成的数据的密度。使用单个高斯模型将通过预测两个实际中心之间的平均值来提供次优结果然而，混合模型通过将数据点分配给适当的生成器来避免这个问题。正如上面的例子，混合模型很容易解释。在神经网络的背景下，混合密度网络（MDN）[4]使我们能够使用神经网络来估计混合模型的参数。一个MDN估计的概率密度的目标向量的输入条件。假设对数据集执行回归任务，由{x0. - 是的- 是的 xn}和相关联的目标向量{t0. - 是的- 是的 tn}。MDN的目标是拟合神经网络的权重，使其最大化训练数据的可能性。然后，关键问题是以输入为条件，用公式表示目标的概率密度。当量1展示了如何在MDN中实现这一点。ΣM更精确地说，给定一个混合分量，t的元素是独立的;然而，通过使用每个混合成分来学习数据的不同模式，完整模型在目标的元素之间加强了依赖性。3.2. 混合稠密空间回归在本节中，我们将说明如何使用混合密度网络制定对象检测和人体姿态估计任务。我们在最近的CenterNet密集检测模型上开发了我们的公式[44]。一般公式如下。给定一幅图像，每个空间位置都需要分类，以确定它是否代表实例的中心。分类分支是通过进行稠密二进制分类来对于每个类别y∈Y。用于对象检测的类别的数量等于数据集中的类的数量，对于人体姿态估计，它只包括人类。除了分类分支之外，在每个位置处，我们还需要预测感兴趣的姿态参数T[1]。对于对象检测，姿态参数对应于对象的高度和宽度，因此是二维向量。对于人体姿态估计，T包括从人体中心到K个身体部位中的每一个的K个2D维度偏移向量（在MS COCO关键点数据集中K为17）。该公式对于人体姿态估计特别有效。与自上而下的方法不同，不需要使用对象检测器来首先定位人员实例。而且，与传统的自下而上的方法不同，身体部位的分组不会作为基于学习嵌入的后处理步骤。相反，在每个空间位置，该模型预测它是否是人的中心，并生成p（ti|xi）=m=1αm（xi）φm（ti|（1）每个关键点位置的偏移向量。训练空间姿势最常见的损失是-由方程式1，M是表示构成混合模型的成分的数量的超参数。αm（xi）称为混合系数，表示组分m产生样品xi的概率。φm是分量m的概率密度函数，用于计算以xi为条件的ti的密度。密度函数可以从广泛的一组众所周知的内核中选择。在实践中，高斯核（在等式中给出）2）效果很好，是最常见的选择。1、||ti−µm（xi）||二、参数是L1损失函数[32，17，5，44]。然而，空间回归是一项多模态任务，我们认为使用单模网络对其进行建模将导致次优预测。因此，我们使用一个混合密度网络来模拟空间回归任务。现在我们继续正式描述我们的混合稠密预测模型。给定大小为H<$W<$3的输入RGB图像I，CNN处理I 并生成尺寸为 H′<$W′<$C′ 的输出。这里我们有H=DH′（宽度也是如此），其中D是下采样因子，φm（ti|xi）=（2π）c/2σ（x）cexp−2σm（xi）2（二）网络。我们使用以下表达式表示所有输出像元的集合：P.当p∈P时，输出通道C′包含Y个二元分类通道.它还包括姿势参数-由方程式2中，c表示目标向量的维数，µm是分量m的均值，σm是分量m的公共方差参数。方差项不必在目标空间的维度之间共享，并且可以在必要时用对角或全协方差矩阵代替[4]。注意，MDN不假定目标向量t的分量之间的独立性。是埃特斯河对于对象检测，T是对应于对象的宽度和高度的T =[pw，ph]的形式的2D向量。对于人体姿态估计，T包括从人体中心到每个关键点的K个2D偏移向量，即 T=[o0， o0，的。 . . ， oK−1 ， oK−1] 。Ground Truth Pose的照片参数用T表示。一旦网络将p分类为实例的中心，姿态参数为我M13089可以很容易地生成完整的预测。我们调整Eq。1和等式2，使得混合模型预测姿态参数T。也就是说，如果我们有一个M组分混合模型（MDNM），µm将表示姿态由分量m∈M预测的参数。然后，地面实况姿态参数T的密度以图像I由等式1给出。3，其中每个混合物组分的密度函数φm4.第一章由方程式Tm（I）是由分量m生成的依赖于输入的姿态参数。σm（I）是二维分量m的标准偏差，即横轴和纵轴的X和Y。为了说明关键点的尺度差异，在我们的Eq. 对于人体姿态估计，对于每个关键点，我们将σm（I）除以COCO数据集中提供的其比例因子。ΣMp（T）|I）=αm（I）φm（T|（三）m=13.3. 推理一旦网络被训练，在每个空间位置，分类分支确定它是否是实例的中心（我们使用边界框中心作为基础事实）。如果是，我们可以使用组件的输出的混合我们尝试了这两种情况，发现使用最大分量会导致稍微好一点的结果。4. 实验我们对MS COCO 2017数据集进行了广泛的实验[26]。从训练分割（coco-train）中，我们使用所有118k图像进行对象检测，并使用具有至少一个人实例的图像（64 k图像）进行人体姿势估计。为了与最先进的技术进行比较，我们使用COCO测试-开发分割（coco-test-dev）。所有其他评估均在COCO验证分割上完成1、||T−T（一）||二、其包含5 k图像（coco-val）。评价指标φm（T）|I）=（2π）c/2σm（I）cexp -米2σm（I）2（四）在所有实验中，COCO平均精度（AP）。对于ob-我们使用沙漏-104（HG）进行实验[19]给定等式中的地面真值的条件概率密度，3，我们可以将回归目标定义为负对数似然，并使用随机梯度下降来最小化它由方程式5，我们为MDN生成的姿态目标提供负对数似然，其中N是数据集中的样本数。从本质上讲，这个损失项取代了流行的姿态回归目标的L1请注意，我们以密集的方式实现MDN。也就是说，密度估计是在每个空间位置p′∈P′。该模型的示意图如图所示。1.一、和深层聚合（DLA34）[43]架构。为人体姿态估计，我们只使用HG。4.1. 培训我们使用ADAM优化器[16]来训练我们的模型。对于基于HG的模型，我们使用批量大小12和三种不同的时间表，分别采用 50 （ 1X ）， 100 （ 2X ）和 150（3X）epoch。我们将学习率初始化为2.5e-10，并在最后一个epoch的第十个epoch时将其降低10倍。对于基于DLA 34的算法，我们训练了140个epoch（1X），批量大小为32，学习率为2 e-4，下降了10倍LT= ΣNi=1-在 ΣMm=1αm（Ii）φm（Ti|（五）在时期90和120。这些设置类似于[44]第44话除非另有说明，否则对于所有实验，我们使用具有1X时间表的HG。为了进行适当的比较，我们训练了所有模型，包括-我们不修改中心使用的其他损失术语Net.这包括每个类别的二进制分类损失L_C、补偿由于下采样而损失的空间精度的偏移回归损失项L_C_off、以及姿态参数的项L_T总损失在等式中给出。第六章：Ltotal=λCLC+λoffLCoff+λTLT（6）在人体姿态估计的情况下，CenterNet还为网络添加了传统的基于热图的关键点检测和小偏移回归头这用于在推理时进一步细化这些损失项将分别用LHM和LKPoff在我们的实验中，我们有λT=0。1.一、它被调整成MDN1的性能与Cen相当，terNet （这是一种单模模型）。其他损失权重与CenterNet中使用的相同，即 λC= 1 ， λoff=0 。 1 ，且λHM=1。13090从头开始创建单模基础模型CenterNet。4.2. 方差项的激活函数高斯MDN的典型公式使用方差项的激活函数，生成正值[9，36，22]。然而，当一些混合物组分是冗余的或不具有显著贡献时，这导致数值不稳定。与显著模式不同，这些分量的方差项没有被训练为在合适的范围内，并且可以位于零和一之间。如果在训练时只有一小部分样本被分配给它们，那么将生成高度不规则的梯度，从而阻碍模型的正确训练。例如，coco-val的平均精度在连续的epoch中可以在5%到30%之间波动，即使在训练了几十个epoch之后一个简单的补救措施是防止方差项落入范围（0，1）。所以我们13091模型组件APAP tec50A P stec75AP stecSAP stecMAP stecL图2：与在HG架构上训练的混合模型的尺度分布相比，地面实况（GT）对象尺度的分布。组件按其比例范围命名。在方框下面，我们还指出表1：物体检测评估。对于混合物模式-GT实例和混合组分的分布。使用指数线性单位（ELU）[8]的修改版本来激活方差项，使得最小值为1。我们实验了更大的最小值（高达10），但没有观察到任何显着差异。4.3. 对象检测在表1中，我们提供了对HG架构上具有两到五个组件的基线和混合模型的coco-val集的在1X时间表下，MDN3实现了令人印象深刻的3.1个百分点的改进。4.3.1各组分析为了深入了解每个组件学习了什么，我们可视化地研究了每个组件回归的对象（样本可以在图中看到）。5a）。事实证明，MDN基于对象的比例来分离数据集为了从数量上证实这一点，我们研究了由不同成分回归的对象的尺度分布。当我们比较地面实况数据的尺度分布时，我们观察到很强的相关性，如图所示。二、最大分量与协方差尺度的Pearson相关系数为0。七十六。组件和类别之间的相关性仅为0。04.换句话说，成分和类别之间没有明显的关系。作为进一步的测试，我们训练了一个版本的基础模型，每个类别都有单独的框预测头然而，与仅存在共享盒预测头的情况相比，我们没有观察到任何显著差异因此，仅仅使用类别特定的预测头标没有任何好处。根据表1，当增加到三个以上时，组成部分的数量似乎没有显著影响。然而，根据图。2、它确实导致了更好的数据分离。MDN5产生了更好的分离效果，但没有更高的准确性，这一事实我们认为这可能是因为分类分支没有跟上回归头。这是一个有趣els，我们评估了完整的模型，并分别为每个组件（比较）。当它被用来做所有的预测。所有模型都在HG上从头开始训练1X。(a) 各种架构（b）各种训练输入大小图3：速度精度权衡。s、m、l和o分别表示测试时间输入大小为512、768、1024和原始输入大小。S5和S3分别表示5和3个尺度的多尺度检验。由于在较大输入大小上训练的资源有限，（b）中的模型在10%的coco-train上训练100个epoch（随机均匀采样）。（a）中的求值使用左右翻转，除非标记有\f。（b）中的评估是在没有左右翻转的情况下进行的。最好的颜色和放大。图4：MDN3与单模基础的收敛性。未来研究的问题;是否有可能通过增加元件数量来实现更高的精度？单模基-35.954.538.420.439.546.1MDN2所有38.456.641.222.342.449.91227.828.042.652.328.626.98.022.230.238.545.827.8所有39.057.142.122.143.050.1MDN31212.735.431.953.48.238.415.719.520.042.06.645.8322.234.722.62.920.939.8所有38.856.841.722.243.049.8124.042.923.716.740.124.4MDN5231.810.65.222.11.09.34.320.90.413.90.01.0427.340.828.66.430.845.3511.118.410.80.16.222.3130924.3.2速度-精度权衡在图3中，我们显示了MDN3与基础单模模型相比的速度-精度权衡。根据图3（a），MDN3始终以更高的速度实现更高的准确性。特别是，通过5级评估，DLA34上的MDN与更强大的HG架构上的CenterNet一样准确，但速度快两倍（参见标记为S5的红色正方形与标记为S5的蓝色十字）。鉴于MDN基于对象规模划分数据，我们假设在更大的输入上进行训练应该会导致更好的准确性。因此，在DLA 34上，我们在输入大小为768 x768（默认值为512 x512）的情况下训练Center- Net和MDN3然而，由于在更大的输入上训练需要几乎两倍的GPU内存，我们在随机均匀采样的10%的coco-train这完全是由于我们可以访问的计算资源有限。图3显示（b），当在较大输入上训练时，在分辨率为768x768的单尺度下评估的MDN 3超过了用5尺度评估的基础模型的准确性，而FPS 17，47比FPS 17，47快两倍以上。7.04（参见标记为S5的红色圆圈与标记为m的蓝色圆圈）。4.3.3收敛在图4中，我们说明了使用混合模型的一个重要方面是更快的收敛速度。对于HG和DLA34架构，MDN3比单模基础更快地获得更高的精度。基本模型逐渐恢复了一些差距，但从未达到相同的精度水平。4.3.4与最新技术水平的我们的贡献的本质是提高目标检测，将其纳入混合模型。以易于理解新配方然而，官方的CenterNet模型（单模基线）在从ExtremeNet初始化后训练了 50 个 epoch [45] 。正如我们所研究的，ExtremeNet本身在CornerNet [19]上进行了50个epoch的微调。而且，CornerNet从头开始训练了100个epoch。可以肯定地说，该模型已经训练了大约200个epoch（CenterNet4x）。该时间表使得难以（如果不是不可能的话）进行适当的比较并测量混合物配方的有效性因此，为了在coco-test-dev上进行比较，我们从头开始训练混合模型和基础模型。在表2中，我们提供了我们的模型和coco-test-dev上的单阶段最先进模型的评估结果以及运行时速度。MDN3显著改进了基线模型。它的精度略低于最近的FSAF模型[46]，但它要快得多。请注意，CenterNet4x的测试AP为42。1，略好于41的AP。5由MDN3实现。型号FPSAPAP stec50AP stec75AP stecSAP stecMAP stecL[34]第三十四话2033.057.934.418.325.441.9高斯YOLOv3 [7]-36.1-----[25]第二十五话5.440.861.144.124.144.251.2CornerNet [19]4.140.556.543.119.442.753.9[45]第四十五话3.140.255.543.220.443.253.1FSAF [46]2.742.963.846.326.646.252.7基于HG的8.440.4010.5890.4360.2320.4350.496MDN3（我们的）在HG7.470.4160.5990.4520.2390.4510.518基于DLA3423.290.3860.5660.4180.1900.4250.505MDN3（我们的）在DLA3418.970.4060.5820.4380.2060.4410.538表2：与coco-test-dev上自下而上的最先进对象检测器的比较。结果对应于在测试时间具有左右翻转增强的单尺度推断HG上的模型被训练了3X，DLA 34上的模型被训练了1X。模型组件APAP tec50AP stec75AP stecMAPstecL单模基-46.475.850.343.953.2MDN2所有52.378.257.250.058.91237.337.772.062.634.639.138.033.440.046.2所有52.377.258.050.659.3MDN31234.640.754.570.937.042.030.539.042.846.8323.960.614.927.324.0表3：人体姿势估计评估。对于混合模型，我们显示了完整模型的结果，并单独显示了用于进行所有预测时每个分量的结果。模型在HG上从头开始训练1X。4.4. 人体姿态估计表3示出了针对COCO上的人体姿势估计训练的混合模型的评估结果。混合模型在AP方面领先显著幅度。然而，组件的解释不同于对象检测.在这里，无论我们训练了多少组件，都只会检索到两个重要的模式。我们实验了多达10个组件，并观察到具有两个以上的组件会导致更好的召回率（1%），但不会提高精度。<通过可视化预测，可以清楚地看到，其中一种模式主要关注正面视图实例，另一种模式关注具有后向视图的实例。图5b示出了来自MDN3的在用3X方案训练的HG上的样品可视化。在下文中，我们提供了关于输入空间如何被混合模型划分的更多分析。4.4.1各组分析高斯混合模型使我们能够根据样本的不确定性来分析模型，并计算模式的信息统计量。为此，我们从不确定性的角度分析了MDN3对于每个组件所做的预测，我们计算高斯方差项的均值和标准差，这量化了不确定性。表4所示的统计数据表明，不同成分的方差项均值确实存在显著差异。我们认为这种差异是实际的13093组件预测率平均值（标准）σx平均值（标准）σyO+率X（左）O+率y（左）O+率X（右）O+率y（右）1（前）73.1%五十八（五十二）六十一（五十七）百分之八十五百分之五十一百分之二十五百分之五十2（-）百分之零点三803（1106）547（846）百分之五十七百分之五十一百分之四十九百分之五十五闭塞关键点12.3可见关键点87.7遮挡面可见面背面模式正面模式30.3（22.1）69.7（77.9）25.5（27.0）74.5（70.0）表4：对于由MDN3的每个组件进行的预测，表显示了X和Y轴（σx和σy）中方差项的平均值和标准差（std），以及左右部分的X和Y轴（O+和O+）正方向上的平均向量（偏移向量）的表5：地面实况面和关键点相对于与最大混合物组分相比，统计是基于GT实例超过5个，标记的关键点（或≥10），以及得分至少为0.5（或≥0.（七）. ”visible face” includes具有可见和注释鼻子的姿态，以及X y面对基于视点划分数据的原因。我们还看到，第二种模式解释了具有更大不确定性的情况。但是，它只负责微不足道的预测数量。现在让我们看看平均向量的一些统计数据（即，偏移向量）由每个混合分量预测。我们把身体的各个部分分成两组，一组是所有的左边部分，另一组是所有的右边部分。然后，对于每个集合，计算水平轴和垂直轴正方向上的向量部分。我们期望看到组件之间以及左右部分之间沿水平轴的向量方向的显著差异。请记住，向量从身体中心指向每个关键点，所以如果我们从前视图转到后视图，方向将在水平轴上翻转。在表4中，我们看到前和后部件之间的左和右部件的矢量的水平方向有相当大的差异。这似乎是混合模型的观点变成了占主导地位的因素的原因我们进一步比较了数据集中样本的分布。关键点的面部可见性和遮挡与MDN2组件的预测分布之间的关系。我们用机头能见度作为一个粗略的指标面部可视性。如表5所示，预测差异与面部可见性很好地相关，面部可见性是2D中的视点的指示符。数据集中的大多数实例都在前视图中，类似地，前视图组件进行了大部分预测。与我们的结果相关，[2]已经表明，从训练中排除遮挡的关键点可以提高性能。最近，[42]通过提出一个用于估计的分层模型并使用它来选择正确的下游模型进行最终预测，实现了更准确的3D手部姿势4.4.2细粒度评估为了了解哪些身体部位从MDN中获得最多，我们对关键点的不同子集进行了细粒度的评估我们修改了COCO评估脚本，使其只考虑我们感兴趣的关键点。表6示出了结果。该表的前三行说明了COCO评估指标的灵敏度对于度量最敏感的面部关键点，所有面部非面部鼻子耳朵肩膀手腕臀部和脚踝GT位移196.083.799.677.988.799.497.199.295.2GT位移280.447.493.442.359.893.486.897.291.7GT位移363.025.682.722.635.882.071.291.383.3基础模型46.444.345.742.343.959.531.758.538.2MDN252.354.149.950.354.060.341.758.342.6表6：细粒度评估。 GT位移 x表示地面实况在随机方向上被移位x个像素。改善更大。然而，最大的改进来自手腕，它具有最高的运动自由度。另一方面，对于躯干关键点，这是最刚性的，几乎没有改善。4.4.3与最新技术水平的表7比较了我们的混合模型和coco-test-edv上的最新模型。类似于我们的对象检测设置，为了与CenterNet进行适当的比较，我们使用HG上的3X时间表从头开始训练它以及我们的混合模型。用于人体姿势估计的官方CenterNet也使用3X时间表进行训练，但批次大小不同。因此，我们观察到结果中的差异;我们在测试服务器上得到的AP为61.8，但官方模型得到63。当不使用优化时，我们的训练得到的AP为55.6，而官方模型得到的AP为55.0。因此，为了公平比较，在表7中，我们只显示我们自己训练得到的结果。模型FPSAPAPtec50APstec75APstecMAPstecLCMU姿势[5]12.9861.884.967.558.070.4关联嵌入[30]9.362.884.669.257.570.6个人实验室[32]2.1566.588.072.662.472.3单模基地7.6555.682.861.149.665.9MDN3（我们的）7.2657.982.763.752.367.8单模底座，不带翻转12.7956.082.661.652.663.7MDN3w/o flip（我们的）11.7759.082.765.356.465.9单模基地细化7.1361.885.468.057.470.5MDN3精制版（我们的）7.0462.985.169.458.871.4表7：与coco-test-dev上最先进的自下而上的人类姿势估计器的比较。评价是在单尺度下进行的，并具有左右翻转。MDN3和基础模型在HG上进行了3X训练。5. 结论和今后的工作我们提出了一个混合配方的空间回归密集的二维物体检测和人体姿态估计。(a) MDN3的示例对象检测。三种不同的模式是彩色编码的（蓝色，绿色和红色）(b) MDN3的样本姿态估计。椭圆表示不确定性（方程式中的σm4）.这些模式使用边界框颜色进行颜色编码。图5：coco-val上的样本预测。我们在补充材料中提供了更多的可视化。我们证明了混合密度网络在现实世界的大规模数据集上显着提高了这两项任务的准确性。混合模型提供了更好的速度-精度权衡，并且可以减轻对多尺度评估的需求此外，它导致更快的收敛。对于目标检测和人体姿态估计，混合模型将数据分成有意义的模式;分别基于对象比例和视点。模型学习根据输入选择适当的输出头。在人体姿态估计中，令人惊讶的是，视点是主导因素，而不是姿态变化。这强调了现实世界的数据是多模态的，但不一定是我们期望的方式这也促使在单模式模型中使用更复杂的姿势表示设计能够学习更多不同组件的网络是进一步研究的一个令人兴奋的方向。与大多数关于混合模型的工作不同，这里我们使用了一个非常多样化的大型数据集，而不会面临模式崩溃。在未来，这将是有价值的，如果一个可以提供一个深入的研究的作用，大小和多样性的数据在适当的训练混合模型。此外，在更具挑战性的任务上构建密度估计模型将是富有洞察力的，例如最近的大词汇实例分割任务（LVIS）[11]，该任务有1000多个类别，具有巨大的数据不平衡。混合模型能否学会在如此多样化的数据集上处理精细的模态致谢这项工作由IMEC通过ICON Lecture+项目和FWO SBO项目HAPPY提供部分计算资源部分由佛兰芒超级计算机中心（VSC）提供13094引用[1] Yali Amit和Pedro Felzenszwalb。目标检测。计算机视觉：参考指南，第537-542页，2014年。3[2] Vasileios Belagiannis和Andrew Zisserman。循环人体姿态估计。2017年第12届IEEE自动人脸手势识别国际会议（FG 2017），第468-475页。IEEE，2017年。7[3] Maxim Berman ， Amal Rannen Triki ， and Matthew BBlasch k o.lova'sz-softmaxloss：神经网络中交叉-联合测量优化的易处理的surrogate在IEEE计算机视觉和模式识别会议论文集，第4413- 4421页，2018年。1[4] 克里斯托弗·M·毕晓普。混合密度网络1994. 一、二、三[5] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别集，第7291-7299页，2017年。二、三、七[6] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第7103-7112页2[7] Jiwoong Choi、Dayoung Chun、Hyun Kim和Hyuk-JaeLee。高斯yolov 3：一个准确和快速的对象detector- tor使用定位不确定性的自动驾驶。在IEEE计算机视觉国际会议（ICCV），2019年10月。6[8] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习。 arXiv 预印本 arXiv ： 1511.07289 ，2015。5[9] Henggang Cui ， Vladan Radosavljevic ， Fang-ChiehChou，Tsung-Han Lin，Thi Nguyen，Tzu-Kuo Huang，Jeff Schnei-der，and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模式轨迹预测。2019年国际机器人与自动化会议（ICRA），第2090-2096页。IEEE，2019。4[10] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 5802[11] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在IEEE计算机视觉和模式识别会议上，第5356-5364页，2019年。8[12] Abner Guzman-Rivera，Dhruv Batra和Pushmeet Kohli。多项选择学习：学习产生多个结构化输出。神经信息处理系统的进展，第1799-1807页，2012年。2[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页2[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。1[15] Michael I Jordan和Robert A Jacobs。专家层次混合与em算法。神经计算，6（2）：181-214，1994. 1[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。1、4[17] Sven Kreiss Lorenzo Bertoni和Alexandre Alahi。Pifpaf：用于人体姿势估计的复合场。在IEEE计算机视觉和模式识别会议论文集，第11977-11986页，2019年。3[18] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。1[19] 黑律和贾登。Corne

下载后可阅读完整内容，剩余1页未读，立即下载