MONET：用于多视图半监督关键点检测的新方法

196 浏览量更新于2023-10-12 收藏 1.68MB PDF 举报

明尼苏达大学

关键点检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1MONET：基于核线发散的多视图半监督关键点Yuan Yao明尼苏达yaoxx340@umn.edu明尼苏达大学yasamin@umn.edu明尼苏达大学hspark@umn.edu图1：本文介绍了MONET-一种用于关键点检测的半监督学习，它能够定位不同物种的定制关键点人类、狗和猴子，只有非常有限的标记数据，没有预先训练的模型。最右边的图说明了使用我们的姿势检测的猴子运动的3D重建。摘要本文提出了MONET-一个端到端的半监督学习框架的关键点检测器使用多视图图像流。特别是，我们考虑一般的主题，如非人类物种，获得大规模的注释数据集是具有挑战性的。虽然多视图几何可以用于自监督未标记的数据，但由于表示不匹配，将几何集成到学习关键点检测器中是具有挑战性的我们通过制定一个新的可微表示的极线约束称为极线发散-一个通用的距离从极线到相应的关键点分布，解决了这种不匹配核线发散表征了两个视图关键点分布产生零重射误差的情况。我们设计了一个孪生网络，通过立体声校正最大限度地减少极线发散，可以显着减轻计算复杂度和采样混叠的训练。我们证明了我们的框架可以本地化不同物种的定制关键点，例如，人类、狗和猴子。1. 介绍在过去的几年里，人体姿势检测有了显著的进步[8，43，64，69]，这在很大程度上是基于深度学习的新方法。但是这些技术需要大量的标记训练数据。出于这个原因，姿态检测几乎总是在人类身上展示，对于人类，大规模数据集是可用的（例如，MS COCO [37]和MPII [2]）。其他动物的姿势检测器呢，比如猴子、老鼠和狗？这些算法可能会产生巨大的科学影响[41]，但获得大规模标记的训练数据将是一个巨大的挑战：每个物种可能需要自己的数据集，一些物种具有很大的类内变化，并且可能需要领域专家来准确地执行标记。此外，虽然在人类姿势识别中存在显著的商业利益，但对于公司和研究实验室来说，可能没有什么动机投资于收集其他物种的大规模数据集。本文解决了这一注释的挑战，通过对多视图图像流。我们的见解是，通过使用嵌入在多视图图像中的冗余视觉信息，可以显着减少注释的手动工作，允许跨视图自我监督：一个图像可以通过对极几何结构向另一个图像提供监督信号，而无需3D重建。为此，我们设计了一个新的端到端的半监督框架，利用一个大的未标记的多视图图像，使用跨视图监督。整合对极几何结构以构建强大的关键点（姿态）检测器的关键挑战在于代表性不匹配：诸如点、线和平面的几何量被表示为矢量[18]（图2（a）左），而经由像素响应的光栅表示（热图[8，43，69]）已经被示出对关键点检测具有很强的性能。例如，应用对极约束[40]-点x∈R2必须位于753754˜˜确定性核线3D估计(a) 表示不匹配(b) 三角测量(c) 深度预测(d) 核线图2：（a）矢量和光栅表示描述了对极几何。请注意，光栅表示需要不可微的argmax运算来计算x和l。（b-d）各种多视图监督方法。（b）可以对来自至少两个图像的关键点预测进行三角测量和投影以监督另一图像。这涉及不可微的argmax和RANSAC过程[58]。（c）3D点[54]、网格[？]和体素[70]可以从单个视图预测并投影以监督另一图像。这需要额外的3D预测，这从根本上限制了监督精度。（d）我们的方法通过对极平面将一幅图像中的关键点检测精确地转移到另一幅图像以进行交叉监督，并且不需要3D重建。相应的核线l∈P2-可以表示为：（x）Tl = 0S. t. x= argmaxP（x），l = argmaxP（l），本文的主要贡献包括：（1）提出了一种新的核线散度测度，P.P.le度量两个视图关键点分布之间的几何一致性;（2）一个名为MONET的网络，它有效地-其中x是x的齐次表示，Pp和Pe是关键点和核线1的分布。注意，光栅表示涉及不可微的argmax运算，其不可训练。这种挑战导致离线重建[7，58，67]，数据驱动的深度预测[31，53，54，65，74]或使用软argmax操作[13]，这显示出较差的性能（见图6）。在本文中，我们制定了一个新的光栅表示的极几何，消除了argmax操作。我们证明了几何误差的最小化（即， |xTl|）等效于最小化核线发散-从核线到核的广义距离，响应关键点分布。在此基础上，我们设计了一种新的端到端半监督网络 MONET （ Multiview OpticalSupervision Network）。该网络有效地利用了未标记的多视图图像流，手动注释数量有限（1%）。<我们通过将其与立体校正结合，将此光栅公式集成到网络中，从而在训练网络时降低了计算复杂性和采样伪影MONET的关键特征包括：（1）它不需要涉及不可微argmax和RANSAC运算的离线三角测量[58]（图2（b））;（2）它不需要3D预测[53，54，70]（图2（c）），即，它通过对极几何确定性地将一个图像中的关键点检测转移到另一个图像中（图2（d）） 2;（3）它与任何关键点检测器设计兼容，包括CPM [69]和沙漏[43]，其通过光栅表示定位关键点;以及（4）它可以应用于一般的多摄像机系统（例如，不同的多摄像机装备、摄像机数量和内部参数）。[1]见3.1节，如图2（a）所示，计算Pe。2这类似于没有3D估计[18，40]。最近通过关键点分布的立体校正最大限度地减少了极线发散;（3）使用关键点轨迹的3D重建的大规模时空数据增强技术;（4）实验结果表明，MONET足够灵活，可以在不同的相机设备中检测各种受试者（人，狗和猴子）的关键点，并在定位方面优于现有基线准确度和精密度（重投影误差）。2. 相关工作猕猴等非人类物种的身体行为和社会行为已被广泛用作神经科学和心理学研究人类活动的窗口虽然以3D解剖标志的形式测量它们的微妙行为是关键，但是由于动物对反射标记和被毛皮遮挡的敏感性，实现基于标记的3D跟踪系统是具有挑战性的被绑在椅子上[1]。基于视觉的无标记运动捕捉是测量其自由范围运动的可行解决方案[16，42，55]。通常，可变形铰接体的3D姿态配置的数量相对于关节的数量是指数的。3D身体的2D投影在照明、外观和遮挡方面引入了很大的变化但是，可能的姿态配置的空间具有可以通过有效的空间表示来捕获的结构，诸如图形结构[3，4，14，25，50，51，71]、分层和分层结构。非树模型[12，32，35，57，60，62，68]和卷积模型架构[9，10，33，39，44，48，49，63，64]，并且可以使用巧妙的算法有效地执行对这些结构的动态规划、凸松弛和近似算法。尽管它们在规范图像上是有效和准确的，但它们在长尾分布中的图像上表现出较差的性能，例如，鸽子的姿势向量代表LX使用argmax的x*l*P点P线3D估计755不i我 J~jix∈Fx∈iJ˜瑜伽.在卷积神经网络（CNN）中使用数百万个感知器的完全监督学习框架[8，43，64，69]可以通过利用大量由人群工作者注释的训练数据来解决这个长尾分布问题[2，37，56]。然而，由于CNN中参数的数量，当数据样本的数量不足（1M）时，训练的模型可能会有很大半监督和弱监督学习框架使用有限数量的训练数据训练CNN模型[5，23，36，38，45，46，59，61，66，75]。例如，在训练期间通过跟踪获得的时间一致性可以为身体关节检测提供监督信号[36]。几何（如3DPS模型[5]）和空间[59]关系是监督身体关键点估计的另一种方式。活性学习发现最具信息性的图像是anno-可以减轻标签工作量[38]，为了在没有3D重建的情况下实现端到端的交叉视图监督，我们在第3.1节中制定了一种新的对极几何光栅表示，并在第3.2节中展示了如何使用立体校正在实践中实现它。完整的学习框架在第3.3节中通过引入自举先验描述。3.1. 核线发散第i幅图像中的点xi∈R2通过两个相对相机姿态之间的基本矩阵F被转移以形成第j幅图像中的对应核线，该基本矩阵F测量几何一致性，即，对应点xj必须位于极线[18]：D（x，x）=. x（Fx）. inf（一）2D [30]和3D [27，72]中的几何[46]和时间[23]一致性也可以用于增强注释数据。这些方法嵌入了底层空间结构，如3D骨架和网格，这些结构可以正则化网络权重。例如，运动捕捉数据可以用于联合学习2D和3D关键点[75]，并且扫描的人体模型用于通过重投影验证2D姿态估计[17，29，31，73，76]，例如，通过使用能够同时重建内部身体形状和姿势的DoubleFusion系统。通过使用单个深度相机[73]和恢复人体网格来实时显示外表面几何形状和运动，该恢复人体网格可以通过具有2D地面实况注释[31]从单个RGB相机重建人体的完整3D网格图形模型也可以应用于动物形状重建，方法是基于任意姿势的玩具雕像的一小组3D扫描来学习3D模型，并一起细化模型和扫描的初始配准，然后通过将模型拟合到训练集外的动物物种的真实图像来推广模型[76]。值得注意的是，多摄像机系统可以用于使用3D重建和网络训练的迭代过程来交叉视图监督多视图同步图像[54，58]。与现有方法不同，MONET不依赖于空间模型。据我们所知，这是第一篇使用对极几何联合重建和训练关键点检测器而无需迭代过程我们通过一种称为极线发散的关键点分布的新测量来集成重建和学习，该测量可以应用于包括非人类物种在内的一般主题，其中可以使用最小的手动注释。3. 莫奈我们提出了一个半监督学习框架，利用多视图图像河流，|D|≫ |D|，其中D和D是下确界运算测量对极线（Fx）中的最近点和第j个中的xj形象我们推广了核线转移来定义关键点分布之间的距离。令Pi：R2→ [0，1]是给定由k个点检测器计算的第i个图像的关键点分布，即， Pi（x）=φ（Ii;w）|x，并且Pj→i：R2→ [0，1]是从第j个图像转移的第i个图像中的关键点分布，如图3（a）所示。请注意，我们通过省略关键点索引来滥用标记法因为每个关键点被独立地考虑。考虑沿着直线g的最大池化操作：g（1;P）=supP（x），（2）x∈l其中P：R2→[0，1]是一个分布，l∈P2是一个二维线参数。g取沿P中直线的最大值。给定第j个图像Pj中的关键点分布，可以获得所传递的关键点分布Pj→i（xi）= g（Fxi; Pj）.（三）上确界运算等效于等式（1）中的下确界图3（a）中的前两个图像示出了经由等式（3）的关键点分布第i个图像中的关键点分布被确定性地变换为第j个图像中的光栅化核线分布，即，不需要明确的3D重建（三角测量或深度预测）。事实上，传递的分布是给定均匀深度先验的3D关键点的后验分布Pi和Pj→i不能直接匹配，因为Pi是点分布，而Pj→i是线分布。一个关键的观察是，位于Pj→i中相同核线上的点具有相同的概率，即， Pi→j（xj）=（y）如果FTx <$FTy，如第二幅图U L LUPi→jj吉吉标记的和未标记的数据。我们学习一个网络模型，该模型获取输入图像I并输出关键点分布，即， φ（I;w）∈[0，1]W×H×C其中I是输入图像，w是学习的网络权重，W、H和C是关键点的宽度、高度和数量。图3（a）。这表明转移分布可以通过极线的斜率θ∈S来参数化，即，Qj→i（θ）=g（li（θ）;Pj→i）， ⑷756JR.ΣΣ Σ ΣΣQQiDE（Qi||Qi）(a) 通过最小化核线发散实现几何一致性（b）核线平面参数化图3：（a）将第j幅图像的膝关节关键点分布P转移到第i幅图像，以形成极线分布Pj→i（xi）。注意，位于同一对极线上的点具有相等的转移分布，Pj→i（xi）= Pj→i（yi），因此（b）该分布可以通过关于基线的1D旋转θ ∈ S重新参数化，其中Ci和Cj是相机光学中心。我们匹配两个分布：从第i幅图像转移的分布Qj→i（θ）和第j幅图像中的关键点分布Qi（θ）。对极差D_E（Q_i）的最小化||Q（j →i）可适当地等于重投影误差最小化。其中li（θ）是通过第i个图像中由θ参数化的核点的线，并且Qj→i：S→[0，1]是跨线的平坦的1D分布。同样地，Pi的平坦化关键点分布可以被定义为：Qi（θ）=g（li（θ）;Pi）.定理1. 两个关键点分布Pi和Pj是图4中的右下角图像。该整流允许将倾斜对极线上的最大池化操作转换为规则的逐行最大池化，即，核线可以通过其高度l（v）来参数化。等式（2）可以用经整流的关键点分布重写：g（v;P）=g. l（v）;P=maxP. 酒店（6）几何上一致，即，零重投影误差，如果uvQi（θ）=Qj→i（θ）。见附录中的证明。定理1陈述了零重投影的必要条件：在3D中，跨视图检测到的关键点必须位于相同的核平面中。图11示出了由基线和检测到的3D射线（逆投影）构造的对极平面。其中（u，v）是在所述坐标系中的点的x，y坐标从P变形的校正的关键点分布P，即， P（x）=P（H−1x）其中Hr是立体校正的单应性。P是通过双线性插值的逆单应性扭曲计算的[19，24]。这一整改措施，关键点匹配Qi和Qj→i 相当于匹配-在等式（4）中进行平坦化操作计算极线3D平面的概率，由其表面法线（θ）参数化为了匹配它们的分布，我们定义了一个对极偶-Qj→i（v）=g（v;Pj→i）=gav+b;Pj，Qi（v）=g（v;Pi），（七）聚散度是衡量两个关键点之间的差异的指标，使用受Kull-back-Leibler（KL）发散启发的相对熵的点分布其中a和b是第i个和第j个相机之间的重新缩放因子，考虑了不同的相机固有参数和裁剪参数。更多详情请参见附录。D（Q||Q）=Qi（θ）Q（θ）logd θ。（五）等式（7）的关键创新在于Qj→i（v）为：Ei j→iiSQj→i（θ）不再由θ参数化，其中附加采样θ是不必要的。它直接将Pj访问到max-pool该核线发散度量两个关键点分布在几何上如何一致。3.2. 通过纠正的在实践中，将等式（5）嵌入到端到端神经网络中是不平凡的，因为（a）等式（3）中的倾斜对极线上的新的最大池化操作需要这显著地降低了计算复杂性和采样伪像。此外，在x坐标上的采样均匀采样等同于视差或逆深度。通过校正，我们对多视图交叉视图监督的损失进行C S Hc待定义;（b）用于沿着所述线的最大汇集的采样间隔是任意的，即，均匀采样不编码几何意义，例如深度;以及（c）采样LE=c=1i =1j∈Viv =1CQi（v）logQi（v）CQj→i（v）（八）θ上的间隔也是任意的。这些因素在训练过程中增加了我们引入了一种受立体校正启发的新操作，该操作扭曲关键点分布，使得极线变得平行（水平），如图所示。其中H是分布的高度，P是关键点的数量，S是相机的数量，并且Vi是第i个相机的配对相机索引的集合。公司现采用国际CQ i中的上标以指示关键点索引。图4说明了我们的孪生网络，最大限度地减少了对极双，通过应用立体校正，核线转移，PJPjilj（）Fxili（）X我Pili（X我对极平面lj（li（CJ基线Ci757WΣ关键点检测器Pi整流PiQI扁平化iPj整流Pj转移PjiEij图4：我们设计了一个孪生网络，以最小化Qi和Qj→i之间的对极发散。立体声校正用于简化最大池操作沿极线，并减少计算复杂度和采样混叠。P1PiP2P3P4P5P6P7P2 - 1P3-1P4 - 1P5-1P6-1P7- 1图5：视图1上右肘的对极横观监督右上行示出了视图间的肘部检测，即， P2，···，P7.转移到视图1的分布在右下行示出，即， P2→1，···，P7→1。这些转移的概率用于监督视图1，其中左下图像是跨视图监督的总和。以及扁平化操作，其可以从未标记的数据执行跨视图监督。由于核线发散影响了关键点的分布，因此来自一幅图像的交叉监督可以约束在一个方向上。在实践中，我们发现一组图像给定的第i个图像，使得预期的核线不par-prone。当相机中心位于共面表面上时，表面上的3D点产生所有相同的极线，这是退化情况3。图5示出了视图1上的右肘上的横视图监督从视图2到7（右上行）的弯头检测转移到视图1（右下行）。这些转移的概率用于监督视图1，其中左下图像是跨视图监督的总和。3.3. 多视图半监督学习我们将第3.2节中的对极几何的光栅公式化集成到半监督学习框架中。通过最小化以下损失来训练关键点检测器最小化LL+λeLE+λpLB，（9）3这种退化情况不适用于对应关系已知的3D点三角测量。其中LL、LE和LB是标记监督、多视图交叉视图监督和自举先验的损失，λe和λp是控制其重要性的权重。给定一组标记数据（1%），我们计算标记损失如下：LL=φ（Ii; w）−zi<$2（10）i∈DL其中z∈[0，1]W×H×C是通过将关键点位置与高斯核卷积而近似的关键点的标记似然。为了提高性能，我们通过使用受多视图自举启发的多视图标记数据重建3D关键点轨迹来结合离线空间时间标签增强[58]。给定同步标记的图像，我们使用相机投影矩阵和2D标记的关键点对每个3D关键点X进行三角测量。将3D重建的关键点投影到其余同步的未标记图像上，自动产生它们的标记。 3D跟踪[27，72]进一步增加了标记数据。对于t时刻的每个关键点Xt，我们将该点投影到可见的摄像机集合上。使用光流在2D中跟踪投影点，并使用RANSAC [15]进行三角测量以形成Xt+1。我们计算能见度758^^ΣΣ˜2 ˜1使用运动和外观提示来减少跟踪漂移的点：（1）将来自其连续图像的光流与投影的3D运动矢量进行比较以测量运动一致性;以及（2）通过学习PCA HOG [ 11 ]上的线性相关滤波器[6]来匹配视觉外观，其可以可靠地前后跟踪长于100帧。我们使用这种时空数据增强来定义自举损失：φ（I;w）−z（十一）10.90.80.70.60.50.40.30.2假设验证我们假设，我们的光栅公式，灰优于现有的多 -tiview交叉视图监督approaches用于半监督学习，因为它是一个端到端的系统，而不需要3D预测。我们通过比较多视图LB=我我i∈DU0.100 0.2 0.4 0.6 0.81归一化距离来自35个视图的猴数据（300个标记和600个未标记时间，其中z∈[0，1]W×H×C是使用通过卷积图6：假设验证stances）。没有预先训练的模型用于评估。(1)钥匙-使用高斯核进行关键点定位。4. 结果我们为每个物种构建一个关键点检测器，使用CPM网络（5个阶段）的预训练模型。代码可以在https://github.com/ MONET 2018/MONET中找到。为了突出模型的灵活性，我们包括两个最先进的姿态检测器（CPM [8]和沙漏[43]）的实现。使用λe=5和λp=1 我们的探测网络接受一个输入图像（368×368），并输出分布（46×46×C）。在训练中，我们使用批量大小30，学习率10−4，学习衰减率0.9，500步。我们使用亚当使用单个nVidia GTX 1080优化TensorFlow。数据集我们验证了我们的MONET框架上的多个序列的不同主题，包括人类，狗，猴子(1)猴子主题35 GoPro HD摄像机以60 fps的速度运行，安装在一个大笼子（9′×12′×9′）中，允许猴子自由活动有猴子的各种活动包括梳理毛发、悬挂和行走。相机可拍摄1280×960的图像。在63，000幅图像中，人工标注了85幅图像中猴子姿态的12个关键点(2)采用69台同步高清摄像机（1024×1280，帧速率30 fps）组成的多摄像机系统，对多个品种的犬只进行行为捕捉包括达尔马提亚犬和金毛寻回犬。只有不到1%的数据是手动标记的。 (3)人类受试者一个由69个同步高清摄像机组成的多视图行为成像系统，以1024×1280的分辨率以30 fps的速度捕捉人类活动。20，700张图像中有30张图像是手动注释的。该数据集包括各种人类活动，如跳舞、跳跃和坐着。我们使用预训练的CPM模型[8]来生成地面真实数据。(4)我们在两个公开的人类受试者数据集上测试了我们的方法：Panoptic Studio数据集[26]和Human3.6M [22]。对于Panop- tic Studio数据集，我们使用31个高清视频（1920×1080，30 Hz）。这些场景包括各种各样的主题，以及引入严重社会闭塞的社会互动。胡-man3.6M数据集由4个高清摄像机捕获，其中包括各种单个演员活动，例如，坐着，跑步，吃/喝。点回归：从图像直接回归关键点位置的矢量表示。我们使用Deep-Pose[64]来检测关键点，并使用基本矩阵来测量极线与检测到的点之间的距离（损失），|xTFX|对于未标记的数据。（二）Soft-argmax：可以近似通过使用soft-argmax 操作的光栅关键点分布：xsoftmax =xP（x）x/xP（x），这在预测概率接近单峰时是合理的。这是有区别的，因此端到端培训可能然而，当预测的分布是单峰时，它的近似成立。我们使用CPM [69]来构建一个半监督网络，以极线距离作为损失。(3) 3D预测：每个3D坐标是从单视图图像，其中3D预测的投影被用作跨视图监督[？，54，70]。我们在CPM上增加3D预测层以回归关键点的深度[47]。重投影误差用于损失。图6显示了正确关键点（PCK）曲线的概率，表明我们使用光栅对极几何的方法明显优于其他方法。基线我们比较我们的方法与5个不同的基线算法.对于所有的算法，我们评估的per-turbine上的未标记的数据。(1)监督学习：我们使用手动注释的图像以完全监督的方式训练网络。由于标记图像（100）的数量有限，现有的蒸馏方法[21，52]执行类似。（2）空间增强：将3D关键点三角化并投影到同步的未标记图像上。这从多个角度对视觉外观和空间配置进行建模，可以大大提高关键点检测的泛化能力。(3)时空增强：我们使用多视图光流随时间跟踪3D关键点[27，72]。这种增强可以对3D关键点的不同几何配置进行建模。(4)引导I：给定时空数据增强，我们应用多视图引导方法[58]来获得通过基于RANSAC的3D三角测量为未标记数据计算的伪标签。(5)Bootstrapping II：Bootstrapping I模型通过重新三角测量和重新训练进行改进。这可以减少重投影误差。我们评估我们的方法基于莫奈关键点回归Soft-argmax三维预测检出率759头内克湖KPR.pelvisR.shoL.视图1视图2视图3View 4View 5视图6View 7视图8训练步骤：0几何不一致性训练步数：4980通过对极发散的10.90.80.70.60.50.40.30.20.100 0.2 0.4 0.6 0.81归一化距离10.90.80.70.60.50.40.30.20.10无增强空间增强时空增强Bootstrapping IBootstrapping II莫奈0 0.2 0.4 0.6 0.81归一化距离10.90.80.70.60.50.40.30.20.10头髋鼻颈L.pelvisR.pelvisR.shoulderL.shoulder左足右足LR. .fho和R.foot监督dRl。h获得空间增强L.hand时空增强Bootstrapping IBootstrapping II莫奈0 0.2 0.4 0.6 0.81归一化距离10.90.80.70.60.50.40.30.20.10监督学习空间增强Bootstrapping IBootstrapping IIMONET0 0.20.40.60.81归一化距离140120100806040200空间增强引导IIMONET00.10.20.30.40.5关键点概率（keypoint probability）(a) 人类受试者PCK(b) 猴受试者PCK(c) 犬受试者PCK(d) 全景PCK(e) 重投影误差图7：（a）人类、（b）猴、（c）犬和（d）CMU Panoptic数据集的PCK曲线[28]。MONET（红色）优于5种基线算法。（e）MONET旨在最大限度地减少重投影误差，随着置信度的增加，我们实现了更强的性能图8：来自多视图图像的错误肘部检测通过训练收敛到几何一致的位置准确度和精确度：准确度测量与地面实况关键点的距离，而精确度测量跨视图的关键点检测的一致性。(6)Rhodin等人[54]：在无监督训练期间，未标记的多视图图像对首先用于生成身体的3D点云，然后使用具有3D地面真实的图像来训练模型，以学习将点云转移到关节位置。准确度我们使用PCK曲线来衡量准确度。地面实况关键点与检测到的关键点之间的距离图7显示了在没有使用预训练模型的情况下，人、猴和狗受试者的PCK性能。我们的MONET（红色）模型对所有关键点都具有准确的检测能力，并且优于5个基线。对于猴子的数据，较高的帧速率的图像流（60 fps），大大提高了多视图跟踪的性能，由于较小的位移，从而导致准确的关键点检测时空增强。我们还在CMU Panoptic数据集上进行了一项实验[28]，以验证我们方法的泛化能力。该数据集在相机参数、放置和场景方面与我们的数据集不同（例如，姿势、照明、背景和主体）。如图7（d）所示，MONET在准确度（PCK）和精度（重投影误差）方面都优于其他方法。精度我们使用重投影误差来评估检测的精度。给定同步帧中的一组关键点检测和3D相机姿势，我们进行三角测量。人类猴子狗Panoptic监督学习77.8±73.3 31.1±872 88.9±69.9 53.2±271.4空间Aug.69.0±66.2 12.9±26.6 37.5±47.1 22.2±40.4时空Aug.50.3±65.4 8.10±17.8 24.0±36.2N/A[58]第五十八话28.5±44.7 8.68±18.9 18.9±31.0 15.6±31.7[58]第五十八话35.4±62.4 9.97±22.1 17.1±29.3 13.7±24.6莫奈15.0±24.1 5.45±11.4 10.3±18.7 12.8±18.0表1：重投影误差（平均值±标准差）。标记/未标记臀部R.Leg R.Arm 头L.Hand L.Foot R.UpLeg 脖子总S1 /S5、6、7、813.03.13.41.06.66.210.91.65.5S1、5 /S6、7、812.72.22.91.05.23.310.91.65.2S1、5、6 /S7、87.12.02.70.95.04.75.61.54.3表2：平均像素误差与Human3.6M数据集上的标记数据大小没有RANSAC的3D点。将3D点投影回每个相机以计算重投影误差，该误差测量所有视图的几何一致性。MONET旨在最大限度地减少重投影误差，并且在图7（e）中它显著地超过了基线。我们的MONET在更高的关键点分布上表现更好，这是3D重建的关键，因为它指示了要三角测量的点。图8示出了随着训练的进行，来自多视图图像的左肘部的错误检测如何收敛到每例受试者的性能总结见表1。鲁棒性我们通过改变Human3.6M数据集（四个摄像机）上的标记数据量来评估我们方法的鲁棒性，该数据集提供运动捕捉地面实况监督学习空间增强时空增强自举第一章自举莫奈检出率检出率检出率检出率重投影误差（像素）760Ground truth Supervised learning空间aug.时空温度八月Bootstrapping IBootstrappingII莫奈图9：我们定性地比较了我们的MONET与人类，猴子和狗的5个基线算法10.90.80.70.60.50.40.30.20.1000.20.40.60.81归一化距离10.90.80.70.60.50.40.30.20.1000.20.40.60.81归一化距离10.90.80.70.60.50.40.30.20.10莫奈Rhodin等人00.20.40.60.81归一化距离通过联合利用多视图图像这在消除对称关键点的歧义时变得更加明显，例如，左手和右手，因为极线发散会惩罚几何不一致性（重投影误差）。它还显示了在遮挡下更强的性能（底部图），因为被遮挡的关键点可以对其他视图可见，这些视图可以强制执行到正确的位置。5. 讨论我们提出了一个新的半监督框架，MONET，(a) 猴子主题(b) Human3.6M(c) Panoptic Studio通过利用多个图10：与Rhodin等人的比较[54]预测猴子，Human3.6M和Panoptic Studio数据集上跨视图监督的3D点。数据表2总结了标记和未标记受试者的平均像素误差。正如预期的那样，随着标记数据的增加，误差减小，而最小标记的我们还比较了3D预测方法[54]，该方法在Human3.6M数据集上显示出强大的性能。与他们的实验设置类似，我们使用S1，S5和S6作为标记数据，S7和S8作为未标记数据进行训练。除了Human3.6M数据集之外，我们还对Monkey和CMU Panoptic数据集进行了比较[28]。图10显示了未标记数据的PCK度量。我们的方法在所有数据集上都优于基线。我们的方法的优势特别体现在CMU Panoptic数据集上。由于FOV摄像机较窄，全身通常不可见，这使得[54]中的显式3D重建身体效率较低。定性比较定性比较见图9。MONET可以精确定位关键点查看图像流。关键的创新是关键点分布之间的几何一致性的度量，称为极线发散。类似于对应点之间的核线距离，它允许我们在训练网络时直接计算重新投影误差。我们介绍了一个立体整流的关键点分布，简化了计算的复杂性，并施加几何意义上构建1D分布。使用孪生网络嵌入极线散度的计算我们还使用多视图图像流来增加空间和时间上的数据，从而引导未标记的数据。我们证明了我们的框架优于现有的方法，例如，多视图自举，在精度（PCK）和精度（重投影误差）方面，并将其应用于非人类物种，如狗和猴子。我们预计，这个框架将提供一个基本的基础，使灵活的无标记的运动捕捉，需要利用大量的（潜在的无界）未标记的数据。6. 致谢我们感谢David Crandall的支持和反馈。这项工作由NSF IIS 1846031支持。莫奈Rhodin等人检出率莫奈Rhodin等人检出率检出率761引用[1] 大卫·安德森。作为生物医学研究模型的非人类灵长类动物。生物医学研究模型原始资料，2008年。2[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。第1、3条[3] Mykhaylo Andriluka Stefan Roth和Bernt Schiele图片结构再访：人检测和铰接姿态估计。CVPR，2009。2[4] Mykhaylo Andriluka Stefan Roth和Bernt Schiele单目三维姿态估计和跟踪检测。CVPR，2010。2[5] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.3D图像结构再访：多人姿态估计。TPAMI，2016. 3[6] Vishnu Naresh Boddeti和B.V.K Vijaya Kumar。一个框架，用于使用相关过滤器将类特定信息绑定到图像模式和从图像模式中检索类特定信息。TPAMI，2013年。6[7] Arunkumar Byravan和Dieter Fox SE 3-nets：使用深度神经网络学习刚体运动。InICRA，2016. 2[8] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。一、三、六、十二[9] Joao Carreira 、Pulkit Agrawal、Katerina Fragkiadaki和Jitendra Malik 。迭代误差反馈人体位姿估计。在CVPR，2016年。2[10] Xianjie Chen和Alan Yuille。通过具有图像相关成对关系的图形模型的铰接姿态估计在NIPS，2014。2[11] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图在CVPR，2005年。6[12] Matthias Dantone、Juergen Gall、Christian Leistner和LucVan Gool。使用身体部位相关关节回归量的人体姿势估计。CVPR，2013。2[13] Xuanyi Dong，Shouou-I Yu，Xinshuo Weng，Shih-EnWei，Yi Yang，and Yaser Sheikh.注册监管：一种提高面部标志点检测器精度的无监督方法。在CVPR，2018年。2[14] Pedro Felzenszwalb和Daniel Huttenlocher。用于对象识别的图形IJCV，2005年。2[15] Martin Fischler和Robert Bolles。随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。ACM通信，1981年。5[16] Justin Foster ， Paul Nuyujukian ， Oren Freifeld ， HuaGao，Ross Walker，Stephen I Ryu，Teresa H Meng，Boris Murmann，Michael J Black，and Krishna V Shenoy.自由移动的猴子跑步机模型。 Journal of NeuralEngineering，2014. 2[17] Rıza Alp Guler，Natalia Neverova和Iasonas Kokkinos。密度：野外密集的人体姿势估计。在CVPR，2018年。3[18] Richard Hartley和Andrew Zisserman。计算机视觉中的多视图几何表示。剑桥大学出版社，第二版，2004年。一二三十二[19] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。在CVPR，2017年。4[20] João Henriques，Rui Cascados，Pedro Martins，and JorgeBatista.用核相关滤波器进行高速跟踪。TPAMI，2015。12[21] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。在arXiv：1503.02531，2015。6[22] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的3D人体感知。TPAMI，2014年。6[23] Umar Iqbal，Anton Milan，and Juergen Gall.Posetrack：联合多人姿势估计和跟踪。在CVPR，2017年。3[24] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。2015年，在NIPS4[25] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC，2010年。2[26] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe、Iain Matthews、Takeo Kanade、Shohei Nobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。6[27] 周汉标朴贤洙和亚瑟·大规模动态三维重建中的地图CVPR，2014。三五六[28] Hanbyul Joo，Tomas Simon，Xulong Li，Hao Liu，LeiTan，Lin Gui，Sean Ban

下载后可阅读完整内容，剩余1页未读，立即下载