基于多视图共识的人体检测与分割

181 浏览量更新于2023-10-13 收藏 2.31MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2855基于多视图共识的人体检测与分割IsinsuKatircioglu1HelgeRhodin2Jo？r gSp？ rri3 MathieuSalzmann1，4PascalFua11EPFL，Lausanne，Switzerland2 UBC，Vancouver，Canada3瑞士苏黎世巴尔格瑞斯特大学医院4瑞士洛桑ClearSpace SA{firstname.lastname} @ epfl.ch，rhodin@cs.ubc.ca，joerg. balgrist.chKoh等人[22]杨等人[53] Katircioglu等人 [20]Rhodin等人[37]+[20]我们的图1：利用训练时的多视图一致性在推理时从单个图像中分割显著对象，并利用时间一致性[22]，光流[53，20]和新视图合成[37]优于基线摘要自监督检测和分割的前地面对象的目标是准确性，没有注释的训练数据。然而，现有的方法主要依赖于对外观和运动的限制性假设。对于具有动态活动和相机运动的场景，我们提出了一个多相机框架，其中几何约束以多视图一致性的形式嵌入，在训练期间通过体素网格中的粗3D定位和细粒度偏移回归。以这种方式，我们学习了多个视图上的提案的联合分布。在推理时，我们的方法操作单个RGB图像。我们在视觉上偏离标准基准的图像和经典Human3.6M数据集的图像上都优于最先进的技术1. 介绍现在可以在大规模的场景中可靠地实现这项工作得到了瑞士国家科学基金会的部分支持可获得大量注释数据。然而，对于不太常见的活动，如滑雪，它仍然具有挑战性，因为所需的培训数据库不存在。自我监督方法[10，22，5，6，8，9，37，53，28，3，31]承诺解决这个问题。然而，它们中的大多数依赖于强约束，例如在静态背景下看到的目标对象，或者依赖于对象局部化和用监督预训练的对象边界检测网络，这限制了它们的适用性。在本文中，我们建议通过使用多相机设置用于训练目的和显式编码场景的3D几何形状来消除这些限制。在推理时，我们训练的网络可以处理单个图像，并优于早期的技术，如图所示。1.一、只要[ 24 ]中的两个假设成立：前景和背景可以通过颜色或纹理区分;背景的每一部分都必须经常可见。使用多个相机使数据采集复杂化，但仅以有限的方式，因为同步和校准都是现成的2856存在解决方案。在实践中，对于静态相机，这必须在拍摄会话之前使用众所周知的技术[15，12]处理一次，并且需要比手动注释图像少得多的对于移动相机，SLAM方法现在足够稳健，可以在野外自动快速地执行校准[58，51]。因此，在许多应用中，使用多个相机进行训练是非常有意义的，特别是那些具有不寻常活动的应用，对于这些应用，大型训练数据库不可用。为了利用多视图训练数据作为弱监督，我们引入了图1所示的对象建议策略。二、候选2D边界框由可以以无监督方式训练的网络产生它们被用于投票到3D建议网格中，并且然后施加多视图几何约束以按可区分的方式对齐来自不同视图的建议为了训练结果网络，我们对3D提案进行采样，使用相应的2D边界框解构和重建每个视图中的图像，并将所得的重新合成图像与原始图像进行比较。虽然我们的自监督学习策略在训练期间利用多个视图，但所得模型可用于通过移动相机获取的单眼图像中的检测和分割，并且具有未知的背景。我们的贡献可归纳如下。我们引入了一种自我监督的端到端可训练对象检测和分割方法，该方法明确地利用3D多视图几何形状作为训练期间的弱它包括一个3D对象建议框架，该框架能够在不必引入额外损失项的情况下跨视图实施预测一致性。为了表明我们的方法可以处理不寻常的活动和快速运动，我们在图1所示的滑雪数据集上进行了演示。1，由移动相机捕获，使用手持相机获取的小数据集，以及使用固定相机获取的更标准的H36M数据集[18]。注意，我们的多视图监督不同于视频对象分割中的弱监督，因为它不需要任何分割注释。因此，我们的方法涉及自监督方法。我们表明，所提出的多视图训练提高了推断时间的单图像准确性性能，这使我们能够优于最先进的单视图[22，53，9，31，20]和多视图[37]方法。我们的代码可在github.com/isinsukatircioglu/mvc上公开获取。2. 相关工作显著目标的检测和分割是计算机视觉中一个长期存在的问题.本节我们图2：3D建议书网格。在3D体素网格（黑色）上发现各个视图之间的一致性，作为投影在体素上的2D概率的组合（彩虹色）。一旦找到粗略网格位置，就经由偏移预测和3D三角测量（紫色线）找到精细偏移。回顾已经提出来解决这个任务的单目和多视图方法。单视图方法。大多数显著对象检测和分割算法都是全监督的[7，16，36，42，4，27，29，40，41，55]，并且需要包含图像和标签对的大型注释数据集。我们的目标是训练一个纯粹的自我监督的方法，没有分割或对象边界框注释。请注意，这不同于所谓的无监督对象分割方法，该方法在训练期间利用特定于域的注释，但不在测试时间[35，17，19，25]。26，30，47，54，49，56，57]，或者推断时间处的第一帧的标签[50]。我们的讨论集中在自我和弱监督的方法方面所使用的训练数据的类型作为依赖于手工制作特征的传统方法，最近的方法使用运动和外观相关线索来训练深度神经网络以用于对象检测[19，52]、光流估计[45，46]和对象显著性[25]基于运动的方法[23，33，11，21，48，14，22，43，53]基于与场景的其余部分不同地移动的区域来定义前景对象，并且它们通过光流图像和时间一致性来集成[22]将流信息与图像序列中主要对象的重现属性相结合与我们的方法类似，[43]假设前景比背景更难建模，并且当通过低维线性基对背景与[43]相反，我们的方法依赖于使用深度神经网络对其空间邻域的图像块的可预测性。··2857×F网络，可以处理复杂的背景运动，并且不需要视频。建立在[43]的基础上，[9]训练了一个网络集合，这是以需要大量额外数据为代价的在[20]中，训练修复网络以识别难以从周围图像块重建的区域，并编码和解码该区域的内容以学习场景分解。[53]采用了类似的修补网络，但是是在由[44]获得的流场上，并且目的是在修补网络产生不良重建的区域中生成移动对象的掩模。基于深度光流的方法不是严格的自我监督的，并且当应用于没有移动或几乎没有移动的静止图像时可以产生最近，不同粒度的时间信息也已通过前向-后向补丁跟踪[31]使用。请注意，这些方法只能在视频流上操作，并利用很强的时间依赖性，而我们的模型最近在单个RGB图像上操作的自监督方法采用生成模型来检测可以暴露于某些变换而不改变图像的真实感的区域[5，6，1，3]。然而，这些方法很容易被其他背景物体所欺骗，这些背景物体的随机位移或纹理变化仍然可以产生逼真的图像。与所有这些技术相比，我们的方法适用于使用移动相机和任意背景获取的单个图像多视图自我监督方法。其他相关方法包括[13，2]中提出的生成式无监督前者使用地平面上的候选位置的网格定位和匹配的人在几个相机重叠的视野。后者使用联合CNN-CRF架构和均值场推断以产生如[13]中的概率占用图（POM），但是利用由CNN提取的区分特征。两者都需要背景减除图像作为输入，因此只能使用静态相机。此外，他们利用多个视图在推理时间，而我们的目标是执行单眼人分割。单视图推理的多视图自监督训练我们的工作与[38，37]密切相关我们不使用任何分割注释来学习前景区域。在[38，37]中，新颖的视图合成与由校准的相机捕获的人类运动的多视图同步视频结合使用，以学习几何感知嵌入。与我们的方法相比，它需要一个已知的背景分解成前景和背景区域的场景。因此，它不能处理由移动相机拍摄的场景。在这里，我们介绍了一种方法，它适用于不断变化的背景。为此，我们不依赖于新的视图合成，而是通过将2D检测与多视图一致性相关联来实现将多个视图中的一个或多个视图转换到共同的3D捕获体积。3. 方法我们的目标是开发一种自监督算法，该算法从单个图像生成边界框和相应的分割掩模。然而，尽管早期的方法使用来自单个摄像机的视频用于训练目的，但我们想要证明使用校准和同步的摄像机用于训练目的可以提高性能。因此，让我们假设我们具有由C >1个校准和同步的投影相机获取的视频。对于1和C之间的每个c，相机c捕获图像Ic，并且其行为由3 ×4投影矩阵Pc建模。3.1. 多视图自监督训练现在让我们转向利用这种多视图数据来训练我们的检测和分割网络的任务。因为我们的最终目标是执行单视图2D检测和分割，我们的方法为每个单独的视图生成边界框和分割掩码。尽管如此，我们利用多视图几何形状，以更好地约束训练过程，并加强跨视图的一致性。此外，我们这样做不需要额外的损失条款，这将使过程更加复杂，并迫使我们仔细权衡这些额外的条款对原来的。为此，我们的训练算法经过以下步骤1. 我们使用一个网络来计算每个视图C. 这些概率图用于在3D网格中投票以获得这些边界框的潜在3D位置。2. 我们根据所得到的概率密度对该3D网格中的个体3D体素进行采样。这对应于每个视图的一个2D边界框。3. 我们计算的3D中心和对象的高度，最好同意这些2D边界框在最小二乘意义上。4. 我们在每个视图中投影生成的3D中心和高度，以定义新的2D边界框，保持采样框的原始宽度。5. 这些框然后用于评估与每个图像中的F相关联的损失通过对3D提案网格进行采样和调整2D边界框来实现多视图一致性。因此，我们不需要额外的损失来执行一致性。这是我们方法的核心元素，因为如[39]中所观察到的，这样的损失项倾向于支持一致但错误的退化解。我们的消融研究证实了这一点。在本节的剩余部分中，我们将更详细地描述这些步骤。2858∈F∈∈∈F◦不∈ic（j）JZic（j）图像和所有体素，并对每个体素的所得对数概率求和。然后，我们在3D网格上归一化所得到的概率密度，使得它积分为1。形式上，这可以写成q=1exp. Σlog（pcC）Σ，（2）图3：单视图自监督分割。该图总结了我们的起点，即单视图方法。它预测2D占用概率，一个关联的边界框，并在此窗口的前景蒙版。它被训练为通过将掩模下面的前景区域粘贴在通过修补预测的边界框而获得的3.1.1单个视图让我们考虑[20]的网络，我们将其用作我们方法的主干。它以一幅图像IRW× H ×3作为输入，并对其进行重新合成。在该过程中，它在网格上产生概率图，为每个单元i编码该位置处的边界框bi包含人的概率pi。如图所示。在图3中，通过对候选边界框进行采样、裁剪对应的图像块、并且并行地预测背景图像的a来实现再合成。R128×128×3和分割蒙版SR128×128，同时修补裁剪区域以生成背景图像我RW×H×3。然后我们重新组合地面作物和背景图像。形式上，这可以写成F（I）=T−1（（I◦S）+¯I◦（1−T−1（S）），（1）其中是对应于所选择的边界框的空间Transformer，并且是逐元素乘法。这允许通过将重建图像与输入图像进行比较，以自我监督的方式进行训练。3.1.2使用3D建议网格进行为了链接视图中的2D检测，我们构建了一个3D投影网格，其中V体素以3D世界坐标系中最接近所有相机光轴的点为中心，如图所示。二、对于该网格的每个体素j，我们计算其中心vjR3，连同下面讨论的概率。由于我们知道每个图像Ic的相机矩阵Pc，因此我们可以将每个3D体素的中心vj投影到其中。投影的中心将落入图像网格单元ic（j）中，其中其中Z是在有限维度的离散网格上容易计算的归一化常数。为了以自我监督的方式训练我们的网络，我们然后根据等式中的分布对一个体素位置j进行二、然后，采样的体素对应于每个视图中的一个边界框候选，固有地鼓励跨视图的一致性，如图2所示。第4（a）段。然而，这种一致性只是部分一致性，因为每个视图仍然预测其自身边界框的精确位置和尺寸。因此，最终的边界框可能仍然不一致。为了防止这种情况，我们显式地强制几何一致性，如下所述。3.1.3强制几何边界框一致性为了加强不同视图中边界框之间的几何一致性，我们希望确保它们的2D中心都匹配3D中的同一点，并且它们的2D高度对应于相同的3D大小。换句话说，我们希望修改边界框的位置，以便新的边界框具有一致的2D中心和高度，并且我们希望以尽可能小的位移来实现这一点。由于相机通常被设置在指向对象的粗略圆中，因此强制高度一致性是有意义的，因为相机向上方向是对齐的。只有当相机角度变化时，如在从任意角度拍摄的无人机镜头中，才应替换高度约束。我们不约束边界框宽度，因为相机的左右方向不对齐，除非相机平行。这使得宽度视图依赖，如图1所示。1，其中滑雪者从本质上讲，我们试图将边界框投影到满足中心和高度约束的新边界框，并将由网络在向前传递过程中用于评估其目标因此，重要的是，该投影是可微分的，使得可以在训练期间执行向后传递调整边界框中心。如图所示在在图4（b）中，我们使用由边界框的2D中心定义的视线，找到最接近所有这些的3D点，并使用其到图像中的重新投影作为边界框的修改中心。对于每个视图c，图像Ic中的视线Ic可以表示为F与概率pc相关联，如在会议上所讨论--T型第3.1.1节的轧花。我们重复这个操作lc=Mc1[uc，vc，1]、（3）2859FCJCΣ×ic（j）∈(a) 多视角投票。(b) 使边界框中心一致。(c) 使边界框高度一致。LC相当于求解最小二乘问题，其本身可以通过求解线性方程组来实现，因此是可微的。在实践中，我们使用可微最小二乘实现，并在补充材料中提供其细节。调整边界框高度。如图所示在在图4（c）中，我们类似地使用每个视图中的边界框的顶部和底部的中点来预测两个新的交点，一个用于3D中的边界框的顶部，一个用于3D中的边界框的底部。然后，我们将这些点重新投影到图像中的距离作为边界框的新高度。如前所述，这是一个可微分运算。3.1.4培训因为我们的2D边界框是一致的，所以我们可以通过最小化与[20]的单视图方法相同的损失来训练我们的网络，除了我们在多个图像上联合计算它的事实，并且不需要引入额外的损失来加强一致性。更具体地，我们最小化两个损失函数G（I1，…. .，IC）和O（I1，. . .，1C）。G考虑了这样一个事实，即包含移动的前景对象的区域不太可能被inpainter很好地重新合成，并且对于训练网络以放置在每个图像的正确位置的边界框。O衡量重新合成完整的原始图像的程度，并且当分割掩码在采样的边界框内尽可能地适合显著对象时在实践中，它们被认为是图4：查找视图一致的边界框G（I1，. . .、IC）=−Σr¯Ic−Ic区域（b）、（四）帐篷（a）覆盖在每个视图上的蓝色点表示初始2D概率，并且沿着它们在3D网格中投票c=1Cic（j）各自的视线。结果，黄色3D体素变得非常可能被采样。(b)在每个视图中绘制的红色边界框是初始预测，而purple视线将穿过边界框中心。3D中心是最接近所有这些线的点，其在图像中的重新投影成为新边界框的中心，以绿色显示。(c)红色边界框表示初始预测，紫色和橙色线表示通过边界框顶部和底部点的视线。3D顶部和底部位置分别取为最接近紫色和橙色线的点它们在图像中的重新投影成为新绑定框的顶部和底部中点，以绿色显示。其中，Mc是由Pc的前3列形成的3 × 3矩阵，并且uc、vc是Ic中的边界框中心的2D像素坐标。因此，找到最接近所有O（I1，. . . ，IC）=r jF（Ic）−Ic2，（5）c=1其中，area（b，c）N，0是通过对体素j进行采样并强制几何一致性而获得的边界框的面积。如在[20]中，通过重要性采样获得采样的体素，并且rj是概率qj的比率，来自等式2、按其重要性抽样概率。除了这些损失项之外，如[20]，我们使用S上的L1先验来支持清晰的分割，并计算Eq.5不仅在像素颜色上，而且在学习的特征上。有关采样、超参数、训练和网络架构的更多详细信息，请参见补充材料。3.2. 单视图推理一旦使用多个视图进行训练，我们的模型就可以在推理时从单个RGB图像中检测和分割显著对象，而无需任何进一步的更改。我们在图像上运行我们的网络，并简单地选择具有2860不最高的占有概率。其边界框参数估计被馈送到空间Transformer中以裁剪感兴趣区域，感兴趣区域被编码到相应的分割掩模和前景中，并且被解码为如图1B所示的重建图像。3 .第三章。4. 实验与[37]不同，我们的自监督方法被设计为使用可以移动的多个相机工作。在本节中，我们证明了它确实如此，即使在背景是静态的情况下，它也优于[37]此外，我们表明，使用多个摄像机进行训练的目的，提供了希望的性能提升超过国家的最先进的单眼的方法[22，53，9，31，20]。4.1. 图像和指标我们首先描述我们使用的图像数据集，然后描述我们用于比较目的的指标。使用移动摄像机获取的图像。[39]的Ski-PTZ数据集具有回转赛道上的六名滑雪者。我们使用官方的训练/验证/测试集，将六名滑雪者的12个视频分为四个/一个/一个，分别为7800，1818和1908帧。摇摄-倾斜-变焦摄像机不断调整以跟随滑雪者。没有什么是静止的，背景变化很快，还有其他人站在背景中。使用静态场景标记来校准相机，而滑雪者的身体上没有任何标记或关键点我们使用完整的图像作为输入，并使用可用的2D姿态注释和测试序列中的300个标记帧的分割精度来评估检测精度为了选择超参数，我们使用36个标记的验证帧（每个帧来自六个摄像机和两个序列）。由于摄像机和主体之间的距离较大，3D建议网格具有16个3体素，长方体边长为8米。为了证明我们的方法对没有初始相机校准的场景的适用性，我们使用由三个手持相机捕获的手持190k数据集[20]它包括三个训练，一个验证和一个测试序列。它们都具有一个人在具有变化背景的户外环境中执行模仿人类运动的我们使用OpenSFM1从训练集中校准4200帧，并在与[20]相同的图像上进行测试。3D提案网格具有16个3体素，长方体边长12米。使用静态相机采集的图像。为了与需要静态背景的算法进行比较，我们在H36M数据集[18]的更受控环境中评估了我们的方法。它是使用四个静态摄像机获得的，包括360万帧和15个运动1https://www.opensfm.org/滑雪云台方法J评分F评分运行时间（秒）Chen等人[6] 0.37 0.42Stretcu等人[43] 0.51 0.56 0.02Lu等人[31] 0.51 0.60 0.60Katircioglu等人[20] 0.61 0.67 0.24Rhodin等人[37]+[20]0.610.700.23Croitoru等人[9] 0.62 0.72 0.15Yang等人[53]不含CRF 0.61 0.71 0.32Yang等人[53] 0.67 0.77 1.12Katircioglu等人[20] w/流量0.690.790.24Koh等人[22] 0.70 0.80 107.4我们的0.71 0.830.17表1：Ski-PTZ上的分割结果。我们反对最先进的单视图方法和[37]的多视图方法的修改版本。班它具有5个主题的培训和2个验证，从不同的角度来看，对一个静态的背景和良好的照明。3D提案网格由10个3体素组成，长方体边长为4米。指标. 我们在J-和F-测量中报告了我们的分割分数，如[34]中所定义。前者被定义为地面实况分割掩模和预测之间的交集（IoU），而后者是掩模边界处的精确度和召回率之间的调和平均。检测分数以mAP 0计算。5，拥有IoU的平均概率超过50%。不同分割算法集前景-背景阈值不同。因此，对为了进行公平的比较，我们以0.05的步长执行从0到1的线搜索，为每个单独的数据集的所有基线和变体选择最佳值4.2. 与移动摄像机的图5描述了Ski-PTZ数据集上的定性结果，我们使用表1中的4个相机报告了相应的定量结果，其中我们使用[20]中报告的分数作为基线。2我们优于所有现有的单视图自监督分割方法[22，53，9，20，43，6，31]，同时相对较快。为了完整性，我们还报告了[53]的结果，没有CRF后处理。这表明该方法的大量性能来自于这种后处理，这是我们不需要的。请注意，与[20]和[22]相比，我们的方法不需要计算光流。与DAVIS [34]不同，我们的数据集具有快速背景变化的大相机运动，这导致[31]等方法经常合并背景和人类的部分。公共实现可用的唯一其他自监督多视图方法是[37]的方法。不幸的是，它需要背景图像作为输入，[20]和[31]的实现由作者提供。2861(a) 输入/检测(b)Yang等人[53]（c）Koh等人[22日](d)Katircioglu等人[20]（e）我们的（f）GT图5：Ski-PTZ数据集的定性结果。（a）输入图像，其中我们的预测边界框覆盖在红色中。（b，c，d）由我们的三个基线预测的分割掩码。(e)我们的分割掩码预测。(f)Ground truth segmentation mask。注意我们预测的掩码的质量，尽管与[22]和[53]的方法不同，我们在推理时不在这种情况下没有给出它们，并且由于照相机旋转和变焦，它们对于创建来说不是微不足道的。无论如何，我们使用[20]的单视图方法来产生背景图像，我们可以将其馈送到[37]的网络进行多视图训练。如表1所示，[37]的修改版本在F评分方面略优于[20]但仍然远远落后于我们的方法。最接近我们的方法是[22]的方法，它对整个序列进行操作，因此速度非常慢，如下所述。相比之下，我们的方法在单个图像上操作，并且不需要运动信息。表1的最后一列显示了每种方法的推理时间，并使用公开可用或作者私下提供除[43，22]外的所有内容均使用单个NVIDIA TITAN X Pascal GPU获得。由于[43，22]被设计为在CPU上运行，因此它们的推理在Intel（R）Xeon（R）Gold 6240 CPU上计算。最接近我们结果的[22]的定制优化方法比我们的方法慢三个数量级，因为它随时间跟踪几个补丁与[53]不同，我们的方法不需要光流计算或CRF后处理，这带来了五倍的加速。我们的计算复杂度与[20，37]相似，因为三角测量时间可以忽略不计。我们的模型在Ski-PTZ上的训练时间约为8小时，而[37]和[20]的训练时间分别为14和7小时。5小时，分别。我们还在使用来自多个视图的4200张图像训练的Handheld190k上评估了我们的方法，并与使用相同4200张图像训练的网络[20]进行了我们得到的J分数为0。66而不是0。64和F分数0。77而不是0。71，再次示出了多视图一致性的重要性。我们的方法受益于以自动化现成方式获得的多视图信息，特别是紧密拟合受试者，如图1B所示。六、简而言之，改进表明(a) Katircioglu等人[20]（b）我们的（c）GT图6：Handheld190k数据集的定性结果。（a）[20]的检测和分割掩模结果在单个图像上训练和测试。(b)我们的模型的预测使用3相机多视图一致性进行训练，并在单个图像上进行测试。(c)地面真相我们的结果通常更准确，这证明了在校准相机中投入的努力是合理的。H36M方法培训类型背景假设地图Katircioglu等人[20个]单视图动态0.57Rhodin等人[37]第三十七届多视图静态0.71我们多视图动态0.85表2：H36M数据集的比较结果。我们的检测精度提高方面的mAP 0。五、这里强调了以前未开发的潜力的多视图约束的自我监督分割。4.3. 与静态相机的在前面的例子中，我们必须修改[37]的多视图自监督算法，使其适用于具有移动背景的图像。相反，为了评估原始版本，我们在H36M数据集上进行比较，并在表2中再次使用4个相机报告结果。正如在滑雪云台的情况下，我们优于它，这一次，差异不能造成任何背景修改，我们做的。这有点令人惊讶，因为该方法28623D网格尺寸滑雪-PTZJ-Score[10×10×10]0.64[16×16× 16]0.68[24×24×24]0.663D Grid SizeH36M mAP0. 5[6×6×6]0.76[10×10× 10]0.79[16×16×16]0.76表5：体素分辨率的影响。方括号中的数字指示3D提议网格中的体素的数量，并且我们使用4个相机。(a)Katircioglu等人[20]（b）Rhodin et al. [37]（c）我们的（d）GT图7：H36M数据集的定性结果。（a）[20]的检测和分割结果在单个图像上训练和测试。(b)[37]的结果使用一对相机视图进行训练，并在单个图像上进行测试。(c)我们的预测是从使用4-cam多视图一致性训练的模型中(d)地面真相我们的方法一致地检测人，而[20，37]偶尔会产生不一致的结果，例如最后一行中的失败检测。#凸轮我们的无风险投资我们的，不含HC我们的w/ TCOursw/WC我们2 0.66 0.67 0.66 0.61 0.663 0.68 0.70 0.68 0.684 0.68 0.70 0.675 0.67 0.67 0.67 0.68 0.696 0.66 0.70 0.67 0.672 0.73 0.73 0.73 0.65 0.753 0.75 0.77 0.75 0.744 0.75 0.790.755 0.74 0.74 0.74 0.756 0.73 0.78 0.73 0.74表3：Ski-PTZ的消融研究。我们测试我们的方法的变体，同时使用不同数量的相机。#凸轮我们的无风险投资我们的，不含HC我们的w/ TCOurs w/WC 我们2 0.73 0.74 0.74 0.73 0.753 0.78 0.80 0.794 0.79 0.830.82表4：H36M数据集上的消融研究。我们测试我们的方法的变体，同时使用不同数量的相机。[37]的假设是恒定的静态背景，这里就是这种情况，而我们的学习没有任何这样的约束。我们将此结果归因于3D中边界框位置的显式一致性后者在主体的一部分在边界框之外时触发，导致正确分割的腿，而[37]的方法在阴影中时难以区分皮肤和地板颜色，如图1B所示。7.第一次会议。其他定性结果见补充资料。在表2中，我们还报告了[20]的结果，即我们的骨干网络运行在单个视图上。性能下降，这再次突出了在多个视图可用时利用它们进行训练的有用性4.4. 消融研究我们比较了3.1节的多视图约束的以下变体：我们的表示完整模型它采用了图中所示的所有步骤。4.第一章我们的w/oHC排除了图1所示的边界框高度一致性。第4（c）段。我们的w/o VC省略了图1的中心和高度调整4（b，c），并且仅实施一致的采样。我们的w/ WC除了完整的模型外，还规定了边界框宽度的一致性。最后，我们的w/ TC是一个基线，它用三角测量的损失来代替视图的一致性，最小化连接相机中心和预测的2D边界框的线之间的距离。在表3和表4中，我们将结果报告为我们使用的相机数量的函数。我们可以只使用2个摄像机，但最好的结果是3或4。除此之外，额外的摄像机几乎没有添加新信息，同时在训练批次中占用更多空间，导致批次的多样性减少，性能降低。图中不同变体的编号4表明，所有的元素，我们已经纳入我们的方法作出了积极的贡献，我们故意忽略的一个约束的宽度，将降低性能。至关重要的是，我们的w/ TC也表现得更差，因此证实了我们的主张，即使用第3.1.3节的投影机制施加一致性约束对我们的成功至关重要。我们还分析了体素分辨率对重建精度的影响表5示出了103立方体比63立方体更准确，而转到163不会在H36M数据集中带来进一步的改进。较低的0.01 mAP可以指示学习3D网格上的离散分布在较大空间上可能效率较低。然而，由于滑雪镜头覆盖更广泛的区域，163立方体在滑雪云台上产生最佳性能。5. 结论我们已经提出了一种自我监督的检测和分割技术，利用多视图的几何形状，在训练过程中，准确地分离前景从背景在推理时间在单个RGB图像。它在具有挑战性的滑雪云台上表现出最先进的水平，描绘了用移动摄像机捕获的不寻常活动，以及用静态摄像机捕获的H36M我们关注的是只有一个显著物体的场景。然而，我们的方法有可能处理多个对象的采样，一个以上的建议，只要他们不重叠。我们今后的工作将朝着这个方向发展。F评分地图J评分2863引用[1] R. Arandjelovic和A.齐瑟曼。使用复制粘贴GAN的对象发现。在arXiv预印本，2019年。3[2] P. Baqu e´，F. Fleuret和P. 福a. 多摄像机多目标检测的深度遮挡推理2017年计算机视觉国际会议。3[3] Y.本尼和L.狼OneGAN：条件图像生成、前向分割和细粒度聚类的同时非监督学习。2020年欧洲计算机视觉会议。第1、3条[4] G. Bhat，F. J. Lawin，M. Danelljan，A.罗宾逊，M。费尔斯贝格湖V.Gool和R. Timofte学习视频对象分割的学习内容。2020年欧洲计算机视觉会议。2[5] A. Bielski和P.法瓦罗扰动生成模型中对象分割的出现。在神经信息处理系统的进展，2019。第1、3条[6] M. Chen，T. Artieres和L.德诺耶基于重绘的无监督对象分割。在神经信息处理系统的进展，2019。一、三、六[7] J. Cheng，Y. H. Tsai，S. Wang和M. H.杨Segflow：视频对象分割和光流的联合学习。2017年计算机视觉国际会议。2[8] E. Crawford和J.皮诺基于卷积神经网络的空间不变在2019年人工智能会议上。1[9] I. Croitoru，S. V.Bogolin和M.里奥迪努前景对象分割的无监督学习。International Journal of Computer Vision，127：1279-1302，2019。一、二、三、六[10] 脊髓肌肉Eslami，N.Heess，T.Weber，Y.Tassa、D.塞佩斯瓦里K. Kavukcuoglu和G.辛顿参加、推断、重复：快速场景理解与生成模型。神经信息处理系统进展，2016。1[11] A. Faktor和M.伊拉尼非局部一致性投票的视频分割。在2014年英国机器视觉会议上。2[12] O.D. Faugeras和Q.T.阿良多重图像的几何学。麻省理工学院出版社，2001年。2[13] F.作者：J. Lengagne和P.呸基于概率占用图的多摄像机人群跟踪。IEEE Transactions on Pattern Analysis andMachine Intelligence ， 30 （ 2 ）： 267-282 ， February2008. 3[14] E. Haller和M.里奥迪努基于高概率正特征选择的视频无监督对象分割。2017年计算机视觉国际会议。2[15] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2000年。2[16] K. 他，G. Gkioxari，P. Dol la'r和R. B. 娘娘腔。面罩R-CNN。2017年计算机视觉国际会议。2[17] Y. T. Hu，J. B. Huang和A. G.施温基于运动显著性的时空传播2018年欧洲计算机视觉会议。2[18] C.约内斯库岛Papava、V.Olaru和C.斯明奇塞斯库胡-曼3.6M：自然环境中三维人体感知的大规模数据集和预测方法。 IEEE Trans- actions on Pattern Analysis andMachine Intelligence，2014。二、六[19] S. D.杰恩湾Xiong和K.格劳曼Fusionseg：学习结合运动和外观，用于视频中通用对象的全计算机视觉与模式识别会议，2017年。2[20] I. 卡蒂尔奇奥卢Rhodin，V. Constantin，J. Spo ¨ rri，M.Salz-mann和P.呸通过背景修复的自监督分割。在arXiv预印本，2020年。一二三四五六七八[21] M.科伊珀湾Andres和T.布洛克斯基于最小代价多分割的运动轨迹2015年国际计算机视觉会议。2[22] Y. J. Koh和C.- S. Kim.基于区域增强和缩小的视频主要对象分割。计算机视觉与模式识别会议，2017年。一、二、六、七[23] Y.J. Lee，J. Kim和A. K.格劳曼视频对象分割的关键段。2011年国际计算机视觉。2[24] M.里奥迪努空间和时间。Springer，2020年。1[25] S. 李湾，澳-地Seybold，A.Vorobyov，A.Fathi，Q.Huang和C.-C.郭敬明实例嵌入转移到无监督视频对象分割。在计算机视觉和模式识别会议上，2018年。2[26] S.李湾，澳-地Seybold，A. Vorobyov，X. Lei和C.- C.郭敬明基于运动双边网络的无监督视频对象分割。2018年欧洲计算机视觉会议。2[27] Y. Li，Z.Shen和Y.山. 使用全局上下文模块的快速视频对象2020年欧洲计算机视觉会议。2[28] Z. Lin ，Y-F. Wu ，S. 六. Peri，W. 孙， G. Singh ，F.Deng 、 J.Jiang 和 S. 安 SPACE ： Unsupervised Object-Oriented Scene Representation via Spatial Attention andDecomposi- tion（空间：通过空间注意和分解的无监督面向对象场景表示）在学习代表国际会议，2020年。1[29] X. Lu，W. Wang，M. Danelljan，T. Zhou，J. Shen，andL. V.Gool基于情节图记忆网络的视频对象分割。2020年欧洲计算机视觉会议。2[30] X. Lu，W.Wang，C.Ma，J.申湖，澳-地Shao和F.波里克利查看更多，了解更多：无监督视频对象分割与共同注意力连体网络。在计算机视觉和模式识别会议上，2019年。2[31] X. Lu，W.作者：Wang，J. Tai，D. Crandall和S.C.H.Hoi从未标记的视频中学习视频对象分割。在计算机视觉和模式识别会议上，2020年。一、二、三、六[32] 马皮拉里OpenSFM。可查阅https://www.opensfm.org/。2864[33] A. Papazoglou和V.法拉利无约束视频中的快速对象分割。在International Conference on Computer Vision，第1777-1784页，2013年。2[34] F.作者：J. Pont-Tuset，B.麦克威廉斯湖Van Gool，M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。计算机视觉与模式识别会议，2016年。6[35] F.佩拉齐岛Wang，M.恶心，A。S.-霍农视频分割的全连接对象建议。2015年国际计算机视觉会议。2[36] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时对象检测。计算机视觉与模式识别会议，2016年。2[37] H. Rhodin，V. Constantin，I. Katircioglu，M.萨尔茨曼，以及P. Fua.用于人体运动捕捉的神经场景分解。在计算机视觉和模式识别会议上，2019年。一二三六七八[38] H. Rhodin，M. Salzmann和P.呸用于3D人体姿态估计的无监督几何感知表示。2018年欧洲计算机视觉会议3[39] H. Rhodin，J.施珀里岛卡蒂尔奇奥卢河谷Constantin，F.迈耶，E.默勒M. Salzmann和P.呸从多视点图像学习单目三维人体姿态估计。计算机视觉与模式识别会议，2018年。三、六[40] S.徐真Y. Lee和B.韩URVOS：具有大规模基准的统一参考视频对象分割网络2020年欧洲计算机视觉会议。2[41] H. Seong、J.Hyun和E. Kim.用于视频对象分割的核化存储网络。欧洲计算机视觉会议，2020年。2[42] H.宋，W。Wang，S. Zhao，J. Sh

下载后可阅读完整内容，剩余1页未读，立即下载