弱标记的2D图像中学习特定类别的3D形状模型

183 浏览量更新于2023-10-15 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43214573从弱标记的2D图像中学习特定类别的3D形状模型张定文1、2、韩俊伟1、杨洋1、黄冬2、西北工业大学2、卡内基梅隆大学{zhangdingwen2006yyy，junweihan2010，TP030ny}@ gmail.com，dghuang@andrew.cmu.edu摘要最近，研究人员已经完成了从2D图像中构建特定类别的3D形状模型的伟大过程，这些模型然而，图形-背景分割的注释仍然是劳动密集型和耗时的。为了进一步减轻提供这种手动注释的负担，我们尽最大努力通过仅使用弱标记的2D图像来学习特定于类别的3D形状模型。通过揭示常见对象分割和特定类别的3D形状再现任务之间的内在关系，我们提出了一个新的框架，以共同解决这两个问题，沿着集群级的学习课程。在具有挑战性的PASCAL VOC基准上进行的全面实验表明，使用我们的弱监督学习框架训练的特定于类别的3D形状模型在某种程度上可以接近使用昂贵的手动分割注释的最先进方法的性能此外，实验还证明了使用3D形状模型来帮助常见目标分割的有效性。1. 介绍目前，通过学习对象模型来识别对象类别、发现对象位置以及从给定的图像中分割对象掩模已经得到了广泛的研究，并且几乎可以达到人类期望的性能。然而，另一个有趣而有意义的问题--构造物体的丰富的内部表示，如物体的深度信息和3D姿态，仍然是一个具有挑战性和研究不足的问题。为了解决这个问题，一个有希望的解决方案是构建给定图像中出现的对象的3D形状模型，其可以潜在地用于生成深度图[28]，执行姿势对应[39]，并在每个单个图像中构建特定实例[17]。*通讯作者。图1. 从2D图像学习3D形状模型的最新进展[20，7]的说明，其可以通过使用2D注释（包括类标签、地面真实图形-地面分割和一小组关键点）来推断3D与这些方法相比，本文的目标是学习三维形状模型，即使不使用地面真值图形-背景分割，这可以显着减轻人工的一个符号的努力学习三维形状模型。那么如何构建三维形状模型呢？在一些早期的方法中，例如[22，26]，预先手动提供目标对象的精确3D形状模型。换句话说，这些方法用于重建每个给定图像中的实例的3D形状模型直接由人类设计获得。提出了另一组方法来利用3D形状训练数据（例如，通过3D扫描获得的那些）来重建对象-43214574s通过原型对齐[3，28]，使用变形模型[1，40]或深度神经网络[10]在给定的图像中。Kolev等人[21]试图在用户交互的指导下估计对象的3D几何形状。然而，他们的方法只能在手动控制环境下捕获的校准图像上工作类似地，[25]还需要从固定的相机位置约束输入图像依靠人工设计、3D扫描或人工控制成像环境来获得3D形状模型，对于其中包含未知对象类别和各种图像场景的野外图像，使用上述方法是不可行的为了解决这个问题，一些最新的方法[7，20]已经努力学习3D形状模型，而不使用任何3D形状训练数据。如图1，这些方法可以通过仅依赖于用类别标签、地面真值图形-地面分割和一小组关键点手动标注的2D图像数据来成功地构建3D对象形状模型，这提供了一种解决方案来为流行的对象检测数据集中的图像重建密集的、每个对象的3D形状，例如，PASCAL VOC [14]和ImageNet[11]。沿着这条研究思路，本文做出了努力--进一步显著减轻了为学习3D形状模型提供手动注释的负担。如图1，尽管现在图像标签和关键点的注释可以通过每个图像仅需要几次点击而容易地用Amazon MechanicalTurk众包，但是提供图形-背景分割掩模的地面实况注释仍然是劳动密集型和耗时的。因此，我们建议最早尝试研究如何从弱标记的2D图像1学习3D形状模型，其定义为：清晰度（弱标记的2D图像：）图像仅用类标签和少量关键点进行标注，而不需要对象分割蒙版（2D手动标注2最耗时）。显然，从这种弱标记的2D数据中学习3D形状往往更具挑战性。然而，它具有重要的意义，因为它可以引导三维形状建模到一个前所未有的廉价的时尚，从而促进大规模的实际应用。为了从弱标记的2D图像中学习特定于类别的3D形状模型，我们建议同时联合解决两个子任务：1）分割出现在某一对象类别的图像集合中的常见对象（即，共同对象分割），以及2）学习图像集合的共现对象的类别特定3D形状模型（即，类别-[1]这里定义的“弱标签”与[35，19，15]中定义的“弱标签”不同。2根据我们的统计数据，手动标注类标签、关键点和分割掩码的时间成本分别约为每张图像1.2s、4.4s图2. 来自PASCAL VOC数据集的示例来说明实际图像集合总是表现出显著的类内变异性，使得常见对象分割和类别特定的3D形状重建都具有挑战性。图3. 通过视点估计，在这项工作中讨论的两个子任务（即，共同的对象分割和类别特定的3D形状重建）可以通过向对方提供有用的信息来互相帮助。特定3D形状重建）。从本质上讲，这两项任务之间存在着据我们所知，常见的对象分割和特定类别的3D形状重建都需要利用来自多个图像的全局形状信息，而不仅仅是单独处理每个单一图像。通过探索来自图像集合的全局形状信息，它将不可避免地遭受在不同形状、纹理、大小和视点方面的大的类内变化（参见图11）。2）的情况。因此，为了更好地捕获全局形状信息，两者都需要仔细探索低频基本形状并同时处理高频细节-S.除了这些共同的属性，更有趣的是，这两个任务实际上可以兼容地工作，并相互帮助（见图1）。3）：通用对象分割有助于特定类别3D形状重建：图形-背景由公共对象分割生成的对象掩模可以帮助提供用于构建类别特定的3D形状模型的信息性的自下而上的类别特定的3D形状重建有助于常见对象分割：通过特定类别的三维形状重建技术建立的三维形状模型可以为常见对象分割提供有用但尚未开发的自顶向下先验。43214575nnn图4.从弱标记的2D图像数据中学习特定类别的3D形状模型的框架基于上述观察和讨论，我们提出了一个新的框架，共同进行对象分割和类别特定的三维形状重建，这导致学习类别特定的三维形状模型的弱标记的2D图像的实现。如图4、我们首先通过使用提供的类标签和关键点来收集特定于类别的实例。然后，在注释的关键点的帮助下，我们采用从图像流恢复非刚性3D形状的技术（NRSfM）[6]来估计相机。每个对象类别中的训练实例的视点参数。之后，受课程学习最新进展的启发[8，33]，我们设计了一个集群级学习课程来指导特定类别的3D形状模型的学习。基本上，我们首先将特定类别的实例集合分解为子组，然后构建学习课程，以鼓励具有更紧凑外观和完整形状的子组以更高的优先级学习。后来-s，学习者将以迭代的方式沿着建立的学习课程逐渐推断对象分割掩模和类别特定的3D形状模型。具体地说，我们首先推断高优先级的子组中的对象掩码.然后，我们使用所获得的对象掩模来重建粗类别特定的3D形状模型。所获得的3D形状模型又可以通过视点引导的2D掩模投影为常见对象分割提供自顶向下的先验。最后，整个学习框架可以获得有意义的结果，包括分割掩模和类别特定的3D形状模型。我们在本文中有三个主要贡献• 我们尽最大努力学习特定类别从而便于大规模的实际应用。• 通过发现常见对象分割问题与类别特定的3D形状重建，我们提出了一个新的框架，共同解决这两个问题，lems沿学习课程，逐步实现学习的类别特定的3D形状模型从弱标记的2D图像。• 实验结果表明，该框架具有较好的识别效果。工作令人鼓舞的是，使用我们的弱监督框架训练的类别特定的3D形状模型接近使用大量手动分割级注释的一些最先进方法的性能。此外，我们还证明了有效性，通过使用3D形状模型，帮助常见的对象分割。2. 所提出的方法2.1. 视点估计为了估计摄像机视点参数-对于类别特定实例集合中的所有训练实例，我们遵循[20]采用NRSfM方法[6]。在这里，通过使用矩形来包围注释的关键点，通过裁剪具有对应的类标签的图像来获得类别特定的实例集合。给定每英寸的Kp关键点对应关系立场n∈1，2，· ··，N，其中N是实例的总数，使用NRSfM算法来最大化以下公式的可能性：Pn=sn Rn Wn +1T Tn + Hn，Σ3D形状模型仅来自弱标记的2D模型，Wn= W +Ukzk，K年龄，这可以在很大程度上节省时间和劳动，手动提供图形-背景分割注释。这对于将3D形状建模引领到一个前所未有的廉价时尚，zk<$N（0，1），Hn，i <$N（0，σ2），k∈[1，m]，i∈[1，Kp]，S.T.RnRT= I2，（一）43214576GGGG在那里我表示2×2单位矩阵P是亲，获得K=Kcn子群{G，G，···，G}。2NGc=1c1 2 千克vided关键点，也可以制定为2D3D关键点Wn与白噪声Hn的投影以及包含正交投影矩阵Rn、尺度Sn和2D平移Tn的相机参数。 Wn被参数化为具有平均形状W、m个基向量U ={U1，U2，···，Um}和潜在变形参数zn的因子化高斯。我们遵循[6]和[20]采用EM-PPCA算法来最大化上述公式的可能性利用输入数据Pn，算法- m将所有训练实例的3D关键点Wn推断为以及投影函数πn<${sn，Rn，Tn}。2.2. 集群级学习课程2.2.1两阶段聚类一般的物体分割和特定类别的三维形状重建都需要从特定类别的实例集合中获取全局形状信息。然而，直接探索整个类别特定的实例集合很难获得强的全局形状信息，这是由于在不同视点和变化的形状、纹理和大小方面的大的类内变化（参见图2）。（五）。灵感来自于最近的-t工作[9]，我们通过两阶段聚类策略基于视点特定的视觉子组构建先验，以便逐渐将整个图像集合分解为具有低得多的组内变化的多个聚类。因此，我们可以很容易地从这些视觉子组中捕获有意义的先验信息，并使用它们以有效的方式构建全局形状信息具体地说，在第一阶段，我们利用估计的摄像机参数{sn，Rn，Tn}来描述每个物体的存在，并采用K-均值聚类方法来分离。2.2.2一种更高层的对象协同分割方法在通过所提出的两阶段聚类获得子组之后，我们采用种子分割方法[9]来初始化实例的分割掩码。基本上，该问题被视为经典的图切割问题[32]，将每个输入图像中的每个像素标记为前景或背景，这可以通过使用图像级一元势项、聚类级一元势项和成对势项来最小化能量函数来解决。2.2.3学习课程生成为了有效地指导后续的学习过程，我们设计了一个学习课程，以逐步适应忠实的知识从这与课程学习领域密切相关，该领域最初在[5]中提出，并已成功地完全用于其他应用，如对象检测和识别[8，38]。在我们的框架中，“容易”训练的样本是那些具有更紧凑的外观和完整的形状掩模的样本，它们主要编码低频基本形状，因此应该以更高的优先级学习。相反，为了测量第g个子群Gg，g∈[1，Kg]的外观紧凑性，我们训练KeeLDA检测器来对每个实例进行评分。具体来说，对于Gg中的第τ个实例，我们可以获得Ke检测分数{Sτ，1，···，Sτ，Ke}。然后将整个特定于类别的实例集合分级为Kcg g视点特定集群，即，{C1，C2，···，CKc}。作为我们将这些检测分数二进制化以获得命中数-s{hτ，1，...，hτ，Ke}。后来-示于图5、这一步得到的聚类通常g g包含具有相似视点的实例因此，它可以减轻由视点变化引起的学习歧义S.下一阶段是进一步减轻由其他因素引起的类内变化，例如变化的形状，纹理和大小。在这里，我们采用基于种子的聚类方法[9]在每个视点特定的聚类中生成一组子组，因为它在将视觉上连贯的实例分组在一起方面具有优越的能力。在这个阶段中，对于每个特定于视点的集群，我们首先使用每个实例作为种子，然后通过从其余数据中检测相似的实例来构建组这是通过基于每个实例的 HOG 特征训练示例检测器eLDA[16]来实现的，然后使用每个检测器通过选择具有最高分数的前K个因此，Ke是实例数在每个子组中。假设第c个视点特定的聚类Cc，c∈[1，Kc]包含n个c个实例，我们最终s，我们使用Gg中所有实例的平均命中数作为紧密度得分CPg。为了获得每个子组的形状完整性得分SCg，我们计算基于掩码的距离矩阵Dmask和基于图像的距离矩阵Dimg的皮尔逊线性相关系数（PLCC）[27]，其基于完整形状掩码和实例图像的匹配。应该在具有高形状完整性子组中显示相似的特征相似性分布。具体地说，我们分别提取形状掩模和实例图像的HOG特征，并使用它们来生成基于欧氏距离的D掩模和Dimg当从每个实例图像中提取的HOG特征捕获组合时，充分的形状/轮廓信息的相应对象实例，我们的假设可以在实际情况下工作。最后，通过LPg=SCg×CPg得到每个子群的学习优先级.43214577图5.举例说明集群级学习课程的生成如图5，用于限制任意变形的具有较高学习的子群，定义为：优先级往往是在早期迭代中应该学习的更“容易”的因此，沿着这个学习课程，我们设计了一个五轮的学习迭代，我们从ELCΣΣ（Sh，V）=我Σj∈N（i）（（Shi2-Shjδ）2（三）使用前30%学习优先级的子组来推断类别特定的3D形状模型，然后逐渐涉及来自更多子组的更丰富的知识，即，在每次迭代之后，将额外的5%添加到学习过程中，这可以改善分割掩模和类别特定的3D形状模型。2.3. 共同目标分割和类别特定三维形状重建的联合算法+<$Vk，i−Vk，j<$），K其中δ表示相邻点N（·）之间的均方位移，这促使所有面具有相似的大小，Vk，i是第k个基中的第i个点，Shi是Sh中的第i个点。Ens（Shn）是法线平滑项，其在局部形状邻域中的法线方向的变化上放置成本，因为形状变化倾向于局部平滑。具体而言，其表述为：ΣΣ→−→−通过发现共同对象分割和类别问题之间的潜在关系，Ens（Shn）=→−ij∈N（i）（1−Nn，i·Nn，j），（4）特定的3D形状重建，并观察到它们可以为对方提供有用的信息，我们建议共同进行对象分割和分类-其中N n，i表示Sh n中第i个点的法线. 它通过将平面拟合到局部点邻域来计算。Esc（Shn，On，πn）是形状一致性项：在每次学习迭代中进行特定的3D形状重建。ESC（Shn，On，πnΣ）=的Chmask（p）>0Σ△1（p;On）（五）2.3.1类别特定的3D形状重建+p∈On △2（p;πn（Shn）），基于所估计的摄像机投影参数、关键点对应关系和所选训练子组上的常见对象分割掩模，我们遵循[20]从所获得的图像中构建可变形的3D形状模型物体轮廓。具体地说， 3D形状模型被表示为M=（Sh，V），其由平均形状Sh和一组变形基V={V1，V2，···，Vm}组成。它可以通过以下能量函数来推断：minElc（Sh，V）+Epd（α，V）Sh，V，αΣ其中Ch_mask是指轮廓O_n的二进制掩码的倒角距离，△1（p; O_n）表示像素p到集合O_n中其最近邻居的平方平均距离，△2（p;πn（Shn））表示像素p到其在2D投影πn对于Shn型，πn（Shn）=snRnShn+1TTn.第一项强制预测的形状在其轮廓内投影，而第二项鼓励silhouette上的点将附近的投影点拉向它们。最后一项Epd（α，V）用于惩罚变形参数α的L2范数，以防止不自然的变形。反弹大变形。具体而言，其定义为：+（Esc（Shn， On，πn）+Ens（Shn）），（二）Σ ΣE（α，V）=αkV2.（六）nΣS.T. Shn = Sh +αkVk，民主党nKF43214578由于（2）中的目标是高度非凸的和非-光滑，我们遵循[12]，用软其中On和Shn分别表示第n个实例的实例轮廓和3D形状，α是变形参数。局部一致性项Elc（Sh，V），视觉外壳，其通过使用所选择的训练实例来计算变形基和变形权重随机初始化。432645792.3.2基于3D形状投影先验的常见目标分割一旦我们获得了特定于类别的3D形状模型，我们就使用它们来提供信息丰富的自上而下的先验知识，用于指导下一次学习迭代中的常见对象分割。具体来说，对于包含Ke个实例图像的每个训练聚类，我们的目标是将每个像素标记为前-背景lτ，p=1或背景lτ，p=0，其中p表示图像τ中的像素位置，τ∈[1，Ke]。这种标记问题可以通过最小化能量函数来解决在像素和标签上：其中，参数{s τ，Rτ，Tτ}从Sec. 2.1. 因此− log p（lτ，p|PM，p）可以有效地引入由特定类别提供的自顶向下先验3D形状模型到常见对象分割，并且可以通过使用图切割算法[32]来巧妙地最小化整个能量（7）。3. 实验3.1. 实验设置我们在[29]中收集的数据集上进行了实验。它包含10个选定的刚体对象类别EI（τ，p;Aτ）+EW（τ，p，q;lτ，p，lτ，q）+ETD（τ，p; SM，PM），（七）从挑战PASCAL VOC 2012基准[13]。我们在学习阶段使用了公开的特定于类别的关键点，并采用了地面实况seg-这主要包含三届的第一个任期EI（τ，p;Aτ）是来自特定于实例图像τ的外观模型的一元势：EI（τ，p;Aτ）=−logp（lτ，p; xτ，p，Aτ），（8）其中p（lτ，p; xτ，p，Aτ）根据外观模型Aτ评估具有其RGB颜色特征xτ，p的像素有多大可能采用标签lτ，p。这里，Aτ由如[9]中定义的RGB颜色空间上的两个高斯混合模型（GMM）组成，即，一个用于前景（当lτ，p=1时），另一个用于背景（当lτ，p=0时）。使用从先前迭代推断的分割掩模内部和外部的像素来学习外观模型第二项EW（τ，p，q;lτ，p，lτ，q）是成对势，定义为：用于评估的分段掩码。为了评估我们学习的3D模型的表达能力，我们采用了PASCAL 3D+数据集提供的3DCAD模型[34]。在训练过程中，我们只使用包含一个实例的图像。附加的定位方案，它可以应用训练的3D形状分割多个实例在singe图像，是一个有前途的未来方向，但超出了本文的范围。为了全面证明所提出的方法的有效性，我们进行了实验，以评估所获得的类别特定的三维形状模型和共同的对象分割掩模。具体来说，我们根据两个指标量化测试集上获得的3D模型的质量。第一个是网格误差度量，其计算为Hausdorff距离be-EW（τ，p，q;lτ，p，lτ，q）=δ（1τ，plτ，q）e−β<$xτ，p−xτ，q<$2，（九）在预测网格和地面真实网格之间[2]。第二个是深度图误差，其在两个像素（p和q）被分配有不同的标签但具有相似的特征时惩罚这第三项ETD（τ，p; SM，PM）是为了帮助常见对象分割而引入的自上而下的pri- or项，其鼓励所获得的分割掩码具有-在每个子组中保持一致。这被建模为像素上的自顶向下形状先验：作为重建的深度和地面实况深度。它可以反映重建的可见物体表面的质量[29]。为了量化所获得的分割掩模的质量，我们通过比较每个分割掩模和相应的地面真实掩模，采用标准的相交-并（IOU）度量。在我们的实现过程中，我们将Kc设置为4左右，Ke设置为3。此外，我们还跟踪了ETD（τ，p; SM， PM）=- logp（l τ，p|SM，p）− logp（l τ，p|PM，p），（十）[29]第29话，把M设为5。实验在24核Lenovo Serv上运行其中SM指示子组的平均分割掩码。因此−logp（l τ，p|SM，p）表示在给定像素位置和SM的情况下，每个像素属于前景或背景的先验概率。类似地，PM指示通过使用3D形状模型M=（Sh，V）和来自先前迭代的变形参数α英特尔至强2.8 GHz的CPU和64 GB的RAM。我们的方法需要8.93小时的训练，比[29]（4.39小时）慢。请注意，后者需要更多的时间来手动标记地面实况分割掩码。对于测试，我们的方法需要38秒每幅图像，这与[29]相同。3.2. 三维形状重建1ΣPM =（sR Sh+1TT）43264580τ在本节中，我们首先进行了实验，以恶魔-τττ τ ττ（十一）建议的框架可以有效地学习ΣShτ = Sh +K Vkαk，从弱标记的2D图像的3D形状模型，43274581表1. 将所获得的学习的3D形状模型与弱监督基线方法在网格误差和深度误差方面进行比较（越低越好）。分类→Aero自行车船总线车椅子姆比凯沙发火车电视是说RC w/o SG2.044.094.293.212.343.362.346.368.839.494.64网格LN，不含CL1.953.404.323.012.432.782.306.618.739.124.46我们1.873.004.152.962.242.322.225.838.018.314.09RC w/o SG10.7714.7317.1318.5111.2210.7211.7326.6037.5036.8419.58深度LN，不含CL10.7713.7917.4416.5511.2110.7211.2928.0036.4629.5718.58我们10.6813.5317.0318.0610.2811.0711.1827.3236.2326.3918.18表2. 将学习的3D形状模型与最新技术（STA）在网格误差和深度误差方面进行比较（越低越好）。请注意，所有STA都需要比所提出的方法更强的监督分类→Aero自行车船总线车椅子姆比凯沙发火车电视是说Tulsiani1.721.783.011.901.772.181.882.132.393.282.20网格维森特1.871.872.512.361.412.421.822.313.103.392.31[30]第三十话3.302.522.903.322.823.092.582.533.923.313.03我们1.873.004.152.962.242.322.225.838.018.314.09Tulsiani9.519.2717.2012.719.947.789.6113.7031.588.7813.01深度维森特10.059.2815.0618.518.147.989.3813.7131.258.3313.17Barron13.5213.7920.7829.9322.4818.5916.8018.2840.5620.1821.49我们10.6813.5317.0318.0610.2811.0711.1827.3236.2326.3918.18将我们的工作与“RC w/o S-G”和“LN w/o CL”的基线方法进行对比。具体地说，实验结果报告于表1中。从表1中，我们有两个观察结果：1）当从弱标记的2D图像重建类别特定的3D形状时，学习课程对于应对学习模糊性是重要的（参见OURS和“LN w/o CL”之间的比较）。2)类别特定的3D形状重构和公共对象分割可以潜在地互相帮助以提高学习性能（参见“RC w/o SG”和“LN w/o CL”之间的比较我们还将通过使用所提出的方法学习的3D形状模型与几种最先进的方法进行了比较，包括Tulsiani [29]，Vicente [31]，Twarog [30]和Barron [4]。与我们的方法相比，所有最先进的方法都需要额外使用大量手动标记的分割掩码。然而，从表2中的实验结果，我们观察到我们的方法实现了激励性能，其接近于在诸如我们的方法甚至在“汽车”和“mbike”等类别中击败了Bar-ron由于缺乏足够的训练数据，我们的方法在“火车”和“沙发”等类别上表现不佳3.3. 通用对象分割在本节中，我们进行了实验，以证明所提出的框架也可以有效地分割共同的对象，通过利用学习的3D形状模型。首先，我们将所提出的方法与另外两个基线框架进行了比较，即，“RC w/o SG”和“LN w/o CL”。实验结果报告在表3的顶部。可以看出，所提出的方法明显优于这两个基线。此外，与所学习的3D模型的表现力一致，“LN w/o CL”可以通过联合推断类别特定的3D形状和常见的对象分割掩模来胜过“RC w/o SG”。然而，由于缺乏有效的学习课程，它仍然比所提出的方法取得更差的性能。我们还比较了通过使用获得的3D形状模型通过（7）分割常见对象而获得的分割掩模与从三种最先进的（STA）对象共分割方法（包括Quan的[24]、Chen的[9]和Joulin的[18]）获得的分割掩模。为了公平比较，我们还提供了关键点信息来帮助STA方法，即，通过使用这些方法在裁剪的实例图像上进行分割。从表3底部的实验结果中，我们观察到所提出的方法优于所有比较的STA，特别是对于像“自行车”和“椅子”这样的类别因此，实验证明了通过使用来自3D形状模型的自上而下的先验（即使是从弱标记图像中学习的）来帮助常见对象分割的有效性最后，我们在图中显示了一些实验结果。六、43274582表3.将我们的方法的分割结果与其他基线和STA在IOU方面进行比较（越高越好）。分类→Aero自行车船总线车椅子姆比凯沙发火车电视是说RC w/o SG0.7140.5720.6690.7530.7900.6730.7170.7940.6780.7410.710基线LN，不含CL0.7260.5960.6470.8140.7560.6630.7130.7840.6870.7520.714我们0.7370.6140.6730.8250.7940.7200.7380.8650.6920.7710.743[24]第二十四话0.7290.4810.6440.7640.7880.6080.7430.8310.6660.6480.690个sta陈0.6840.5440.5850.7390.7490.6500.6540.8910.6700.7230.689Joulin0.2790.3360.2390.3780.3190.2360.3340.4350.3630.2600.318我们0.7370.6140.6730.8250.7940.7200.7380.8650.6920.7710.743图6.通过所提出的方法获得的3D形状模型（在不同视图中示出）和分割掩模的示例3.4. 讨论在本节中，我们进一步比较和讨论了所提出的方法与最先进的方法[31]。根据我们的统计数据（见第二节）。1），注释图形-背景分割花费了用于注释2D图像的整个人类努力的97.9%。这意味着使用我们的方法可以节省大量的人力用于3D形状重建，这是有意义的。我们还进行了以下实验：1）我们随机选择10%的数据进行测试，并使用不同百分比的数据进行训练。图中的蓝色曲线7表明，我们的方法随着弱标记训练数据的增加而提高学习性能。2)我们还使用20%的完全标记数据（用额外的分割掩码注释）使用[31]训练3D形状，并在同一组测试数据上进行测试。如图7，虽然90%弱标记数据的注释成本（人力）实际上比20%完全标记数据的注释成本要少得多，但基于前者训练我们的模型甚至优于基于后者训练[31]的模型。从某种意义上说，该实验表明了将我们的方法应用于大规模图像数据的潜在价值，其中人类只能对其中的一小部分进行注释。4. 结论本文提出了在弱标记2D监督下学习特定于类别的3D形状模型图7.性能比较所提出的方法使用不同数量的弱标记训练数据和Tulsiani图像，而不使用任何手动注释的分割掩模。它大大节省了人工标注的时间和劳动力，使三维形状建模成为一种前所未有的廉价时尚。在本文中，我们通过建立一个新的框架来实现它，以联合进行共同的对象分割和类别特定的三维形状重建沿着集群级学习课程。在PASCAL VOC数据集上的实验结果表明了该框架的有效性大规模图像数据。在未来，我们将在这个问题中引入更有效的共同显着性检测[37，36]或共同分割方法[24]，并使用一些更好的3D对象检测管道，如[23]。鸣谢：这项工作得到了国家自然科学基金61473231和61522207的资助，西北工业大学优秀博士基金和国家留学基金委201506290113的资助。43274583引用[1] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯景观：人的形体完成与动画。ACMTOG，24（3）：408[2] N.阿斯普特，D。Santa Cruz和T.易卜拉欣网格：使用hausdorff距离测量曲面之间的误差。ICME，2002年。[3] M. Aubry，D.Maturana，A.A. 埃夫罗斯湾C. 罗素和西维克3D椅子：使用CAD模型的大数据集的基于示例部件的2D-3D对准。CVPR，2014。[4] J. T. Barron和J.马利克颜色恒常性、内在图像和形状估计。ECCV，2012年。[5] Y. Bengio，J. Collobert和J.韦斯顿当前学习。InICML，2009.[6] C. Bregler，A. Hertzmann和H.比尔曼从图像流中恢复非刚性三维形状。在CVPR，2000年。[7] J. Carreira，S.维森特湖Agapito和J.巴蒂斯塔将物体检测数据集提升到3d。IEEE TPAMI，38（7）：1342[8] X. Chen和A.古普塔。卷积网络的Webly监督学习在ICCV，2015年。[9] X. Chen，中国山核桃A. Shrivastava和A.古普塔。通过对象发现和分割丰富视觉知识库。CVPR，2014。[10] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法在ECCV，2016年。[11] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。[12] C. H. Esteban和F.施密特三维物体建模中的轮廓与立体融合。CVIU，96（3）：367[13] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地威廉斯，J.Winn和A. 齐瑟曼。 pascal visual object classes challenge 2012（voc2012）[14] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，88（2）：303[15] J. Han，D. Zhang，G.成湖，澳-地Guo和J. Ren.基于弱监督学习和高级特征学习的光学遥感图像目标检测。IEEE TGRS，53（6）：3325[16] B. Hariharan，J. Malik和D. Ramanan用于聚类和分类的判别去相关。ECCV，2012年。[17] Q. Huang，H.Wang和V.科尔顿。通过图像和形状集合的联合分析实现单视图ACM TOG，34（4）：87，2015.[18] A. Joulin、F. Bach和J.庞塞判别聚类用于图像共分割。CVPR，2010。[19] A. Kanazawa，D. W. Jacobs和M. Chandraker Warpnet：用于单视图重建的弱监督匹配在CVPR，2016年。[20] A. Kar，S. Tulsiani，J. Carreira和J.马利克从单个图像重建特定类别的对象CVPR，2015。[21] K. Kolev，T. Brox和D.克莱姆斯从多幅图像快速联合估计轮廓和稠密三维几何。IEEE TPAMI，34（3）：493[22] D. G. 洛从单个二维图像中识别三维物体AI，31（3）：355[23] B. 佩皮克湾斯塔克山口Gehler，T.Ritschel，和B.席勒野外3d物体类别检测。在CVPRW，2015年。[24] R. Quan，J. Han，D. Zhang和F.聂基于图优化-柔性流形排序的对象共分割在CVPR，2016年。[25] D. J. Rezende，S. A. Eslami，S. Mohamed，P. 巴塔利亚M. Jaderberg和N.海斯图像三维结构的无监督学习。在NIPS，2016年。[26] L. G.罗伯茨三维汤的机器感知。麻省理工学院博士论文，1963年。[27] S. M.斯蒂格勒弗朗西斯高尔顿统计科学，第73-79页[28] H.苏角，澳-地Huang，N. J. Mitra，Y. Li和L. Guibas使用形状集合估计图像深度。ACM TOG，33（4）：37，2014.[29] S. Tulsiani，A. Kar，J. Carreira，and J.马利克学习特定类别的可变形3d模型用于物体重建。IEEE TPAMI，2016年。[30] N. R. 特瓦罗格湾F. Tappen和E.H. 阿德尔森玩马勃球：视觉和图形中使用的简单尺度不变膨胀在ACM SPA，2012年。[31] S. Vicente，J. Carreira，L. Agapito和J.巴蒂斯塔重构Pascal语言。CVPR，2014。[32] S. Vicente、V. Kolmogorov和C.罗瑟基于连通性先验的图割CVPR，2008。[33] Y. Wei，X.Liang，Y.Chen，X.沈，M.-M. 郑，Y.Zhao和S.燕. Stc：一个从简单到复杂的框架，用于弱监督语义分割。arXiv预印本arXiv：1509.03150，2015年。[34] Y.湘河，巴西-地Mottaghi和S. Savarese超越Pascal：野外三维物体检测基准。InWACV，2014.[35] X. Yao，J. Han，G. Cheng，X. Qian和L.小郭。基于弱监督学习的高分辨率卫星图像语义标注。IEEE TGRS，54（6）：3660[36] D. Zhang，J. Han，J. Han和L.邵基于间隙内先验传递和深度间隙挖掘的共显著性IEEE TNNLS，27（6）：1163[37] D. 张，J.汉角，澳-地Li，J.Wang和X.李通过观察深度和广度来检测共同显著的物体IJCV，120（2）：215[38] D. Zhang，L.孟湖，加-地赵和J。韩基于自定进度课程学习的桥接显著性检测到弱监督对象检测。InIJCAI，2016.[39] T. Zhou，P. Kr aühenbuühl，M. Aubr y，Q. Huang和A. A.冰-冻。通过3d引导的循环一致性学习密集对应。在CVPR，2016年。[40] M. Z.齐亚，M。斯塔克湾Schiele和K.辛德勒用于物体识别和建模的详细三维表示。IEEE TPAMI，35（11）：2608

下载后可阅读完整内容，剩余1页未读，立即下载