贪婪结构学习分层组合模型

196 浏览量更新于2023-10-19 收藏 12.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1116120贪婪结构学习分层组合模型0Adam Kortylewski Aleksander Wieczorek Mario Wieser Clemens BlumerSonali Parbhoo Andreas Morel-Forster Volker Roth Thomas Vetter数学与计算机科学系，巴塞尔大学0摘要0在这项工作中，我们考虑了从一组图像中学习对象的分层生成模型的问题，这些图像显示了对象在可变背景混乱中的示例。现有的方法在解决这个问题时受到了对对象几何结构的强先验假设的限制，并且需要分割的训练数据进行学习。在本文中，我们提出了一种新颖的学习分层组合模型（HCMs）的框架，它不受上述限制的影响。我们提出了HCMs的广义形式，并描述了一个贪婪的结构学习框架，包括自下而上的部分学习和自上而下的模型组合。我们的框架通过背景模型将前景-背景分割问题整合到结构学习任务中。因此，我们可以通过仅基于类标签进行前景-背景分割来联合优化层次结构的层数、每层的部件数量以及前景-背景分割。我们展示了学习到的HCMs在语义上是有意义的，并且在标准的迁移学习数据集上进行对象分类时取得了竞争性的结果。01. 引言0在自然图像中进行对象分析需要从有限的观察中进行泛化，以适应由对象的几何、外观和背景混乱的变化生成的潜在无限数量的图像模式。生成式对象建模[14, 41,2]是一种非常有前景的对象分析方法，因为它自然地将不同的分析任务（如检测、分割和分类）集成到一个联合推理过程中。然而，到目前为止，学习生成式对象模型需要在训练过程中进行详细的人工监督，而在测试时的后验推理速度较慢。分层组合生成模型[17, 9,40]提出通过强制实施更高效的表示来解决这些问题，从而实现快速推理。0特征共享和上下文推理。这种分层组合模型（HCMs）在各种应用中展示了令人印象深刻的泛化能力，如图像分类[9]、对象解析[40]、领域自适应[5]和一次性学习[34]。然而，到目前为止，只有当HCM的分层结构已知[5]（图1b）或者训练数据中的对象已经从背景中分割出来[11,22]时，才能学习HCMs。因此，一个重要的开放性研究问题是：0如何在没有详细的人工监督的情况下从自然图像中学习分层组合模型的图结构？0学习HCMs结构的主要挑战在于需要解决一个根本性的先有鸡还是先有蛋的问题：为了学习HCM的图结构，必须将对象从背景中分割出来，然而为了从背景中分割出对象，需要一个对象模型。现有的结构学习方法通过以下假设解决了这个问题：0A1对象的结构是先验已知的，包括部件的数量和它们的层次关系[40, 5]（图1b）。0A2 只基于局部图像信息就可以将对象与背景区分开来[9,40]。0A3 训练图像中的对象已经从背景中分割出来[11, 22]。0假设A1和A3在训练过程中需要详细的人工监督，因此不令人满意。假设A2通常在自然图像中不成立，因为物体的外观在局部上高度模糊不清[19]。当从自然图像中学习时，这导致背景结构成为对象模型的一部分，或者对象的部分在表示中被忽略[31]。本文的主要贡献是提出了一种学习分层组合图结构的框架。116130(a)0(b)0(c)0图1：不同类型的分层组合模型的比较。 (a) 训练数据的样本； (b & c)分层组合模型，黑色笔画表示不同位置和方向的边缘特征。 (b) Dai等人提出的方法学习了一个不自然而任意的对象分解。 (c)我们提出的贪婪组合聚类过程学习了一个有语义意义的分层组合模型，而不需要任何关于对象几何的先验知识。0在不依赖于假设A1-A3的情况下，构建模型。具体而言，我们做出了以下贡献：0•HCMs的广义形式。我们提出了一种广义形式的分层组合模型，可以对具有任意数量部分的对象进行概率建模。0•贪婪结构学习框架。我们提出了一种新颖的贪婪学习框架用于分层组合模型。它包括一个自底向上的组合聚类过程，推断HCM中每层的部分数量以及层数。随后的自顶向下过程将学习到的分层部分组合成一个整体对象模型。0•结构学习中的背景建模。我们将背景模型引入到结构学习过程中，从而将前景-背景分割任务整合到学习过程中。通过这种方式，我们可以解决提供分割训练数据的需求。0•克服相关工作的局限性。我们的定性结果表明，在不依赖于假设A1-A3的情况下，可以学习到有语义意义的HCM。我们在FourDomain数据集上进行的定量实验表明，我们学习到的HCM在分类准确性方面优于其他生成方法。02. 相关工作0可变形对象模型：可变形对象模型明确地以参考对象和对象实例可以变形的模型来表示对象。0在他们的开创性工作中，Kaas等人提出了一种用手工设计的变形模型来检测图像中的可变形轮廓的方法。Cootes等人是第一个从数据中学习统计变形模型的人。Yuille等人提出通过引入分层模型结构来放松对象不同部分之间的全局依赖关系。通过这种方式，各个部分可以在局部上独立移动，而全局能量项限制了模型的全局结构。这种树形结构模型可以高效地优化，因此在这一研究方向上取得了显著的动力，形成了一系列的研究成果。Active BasisModel是一种变形对象模型，它在一个优雅的信息论框架内进行了表述，并且除了形状变形外，还对对象的外观进行建模。在这项工作中，我们使用了Active BasisModel的分层组合推广作为对象表示。0分层组合模型：分层组合模型是一类将可变形模板扩展为分层图的模型，明确允许部分共享，从而在计算效率上获得巨大的提升。此外，它们在视觉领域中对强烈变化具有很高的鲁棒性，同时在几个计算机视觉任务中取得了最先进的性能。这些方法手动指定模型的图结构，并且仅限于学习参数，而在这项工作中，我们提出从数据中学习图结构。0学习分层组合模型的结构。从数据中学习分层组合模型的结构是可取的。一些工作[10, 9, 8, 20,40]表明，利用组合模型的模块化特性使得以自底向上的方式逐个父子团簇地聚类轮廓成为可能。最近的关于在不断变化的视觉环境中进行目标识别的工作[11, 22,21]表明，HCM在数据效率上非常高，同时对不同的视觉领域具有很强的适应性。然而，这些方法依赖于分割的训练数据。相比之下，我们提出从自然图像中学习分层组合模型的结构和参数，而不依赖于关于对象几何的分割训练数据或先验知识。(a)(b)116140图2：组合主动基模型中随机变量之间的依赖结构。(a)最简单的CABM，二叉树结构的马尔可夫随机场。(b)广义多层CABM的图形模型(第3.3节)。我们学习CABM的完整多层结构，包括层数L、每层的部件数NL，...，N0以及它们的层次依赖结构。0从自然图像中学习分层组合模型的结构和参数，而不依赖于关于对象几何的分割训练数据或先验知识。0生成性对象模型的背景建模。在使用生成性对象模型分析图像时，背景通常不是显式建模，而是通过检测阈值或手动指定模型参数范围的隐式表示[27]。在[35,27]中，作者提出通过让显式背景模型与生成性对象模型（前景）在推断过程中解释目标图像来解决这种人为约束。在本文中，我们提出在学习过程中将显式背景模型作为生成性对象模型的竞争者。通过这种方式，我们将前景-背景分割任务整合到学习过程中，从而克服了对详细的人工监督的需求。03. 理论背景0在本节中，我们描述了我们的分层组合对象模型的理论细节。我们首先介绍了Active Basis Model (ABM,第3.1节)及其组合泛化模型(CABM,第3.2节)。在此理论背景的基础上，我们在第3.3节中介绍了所提出的广义多层CABM。03.1. Active Basis Model0ABMs[35]是概率生成模型，用形状和外观来建模对象的变异性。ABM将图像I表示为基础滤波器Fβ0i的线性组合：0I =0i=1 ciFβ0i + U. (1)0图像I被分解为一组具有固定频带、系数ci和剩余图像U的Gabor滤波器Fβ0i。变量β0i表示基础滤波器在图像帧中的绝对位置和方向。这些参数相对于对象的中心β1进行编码，即β0i = ∆β0i +β1。参数的上标表示变量在ABM的图形模型中所在的层次。当我们讨论ABM的分层泛化时，这将变得重要。滤波器B0 = {β0i | i = 1, ...,N}的参数可以通过匹配追踪[24]从一组训练图像中学习，如[35]中所介绍的。通过对模型参数C = {c0, ..., cN}和B = {B0,β1}引入概率分布，定义了一个生成性对象模型。0p(C, B) = p(β1)0i=1 p(β0i|β1)p(ci|β0i). (2)0对象的位置和方向的先验 p(β1)在图像帧中的所有可能旋转和位置上均匀分布。各个滤波器的位置根据均匀分布 p(β0i|β1) = U(ˆβ0i-δβ, ˆβ0i+δβ)在滤波器的平均位置ˆβ0i附近变化，其中δβ描述了可能的空间扰动。滤波器系数遵循统计分布p(ci|β0i ) = exp(¯ciλ(β0i ))Z(λ(β0i )),(3)p(C, B) = p(β2)�j∈ch(β2)p(β1j |β2)�i∈ch(β1j )p(β0i |β1j )p(ci|β0i ), (4)p(C, B) = p(βL)�k∈ch(βL)p(βL−1k|βL) . . .�i∈ch(β1j )p(β0i |β1j )p(ci|β0i ),116150图3：联合自底向上和自顶向下的组合学习方案示意图。在自底向上过程（蓝色框）中，基础滤波器（黑色笔画）被组合成更高阶的部分，直到找不到更多的组合为止。随后的自顶向下过程（绿色框）将学习到的分层部分字典组合成整体对象模型（橙色框）。0以指数族模型的形式表示的分布：0其中每个滤波器系数都通过sigmoid变换进行限制， ¯ c i = τ [2 / (1 + exp ( − 2 c i /τ )) − 1] ，饱和值为 τ，以防止模型对强边缘的过拟合。自然参数 λ ( β 0 i )通过最大似然估计从训练数据中学习得到，归一化常数 Z (λ ( β 0 i ))可以通过对一组训练图像上的分子进行积分来估计（有关此过程的更多细节可参见[35]）。ABM的核心限制在于它们假设各个基础滤波器之间是统计独立的（方程式2）。因此，它们在建模大型对象变形和强外观变化方面的能力有限[5]。在下一节中，我们介绍组合主动基模型[5]，它通过引入基础滤波器之间的分层关系来克服这一限制。03.2. 组合主动基模型0图2a图形化地说明了由Dai等人提出的两层组合主动基模型（CABM）的依赖结构。请注意变量之间的树状依赖结构，它通过动态规划实现了快速的后验推断。两层CABM的概率图像模型定义如下：0其中运算符 ch ( ∙ )选择子节点集合。与原始ABM（方程式2）相比，引入了额外的依赖关系，即各个基础滤波器的组（ ch ( β 1 j )）。通过这种方式，对象的全局结构被划分为多个条件独立的基础滤波器组。这允许对对象的几何形状中的长程相关性进行建模，而标准ABM无法实现。CABM的学习最初是在[5]中提出的，然而，每层的部分数量被假设为先验已知，层数被固定为2（参见图1b）。在下一节中，我们将介绍CABM的一般化，通过贪婪的结构学习框架，我们可以克服这一假设。03.3. 提出的方法：多层CABM0我们可以将CABM模型推广到任意数量的分层层次 L ：0（5），对应于图2b中显示的图形模型。基于这种多层泛化，模型变得更具表达力，因此可以表示具有非常不同几何结构的对象，例如长而细的对象以及小而紧凑的对象。通过这种方式，我们避免了需要事先指定模型的依赖结构的需求，从而克服了原始模型的主要限制[35]（将具有指定和学习的依赖结构的图1b和图1c进行比较）。然而，额外的模型灵活性的代价是需要学习概率模型的完整依赖结构，包括层数 L，每层的部分数量 N L ，...，N 0以及它们的层次依赖结构。注意，方程式（5）可用于计算和比较由不同组件组成的模型的后验概率。在下一节中，我们提出了一种贪婪的结构学习框架，用于从数据中估计这些参数。04.贪婪结构学习0在本节中，我们描述了一种贪婪的结构学习算法，该算法从自然图像中推断出多层CABM的完整依赖结构。图3说明了这个学习过程的两个阶段：自下而上的组合聚类过程（图3蓝色框）和自上而下的模型组合阶段（图3绿色框）。在自下而上的过程中，首先学习层次结构中较低层的部分，然后将它们组合成更高阶的部分。自上而下的过程将（独立的）层次部分组合成一个整体对象模型。116160Algorithm 1 Bottom-Up Compositional ClusteringInput: Set of Gabor filters B0 = {β00, ..., β0n0};0.训练图像集I 输出：分层组合部分模型集B ={B1，...，BL}。01：L = 1 2：do 3：BL ←GreedyLearning(BL-1, I) 4：L = L + 105：while p(BL，...，B0 | I) > p(BL-1，...，B0 | I)06：function GREEDY LEARNING(BL-1, I)7：n = 0 8：BL = {}09：do 10：βLn，βLn+1 = init random models(BL) 11：//βLn+1 serves background model 12：for #iterations do13：// E-Step 14：data ← get trainingpatches(βL0，...，βLn+1，I) 15：// M-Step016：βLn ← learn compositional model(data, BL-1)017：BL ← {BL，βLn} 18：n = n + 1 19：whilep(βLn，...，βL0 | I) > p(βLn+1，βLn-1，...，βL0 | I)0以下段落详细描述了这两个过程。04.1.自下而上的组合聚类0我们建议将结构学习任务表述为一种组合聚类过程，该过程在算法1中描述。我们的HCM的依赖结构是一种类似树状的马尔可夫随机场（图2和方程5）。这使得我们能够以自下而上的方式学习模型，即我们可以先学习第一层部分，然后再组合它们成为更大的部分（算法1，第1-5行）。在层次结构的每一层，根据贪婪EM类型学习方案学习部分，该方案推断出每个部分的结构以及训练图像I中的部分模型数量（算法1，第3行）。贪婪EM类型学习。所提出的贪婪学习方案的一般过程在（算法1，第6-19行）中描述，而图4a类似地说明了一个特定的学习示例。我们首先解释算法过程，然后评论视觉说明。学习过程从两个部分模型（β11，β12）开始初始化，这些模型是使用匹配追踪从随机采样的训练数据中学习的（算法1，第10行）。随后执行EM类型的更新方案（算法1，第12-16行），具体如下：01.检测（E步）：在训练图像的不同位置和方向上检测部分模型。在检测到的位置上裁剪出补丁，作为M步的新训练数据（算法1，第14行）。02.学习（M步）：使用匹配追踪从训练补丁中学习一个部分模型（算法1，第16行）。0在EM迭代中，我们只更新一个部分模型（β11），而另一个模型（β12）保持固定在其初始状态，并且仅参与检测阶段。通过这样做，它作为一个通用的背景模型，防止β11解释那些其归一化后验p（β11 | I）小于p（β12 |I）的图像补丁（类似于方程05和图2b）。这种机制支持β11特化到特定的图像结构（例如图3中的表盘刻度），通过解释掉无关数据（例如从背景杂乱中采样的补丁）。在固定的迭代次数和两个新的部分模型β12和β13被添加到模型池中（算法1，第10行）。然而，这次训练补丁不是随机采样的，而是与边缘后验p（β11 |I）成反比例。通过这种方式，那些已经被已学习模型β11很好解释的区域，不太可能作为新模型的训练数据被采样。在接下来的迭代中，β12在学习阶段进行更新，而β11和β13作为竞争者，在检测阶段解释掉无关的训练补丁。学习过程一直进行，直到β12收敛。这种贪婪学习方案重复进行，直到新初始化的模型无法比任何先前学习的模型或背景模型更好地解释训练补丁（算法1，第19行）。图4a类似地说明了这种贪婪EM类型学习方案的前几次迭代。在所示的例子中，第一层部分β1i被学习为由五个Gabor滤波器（彩色椭圆）组成。我们可以观察到，学习的模型专门针对特定的局部图像结构，而背景模型（虚线矩形）具有相当随机的结构。图4b用最终的部分模型集B1 = {β1n | n =1，...，N1}对训练图像进行编码。请注意，不同的模型已经专门针对手表的不同部分。自下而上的学习。在学习第一层部分B1之后，结构归纳过程继续通过将B1的元素组合成第二层部分B2。因此，我们遵循相同的贪婪EM类型学习过程。然而，这次算法不是组合单个基础滤波器，而是将B1的元素组合成更高阶的部分。我们逐层迭代地重复组合学习，直到归一化的模型后验不再增加（算法1，第5行），从而在层次结构的每一层生成分层部分模型的字典{B1，...，BL}（图3，蓝色框）。116170(a)0(b)0图4：所提出的贪婪EM类型学习过程的示意图。部分模型由5个表示为彩色椭圆的Gabor滤波器组成。(a)贪婪学习方案的前t=22次迭代。每一行显示了部分模型随时间的演变。每一列显示了学习过程中一次迭代的学习结果。当初始化新的部分(t=1,6,11,...)时，还从训练图像中学习了一个通用的背景模型(由虚线矩形标记)。背景模型和学习到的部分模型在后续迭代中不进行调整(灰色背景)，但作为E步骤中数据的竞争对手。有关详细信息，请参阅第4.1节。(b)使用学习到的部分模型对训练图像进行编码的示例。04.2. 自顶向下的模型构建0在自底向上的学习过程之后，必须将学习到的部分字典{B1,...,BL}组合成一个完整的对象模型(图3中的绿色框)。请注意，对象的不同部分可以在层次结构的不同层次终止。例如，图3中手表表盘上的小时标记(橙色框)在第二层表示，而手表的圆形形状由更多元素组成，因此在更高的层次上表示。我们建议采用自顶向下的模型构建过程来学习完整对象的依赖结构，引入了自顶向下的模型构建过程。0首先，通过在所有训练图像中检测最高层的部分模型BL来对训练图像进行对齐，然后通过对齐图像来对齐模型BL0在对齐步骤之后，我们以自顶向下的方式(图3中的绿色框)进行处理，通过匹配追踪从最高层向对象模型中添加部分。我们迭代地进行逐层处理，直到层次结构的底层。在这一点上，我们已经从自然图像中学习到了一个分层的组合对象模型(图3中的橙色框)。注意-0从自然图像中学习到了层数L、每层的部分数NL，...，N0以及分层依赖结构，而不限制对象的几何形状或要求分割的训练数据。05. 结果0我们通过将其与[5]中提出的HABM方法进行比较，定性地评估了所提出的HCM学习方案。在FourDomain数据集[12]上进行了领域自适应任务的定量结果，并与其他生成方法进行了比较。需要注意的是，在目标识别任务中评估生成性对象模型是困难的，因为它们是通过数据重构准则进行优化的，因此自然表现比直接通过判别准则进行优化的方法差。此外，生成模型提供了除了纯粹的类别标签之外的多种信息，例如对象的位置、详细的部分注释和前景-背景分割。参数设置。在我们的实验中，图像的平均高度为300像素，而Gabor滤波器的尺寸为17像素。Gabor滤波器和更高层的部分以10度的步长旋转。我们通过实验发现-KSVD [1]20.5 ± 0.819.8 ± 1.020.2 ± 0.916.9 ± 1.013.2 ± 0.614.2 ± 0.714.3 ± 0.346.8 ± 0.8SGF [13]36.8 ± 0.532.6 ± 0.735.3 ± 0.531.0 ± 0.721.7 ± 0.427.5 ± 0.532.0 ± 0.466.0 ± 0.5HABM [5]53.7 ± 4.743.2 ± 4.941.2 ± 1.628.1 ± 2.025.8 ± 1.633.5 ± 2.934.6 ± 3.768.2 ± 2.9OURS62.3 ± 3.443.7 ± 2.954.0 ± 2.433.3 ± 1.729.5 ± 1.135.0 ± 3.633.1 ± 2.465.6 ± 3.8116180方法 C → A C → D A → C A → W W → C W → A D → A D → W0表1：无监督领域适应：FourDomain数据集上的分类得分。四个领域分别是Amazon（A）、Webcam（W）、Caltech256（C）、DSLR（D）。我们将我们的结果与使用K-SVD的字典学习、子空间测地流（SGF）和分层主动基模型（HABM）进行了比较。我们的方法在八个实验中的六个实验中优于其他生成方法。0方法 C → A C → D A → C A → W W → C W → A D → A D → W0Metric [26] 33.7 ± 0.8 35.0 ± 1.1 27.3 ± 0.7 36.0 ± 1.0 21.7 ± 0.5 32.3 ± 0.8 30.3 ± 0.8 55.6 ± 0.70SGF [13] 40.2 ± 0.7 36.6 ± 0.8 37.7 ± 0.5 37.9 ± 0.7 29.2 ± 0.7 38.2 ± 0.6 39.2 ± 0.7 69.5 ± 0.90FDDL [36] 39.3 ± 2.9 55.0 ± 2.8 24.3 ± 2.2 50.4 ± 3.5 22.9 ± 2.6 41.1 ± 2.6 36.7 ± 2.5 65.9 ± 4.90HMP [3] 67.7 ± 2.3 70.2 ± 5.1 51.7 ± 4.3 70.0 ± 4.2 46.8 ± 2.1 61.5 ± 3.8 64.7 ± 2 76.0 ± 40SDDL [29] 49.5 ± 2.6 76.7 ± 3.9 27.4 ± 2.4 72.0 ± 4.8 29.7 ± 1.9 49.4 ± 2.1 48.9 ± 3.8 72.6 ± 2.10HABM [5] 68.3 ± 2.3 57.4 ± 6.0 52.7 ± 3.0 54.8 ± 2.8 42.2 ± 3.1 57.1 ± 3.5 60.1 ± 3.2 79.7 ± 2.50OURS 72.2 ± 0.7 58.1 ± 5.1 58.5 ± 1.2 53.4 ± 1.2 47.6 ± 1.8 61.7 ± 3.2 65.6 ± 2.8 78.5 ± 2.00表2：半监督领域适应：FourDomain数据集上的分类得分。四个领域分别是Amazon（A）、Webcam（W）、Caltech256（C）、DSLR（D）。我们将我们的结果与子空间测地流（SGF）、FDDL、共享领域适应字典学习、分层匹配追踪（HMP）和分层主动基模型（HABM）进行了比较。我们的方法在八个实验中的五个实验中优于其他方法。0在贪婪学习方案中，部分模型在5次学习迭代后收敛到稳定解。层次图结构被定义为在层次结构的每一层组成两个部分。改变每层组成的部分数量会对训练过程中学习的总层数产生影响，然而，我们发现这对于整体性能没有特别的影响。05.1.视觉领域适应0我们遵循使用生成的基于部分的模型作为判别方法的特征提取器的常见评估协议。这种设置的理论基础是，生成模型对视觉环境的变化高度适应，因此适合用作领域适应任务的特征提取器。我们在FourDomain数据集[12]上评估我们的方法，该数据集由以下数据集的10个相同类别组成：Amazon（从亚马逊下载的图像）、DSLR（高分辨率图像）、Webcam（低分辨率图像）和Caltech256[15]。在每个数据集中，图像分辨率、光照条件、背景、对象纹理和空间位置都有显著变化。我们遵循[12]中介绍的标准评估协议。我们测试了两种实验设置：在半监督设置中，算法可以访问目标域中的少量数据，而在无监督设置中，训练0仅从源域中采样图像。如[5]所提出，我们使用学习的HCM作为空间金字塔匹配[23]的特征提取器。在提取的特征上训练多类支持向量机进行分类。表1和表2中的分类结果显示：0我们的方法在无监督领域适应任务中表现优于其他生成方法（表1）。需要注意的是，我们的方法与HABM完全使用相同的Gabor基函数。性能的提升可以归因于我们学习了分层结构，并且没有像HABM那样事先指定它。有趣的是，当从DSLR数据集中学习时，我们的方法被HABM超越，因为DSLR数据集具有强烈的领域内视角变化。由于我们强制学习单个整体对象模型，我们的方法专门针对其中一个视角，而HABM方法则学习了多个模板。需要注意的是，我们的方法原则上可以扩展到多对象学习。0在半监督设置下，我们的模型在大多数实验中取得了最佳性能（表2）。再次，在大多数实验中，我们的方法优于HABM方法。有趣的是，在从DSLR学习时，我们的方法与HABM之间的性能差距在半监督设置下基本上被消除。原因是亚马逊和网络摄像头类别中的对象在视角上具有显著较少的变化。我们的学习方案可以利用这一点，并专门针对最常见的视角进行专门化。Our approach learns the structure of HCMs fromnatural images. The learning results of Figure 5b & 5cdemonstrate that our approach is able to learn the hierar-chical structure of HCMs from cluttered natural images.Importantly, our approach does not depend on detailed hu-man supervision during learning. This is in contrast to priorwork that relies on detailed object segmentations [11, 22] ora-priori knowledge about the hierarchical structure [5, 40].Our HCMs are more efﬁcient and semantically moremeaningful compared to prior work. Learning the fullhierarchical structure enables the reuse of parts within thehierarchy (e.g. the wheels of the bike in Figure 5c), which isnot possible in the HABM approach [5] (Figure 5d). There-fore, our HCMs have semantically more meaningful partsthat provide additional information about the internal se-mantics of the object. Furthermore, our learning process ismore data efﬁcient as the part models can leverage the re-dundancy within objects (e.g. if the same part occurs multi-ple times within the same object).A limitation of our approach and any prior work, includ-ing HABM, is that so far it is not possible to learn HCMsof articulated objects (e.g. the windmill in Figure 5). Al-though the individual parts of the windmill are learned byour bottom-up process (Figure 5b), the top-down processcannot compose the parts into a holistic object model as ourdeformation model assumes that the relative orientation be-tween parts of an object stays approximately the same.116190图5：学习到的分层组合模型。（a）训练数据的样本。（b）通过我们的自下而上过程学习到的分层部件字典。（c）自上而下过程后的整体对象模型。（d）通过HABM方法[5]学习到的HCM。灰色方块表示其HCM的部件。与HABM相比，我们的方法能够学习到层次结构的部件数量和层数。由于其部件之间的强烈相对旋转，这两种方法都无法学习到风车的整体结构。05.2. 定性评估06. 结论在这项工作中，我们考虑了从一组只显示对象在可变背景杂乱中的图像中学习对象的层次生成模型的挑战性问题。在这个背景下，我们做出了以下贡献：多层组合主动基模型（CABMs）。在相关工作的基础上，我们提出了一个具有任意层数和每层部件的CABMs的广义概率形式。我们的模型更加灵活，能够表示具有非常不同几何结构的对象。它还为学习层次对象表示提供了可能性，这些表示可以高效地重用部件，从而提供关于对象内部结构的丰富信息（图1c和5）。从杂乱数据中学习结构。我们引入了一个基于类标签的从自然图像中学习多层CABMs结构的框架。值得注意的是，尽管图像存在高度可变的背景杂乱和对象外观的复杂变化，我们能够学习到完整的依赖结构，包括层次结构中的层数和每层的部件数量。重要的是，我们的框架克服了相关工作的局限性，这些工作要么需要分割的训练数据，要么对对象的几何形状做出了过于强烈的假设。所学习的模型在标准领域转移数据集上的对象分类任务中也优于其他生成对象模型。致谢：A.K.受到Novartis巴塞尔大学生命科学卓越奖学金和SNSF资助P2BSP2181713的支持。A.W.，M.W.，S.P.部分受到NCCRMARVEL和SNSF资助CR32I2159682和51MRP0158328的支持。116200参考文献0[1] Aharon, M., Elad, M., Bruckstein, A.: K-svd:一种用于稀疏表示的过完备字典设计算法.信号处理，IEEE交易 54 (11), 4311–4322 (2006) 70[2] Blanz, V., Vetter, T.: 一种用于合成3D人脸的可塑模型.在：第26届计算机图形学和交互技术年会论文集，pp.187–194. ACM Press/Addison- Wesley Publishing Co.(1999) 10[3] Bo, L., Ren, X., Fox, D.: 图像分类的分层匹配追踪:结构和快速算法. 在：神经信息处理系统进展，pp.2115–2123 (2011) 70[4] Cootes, T.F., Taylor, C.J., Cooper, D.H., Graham, J.:主动形状模型的训练和应用. 计算机视觉和图像理解 61 (1),38– 59 (1995) 20[5] Dai, J., Hong, Y., Hu, W., Zhu, S.C., Wu, Y.N.:无监督学习分层组合模型的字典.在：计算机视觉和模式识别（CVPR），2014IEEE会议论文集，pp. 2505–2512. IEEE (2014) 1 , 2 , 4, 6 , 7 , 80[6] Epshtein, B., Uliman, S.:用于对象分类的特征层次结构.在：计算机视觉，2005年第10届IEEE国际会议，卷1，pp.220–227. IEEE (2005) 20[7] Felzenszwalb, P.F., Huttenlocher, D.P.:用于对象识别的图像结构. 计算机视觉国际期刊 61 (1),55–79 (2005) 20[8] Ferrari, V., Jurie, F., Schmid, C.:从图像到形状模型用于对象检测. 计算机视觉国际期刊(2010) 20[9] Fidler, S., Boben, M., Leonardis, A.:学习用于多类对象表示的分层组合形状词汇. arXiv预印本arXiv:1408.5516 (2014) 1 , 20[10] Fidler, S., Leonardis, A.:实现可扩展的对象类别表示：学习部件的层次结构.在：计算机视觉和模式识别，2007年CVPR'07.IEEE会议论文集，pp. 1–8. IEEE (2007) 20[11] George, D., Lehrach, W., Kansky, K., L´azaro-Gredilla, M., Laan, C., Marthi, B., Lou, X., Meng, Z., Liu,Y., Wang, H., 等：一种生成式视觉模型0使用高数据效率训练并破解基于文本的验证码. 科学358 (6368), eaag2612 (2017) 1 , 3 , 80[12] Gong, B., Shi, Y., Sha, F., Grauman, K.:无监督域适应的测地线流核.在：计算机视觉和模式识别（CVPR），2012IEEE会议论文集，pp. 2066–2073. IEEE (2012) 2 , 6 , 70[13] Gopalan, R., Li, R., Chellappa, R.:对象识别的域自适应：一种无监督方法. 在：ICCV (2011) 70[14] Grenander, U.: 模式理论要素. JHU Press (1996) 1 ,20[15] Grif�n, G., Holub, A., Perona, P.:Caltech-256对象类别数据集 (2007) 70[16] Hinton, G.E., Osindero, S., Teh, Y.W.:一种用于深度置信网络的快速学习算法. 神经计算 18 (7),1527–1554 (2006) 20[17] Jin, Y., Geman, S.:概率图像模型中的上下文和层次结构.在：计算机视觉和模式识别，2006年IEEE计算机学会会议，卷2，pp. 2145–2152. IEEE (2006) 1 , 20[18] Kass, M., Witkin, A., Terzopoulos, D.: Snakes:主动轮廓模型. 计算机视觉国际期刊 1 (4), 321–331 (1988)20[19] Kersten, D., Yuille, A.: 对象感知的贝叶斯模型.神经生物学当前观点 13 (2), 150– 158 (2003) 10[20] Kokkinos, I., Yuille, A.:使用分层形状模型进行推理和学习. 计算机视觉国际期刊 93(2), 201–225 (2011) 20[21]Kortylewski，A.：用于法医鞋印识别的基于模型的图像分析。博士论文，巴塞尔大学（2017）30[22]Kortylewski，A.，Vetter，T.：用于稳健模式识别的概率组合主动基模型。在：BMVC（2016）1，3，80[23]Lazebnik，S.，Schmid，C.，Ponce，J.：超越特征包：用于识别自然场景类别的空间金字塔匹配。在：计算机视觉和模式识别，2006年IEEE计算机学会会议，第2卷，第2169-2178页。IEEE（2006）70[2

下载后可阅读完整内容，剩余1页未读，立即下载