生成形状模型的贝叶斯处理方法

175 浏览量更新于2023-10-16 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2231ShapeOdds：生成形状模型Shireen Elhabian和Ross Whitaker美国犹他州盐湖城犹他大学科学计算和成像研究所{shireen，whitaker}@ sci.utah.edu摘要形状模型提供了一类形状的紧凑参数化，并且已经被证明对各种视觉问题是重要的，包括对象检测、跟踪和图像分割。从网格结构表示（也称为sil-houettes）学习生成形状模型通常受到以下因素的阻碍：（1）具有难以处理的边缘和后验的数据似然性，（2）具有有限训练样本的高维形状空间（以及过拟合的相关风险），以及（3）与模型复杂性相关的超参数估计，其通常需要计算上昂贵的网格搜索。在本文中，我们提出了一个贝叶斯处理，依赖于直接的概率- tic制定学习生成形状模型的轮廓空间。我们提出了一个变分的方法来学习一个潜在的变量模型，我们利用，并扩展，最近的作品变分界限的逻辑-高斯积分，以规避棘手的边缘和后验。空间相干性和稀疏先验也被纳入，通过正则化的解决方案空间，同时避免过度拟合在这个高维，低样本量的情况下，提供稳定的优化问题。为了避免网格搜索，我们使用了模型超参数的第二类最大似然估计我们证明，该模型生成真实的样本，推广到看不见的例子，并能够处理丢失的区域和/或背景杂波，同时与最近的，基于神经网络的方法相比1. 介绍形状建模处理学习形状群体的统计特性。这通常通过从一组i.i.d. 训练从真实的未知数据中提取的样本，将各个数据点视为高维形状空间中的样本。形状模型是一种支持各种视觉和成像应用的技术，例如特征定位[1-3]、妹妹[24]。例如，图像分割通常受益于结合特定类别的对象的期望（例如，鸟类、动物、人脸），以形状先验的形式引导/约束分割过程[25]。本文解决了从网格结构表示学习生成形状模型的问题，其中形状空间中的数据点表示为在离散图像域上定义的二进制函数，即，银色的头发。关于从轮廓学习形状统计的工作有着丰富的历史，其中主要的区别是捕获局部（即，低级）与全局（即，高级）相关性。像素之间的局部结构相互作用通常捕获通用属性，例如，平滑性和连续性（通常通过马尔可夫随机场-MRF，例如，[26在这里，我们专注于设计用于捕获复杂的高级形状结构的全局模型（例如，面部、马腿、车轮），这也可以由低级空间先验来补充。在轮廓空间中学习全局形状模型是具有挑战性的，因为二进制变量需要非高斯数据似然，这通常会导致难以处理的边缘和后验。训练样本有限的高维形状空间进一步增加了过拟合的趋势。此外，与模型复杂度-10相关的超参数导致计算上昂贵的离散搜索。在这里，我们依赖于生成模型，其中轮廓是伯努利随机变量的空间相干场的实现-其这种形状的概率表示产生了某些问题的全局最优解，例如，分割和跟踪，由于参数映射空间的凸性[30]。学习轮廓空间上的概率分布相当于估计轮廓的参数图。因为形状空间是单位超立方体，所以这样的学习任务不会受益于向量空间结构。作为概率的替代方案，LogOdds将参数映射放置在向量空间中，其中加法和标量乘法具有概率解释[31]。因此，大多数经验方法都采用在一些预定义的隐函数空间上间接建模形状可变性，包括符号距离映射（SDM）和高斯2232图1. ShapeOdds：形状生成过程平滑的轮廓[31]，其零水平集反映了形状的边界。然而，这样的表示通常不具有统计基础，并且因此不受益于最优估计策略。降维技术（例如，线性[30-非参数方法（例如，[40-45 ]），另一方面，通过明确依赖于可用的训练样本，避免对潜在密度函数的形式做出假设，从而促进了在估计核宽度中编码的单个样本的局部影响，但对拟合非参数模型的稳健性和泛化提出了挑战，并在估计偏差和方差之间进行了固有的权衡[46，47]。尽管如此，这些建模方法未能定义适当的生成模型，这在处理无偏噪声（例如，缺失区域和/或背景杂波）[48它们也不容易导致分级/分层架构（例如，深度学习），它承诺捕捉不同层次的表示抽象[51，52]。此外，这些方法依赖于主子空间的最大似然估计，因此忽略了与估计的低维表示相关的不确定性 [50 ， 51 ， 53] 。Welling等人[54]认为，非贝叶斯方法非贝叶斯点估计的另一个不利后果是对正则化参数的敏感性，需要仔细的离散搜索[55，56]。最近，随机神经网络，特别是受限玻尔兹曼机（RBM）[57，58]及其深层/分层架构[59-有效的最大似然学习和推理算法可以通过省略同一层中的横向连接来实现[52，63]。受易处理算法[ 64 ]的实用开发的激励，这些模型主要依赖于一种通用类型的深层网络结构，其不注入手头建模问题的任何领域知识;也就是说，没有试图对特定的生成过程建模。因此，指数数量的通常需要隐藏单元和大量训练数据来近似任意二进制分布[65]。最近提出了形状玻尔兹曼机（ShapeBM）[60]，以通过使用轴对齐的重叠框结合权重共享方案来对形状空间进行分区来减轻对大型训练数据的需求尽管如此，ShapeBM继承了缺乏特定生成过程的缺陷。此外，这种网络的无监督、数据驱动的学习方案通常对从业者的专业知识和计算成本有很高的要求，以确定用于特定数据集的理想网络架构和相关联的超参数。在本文中，我们提出了一种方法来学习的轮廓人口，是来自一个生成模型的潜在的变化，从而直接定义一个概率密度函数的轮廓空间，而不依赖于算法的参数映射的计算。我们提出了一个潜在变量模型的贝叶斯处理-我们扩展了机器学习文献中关于逻辑高斯积分的变分边界的最新工作，旨在规避导致确定性学习的棘手的边缘似然和潜在后验。提出的变分公式通过建模后验不确定性进一步降低了对超参数的敏感性[66]。这种对计算机视觉应用的扩展利用了通用先验[52]-特别是空间一致性和稀疏性-来解开数据揭示的形状变化的内在因素。ShapeOdds还配备了一个数据驱动的超先验，可以自动估计模型超参数-使用与RBM及其深度变体相反，ShapeOdds受益于定向概率模型的解释性属性，产生简约后验，其中潜变量竞争和合作以解释观察到的形状实例[52]。这样的属性可以在观察层和隐藏层中存在横向连接的情况下用无向模型来实现[52]，代价是不能受益于有效的基于采样的训练算法（例如，[67-2233n=1l=02n=1l=1L联系我们从而降低了过度拟合的风险。实验表明，ShapeOdds能够生成真实的样本，gener-alize看不见的数据，并处理无偏噪声。ShapeOdds为丰富的形状模型类别铺平了道路，可以引入潜在模型的深层架构来捕获更复杂的形状分布。2. 轮廓的隐高斯模型考虑在包含D个像素的空间域Rd（这里d=2）前景物体ω由剪影f∈ {0， 1}D表示，其中f（x）=1，当且仅当x∈ωx∈λ。在生成意义上，f是D伯努利空间相关场的实现随机变量定义在具有逐像素参数的随机变量q（x）∈[0，1]，其中q（x）=p（x∈ω）.空间规律性轮廓，通常被建模为MRF，帮助描述{φn}N好吧虽然它们位于线性子空间中在P中，它们通常对应于F中非线性流形。在高维环境中，对数似然的次优局部极大值将导致映射h，其在F中引入严重扭曲的流形，从而在Z中产生多模态后验分布。惩罚高度扭曲的映射通常通过正则化来实现[72]，从贝叶斯的观点来看，这需要在由超参数控制的映射参数W和w0上引入平滑先验。该先验通过正则化解空间和统计目的为学习过程提供稳定性来达到计算目的，这是为了避免在这种高维低样本量场景中过拟合[72]。我们引入了高斯MRF（GMRF）先验在个别加载/偏移向量相邻像素之间的局部相关性。伯努利{wl}L其中wl：n→RD在地图上的先验QL似然具有指数族分布的等价形式，该指数族分布由实值φ（x）∈R的域参数化，称为自然参数，其中φ（x）= logit[q（x）]，其中q（x）是这种形式，因此表示期望参数。的考虑这种等价性的优点是将任何参数估计问题作为自然参数空间中的无约束优化。因此，轮廓的生成模型包括逐像素伯努利似然和MRF空间先验。ping h可以分解为p（W，w0）= l=0p（wl|λ 1）。向量w l上的平滑度先验可以写为吉布斯分布p（wl|λl）exp {−λ l E（wl）}其中λ l> 0是控制一般-结果映射的可实现性方面。因此，选择吉布斯能量E（wl）以通过使突变边缘周期化而有利于平滑矢量。我们使用拉普拉斯平方能量，即，E（wl）=wl2以量化w l内的边。轮廓流形是由潜在维度p（f|φ）=.Yx∈ΩΣp（f（x）|φ（x））×1次实验Z.Σ-1U（f）不（一）L. 尽管如此，对这个选择可能变得计算上难以处理，特别是当将所提出的形状模型扩展到混合物时，与 p（f（x）|φ（x））= exp [f（x）φ（x）−llp[φ（x）]]（2）潜在模型的深层架构。概率为-其中llp[φ] = log.Σ1 +eφ是逻辑日志分区LGM的仿真允许这种离散模型选择，在贝叶斯范式中处理[73]。我们做出函数，U（f）是有利于空间共对于不同的轮廓，Z是吉布斯分布归一化温度是常数，T是它的温度[71]。考虑silhouettes空间F中的未知形状分布p（f），其中我们仅具有轮廓集合F={fn}N <$F。在潜变量形式中，这种分布由低维的L个独立潜变量的形状生成过程z∈RL，其中L<$D。这里我们考虑一类潜在的高斯模型（LGM），用于捕获使用稀疏诱导自动相关性确定（ARD），然后通过参数化数据驱动的先验分布进一步正则化解空间，该先验分布有效地修剪掉不相关的变化因素，如数据所示[74]。我们在装载之前引入ARD向量{wl}L，其中L被设置为最大允许维度，即， L= N − 1且N ≠ D。 ARD是由βl∈R>0参数化的零均值各向同性高斯先验，使得p（wl|β l）=N（wl;0D，β−1ID）其中0D和IDD是R中的零向量和单位矩阵分别表示通过高斯隐变量观察像素在部分-通常，潜在空间Z中的点z根据高斯先验分布p（z）=N（z;μ， μ）生成，其中μ∈RL，μ∈RL×L，通过光滑映射h：Z → P映射到自然参数空间P上。logit函数进一步将P映射到期望参数空间Q。假设一个自然参数映射φ∈RD被限制在P中的一个线性子空间中，该子空间由一个因子加载矩阵W∈RD×L和一个偏移向量表示在学习过程中，对于不相关的因素，βl→ ∞，以消除所得模型的不必要的复杂性[75]。这些稀疏性和平滑性先验对加载矩阵W施加了一种特殊的结构，该结构使模型可识别性[76]成为LGM的固有属性这些先验不一定确保唯一的模型参数，但它们鼓励可解释的解决方案[77]。ShapeOdds因此指的是形状生成过程其中模型参数Θ={μ， ω，W，w}和先验hy-其中φ=h（z）=Wz+w0.因此，φ−映射会导致分布p（f|φ）的轮廓。F的相应自然参数为Φ=0预参数λ={λ，β}，其中λ∈RL+1，β∈RL. ShapeOdds定义了一个数据驱动的轮廓映射，2234.n0nnnr=1nn具有向量空间结构的P-空间。底层诱导每像素高斯后验q（φnX（x）|P中的γn）生成过程可以定义如下：x{其中γn=mn，Vn}，其中w0∈R，W∈R.zn<$N（μ，μ），fn|zn，ΘY<$Expon[φn]Mrf[v]（3）Expon[φn]=x∈<$ Expon[φn（x）]（4）φn = Wzn+ w0，w0|λ0<$GMrf[λ0]（5）WL|λ l，β l<$GMrf[λ l] Ard[β l] （6）.−1mx=Wxm+wx，Vx=WxV（Wx）T（9）注意，空间相干性仍然通过在偏移和加载向量上的GMRF优先来提升。使用（2）中的伯努利似然的指数形式，（7）的第二期望项可以用P表示为：其中GMrf[λ]=N（0D，λ S），其中S是结构包含负双拉普拉斯算子模板的矩阵xEq（φn（x）|γ<$x）[logp（fn（x）|φn（x））]n拉普拉斯平方能量Σ。 ∈X=f（x）m−x[llp[φΣ（x）]]（十）x∈nq（φn（x）|（γ）nE（wl）. （3）中的MRF先验，其超参数ν>0与（1）中的温度有关，反映了空间规律，≥x∈Ωnnnn.xxxBn（x）：=f（x）m<$−B（γ<$，α）（十一）所给出的轮廓的larity注意，ν的选择不会影响模型学习过程。方程（4）是由于局部/条件独立性公理[78，79]，即，观察变量是条件独立的，由于llp函数，等式（10）是难以处理的，并且可以通过定义具有局部的llp函数的期望的上界B来在P-空间中下界，即，每像素，变分参数αx。新的约束读作隐变量，其中Expon[φ（x）]由（2）给出的ΣNL（Θ，γ，α）=、-KLnΣ[q]+、B（x）（十二）ShapeOdds的图形模型如图1所示。nn=1`x∈nx3. ShapeOdds的变分学习ShapeOdds的潜在收益是双重的：（1）潜在维度的自动检测以避免网格搜索和（2）解空间的自动正则化以促进模型的泛化。尽管如此，这种治疗方法也带来了额外的棘手程度;高斯先验不与伯努利似然共轭，导致难以处理的逻辑高斯积分。后验的最大似然点估计忽略了相关的不确定性，即使经过仔细的正则化也会导致过拟合[54]。相反，我们提出了一个变分近似的边际似然推导出一个听话的和确定性的期望最大化（EM）算法模型学习，同时保留后验不确定性。F空间中的边际似然可以通过以下方式获得：Ln（Θ，γn，αn）为了避免重新计算每像素/每样本αx，我们使用[80]中最近提出的LLP函数的固定分段二次上界作为已证明的紧与其他二次边界相比，例如， [81，82]，其中αx=αn，x。考虑由R+1个控制点τ0定义的具有 R−区间的二次界，−∞ <τ1<... < τ R= +∞，其参数α={αr}R和αr=[ar，br，cr]通过极大极小优化进行估计，以确保紧边界[80]（此处我们使用R=20，其中误差接近于零[80]）。因此，由于近似高斯后验，上限B可以用截断高斯矩表示，其封闭形式的表达式及其梯度可用[80]。在乘积空间中积分联合密度p（f，zF × Z在潜空间Z上。为了获得一个易于处理的-B（γε，α）=ΣRr=1厄特尔τr−1N（φ;m，V）ΣΣar φ2+br φ+cr dφ（13）积分，我们限制后验分布p（zn|fn，Θ）到a温顺的家庭设q（zn|γn）=N（zn|mn，Vn），其中γn={mn，Vn}，是后验的高斯逼近，其中mn∈ RL，Vn∈ RL×L. 可以得到对数边际似然的下界通过除以和乘以后验近似，然后应用詹森不等式。我们提出了一种变分EM算法，该算法使用（13）中的固定上限来优化（12）中定义的严格下限（15）中的E步骤在给定模型参数的当前猜测Θ（i-1）的情况下优化迭代i处的变后验均值和协方差。M步骤选择Θ（i）的下一个猜测以最大化（19）中的正则化在这些ΣNΣp（zΣ|Θ)L（Θ）≥LJ（Θ，γ）=n=1 Eq（zn|γn）lognq（zn|γn）两个步骤涉及凹优化由于凹-（12）[80，83]中下界的性质和半正性+ Eq（zn|γn）[log p（fn|zn，Θ）]（7）（7）中的第一个期望项是负的Kullback-Leibler（KL）散度，它推动了变分后，高斯先验。其封闭形式由下式给出：.-K Ln[qp]=1/2log|Vn−1|−Tr[Vn<$−1<$]Enn2235双拉普拉斯算子的确定性，为此我们可以使用基于梯度的优化（参见梯度表达式的算法1在去除常数项之后，偏移和加载向量的最大后验（MAP）目标可以写为-（mn−µ）T−1（mn−µ）+L（八）E（W，w0|γ，α，α）=−L（Θ，γ，α）+（λ0/2）wTSw0利用映射h（z）和条件独立性ΣL+0Σ（λl/2）wTSwl+（βl/2）wTwl（十四）在（4）中，高斯近似后验q（zn|γn）在Zl=1l l2236nnLXΣβ（14）w.r.t.偏移和加载矢量读起来如（23）和（24）中所示：矢量gm和GV是算法1用于学习ShapeOdds的n nE-步骤：在（18）中的边界梯度，λ是指Hadamard乘积，γ（i）=argmaxL（Θ（i−1），γ，α）n∈1，.， N（15）m是m的第l项和V是第l−列nγnnnn，ln n，lLn=−Σ-µ）+gm（x）（Wx）T（16）Vn的。要在维护时启用大时间步长，姆，x∈n稳定更新，我们使用半隐式方案与有限-Ln=1GV（x）（Wx）TWx（17）前向时间推进以定义用于W1的迭代更新n2nB（x）x∈nB（x）在（26）中，其中空间卷积可以被有效地每-其中gm（x）=n个，GV（x）=n（十八）形成为傅立叶域中的乘法。M-步骤：nmxn. ΣNVΣ超参数：为了完成我们的贝叶斯治疗，Θ（i） = argmaxL（Θ，γ（i），α）+log p（Θ|（19）我们制定了一个证据近似，也就是第二类最大值，Θn=1n nYLmum可能性，我们在其中边缘化了。我们...其中p（Θ |n）= p（w0|λ0）l=1 p（wl|λl）p（wl|βl）（20）1ΣN在构建超超参数之前，超参数上的自由无信息超先验1ΣN.µ=Nn=1 中文（简体）ΣVn+（mn−µ）（mn−µ）T（二十二）导致解析积分。非信息性的超-NdEn=1LLλl和βl的先验是p（λl）λ1/λl和p（βl）λ1/βl，=dww+ λ0Sw0，∂w=−中文（简体）n=1分别超参数的边缘化ters涉及λ-积分和β-积分，每个积分都有一个00。dE=−100Ldww0Σ+λlSwl+βlwl（二十四）L Γ（D/2）|S|二分之一LΓ（D/2）|S|二分之一LV解析形式πD/2（wTSw）D/2和πD/2（wTw）D/2，分别为=gnmn，l+ 2Gn<$WVn，l（25）n=1lll l.LΣ用一个函数的积分形式。对于给定的参数，w（t）=1kw（t−1）log p（Θ）的梯度|W.R.T. wl应该与此一致l1+ tλlSl[84]第84话因此，L+t−δ（l>0）βw（t−1），n ={0，1，...，L}（26）（30）中的超参数在每对E和M步骤之后重新估计θ，以在给定当前猜测Θ的情况下计算新的θ。这种重新评估机制可以被视为H-步骤：p（Θ）=阿格夫lYLl=0YLLl. ∫∞Σp（wl|λl）p（λl）dλl. ∫0∞Σ[85]一个类似于[85]的迭代正则化，×l=1p（wl|βl）p（βl）dβl0的情况。Σ（二十七）正则化器的适当序列用于促进在高维场景中的M步收敛。λD/2|S|二分之一p（wl|λl）=lexp（2π）D/2−λl2 wTSwl（二十八）鲁棒推理：推理上下文，例如，分割βD/2p（wl|βl）=lexp .Σ-lwTwl（二十九）和跟踪，涉及查询学习的形状模型到（2 π）D/22L[001 pdf 1st-31 files]推断φ-映射（和相应的q-映射），D Dλ=，β=其中wTSw = ||Δ w||二（三十）lwTSwlwTwll l最接近一个被污染的人的轮廓失踪前-llll地面区域和/或背景杂波被呈现为不符合所学习的模型，即，离群值，引入错误的最大似然估计稳健的E-Step：γ= arg minER（γ;κ）：=γ={m，V}Σρ（Ex（γ）;κ）（31）x∈Ω由于分配了更高的ER=姆中国x（Ex（γ）;κ）（32）x∈Σm在推断过程中对外围像素进行加权。伊芙·R·=Ex（E（γ）;κ）（三十三）为了增加估计后验的鲁棒性ExV.xx∈m−µXΣ∂V我们在鲁棒的统计领域[86]，边际界限，这是更多的Ex=.∂mΣ1 1σx1-gm（x）Σ（宽x高）T（34）原谅外围像素。我们在优化上下文中制定推理问题，而不依赖于=−V2V型— σx— GV（x）（Wx）TWx（35）nNM2237（γ）=n..XΣ显式地检测要从推理过程中丢弃的离群值的空间支持。下限在（15）中，可以被重写为如下的逐像素边界我们使用Bianco和Yohai的鲁棒ρ−函数[87][88]《易经》中的“易”字，就是“易”字。后勤职能。的影响功能全文L（γ; Θ，α）=- Ex. −KL x [q||p]+B（x）（36）x∈Ω（k;κ）=ρ′（k;κ）=e−其中调整参数κ >0提供了折衷其中（8）中的负KL项可以定义为：P−空间，如（37）中的，其中μπx=wx且σπx=Wx（Wx）T。在鲁棒性和效率之间。较高的κ值产生a通过将所有像素视为内点来进行更有效的估计，...0Σ- KL x [q||p]= 1. V-100log−V型（mx−µx）2−+1（三十七）但不那么健壮。因此，鲁棒推理公式可以..二、是的。σxσx如（31）中所示，其中梯度表达式在（32）中，并且（三十三）。边际对数似然界的负值为了将较少的权重分配给被Θ差地支持的像素在（15）中是凸的，后验变分参数2238.Σ=Dγ。尽管如此，其在（31）中的鲁棒公式不再是凸的。幸运的是，尺度参数κ允许使用延拓方法来找到非凸E-R的全局最优解。全局解可以通过构造ER的连续凸近似来实现，该连续凸近似可以使用基于梯度的方法来容易地最小化，例如，LBFGS。为了构造这样一个序列，我们使用渐变非凸性算法的一个变体[89]。因此，最小化可以从κ（0）= max Ex（γ）开始，选择该最小化使得没有离群值，即，ρ′′（k; κ）> 0 k。然后可以通过降低值，并从先前近似的解开始重复最小化。4. 实验我们评估了ShapeOdds的性能，作为与基线模型的比较，w.r.t.生成有效的形状（真实性），对看不见的形状进行建模（泛化），以及从损坏的形状中重新覆盖有效的形状（鲁棒性）。数据集：我们考虑了代表形状建模中不同挑战性方面的两个数据集。(1)Weizmann马数据集[90]包含328个面向左侧的马的轮廓，具有显著的姿势变化，如[60]中所述，裁剪并归一化为32×32像素。该数据集的挑战在于，与潜在的形状变异性相比，训练样本的数量有限，由头、尾和腿的不同位置所决定。(2)Caltech-101摩托车数据集[91]包含798个剪影，裁剪并归一化为64× 64像素。我们使用这个数据集在有限的训练样本下在高维轮廓空间中表现学习ShapeOdds。基线模型：为了比较，我们考虑了最先进的 ShapeBM[60]，它学习形状模型，直接在轮廓空间中，而不依赖于任何中间表示。我们在[60]中为两个数据集使用了相同的超参数设置。使用Stavros Tsogkas等人提供的实现。[92]，我们使用预训练和 3000 个 epochs 训练了具有四个像素重叠的ShapeBM。与[60]类似，我们在马数据集的第一层和第二层分别使用了2000和100个隐藏单元对于摩托车数据集，我们使用了1，200和50个单位。我们进一步考虑了当前使用中间嵌入的实践，例如有符号距离图（SDM）和高斯平滑轮廓（GAUSS）。由于SDM的任何单调变换都可以被认为是有效的LogOdds表示[31]，因此基于SDM的表示具有无标量参数，该参数控制所得自然参数图的平滑度。此外，基于高斯的表示具有其核宽度作为自由参数。因此，为了进行公平的比较，使用训练数据的交叉验证来优化SDM的乘法因子和高斯核的宽度我们考虑在LogOdds空间中使用PCA学习形状模型，类似于[31]，并且在期望参数空间，类似于[30]。对于非参数模型，我们考虑了使用SDM的核密度估计（KDE），如[42]所示，其中我们将核宽度固定为均方最近邻距离。现实主义：我们从学习的模型中采样了一组马和摩托车，见图2，在那里我们可视化了相应的q-map 。ShapeOdds可以使用其有向模型进行采样，我们从高斯先验p（z）开始采样，然后使用映射h（z）将潜在点z映射到P−空间。使用类似于[60]的扩展Gibbs采样对ShapeBM进行采样。山姆通过对子空间内高斯分布进行采样来生成基于PCA的模型的样本，子空间内高斯分布的协方差结构由估计的主子空间的特征值定义可以注意到从期望参数空间中学习的形状模型生成的差样本，即，PCA-Prob-SDM和PCA-Prob-GAUSS。在生成的样本中明显的平滑度和重影伪影是由于将给定形状投影到期望参数空间所需的迭代投影方案[30]，这相当于将所有值为[0，1]−区间。在LogOdds空间中学习形状模型不会受到这种伪影的影响。怎么-然而，模型无法学习足够的形状可变性，导致具有相似形状的样本不能保留形状类特征，例如马腿。ShapeBM可以生成具有不同马姿势和摩托车形状的清晰定义的样本尽管如此，薄的形状特征，例如，马腿，不太清楚，特别是高度可变的姿势。另一方面，ShapeOdds可以生成清晰的q-映射具有显著的形状可变性，同时保留了马腿和摩托车把手等形状细节。概括：我们在[ 93 ]中考虑了一般化度量的一个变体，以评估学习的模型是否可以表示看不见的形状实例，并量化学习的密度函数在训练形状之间和周围展开的能力。不是像[93]中那样使用样本重建误差，我们使用[94]中的交叉熵来测量未看到的样本u遵循具有Pa的Expon分布从形状模型Θ（N）重建的rameter map q，在N-样本上训练。一般化度量读作G（u; q）。−1uTlog [q]+（1D−u）T log[1−q]。图3报告了这两种类型的泛化统计信息数据集作为训练样本大小的函数，其中N={15%，35%， 55%， 75%}的训练子集被随机绘制10次。由于KDE-SDM不试图学习轮廓分布，因此可以观察到它的推广性差，这表明它倾向于在高维空间中与稀疏训练样本过拟合。基于SDM和GAUSS的模型使用更多的训练样本以实现更好的泛化。尽管如此，较差的性能表明，它们导致次优的发电机，2239图2. 现实主义这些模型不能很好地概括看不见的数据。特别地，到形状边界的有符号距离是与底层生成过程不相关的几何表示。此外，模糊剪影失去了建模给定群体的分布的能力，这是由于沿着形状边界的盲平滑，而不管潜在的形状可变性。当在LogOdds空间中学习形状模型时，这种平滑的效果更加明显，特别是在N较小的情况下，这表明模糊轮廓不是统计在P空间中嵌入轮廓的原则方法ShapeOdds与所有基线模型相比都很好，即使与潜在的变异性相比，训练规模较小，也显示出更好的泛化性能。然而，ShapeBM在N=49个样本的马数据集上显示出略好的泛化能力其主要原因是，ShapeBM提倡轴对齐的形状空间划分与权重共享方案，以平衡估计的参数数量和模型的通用性。将ShapeOdds扩展到混合物将以数据驱动的方式和统计原则方法通过由其主导子空间参数化每个混合物组分来实现这种平衡。图4展示了ShapeOdds推广到非triv中看不见的例子，不同的方式。与其他基线模型相比，我们可以观察到从ShapeOdds中恢复的清晰的q-映射鲁棒性：我们进一步评估了ShapeOdds从损坏的形状中恢复有效形状在这里，我们考虑无偏噪声，其中没有关于图3.马的推广测度的均值和标准差(top)和摩托车（底部）数据集。越低越好。损坏的区域，即，前景和/或背景。假设一个看不见的轮廓被另一个具有参数映射qc的伯努利随机场破坏，污染率<$∈[0， 1]。我们产生了相关噪声使用通过将随机噪声与标准偏差σ c = 2的高斯核卷积而模拟的qc来进行掩模。0并将结果字段映射到[0，1]-interval。通过使用阈值对模拟的qc进行阈值化来确定丢失的前地区域和/或背景杂波，该阈值导致污染率为λ ={0。1，0。2，0。3，0。四，零。5}。图5显示了恢复的q-映射的交叉熵对于损坏的马的轮廓作为一个函数，图-图6展示了不同腐败场景的腐败马的示例推断结果。摩托车数据集显示了类似的性能，但由于空间限制而被省略请注意，ShapeBM的最佳性能是处理丢失的前景区域，例如，闭塞怎么-2240图4. 泛化：（a）看不见的轮廓，（b）训练数据集中最接近的sil-houette，（c）（a）和（b）的叠加（红色像素仅存在于看不见的样本中，绿色像素存在于仅在训练样本中，并且黄色像素存在于两者中），从（d）ShapeOdds，（e）ShapeBM，（f）PCA-LogOdds-SDM ，（ g ） PCA-Prob-SDM ，（ h ） PCA-LogOdds-SDMGAUSS，（i）PCA-Prob-GAUSS，和（j）KDE-SDM。概括措施G（u;q）（越低越好）的报告，其中粗体表示最好的推广。然而，定性和定量的结果表明，在背景杂乱和一般的无偏腐败的情况下，其性能较差。KDE-SDM基于给定的受损轮廓与每个训练样本的相似性构建φ请。然而，它倾向于为所有损坏的轮廓恢复类似的、过度平滑的q-映射。这是该模型的典型失效模式，似乎无法通过优化找到一组良好的权重，训练样本，从而恢复良好的参数图。ShapeOdds在处理低噪声水平方面取得了一些成功，但它未能正确恢复高度污染轮廓的有效q-映射所提出的鲁棒推理，另一方面，即使具有高水平的前景和/或背景破坏，也保持良好的性能。5. 结论和未来工作我们提出了一种概率生成形状模型我们的公式提供了一个易于处理的和确定性的EM样模型学习，避免过拟合-图5. 鲁棒性越低越好。图6. 鲁棒性：（a）损坏的轮廓，（b）地面实况轮廓，从（ c ） ShapeOdds-Robust ，（ d ） ShapeOdds ，（ e ）ShapeBM，（f）PCA-LogOdds-SDM，（g）PCA恢复的q-Prob-SDM ，（ h ） PCA-LogOdds-GAUSS ，（ i ） PCA-Prob-GAUSS，和（j）KDE-SDM。报告交叉熵（越低越好），其中粗体表示最佳性能。在高维形状空间中使用超参数的封闭形式重新估计公式。实验表明，ShapeOdds可以生成逼真的形状，以非平凡的方式推广到看不见的样本，并从损坏的形状中恢复形状实例。在未来，我们计划对ShapeOdds进行几项扩展，包括通过学习ShapeOdds的混合来进行形状空间的数据驱动软分区，变换不变模型学习以放松对齐训练形状的假设，通过使用重尾潜在先验来学习外围形状实例，形状和外观的联合建模，以及深度潜在模型，以允许缩放到更高分辨率的轮廓，同时避免过度拟合。2241引用[1] S. Milborrow和F. Nicolls，504[2] Y. 利湖，澳-地Gu和T.Kanade，“A robust shape model formulti- view car alignment ， ”in Computer Vision and PatternAnalogue，2009. CVPR 2009。IEEE会议，pp。2466[3] L. Gu和T. Kanade，413[4] N. H. Trinh和B. B.基米亚，“骨架搜索：使用金属形状模型的特定类别对象识别和分割，”国际计算机视觉杂志，第94卷，第103期。第2页。215[5] A. Toshev ， A.Makadia 和 K.Daniilabe ， “Shape-basedobject recognition in videos using 3d synthetic objectmodels，”in Computer Vision and Pattern Recognition，2009. CVPR 2009。IEEE会议，pp。288[6] O. Freifeld，A. Weiss，S. Zuffi和M. J.布莱克，“巡回演出的人：A parameterized model of 2d articulated hu-manshape ， ”in Computer Vision and Pattern Recognition（CVPR），2010 IEEE Conference on，pp. 639[7] Y. Yang和D.Ramanan，1385[8] V. Ferrari，F. Jurie和C. Schmid，“从图像到形状模型用于目标检测”，国际计算机视觉杂志，第87卷，第100期。第3页。284[9] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.Ra- manan ， “Object detection with discriminativelytrained part-based models”，IEEE transactions on patternanalysis and machine intelligence，vol.32，no.第9页。1627[10] J. Liebelt和C. Schmid，1688[11] B. Alexe，T.Deselaers和V.Ferrari，380[12] B. Patenaude，S. M.史密斯，D. N. Kennedy和M. Jenkin-son，“皮层下脑分割的形状和外观的基本模型”，《神经影像》，第56卷，第3页。907[13] D.格罗斯乔治角Petitjean，J.- N. Dacher和S.阮，“心脏mri中使用统计形状模型的图切割分割”，计算机视觉和图像理解，第117卷，第117号。第9页。1027[14] N. Vu 和 B.Manjunath ， “Shape prior segmentation ofmultiple objects with graph cuts，”in Computer Vision andPattern Recognition ， 2008. CVPR 2008 。 IEEE 会议，pp。1[15] M. P. Kumar，P. H. Torr和A. Zisserman，“Objcut：使用自上而下和自下而上线索的有效分割”，IEEE模式分析和机器智能学报，第32卷，第1999年10月27日，第1999- 29页。第3页。530[16] M. 富森格， P. Roth， H. 比肖夫 R. Deriche，以及A. Pinz，27岁不第8页。1157[17] T. Baltrus spanaitis，P. Robinson和L. P. Mojorge，2610[18] D. Cremers，“用于基于水平集的跟踪的动态统计形状先验”，IEEE模式分析和机器智能学报，第28卷，第8页。1262[19] M. Paladini、A. Bartoli和L. Agapito，15[20] I.Kemelmacher-Shlizerman 和 R.Basri ， “3dfacerecconstruction from a single image using a singlereference face shape” ， IEEE Transactions on PatternAnalysis and Machine Intelligence，vol.33，no.第2页。394[21] N. 哈斯勒角斯托尔山桑克尔湾Rosenhahn和H.-P. Sei-del，第28页。337-[22] C. Cao，Y. Weng、黄毛菊S. Lin和K. Zhou，“3d shaperegressionforreal-timefacialanimation ， ”ACMTransactions on Graphics（TOG），vol.32，no. 4，第41页，2013年。[23] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯，“景观：形状完成和人的动画”，在ACM图形学报（TOG），第24卷，第25页。408[24] E. Kalogerakis，S. Chaudhuri，D. Koller和V. Koltun，“Aprobabilisticmodelforcomponent-basedshapesynthesis，”ACM Transactions on Graphics（TOG），vol.号314，p.55，2012年。[25] M. Reynson和N. Paragios，&“先验知识，水平集表示视觉分组”，国际计算机视觉杂志，第76卷，第100期。第3页。23

下载后可阅读完整内容，剩余1页未读，立即下载