没有合适的资源?快使用搜索试试~ 我知道了~
消息传递先验学习潜在结构关系
demonstrated its benefit in applications such as image seg-mentation [38] and video frame prediction [19]. In the lit-erature of scene segmentation, there are a few attempts toleverage generative representation learning models at mul-tiple objects level [13, 14, 36, 9]. Nevertheless, very fewof them consider the structural interaction among multipleobjects or sample portions.tain significant improvement in scene segmentation, scenegeneration and object representation learning by modellingthe interactions among different components. Compared toexisting methods, our approach can capture more relationsbetween objects. Furthermore, we provide the theoreticalproperties of our proposed bi-level VAE, such as relationidentification and the Evidence Lower Bound (ELBO).53340使用消息传递先验学习潜在结构关系0Shaogang Ren, Hongliang Fei, Dingcheng Li, Ping Li0认知计算实验室0百度研究010900 NE 8th St. Bellevue, WA 98004, USA0{ renshaogang, feihongliang0, dingchengl, pingli98 } @gmail.com0摘要0是机器学习中的一个重要主题,具有广泛的应用。解缠的潜在变量代表可解释的语义信息,并反映数据中的不同变化因素。尽管生成模型也可以学习潜在表示,但大多数现有模型忽略了潜在变量之间的结构信息。在本文中,我们提出了一种新的方法,使用可分解的变分自动编码器从数据中学习解缠的潜在结构表示。我们设计了一种新颖的消息传递先验来捕捉不同数据组件之间的相互作用。不同0解缠表示学习旨在学习将数据中的潜在解释因子解缠的方法,是一个具有挑战性的问题。01. 引言0学习分解表示,将数据中的潜在解释因子解缠是机器学习和人工智能中的一个基本但具有挑战性的问题。可解释的解缠表示在无监督学习和半监督学习中展示了它们的能力。0学习[18, 25, 4, 5,41]基于变分自动编码器(VAEs)[26]或生成对抗网络(GAN)[11,31]的方法。这些方法的共同之处在于从单个实体或对象的一个数据样本中提取出解缠的表示。然而,在现实世界的场景中,通常存在多个具有复杂相互作用的对象。建模对象之间的相互作用0从图像中学习表示的主要挑战是0具有多个对象的图像在无监督设置和复杂的相互作用模式中。此外,学习现实世界中复杂的对象相互作用需要一个强大而灵活的潜在变量先验,能够自适应地编码复杂的结构关系。在本文中,我们提出了一个基于双层变分自动编码器的框架,可以无缝地集成数据分割、表示学习和关系学习。0在我们的双层模型中,潜在表示向量为0场景中的每个对象或组件分为两个部分,一个局部部分和一个全局部分。首先,局部部分控制与其他对象无关的个体属性。全局部分由场景中的所有对象共享,编码对象之间的关系以及全局潜在因素。不同对象之间的推理和交互使用基于流的模型处理,其中潜在表示的结构消息传递先验允许我们估计两个组件之间的相关交互。0总的来说,我们的工作的贡献是多方面的:i)0我们开发了一个统一的双层VAE框架,其中包含一个潜在结构消息传递先验,以无缝地集成数据分割、表示学习和关系学习。min�,✓ Ep(x) � Eq�(z|x)[log p✓(x|z)] + DKL(q�(z|x)||p(z))✓det◆.53350我们的工作与普通VAE及其变种不同,我们提供了所提出的双层VAE框架的ELBO的坚实推导,以及对潜在结构先验的全面理论分析,以及关系恢复和潜在表示学习,我们对我们的方法在潜在表示学习和组件分割任务上进行了广泛的实证评估。实验表明,使用我们的双层VAE的推理机制可以改善不同组件的分割、生成和解缠表示。02.相关工作02.1.基于VAE的解缠0VAE的变种已经在解缠方面取得了SOTA性能0无监督解缠学习。可以假设潜在空间上有一个特定的先验分布p(z),并使用深度神经网络参数化条件概率p(x|z)。使用变分分布q(z|x)来近似分布p(z|x)。VAE的目标函数为0�0�0这也是负证据下界(ELBO)。也可以通过修改KL项的方式引入最终表示的各种属性。[18]提出了β-VAE,引入了一个超参数β用于KL正则化器。当β>1时,β-VAE惩罚潜在表示和数据样本之间的互信息。有几种不同的方法来学习解缠数据表示[25,4]。独立成分分析(ICA)已经扩展到非线性情况以实现变量的解缠[20, 21, 24]。0我们的工作与普通VAE及其变种不同0与我们的工作不同之处在于我们的工作具有双层结构,具有新颖的结构化消息传递先验,可以同时实现数据分割、表示学习和关系学习。02.2.场景分割0最近,研究人员将深度生成模型与无监督场景分割方法相结合0与我们的方法最相似的是[12],[2],0和[8]。在[12]中,作者提出了一种同时学习个体对象的表示和场景分割的方法。通过集成迭代摊销0推理[28]和VAE[26],该方法是一种完全无监督的学习视觉概念的方法。他们还展示了如何通过简单地最大化其证据下界(ELBO)来端到端地训练完整系统。MONet[2]采用了一个循环注意力网络来区分不同的对象,而不是使用复杂的摊销推理。通过利用加权目标和注意力掩码对场景进行分割。此外0组件的编码,Genesis[8]通过联合学习组件和掩码的表示来提高性能。我们的工作与[12, 2,8]的主要区别在于,我们建模了场景中对象之间的相互作用,采用了潜在消息传递先验。03.具有消息传递先验的潜在关系学习0我们首先介绍了提出的消息传递先验0包括前向消息传递(编码)和后向消息传递(解码)[29,32,33,30]。然后我们详细介绍了提出的双层VAE框架。注意,“组件”表示图像中的对象或数据样本中的不同部分,我们将两个术语互换使用。0图1.消息传递先验的图示,包括前向(编码)和后向(解码)的流函数f = {f1,f2,...,fK}。给定观察值y =[y1,y2,...,yK],我们可以通过前向消息传递(编码)推断出潜变量h,并通过后向消息传递(解码)获得y的重构by。这里hk = fk(yk),h = 1 K0k =1 hk,和0重构bhk = h,byk = f-10k(h)。0我们在中介绍了提出的聚合先验模型0图1.令y =[y1,y2,...,yK]是观察数据,yk来自数据组件k,h是潜变量。我们用Y表示y的分布。yk,k =1,...,K和h之间的关系是用可逆的流式网络[6,32,29]建模的。流函数fk指定了从yk的分布到潜变量hk的参数可逆变换,即fk:Rl!Rl0是可逆的。这里l是hk和yk的维度。通过hk =fk(yk),通过变量变换我们得到0log p(yk)= log p(hk)+ log0�@fk0@ yk0如图1所示,h和yk之间的关系,其中k = 1,...,K是编码(使用f =[f1,f2,...,fK])和解码(使用f = [f-10K ])的过程。0h通过聚合所有fk的输出来编码0k =1 fk0� yk0� .我们希望聚合的潜变量h是一个简洁的表示,0潜变量h是一个简洁的表示,使得模型可以完全重构数据的所有组件=qf (h|y)�.log pf�1(y|h) = log pf�1(y|bh1...bhK) + log p(bh1...bhK|h)= �KXk=1⇢12�2y����yk � f �1k (h)��2 +12�2����h � fk(yk)����2|}�+ C(2)kbu,i �u,ikL2(Y ) ·��+dnb)n (gu,ig⇤ )2Cn��+d log8 n+ log log nn ..(p✓(yk, hk|uk) = pf53360可以完全重构数据的所有组件,即确保bhk = hk = h,byk = yk = f-10k(h)。这里bhk0hk和yk的重构分别是bhk和byk。3.1.潜变量聚合0我们假设hk的每个条目,k = 1,...,K都遵循Nor-0hk和yk的重构分别是bhk和byk。3.1.潜变量聚合0作为所有k的固定值。通过h = 1 K0k =1 hk,0对于h的每个条目的先验分布是正态分布N(µ,σ2)。h和hk都可以是其他分布,例如拉普拉斯分布。基于先前讨论的编码器和解码器VAE方案,可以通过最大化证据下界(ELBO)来学习聚合模型的模型参数0log p f-1(y)≥ L(y;f)(1)0� q f(h | y)||p(h)0给定一批训练样本,使用消息传递过程计算ELBO值。我们使用h = f(y)= 1 K0k =1 fk0作为从中生成的样本0q f ( h | y )。给定一个h,我们希望它能完全重构输入数据。因此,ELBO(1)中的重构项log p f − 1 ( y | h ) 使用以下计算:0通过b h k =h0这里C = − lK ln(2 � ) − lK ln( σ 20y ) 。我们使用常数值0对于σ 20y和σ 2 ,因此C的值。我们使用来自一个0用于近似计算(1)中的KL项的训练样本批次。计算每个流函数f k的雅可比矩阵以及对数密度值是很容易的。我们使用提出的结构来估计组件之间的关系。03.2. 图形交互0设y k,i 是y k 的第i个条目。我们定义一个关系e u,i0如果存在将它们连接的映射或函数,则y u,i 和y v,j之间存在关系。关系集合是一个由多个关系组成的连接图r= { e , v},其中v表示r中涉及的变量集合,e是v中变量之间的链接函数集合。设R为关于数据集Y的所有关系集合的集合。关于Y和R,我们有以下假设。假设1:Y是连续分布的。Y的数据值是有界的,即y u,i 2 [ − M, M ] ,8 1 � u � K , 1 � i� l,M是一个常数值。假设2:关系函数是连续的、单调的和可逆的。它们的逆函数也是连续的1。01 关系e及其逆位于H¨older球W β, 1 ([ − 1 , 1] d ) 中0具有平滑性β 2 N + ,即e, e − 1 2 W β, 1 ([ − 1 , 1] d ) 。0由于关系集合r是一个连接图,总是存在一个0连接任意两个变量的路径。我们使用g �0u,i 来表示0将预测函数从其他变量传递到关系集合r中的y u,i ,而b gu,i是使用提出的消息传递模型进行估计。假设Y中的训练样本数量为n,我们有以下关于估计的定理。0定理1. 假设1-2成立,并且|R| � dim ( h ) 。设b g u,i是由具有宽度W � n的深度耦合层组成的估计器。02( β + d ) log 2 n ,以及深度0D � log n 。对于足够大的n,至少以概率1 − exp( − n0和0这里C > 0是与n无关的常数。0定理1表明不同组件之间的相互作用0在条件下,组件可以近似恢复。在假设不同关系集合的变量与其他变量独立的情况下,(1)中KL项的正则化将引导模型学习控制不同关系集合的潜在变量。最小化KL项是为了使根潜在变量h的每个条目在彼此之间更加独立,这是因为我们使用的先验分布p ( h ) 的不同条目彼此独立。03.3. 无监督分量分割下潜在表示的可识别性0通过可逆的基于流的模型,我们可以拟合pro-0将提出的模型应用于非线性ICA框架[24, 15,21]。对于分量k,假设关于hk的分布是指数族的因子成员,具有m个充分统计量,条件是uk。这里uk是额外的观测变量。分布的一般形式可以写成0phk(hk|uk)=�l0i=10Qi(hk,i)Zi(uk)exp0m X0j=10Ti,j(hk,i)λi,j(uk)0�0这里Qi是基本测度,Zi是归一化常数,Ti,j是充分统计量的分量,λi,j是相应的参数,取决于uk。变量yk是从潜在空间到数据空间的任意复杂、不可避免和确定性变换的输出,即yk=f-10k(hk)。令T=[T1, ..., Tl],0λ=[λ1, ..., λl],且�={�:=(T, λ, f-1)0k)}。通过pa-0参数�=(T, λ, f-1)0k),0k(yk|hk) pT,λ(hk|uk)。(4)pok�kfrom the relations with other components. In the limit ofinfinite data and good convergence, the estimating modelwill give the same conditional likelihoontsas the=pmost everywhere and their derivatives d666=53370令b�为使用某种学习算法获得的参数集合,即b�={b�:=(bT, bλ,gk)}。我们用gk表示对f-1的学习近似0k,并且yk=gk(hk)0根据[24,15],我们在�上定义可识别的等价关系。对于分量k,我们没有显式的额外观测变量uk。但是我们有K-1个与之相关的其他分量的信号。根据定理1中的陈述,假设我们可以完全恢复涉及分量k的关系,并且可以从其他分量获得充分的标签支持,则模型是可识别的。0我们用y-k表示除了com-之外的其他分量0�yk|uk(y-k)0�0�yk|uk(y-k)0我们定义f-1的定义域0k为0H=H1×...×Hl。关于模型的可识别性,我们有以下定理0定理2.假设我们观察到根据生成模型(3)和(4)分布的数据,我们进一步做出以下假设0(a)充分统计量Tij(h)是可微的0dh不为零0几乎对所有h∈Hi,1≤i≤l和1≤j≤m都成立0(b)涉及分量k的关系可以被近似0几乎完全恢复并可以用uk(y-k)表示0(c)存在lm+1个不同的条件u(0)0k, ..., u(lm)0k0从y-k中找到一个矩阵0L=[λ(u(1)0k) - λ(u(0)0k), ..., λ(u(lm)0k) - λ(u(0)0k)]0大小为lm×lm的矩阵是可逆的。然后模型参数(T, λ, f-1)0k)是�A可识别的0定理2的证明和分析可以在附录中找到0补充文件中可以找到。现实世界的数据集通常更复杂,具有非平稳的分量位置。我们尝试开发一种双层潜在模型,通过整合提出的聚合先验模型、注意机制和分量分割来提高其灵活性,如下节所讨论的。04.组件的双层潜在结构0nent Segmentation0我们的目标是开发一个生成模型,可以识别数据集中组件的层次表示和关系。在本节中,我们首先介绍0数据集中组件的分层表示和关系。在本节中,我们首先介绍一种分解的潜在表示方案,然后展示所提出的消息传递聚合先验可以无缝地与一些现有模型集成。04.1.组件间的全局潜变量0行动0tent spaceZ到嵌入在样本输入空间中的流形X的生成器。假设数据集的样本有K个条件独立的组件。令x=[x1,...,xK]为生成器的输出变量,z=[z1,...,zK]是生成器的潜变量。xk是第k个组件,zk是包含组件k的所有潜在信息的相应潜变量。每个zk有两个部分,zc0k和zg0k,即zk=[zc0k,z0k]。zc0k控制0组件k的属性与其他组件无关,而zg0组件。我们用z0来表示编码了关于每个数据样本x的所有组件的全局属性信息的潜在向量。我们首先假设在给定潜变量的情况下,组件之间是条件独立的,即xi?xk|z,如果i≠k。0我们还有以下独立假设0关于组件和潜变量的信息,xi?0zk|z0,如果i≠k,并且zi?zk|z0,如果i≠k。很容易证明生成样本的分布遵循0p(x1...xK|z)=p(x1...xK|z0z)=p(x1...xK|z0z1...zK)0KY0k=10p(xk|z0z1...zK)=0KY0k=10p(xk|z0zk)=0KY0k=10p(xk|z0zc0k)。0在最后一步,zg0ks在给定z0的情况下是确定性的,因此它们可以0可以省略。0我们为潜变量使用层次结构。0如图2所示,z1,...,zK是第一层的潜在表示,z0是第二层。如前所述,z0编码了生成样本的全局属性以及不同组件之间的相关性或相互作用。zg0从z0关于组件k。我们可以以人脸为例进行说明。这里的不同组件0图2.潜变量的层次结构。左:zg是具有消息传递先验的全局潜变量。右:全局潜变量z0由K个组件共享0k和bxk分别是zg的重构represent different parts of the face, such as eyes, hair, fa-cial skin, mouth, etc. The common latent factor z0 includesfactors such as age or emotion that controls the overall ap-pearance of the face. We aim to develop a framework thatcan encode each component’s individual features as well asthe global latent factors for the whole scene. The struc-ture of the proposed prior provides sufficient capacity tocapture the relationships among different components. Itcan capture the structural configurations even in scenariosthat some component or objects are absent. The detailedstructure relationships among components are representedwith the correlations of the input entries of different flowbranches.4.2. Bi-level Latent Model StructureThe proposed message passing prior is to encode and de-code each component and capture the global latent factor aswell. To derive a simple model, we use one single VAEframework for encoding and decoding of all components.The sequence of masks for each component can be gener-ated with the approaches in MONet [2] or Genesis [8]. Themethod in Genesis leverages the latent represent of masksto improve performance.We use MPPM to represent the model that follows theMONet attention structure but enhanced with the proposedmessage passing prior. Similarly, MPPG is the model thatemploys latent representation for masks (Genesis) and alsouses message passing prior to integrate components. Fig-ure 3 presents the integrated model structure of Genesiswith the proposed message passing prior. In component k,with image x and scope sk as the input, the attention net-work a yields the mask mk to indicate whether each pixel ofx belonging to component k or not. Here sk is the attentionleftover from components 1 to k � 1, i.e., sk = [k�1i=1 mi,and s1 = 1. Figure 3 shows that the scope for componentk is calculated by sk = sk�1 � (1 � mk�1), and we havePKk=1 mk = 1. � denotes element-wise multiplication.The encoder e encodes the image and the mask (x, mk)into the latent variables zk = zckzgk. We use the messagepassing prior proposed in the previous section as the sec-ond layer auto-encoder to encode all zgks into z0 and thendecode back as bzgks. Then we feed each (zck,bzgk) to thedecoder d to generate the image reconstruction bxk. Themodel performs image segmentation by leveraging a mix-ture model that takes masks as the distribution weights ofdifferent components.The message passing prior can curbthe model’s degree of freedom and can capture the inter-action between different segments or components as well.Notations for the bi-level model are given by a table in thesupplement.4.3. ELBO of Bi-level Latent ModelThe proposed prior and the latent decomposition schemecan be applied to many generative models for segmenta-tion [12, 2, 8].Let zmkbe the latent representation ofmask k. Genesis [8] has the following assumption aboutlatent variables: p(zm1:K) = p(zm1 ) QKk=2 p(zmk |zm1:k�1) andp(zc1:K zm1:K) =Kk=1 p(zck z(5))Kpr(zmk |zp(zc|zm) =Kp(zck|zKp(zgk|z53380图3. MPPG的网络结构。a是注意力网络,e是编码器,d是解码器,fk是第k个组件的流推理网络,r是潜变量zm的循环网络。bzg0。zm0k和xk,0。0k是掩码k的潜变量。输入范围0k )。0它们对于潜变量有顺序依赖的假设0掩码的潜变量表示和组件的潜变量表示也与掩码相关。消息传递先验可以融合对潜变量表示的不同假设。我们提供了一个双层潜变量模型的通用ELBO:0L ELBO ( x ) = E q ( z c , z g , z m | x )0�0log p � ( x ) | z c , z g0− KL ( q ( z c , z m | x ) k p ( z c , z m )) + H (0+ E q ( z g | x )0�0log p ( z g | z0 )0�0− KL ( q ( z 0 | z g ) k p (z 0 ))。0我们以MPP G为例,展示如何生成0将(5)推广到特定的潜变量模型。MPP G具有la-0zm的变量0对于掩码k,zm0k依赖于zm0k −01 < k ≤ K。同时,组件k的潜变量zc0和zg0k依赖于掩码的潜变量,0p r ( z m ) = p r ( z m0k = 201: k − 1 ),(6)0k = 10k ),p ( z g | z m , z 0 )=0k = 10k , z 0 ),0p ( z c , z m ) = p r ( z m ) p ( z c |z m )。7)z|zzlog p(x) � LELBO(x; a, d, e, f, r)(8)=Eqe,r(zc,zg,zm|x)⇥log pd(x|zc, zg, zm)⇤� KL(qe,r(zc, zm|x)kp(zc, zm)) + H(zg|zm, x)+ Eqf (z0|zg)[log pf �1(zg|z0)] � KL(qf(z0|zg)kp(z0)).53390这里p r ( ∙0zg不仅依赖于zm,还依赖于z0。数据0分布是K个不同组件的混合模型,p ( x | z c , z g , z m ) = PK0k = 1 m k ( z m0k,z0k )。0这里m k ( z m0k )是图3中的注意力网络a,而0k,z0k )由解码器d参数化,如图所示0图3中的近似后验为0q ( z c , z g , z m | x ) = q r ( z m | x ) q e ( z c | z m , x ) q e ( zg | z m , x )0q r ( z m | x ) = � K0k = 1 q r ( z m01: k −,0q e ( z c | z m , x ) = � K0k = 1 q e ( z c0k,x),0q e ( z g | z m , x ) = � K0k = 1 q e ( zg0k,x),0q ( z c , z m | x ) = q r ( z m | x ) q e ( z c | zm , x )。0图3中的块带有标签r)。潜变量zc和zg的后验q e ( z c | z m , x )和q e ( z g | z m , x)由编码器e网络参数化。如图所示,它们都依赖于zm。对于双层自编码器,(x,mk)是第一层的输入,(zc0k,z0k )是第一层的0第二层的潜变量。同时,zg0第一层的输入,z0是第二层的潜变量。bxk和bzg0k是关于第一层的重构0和0如MPP G的图形表示所示(图-0ure 3),其中 z 0 MPP G可以同时聚合所有组件的信息。第二级自动0编码器使用了提出的消息传递先验模型 f = { f 1 , f 2 , ..., f K } ,即 p f − 1 ( z g | z 0 )= � K0k | z 0 ) ,而 z 0 的后验概率 q f ( z 0 | z g ) 是0模型 f 的编码过程。MPP G 的ELBO是0(8)和广义模型之间的差异0ELBO (5)是熵项, H ( z g | z m , x )。这是Genesis的假设导致的。ELBO(8)中的项可以基于方程(6-7)的讨论进行计算。(8)中的最后两项对应于消息传递先验的ELBO定义中的(1)。05. 实验0我们将提出的模型(MPP M 和 MPP G)与基准模型进行比较0与基线模型MONet [2]和Genesis[8]进行比较,使用合成和真实世界数据集。合成数据是在多对象设置下模拟的,我们展示了从中学习到的对象之间的相关性。0证明了提出的先验可以帮助学习对象之间的相关性。我们还在几个真实世界的基准数据集上验证了我们的模型。05.1. 性能度量0我们主要关注解缠和0分割并将我们的模型与现有方法进行比较。0解缠。解缠评估指标0已经有[18, 25, 7,4]提出了一些方法。对于本文中的实验,我们使用[7]中提出的协议,这是一种基于回归的方法,将潜在空间数据划分为训练、评估和测试。解缠分数是基于学习回归模型的性能获得的。度量标准[7]是衡量解缠学习的常用方法之一,它们是基于可用的地面真实潜在结构计算的,用于根据解缠、完整性和信息性评估表示。分割。根据[12],我们采用调整后的0使用调整的兰德指数(ARI)来评估分割。将地面真实掩码和预测掩码转换为二进制值,并根据相同条目值的数量来计算一对掩码的相似性。可以使用ARI分数计算成对相似性矩阵。图像生成。FID[17]分数被广泛用于评估生成模型,例如VAEs。在本文中,我们使用它来衡量图像合成的质量。0在结果表中,"表示较大的值表示更好的结果0结果,#表示较小的值具有更好的结果。05.2. 模拟多对象数据集0现在我们研究具有多个对象的提出的模型0对象图像。图像由三种类型的对象生成,绿色方块、红色圆圈和蓝色菱形。该数据集有50,000个训练样本和2,000个测试样本。样本图像显示在图4-a)和图4-b)的第一行中。我们在这个实验中使用LASSO回归器作为解缠分数, � = 0 . 2。我们尝试将对象关系纳入数据集中,以评估不同模型的性能。0(a)MONet(b)MPP M0图4.模拟的2个对象数据集上MONet(左)和我们的方法MPPM(右)的原始图像、重建图像和掩码图像。每种方法有8个样本图像。MONet无法区分菱形和圆圈。显然,提出的方法MPPM可以稳健地区分和分割不同类型的对象。10203040500.20.30.40.5MPPM10203040500.10.20.30.40.5123450.80.850.9MPPM53400在第一组实验中,我们生成了图像0包含两个对象。预定义的生成逻辑是:只有对象对{圆圈,圆圈},{圆圈,正方形},{正方形,正方形}和{正方形,菱形}出现在同一个图像中,圆圈和菱形不能出现在同一个图像中。图4的底部行比较了MONet和提出的方法的分割。算法学习到的不同组件用不同的颜色标记。我们可以看到,我们的方法清楚地将三种形状区分为三个不同的彩色组件,如图4右下角的图所示。而MONet将圆圈和菱形放在同一个组件中(图4左下角)。结果表明,我们的模型可以区分圆圈和菱形以及设计的逻辑关系,但MONet无法做到。0我们进一步研究了更复杂的模型0涉及图像中的3个对象的对象关系。在这组生成的图像中,每个图像有两个或三个对象。类似地,设计的生成逻辑是:一个图像中可以出现圆圈和正方形、正方形和菱形。圆圈和菱形不允许出现在同一个图像中。我们还注意到,具有总相关性(TC)[39]惩罚的结构化潜在空间也可以提高MONet的解缠分数。0时期0D-Score0MONetMONet-SMONet-ST0时期0D-Score0图5.不同方法在2个对象(左)和3个对象(右)数据集上的解缠分数(D-Score,�=0.2)随时期的变化。0图5给出了不同模型的解缠分数0模型以及不同的时期数量。在图5中,“MONet-S”表示在双层潜在结构部分4.1中引入的具有结构化潜在变量的MONet。“MONet-ST”表示在总相关性(TC)之外还具有结构化潜在变量的MONet。图5的左图显示了来自不同方法在模拟的2个对象数据集上的解缠分数(D-Scores),右图给出了3个对象数据集上的D-Socres。在3个对象数据集中,每个图像包含两个或三个对象。与2个对象数据集类似,一个图像中可以出现圆圈和正方形、正方形和菱形。圆圈和菱形不允许出现在同一个图像中。这些规则是数据集的潜在组件关系。0从图5的左图可以看出,提出的0具有消息传递的聚合先验可以有效地捕捉潜在因素结构并改善解缠0在2个对象数据集上的解缠分数。图5(右)显示了不同模型在模拟的3个对象数据集上的解缠分数。我们看到,在提出的先验的帮助下,提出的方法可以有效地解缠更复杂数据集上的结构化潜在因素。05.3. Multi-dSprites数据集0我们进一步使用Multi-评估了提出的先验0dSprites数据集[23]。每个图像由多个椭圆形、心形或正方形的精灵(带有一些遮挡)组成,设置在均匀着色的背景上。每个场景图像有1到4个精灵。我们使用所有可用的特征进行解缠测试,包括位置(x和y)、形状、颜色(RGB值)、方向和比例、可见性(一个二进制特征,指示哪些对象不为空)。0方法 解缠 "0MPP M(我们的方法)0.6360迭代次数0ARI0MONet0图6.Multi-dSprites数据集上两种方法的解缠和分割分数。左侧:解缠分数( " , � = 0 . 2 )。右侧:分割分数(ARI ")在不同迭代次数下的变化。0解缠分数使用LASSO计算,其中0回归器和 � = 0 . 2 。图6左侧给出了在学习率 10 − 4下经过20次迭代后的解缠性能。我们观察到所提出的方法可以实现更好的解缠分数。右侧0图6的左侧给出了分割分数(ARI)随着迭代次数的变化。由于消息传递方案的存在,由于组件之间的调整信息,所提出的模型可以在更多的迭代次数中持续改善分割。我们的方法通过更新步骤改善了分割,并产生了更合理的对象分割。05.4. Tetrominoes数据集0每个Tetrominoes数据集[23]中的图像包含三个俄罗斯方块,采样自17个唯一的形状或方向。我们对所有模型使用四个组件,即MONet、Genesis、MPP M和MPPG。我们随机选择1,000张图像进行解缠评估,并使用其余999,000张图像来训练模型。首先,图7中的三行图像分别是原始图像、重建图像和MPPM的注意力网络生成的掩码。显然,所提出的方法可以很好地分割对象。其次,表1给出了四种方法(解缠分数为 � = 0 . 001)的解缠和FID分数。我们可以看到在提出的先验的帮助下,MPP M在解缠任务上改进了MONet。与Genesis相比,MPPG可以显著改善解缠和FID分数。ShapeStacks328.4306.3235.4196.7↵ = 0.0010.2860.3110.3020.362↵ = 0.0100.4100.4120.4020.460↵ = 0.0500.5670.5340.5300.58453410图7.Tetrominoes数据集上提出方法生成的原始图像、重建图像和掩码。0方法 解缠 " FID #0MPP M(我们的方法)0.311 234.60MPP G(我们的方法)0.362 128.90表1. Tetrominoes数据集上所有模型的解缠( �
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功