没有合适的资源?快使用搜索试试~ 我知道了~
1通过稀疏化发电机网络哈尔滨工程大学自动化学院,哈尔滨工程大学自动化学院,哈尔滨工程大学自动化学院2北卡罗来纳州北卡罗来纳州立大学电气与计算机工程系276953加州大学洛杉矶分校统计系90095xingxl@hrbeu.edu.cn,tianfuwu@ncsu.edu,{sczhu,ywu}@ stat.ucla.edu摘要本文提出了通过对生成器网络的分解来学习层次合成与或模型,以实现可解释图像的合成。该方法采用场景-对象-部件-子部件-基元的层次结构表示图像。场景具有不同的类型(即, 每一个都是由许多物体组成的,s(即,AND)。这可以在场景-对象-部件-子部件层次结构中递归地公式化,并且在基元级别(例如,类小波基)。为了在图像合成中实现这种与或层次结构,我们学习了一个由以下两个组件组成的生成器网络:(i)层次结构的每一层由卷积基函数的过完备集合表示。利用现成的卷积神经架构来实现层次结构。(ii)在端到端训练中引入稀疏诱导约束,其从初始密集连接的发电机网络诱导s-稀疏激活和稀疏连接的AND-OR模型。利用直接的稀疏诱导约束,即仅允许在每一层激活前k个基函数(其中k是超参数)。学习的基函数也能够进行图像重建以解释输入图像。在实验中,所提出的方法进行了测试,在四个基准数据集。结果表明,有意义的和可解释的层次表示学习与更好的质量的图像合成和重建比基线。1. 介绍最近使用深度神经网络(DNN)[22,21]在图像合成方面取得了显着的进展[11,4,18,35,2,36大多数努力都集中在开发复杂的架构和训练范例,以实现清晰和照片般逼真的图像合成[27,5,18]。虽然可以生成高保真图像,但通过DNN的内部合成过程在很大程度上仍然被视为黑盒,因此这可能会阻碍可解释AI(XAI)的长期适用性[7]。最近,已经提出了生成对抗网络(GAN)解剖方法[3]来识别预训练GAN中的内部神经元,这些神经元以事后方式使用单独的注释数据集显示可解释的含义在本文中,我们专注于从头开始学习无条件图像合成的可解释模型,并使用显式分层表示。可解释的图像合成意味着内部图像生成过程可以通过不同层的有意义的基函数来展开,这些基函数通过端到端训练来学习,并且在概念上反映场景-对象-部分-子部分-基元的层次结构。场景具有不同的类型(即,或),其中的每一个由多个对象组成(即,AND)。这可以在场景-对象-部件-子部件层次结构中递归地公式化,并且在基元级别(例如,类小波基函数)。图1显示了从头开始学习的AND-OR树的示例,用于解释面部图像的生成。场景-对象-部件-子部件-基元的层次结构是图像语法模型的主干[10,41]。AND- OR组合性已应用于图像和视觉任务[41]。随着最近DNN [22,21]的复兴以及最近基于DNN的图像合成框架,如广泛使用的生成对抗网络(GAN)[11]和变分自动编码器(VAE)方法[19,14],通常假设层次结构在DNN中隐式建模。由于传统DNN中的连接层之间的密集连接,它们经常学习层中的实体如何从其正下方的层中的“较小”实体形成的密集组成模式稀疏性原理在高维统计、机器学习、信号处理和人工智能等领域中发挥着重要作用。特别是,稀疏编码方案[32]是理解视觉皮层的重要原则。通过对线性生成模型的系数施加稀疏约束,[33]学习了类似于初级视觉皮层(V1)神经元的Gabor样1429614297图1.一个学习的与或树的例子,用于在64 × 64的分辨率下进行人脸合成。为了清楚起见,我们只显示了3层(总共5层)。从层3(部件/复合部件级)到层1(基元级)示出了AND-或树。第三层特征图的空间分辨率为8 × 8。整个网格由AND节点解释。8 × 8网格中的每个位置(x,y)由OR节点解释,例如位置(2,3)和(2,6)处的眼节点。类似地,层2和层1可以被解释为w.r.t.和-或组合物。激活的基函数在第3层和第2层具有语义上有意义的解释。第1层显示了学习的原语,涵盖了经典的Gabor样小波和斑点样原语。详细信息请参见文本最好用彩色观看从那时起,在DNN重新出现之前,文献中出现了许多关于稀疏编码的随着稀疏编码模型的显着成功,假设自然图像的自顶向下生成模型应该基于线性稀疏编码模型,或者在其所有层都包含稀疏编码原理,这不是不合理的然而,开发一个自上而下的稀疏编码模型,可以生成,而不仅仅是重建,照片般逼真的自然图像模式已被证明是一项艰巨的任务[17],主要是由于选择和拟合稀疏基函数到每个图像的困难。在本文中,我们通过重新思考发电机网络中连续层之间的密集连接向前迈出了一步我们建议稀疏地为了实现(i)层次结构的每一层都由一组过完备的基函数表示.基函数是用卷积来表示的,以便成为平移协变函数. 然后利用现成的卷积神经架构来实现层次结构,例如GAN中使用的生成器网络。(ii)在端到端训练中引入稀疏诱导约束,这有助于从初始密集连接的卷积神经网络中出现稀疏连接的AND-OR模型。利用s-直向稀疏诱导约束,仅允许前k个基函数在每一层激发(其中k是超参数)。通过这样做,我们可以利用生成器网络的高度表达性建模能力和端到端的学习灵活性,以及显式组合层次结构的可互操作性。2. 相关工作稀疏自动编码器[30,28,15]被提出用于有效的特征表示,这些表示可以提高分类任务的性能。稀疏性约束是通过Bernoulli随机变量之间的Kullback-Leibler散度[30]、归一化特征上的l1惩罚[31]和赢家通吃原则[29]来设计和鼓励的。然而,这些方法不具有生成新数据的能力。Lee [23,16]提出了一种卷积深度信念网络,它采用稀疏正则化和概率最大池来学习分层表示。然而,对于训练深度信念网来说,学习是困难的,而且计算Zeiler [39,40]提出了基于稀疏约束下图像的卷积分解来学习低级和中级图像表示的去卷积然而,对于上述方法,分层表示必须逐层学习,即首先训练网络的底层,然后固定学习的层并逐个训练上层。此外,上述方法通常适用于通过去除14298生成器网络宽度Z层数:123低频信息和突出结构信息。与上述方法不同的是,该方法可以直接对原始彩色图像进行处理,而不需要任何预处理。该模型可以同时学习有意义的层次表示,生成逼真的图像和重建原始图像。我们的贡献。本文对生成性学习领域做出了三个主要贡献:(i)它提出了可解释的图像合成,通过语义上有意义的节点的分层AND-OR模型来展开内部生成过程。(ii)提出了一种简单而有效的稀疏诱导方法,该方法可以使稀疏连接节点的层次AND-OR模型从连接层之间的密集连接的初始网络中出现。(iii)它表明,有意义的分层表示可以在图像合成中以端到端的方式学习,具有比基线更好的质量。3. 稀疏化发电机网络3.1. 图像合成和模型可解释性从图像合成中自顶向下生成学习的观点出发,向量Z=(zi,i= 1,···,d)由d个潜在因子组成我们通常假设Z<$N(0,Id),其中Id表示d维单位矩阵.在GAN和VAE中,生成器网络用于实现从潜在码向量Z到合成图像的高度非线性映射,该合成图像由位于D维图像空间中的YD等于图像的空间尺寸、宽度和高度以及色通道的数量(例如RGB图像的3 因此,发电机网络被视为因子分析的非线性扩展[12]。该模型具有以下形式:Y=g(Z; Θ)+θ,(1)Z<$N(0,Id),Z <$N(0,σ2 ID),dD,其中,θ是假设为高斯白噪声的观测误差,g(·)表示生成器网络,并且Θ收集来自所有层的参数。如图2顶部所示,图2. 上图:传统的生成器网络,在连续层之间具有密集连接(实线箭头),广泛用于GAN和VAE。底部:具有稀疏连接(虚线箭头)的所提出的AND-OR模型。详细信息请参见文本图像.从潜在代码向量Z∈Rd开始,我们有,层次:Z →O →P →B →Y,(2)层索引:1、2、3、4、5。(三)例如,图2说明了从第1层到第3层的计算流程。该层次中的符号O是在内部(H2×W2×d2)维空间中建立的,在建立时可将其视为 H2×W2d 二 维向量.类似地,符号P和B将分别实例化为 H3×W3d 三 维向量和H4×W4d四维向量。Y是生成的RGB图像尺寸为H5×W5×3。为了更好地展示如何促进稀疏连接,从密集的出现,我们看计算流程使用向量矩阵乘法的镜头[9]。在香草生成器网络中,考虑第1层中的dl维向量r,U,它连接到第1 + 1层中的一组dl+1维向量Vi令ch(U)是层1+ 1中与U连接的向量的索引的集合(即,U我们有Vi(U)=Wdl+1×dl·U+b,i∈ch(U),(4)其中Vi(U)表示U对Vi的贡献,因为在层1中可能也有其他向量U'连接到Vi。是在香草基因中学习erator网络,我们认为这是主要的缺点,Wdl+1×dl 是变换矩阵,b是偏置向量。考虑层1到层2(Z→O),U=Z是连通的阻碍了显式模型的可解释性。 我们探索并-利用图像合成中的AND-OR组合性,在O中的所有向量Vil+1×dl的和b的。学习稀疏地重新连接,考虑层2到层3(O→P),卷积通常是ally使用,所以每个U只连接到向量Vi内部图像生成过程,以可解释的方式,如图2底部所示。Wdl+1×dl和b在不同的U之间共享。3.2. 诱导与或模型不失一般性,考虑对象(O)-部分(P)-基元/基元(B)的简单层次,用pr(Vi)表示层1与Vi连接。在香草生成器网络中,ΣVi=act(Vi(Uj)),(5)j∈pr(Vi)具有密集连接的稀疏连接14299K我其中,Ct(·)代表诸如Re-LU函数的作用函数[21]。在所提出的方法中,我们通过下式计算Vi,Σ第二层到第三层:O→P。每个部分AND-节点oi,j(k2)被分解为M个子部分类型OR-节点,和Vi=S(act(Vi(Uj));kl+1),(6)j∈pr(Vi)oi,j(k3)−→Pi,j,1·Pi,j,2····Pi,j,M,(10)其中S(·;kl+1)是稀疏诱导函数。从符号Z到O,我们在dl+1维上应用稀疏诱导函数,并保留dl+1中的顶部kl+1其中M由卷积时的核大小确定用于从第2层计算第3层。类似地,每个部件类型OR节点Pi,j,t接地,D3-dimen。表示稀疏选择的sio空间向量空间,元素在结果向量中的D3之间的关系3候选人 当实例化时,我们有在ue 在随后的图层中,我们将其应用于域分别跨越D1+ 1维通过这样做,不同位置处的所得向量将具有不同的稀疏比。kl我们通常设置dl>dl+1和klkl+1,即第1层比较低的第1+ 1层具有更高的稀疏度。利用稀疏诱导函数,图像合成在表示方面发生了根本性的变化内部生成过程也更容易展开。与或模型然后从香草稠密连接生成器网络中出现。我们可以重写等式。1作为Y=g(Z; Θ,k)+θ,(7)Z<$N(0,Id),Z <$N(0,σ2 ID),dD,其中稀疏性超参数k= {k l;l= 1,···,L}。我们总结了所提出的与或模型部分原语AND节点。然后,AND-OR是递归的,在下游层中配制。现在,让我们再次查看图2,对于每个实例化的zi,我们可以遵循稀疏连接并可视化遇到的内核符号(参见图1)。3.3. 学习与推理所提出的AND-OR模型仍然可以利用现成的端到端学习框架,因为稀疏性诱导函数不改变公式化(等式1)。(七).我们采用[12]中提出的交替反向传播学习框架。表示为{Y i,i = 1,. - 是的- 是的 ,N}训练数据集包括N个图像(例如,面部图像)。学习目标-目的是最大化观测数据的对数似然1ΣN图像合成如下。第1层到第2层:Z→O。 潜在代码向量ZL(Θ)=Ni=1logP(Yi; Θ,k)由根OR节点(非终结符)表示,Z−O−→R z|z|···|z|···,zi.d. N(0,I),(8)1ΣN=N i=1∫日志 P(Yi,Zi; Θ,k)dZi,(11)12 iid其中|b表示符号a和b之间的OR切换(即,生成不同对象图像的实例化潜在代码向量)。然后,每个实例化的潜在代码向量zi被映射到对象实例AND节点Oi。对象实例其中,对观测数据Y i的潜在向量Z i进行积分,并且P(Y i,Z i; Θ,k)是完全数据似然。L(Θ)的梯度计算如下:P(Y; Θ,k)∂Θ∫AND节点Oi表示在1μ m中的对象部分分解格子Λ2(大小为H2×W2)。我们有=P(Y; Θ,k)<$ΘΣP(Y,Z; Θ,k)dZΣO−A−N−→Doi,1·01,2oi、joi,NP、(9)=EP(Z|Y;Θ,k)对数P(Y,Z;Θ,k)∂Θ.(十二)其中a·b表示符号a和b之间的组合。NP是零件符号的数量。对象部分分解通常在空间域中进行。例如,如果oi如果我们进一步将4×4域划分为2×2块,则可以使用4个部分一般来说,Eqn. 第12章分析不了在实际应用中,通常采用Monte Carlo平均,样本取自后验P(Z|Y; Θ,k)的朗之万动力学,14300Kδ2 ∂然后,每个oi,j由d2中的OR节点表示。尺寸表示稀疏选择的离子矢量空间a-Zτ+1=Zτ+logP(Zτ,Y; Θ,k)+δEτ,(13)2赫兹孟丁二2候选人 当实例化时,我们有一部分其中,τ表示时间步长,δ表示步长,Eτ与节点oi,j(k2).表示噪声项Eτ N(0,I d)。14301基于Eqn. 7,完整数据对数似然通过以下公式计算:logp(Y,Z; Θ,k)= log [p(Z)p(Y |Z; Θ,k)]其中H(P,Q)= −EP[logQ]表示两个分布之间的交叉熵。H(P(Y),P(Y; Θ,k))和H(P(Y),P(Y; Φ))分别导致两个模型的最大似然学习,而H(Θ,Φ)==−1<$Y−g(Z; Θ,k)21 中文(简体)H(P(Y; Θ,k),P(Y; Φ))连接并修改学习-2σ2ǁ − ǁ2这两个模型的H(P(Y; Θ,k),P(Y; Φ))导致其中C是与Z和Y无关的常数项。 它可以表明,给定足够的过渡步骤,从这个过程中获得的Z遵循后验分布。对于每个训练示例Yi,我们运行等式1中13得到相应的后验样本Zi。然后将样本用于等式11中的梯度计算。12个。然后通过蒙特卡罗近似学习参数ΘΣN以下效果:基于能量的模型通过将比合成的示例更低的能量分配给观察到的示例来批评然后,生成器模型通过降低合成示例的能量来改进其合成。具体地,为了更新Θ,最小化第一项等同于最大化等式11。11个国家。在Eqn中的第三项18可以写成H(P(Y;Θ,k),P(Y;Φ))=−Ep(Y;Θ,k)logP(Y;Φ)L(Θ)logp(Y,Z; Θ,k)=−ElogP(g(Z; Θ,k); Φ).(十九)∂θ1个N 1Nθiii=1∂Zp(Z)∂= N i=1 σ2(Y i− g(Z i; Θ,k))<$Θ g(Z i;Θ,k).(十五)-EZp(Z)logP(g(Z; Θ,k); Φ)∂Θ3.4. 能量模型作为一种批评众所周知,使用平方欧几里得距离1ΣN≈ Ni=1f(g(Zi; Θ,k); Φ),(20)∂Θ单独训练生成器网络往往会产生模糊的重建结果,因为细节的精确位置信息可能无法保留,并且图像中的L2损失其试图使合成的(g(Zi; Θ,k))具有低能量。为了更新Φ,我们有空间导致所有可能位置之间的平均效应。为了提高质量,我们招募了一个基于能量的模型作为发电机模型的评论家,发电机模型作为演员。基于能量的模型是参考分布的指数倾斜形式1∂-T(Θ,Φ)∂Φ1ΣNNi=11ΣNNi=1∂Φf(Yi; Φ)−f(g(Zi; Θ,k);Φ),(21)∂ΦP( Y;Φ)=Z(Φ)exp[−f(Y;Φ)]q(Y),(16)它试图使观察到的(Yi)的能量低于合成的(g(Zi;Θ,k))的能量。其中f(Y; Φ)由自底向上的ConvNet参数化其将图像Y映射到特征统计或能量,Z(Φ)= e×p[f(Y;Φ)]q(Y)dY=Eq{e×p[f(Y;Φ)]}是归一化常数,q(Y)是参考分布。例如高斯白噪声,算法1给出了学习和推理的细节4. 实验在本节中,我们介绍了定性和定量-q( Y)=1(2πσ2)D/2expΣǁYǁ2Σ-2σ2.(十七)所提出的方法在广泛用于图像合成的四个数据集上进行了测试。所提出的方法considerably获得更好的定量性能与间∂∂14302设P(Y)为底层数据分布。关于P(Y)的Expec-tation被认为是训练示例的平均值。我们通过引入以下交叉熵三角形,在统一的概率框架下,min maxT(Θ, Φ),学习了可预测的分层表示。代码和结果可以在项目页面1找到。数据集:我们使用CelebA数据集[26],人类时尚数据集[25],斯坦福汽车数据集[20],L-SUN卧室数据集[38]。 我们训练我们的建议和-在OpenFace处理的前10k CelebA图像上进行OR模型[1],完成了78,979张人类时尚图像[25]中的Θ Φ,第一个16k斯坦福汽车图像,以及第一个100kT(Θ,Φ)=H(P(Y),P(Y; Θ,k))(18)-H(P(Y),P(Y; Φ))+H(P(Y; Θ,k),P(Y; Φ)),卧室图片,全部裁剪为64×64像素。1https://andyxingxl.github.io/Deep-Sparse-Generator/14303∂Θ∂Θ∂Θ算法1学习和推理算法输入:(1) 训练示例{Y i,i = 1,.,N}(2) 网络架构和稀疏诱导超,参数k(见表1)(3) Langevin步骤lG和学习迭代T输出量:(1) 估计参数Θ和Φ(2) 合成的实施例{Y=i,i=1,.,N}一曰: 设t←0,初始化Θ和Φ。2:重复3:步骤1:F或i=1,..., N,生成ZiN(0,Id),并生成Yi=g(Zi;Θ(t),k)。更新Φ(t+1)=Φ(t)+γ<$T(Θ(t),Φ(t)),其中<$T(Θ(t),Φ(t))是表1. 实 验 中 使 用 的 网 络 架 构 上 采 样 使 用 最 近 邻 插 值 。Downsample使用平均池。LReLU是泄漏ReLU,负斜率为0.2。所有卷积层都使用大小为3×3的内核,输出通道的数量列在(·)中。还给出了稀疏诱导超参数k联系我们使用Eqn计算。21岁第四章:步骤2:对于每个i,从当前Zi开始,运行Langevin动力学的IG步以更新Zi,其中的每一步都十三岁5: 步骤3:更新Θ(t+1)=Θ(t)+γt=(L(Θ(t))-H(Θ(t),Φ(t+1),其中 ,使用等式(1)计算ΦH(Θ(t),Φ(t+1))。分别是15和20。6:设t←t+ 1第七章: 直到t=T设置和基线:表1总结了我们实验中使用的发电机网络和基于能量的网络的架构。我们比较一下我们的模型-el与最先进的图像合成方法,包括VAE[19],DCGAN [34],WGAN [2],CoopNet [35],CE-[2019 - 06 - 18][2019 - 06 - 19][2019 - 06] 19 - 0 我们使用Fre'chetInception距离(FID)[13]来评估生成图像的质量。VAE(基于变分推理)和GAN(基于对抗训练)是 两 种 用 于 图 像 合 成 的 表 示 生 成 模 型 CoopNet 和CEGAN都是基于能量的模型。然而,上述传统的GAN和基于能量的方法只能生成图像,不具有重建能力。我们的模型同时具有生成能力和重构能力,因此我们进一步与ALI和ALICE进行了比较,它们也是基于GAN的模型,但也具有重构能力。用于计算FID的生成样本的数量与训练集的数量相同。我们还比较了每像素均方误差(MSE)方面的图像重建质量4.1. 定性结果我们的AND-OR模型能够联合图像合成和重建。图3示出了重构和生成的面部图像的示例。图4、图5和图6的顶部分别示出了人类时尚图像、汽车图像和卧室图像的示例(其中图3. Cele-bA上的图像合成和重建结果。前两行显示原始人脸图像,中间两行显示重建结果,最后两行显示生成的人脸图像。学习的AND-OR树模型如图1所示。以与图1相同的方式示出了学习的与或树模型)。重建的图像和生成的图像看起来都很清晰。卧室的重建图像(图6)看起来相对模糊。卧室图像通常具有较大的变化,这可能需要更复杂的发电机和基于能量的网络架构。我们为所有任务使用相同的架构。在四个数据集上学习的AND-OR树展现了具有语义意义的内部基函数学习(出现)的内部生成过程。据我们所知,这是图像合成中第一个从头开始学习可解释图像生成的工作。正如我们在图中所示。1、4、5和6,我们的模型可以从数据集中挖掘出语义上有意义的AND-OR树层生成器网络基于能量的网络1ZN(0,I100)Y,(64×64×3)2FC,(4×4×3200);k=8Conv+LReLU,(64)3上采样,2Conv+ReLU,(512)Conv+ReLU,(512);k=8×84下采样,2Conv+LReLU,(64)Conv+LReLU,(64)4上采样,2Conv+ReLU,(256)Conv+ReLU,(256);k=16×164下采样,2Conv+LReLU,(128)Conv+LReLU,(128)5上采样,2Conv+ReLU,(128)Conv+ReLU,(128);k=32×324下采样,2Conv+LReLU,(256)Conv+LReLU,(256)14304表2. Fre 'chet起始距离(FID)的比较。更小的FID是正确的。最后一列展示了我们的方法对亚军方法WGAN的改进数据集\方法VAE [19]DCGAN [34]WGAN [2]CoopNet [35]CEGAN [6][8]第八章爱丽丝[24]我们∆CelebA53.3819.2818.8528.4920.6230.5323.1716.622.32HumanFashion27.9410.8210.1915.3911.1416.7512.568.651.44斯坦福汽车87.6433.5831.6245.3436.1250.4837.3528.362.26LSUN卧室105.7636.2633.8149.7341.6452.7939.0829.704.11图4.人类时尚数据集的结果。顶部:三行分别显示原始图像、重建图像和生成图像。下图:学习的AND-OR树模型。图5.斯坦福汽车数据集的结果。顶部:三行分别显示原始图像、重建图像和生成下图:学习的AND-OR树模型。自动地,这有助于生成过程是透明的和可解释的。(例如)从图1中,我们已经学习了语义上有意义的部分,如眼睛、鼻子和嘴。它在语义上是有意义的,因为在眼睛图6. LSUN卧室数据集的结果。顶部:三行分别显示原始图像、重建图像和生成图像。下图:学习的AND-OR树模型。不同种类的眼睛,换句话说,没有其他种类的基本功能,如鼻子和嘴,出现在眼睛此外,我们可以发现眼睛部分的基函数(子部分)从图4、我们可以学习语义上有意义的部分,比如人的头、身体、左臂和右臂。对于图5中的汽车示例,我们可以学习语义上有意义的部分,例如车窗、汽车左侧的中央支柱、前灯和汽车轮胎。更有趣的是,我们观察到,在不同的AND-OR树的原始层共享许多共同的模式类似的Gabor小波和斑点状结构,这也是在传统的稀疏编码的结果一致。值得注意的是,在没有所提出的稀疏连接的AND-OR模型的情况下,传统的生成器网络无法获得这些有意义的内部基函数,如我们可以从图7中观察到的。原因是它们利用分布式表征,单个激活的表征能力很弱。相比之下,在稀疏连接的AND-OR模型中,能量被强制收集到几个激活中,以使相应的基函数有意义。14305图7.从人脸数据集上的传统生成器网络学习的部分级基函数。与如图1所示的稀疏连接AND-OR模型学习的部分级(第3层)基函数相比,传统的生成器网络无法获得有意义的内部基函数。第一行显示了来自传统生成器网络的基函数,没有稀疏诱导约束。第二行显示了发电机网络与能量网络组合但没有稀疏诱导约束的结果。4.2. 定量结果FID比较总结见表2。所提出的方法始终优于七个国家的最先进的图像合成方法的比较。在人类时尚数据集上,图像是漂亮和干净的,我们的方法获得了最小的改善1。44. 在卧室数据集上,图像更加复杂,结构和外观变化较大,我们的方法获得了4的最大改进。11个国家。我们注意到,所有的改进都是通过以AND-OR树的形式学习的更可解释的表示来获得的。这是特别有趣的,因为它表明,共同提高模型的性能和可解释性是可能的。我们利用每像素均方误差(MSE)来评估图像重建。表3显示了与三种最先进的方法的比较,这些方法也能够进行联合图像合成和重建(VAE [19],ALI [8]和ALICE [24])。我们不与GAN和CoopNet的变体进行比较,因为它们通常不能执行联合图像重建。实验结果表明,该方法不仅能生成语义上有意义的对象零件和基元等可解释的生成过程,而且在综合和重构任务上也能获得与7种著名的传统生成模型相当甚至更好的性能4.3. 消融研究除了AND-OR树可视化之外,我们还提出了一种简单的方法来评估学习的基函数的可解释性(例如,第三层,见图1)。我们使用快速归一化互相关算法[37]在学习的基础函数与训练图像之间执行模板匹配。考虑第3层(也称为对象部分级),如果学习的基函数包含对象的有意义的局部部分,则匹配的S核应该是高的。我们分别比较了使用和不使用所提出的稀疏诱导方法学习的第3层基等式7vs Eqn. 1)。平均匹配评分的结果总结见表4。的表3.每像素均方误差(MSE)的比较。MSE越小越好。数据集\方法VAE [19][8]第八章爱丽丝[24]我们CelebA0.0160.1320.0190.011HumanFashion0.0330.280.0430.024斯坦福汽车0.0810.5630.0780.054LSUN卧室0.1540.9880.1270.097表4.可解释性评价使用快速归一化互相关算法比较无稀疏性的发生器和所提出的稀疏激活发生器之间的方法\数据集CelebAHumanFashion汽车卧室无稀疏性0.330.290.310.23w/稀疏0.830.810.760.72所提出的方法显著优于对应物。实验结果表明,该方法能够有效地学习有意义的基函数,提高模型的可解释性.5. 结论本文提出了一种可解释的图象合成方法,它是通过对生成网络进行分解,导出一个分层的合成与或模型。所提出的方法是建立在香草生成器网络,它继承了卷积网络的隐式层次语法。引入稀疏诱导函数后,稀疏连接节点的与或模型从原来的密集连接发电机网络中产生我们的工作结合了自顶向下的生成器网络和稀疏编码模型,可以在多个层次上学习可解释的字典,并且可以从数据中自动学习组合结构和基元在训练中,我们进一步招募了一个基于能量的模型,并将生成器模型和基于能量的模型联合训练为演员和评论家。所得到的AND-OR模型能够进行图像合成和重建。实验结果表明,该方法能够学习到有意义的、可解释的层次表示,并获得比基线方法更好的图像合成和重建质量致谢X. 邢 , S.-C. Zhu 和 Y. Wu 得 到 DARPA XAI 项 目N66001-17-2-4029的支持; ARO计划W 911 NF 1810296和ONR MURI项目N 00014 -16-1-2007;和极端科学和工程发现环境(XSEDE)授予ASC 170063。的工作X. 邢先生亦获国家自然科学基金第100000号资助。61703119,黑龙江省自然科学基金No. QC2017070、中央高校基础研究基金编号:3072019CFT0402。T. Wu得到了NSF IIS-1909644和ARO资助W 911 NF 1810295的支持14306引用[1] Brandon Amos , Bartosz Ludwiczuk , and MahadevSatya- narayanan. Openface:一个带有移动应用程序的通用人脸识别库。技术报告,CMU-CS-16-118,2016年。5[2] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein生成对抗网络在ICML,第214-223页一、六、七[3] David Bau , Jun-Yan Zhu , Hendrik Strobelt , ZhouBolei,Joshua B.作者:William T. Freeman 和AntonioTorralba。肝解剖:可视化和理解生成对抗网络。2019年,在ICLR。1[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv:1809.11096,2018. 1[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv:1809.11096,2018. 1[6] Zihang Dai,Amjad Almahairi,Philip Bachman,EduardHovy,and Aaron Courville.校准基于能量的生成对抗网络。 arXiv:1702.01691,2017年。 六、七[7] DARPA 可 解 释 人 工 智 能 ( XAI ) 程 序 。http://www.darpa.mil/program/explainable-artificial-intelligencefullsolicitationathttp://www.darpa.mil/attachments/DARPA-BAA-16-53.pdf,2016.1[8] 文森特·杜穆林,伊斯梅尔·贝尔加齐,本·普尔,奥利维尔·马斯特罗彼得罗,亚历克斯·兰姆,马丁·阿约夫斯基和亚伦·库维尔.逆向学习推理。arX- iv:1606.00704,2016年。六七八[9] Ruiqi Gao , Jianwen Xie , Song-Chun Zhu , and YingNian Wu.学习网格细胞作为自我位置的矢量表示与自我运动的矩阵表示相耦合。2019年,在ICLR。3[10] Stuart Geman ,Daniel Potter,和Zhi Yi Chi。组成系统。应用数学季刊,60(4):7071[11] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville 和 Yoshua Bengio 。 生 成 性 对 抗 网 。 在NeurIPS,第2672-2680页,2014中。1[12] 田汉,杨璐,朱松春,吴英念。发电机网络的交替反向传播算法。在AAAI,第1976-1984页,2017年。三、四[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规 则 训 练 的 甘 斯 收 敛 到 一 个 局 部 纳 什 均 衡 。 在NeurIPS,第6626-6637页,2017年。6[14] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae:使用受约束的变分框架学习基本视觉概念。2016. 1[15] Ehsan Hosseini-Asl,Jacek M Zagada,and Olfa Nasraoui.使用具有非负性约束的s-解析自编码器对基于部分的数据表示进行深度学习。IEEE14307跨神经网络学习. Syst,27(12):2486-2498,2015. 2[16] Gary B Huang,Honglak Lee,and Erik Learned-Miller.使用卷积深度信念网络学习用于人脸验证的分层表示。在CVPR中,第2518-2525页。IEEE,2012。2[17] Hemant Ishwaran和J Sunil Rao。钉和厚片变量选择:频率主义和贝叶斯策略。安的统计。,33(2):730-773,2005. 2[18] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。arXiv:1812.04948,2018年。1[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv:1312.6114,2013。一、六、七、八[20] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会,澳大利亚悉尼,2013年。5[21] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在NeurIPS,第1106-1114页,2012中。1、4[22] Yann LeCun 、 Leon Bottou 、 Yoshua Bengio 和 PatrickHaffner。基于梯度的学习应用于文档识别。Proc. ofthe IEEE,86(11):2278-2324,1998. 1[23] Honglak Lee ,Roger Grosse,Rajesh Ranganath,andAn- drew Y Ng.卷积深度信念网络用于分层表示的可扩展无监督学习ICML,第609-616页。ACM,2009年。2[24] Chunyuan Li,Hao Liu,Changyou Chen,Yuchen Pu,Liqun Chen , Ricardo Henao , and Lawrence Carin.Alice :为了理解 联合分布匹配的对抗学 习。在NeurIPS,第5495-5503页,2017年。 六七八[25] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,andXiaoou Tang. Deepfashion:通过丰富的注释实现强大的服装识别在CVPR,2016年6月。5[26] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。 在ICCV,2015年。5[27] Mario Lucic , Karol Kurach , Marcin Michalski ,Sylvain Gelly,and Olivier Bousquet.Gans是平等的吗?大规模的研究。arXiv:1711.10337,2017. 1[28] Alireza Makhzani和Brendan FreyK-稀疏自动编码器。arXiv:1312.5663,2013年。2[29] Alireza Makhzani和Brendan J Frey。赢家通吃的自动编码器。NeurIPS,第2791-2799页,2015年。2[30] Andrew Ng 等 . 稀 疏 自 动 编 码 器 。 CS294A Lecturenotes,72(2011):1-19,2011. 2[31] Jiquan Ngiam , Zhenghao Chen , Sonia A Bhaskar ,Pang W Koh,and Andrew Y Ng.稀疏滤波。NeurIPS,第1125-1133页,2011年。2[32] Bruno A Olshausen和David J Field。通过学习自然图像的稀疏代码来显现Nature,381(6583):607,1996.1[33] Bruno A Olshausen和David J Field。 使用过完备基集的稀疏编码:V1采用的策略?视觉研究,37(23):3311-3325,1997. 114308[34] 亚历克·雷德福卢克·梅斯
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功