NestedVAE：跨域自适应编码器反映共享属性的方法

87 浏览量更新于2023-10-23 收藏 850KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9202Enc（x）µjσjzjDec（z）NestedVAE：通过弱监督隔离共同因素Matthew J.元音m.j. surrey.ac.uk内卡蒂·吉汉·卡姆戈兹n. surrey.ac.uk理查德·鲍登r. surrey.ac.uk萨里大学视觉、语音和信号处理中心英国吉尔福德摘要公平和无偏见的机器学习是一个重要而活跃的研究领域，因为决策过程越来越多。XiEnc（x）根据x配对j之间的共享属性域.由从数据中学习的模型驱动不幸的是，数据中存在的任何偏差都可能被模型学习，从而不适当地将该偏差转移到模型中。共享权重z决策过程。我们确定的偏见减少的任务之间的连接，并鼓励域特定的不变性之间的隔离因素。为了分离出共同的因素，我们将深层潜变量模型理论与信息机器人相结合，σiµiziS不变嵌入j用于数据可以跨域自然配对并且不需要额外监督的情况的瓶颈理论。结果是嵌套变分自动编码器（NestedVAE）。具有共享权重的两个外部VAE试图重建输入并推断潜在空间，而一个外部VAE试图重建输入并推断潜在空间。Dec（z）x共享权重ixj嵌套VAE试图从一个图像的成对图像的潜在表示重建其潜在表示在这样做时，嵌套VAE隔离了共同的潜在因素/原因，并且对于在配对图像之间不共享的不想要的因素变得不变。我们还提出了一个新的度量标准，提供了一个平衡的方法来评估一致性和分类器的性能跨域，我们称之为调整奇偶性度量。对NestedVAE在领域和属性不变性、变化检测和学习生物性别预测的公共因子方面的评估表明，NestedVAE显著优于其他方法。1. 介绍表示学习的目标之一是实现嵌入，以信息方式捕获数据变化的潜在因素[10]。然而，许多用于学习这种嵌入的技术也被发现学习不需要的或混淆的因素，与预期的任务无关或有害[54]。这些因素可能包括差异性偏差，这会损害模型在经验样本中或面对差异时的可推广性图1. NestedVAE的顶层架构。图像（或更改-原生数据模态）根据共享属性或域来配对。导出图像xi和Xj的潜在表示Zi和Zj，并将其馈送到次级“嵌套”VAE。利用信息瓶颈理论的原理，可以从zi导出zj的充分最小表示zs，反之亦然。因此，可以将z s解释为表示两个图像的共同因素或共同原因。充分性表明它包含了两者共有的信息，而最小性表明它对每个特定的信息是不变的。立场转变[14，54，74，11]，或与种族、年龄、性别或性别等文化敏感或法律保护特征相关的偏见[55，17，53，36，71，57，65，15]。事实上，使用机器学习算法引起的系统性偏倚报告的患病率正在增加[35，66，77]。此外，概念上不同的因素，如对象类型和姿态，可能会纠缠在嵌入，尽管事先的预期，他们应该被分解。因此，从许多融合的工程和社会角度来看，解决这些问题的学习模型非常重要[55]。在工程师方面微秒σs9203φθ(a)（b）第（1）款图2.概率图模型用于（a）从图像对xi和xj推断公共因子zs和（b）VAE的推断和生成过程。虚线表示推理，实线表示生成。φ和θ分别是VAE编码器（推断）和解码器（生成）参数。因此，我们可能希望我们的模型是信息丰富的，对讨厌的因素是不变的，在不同领域表现良好和通用化，并解开独立的变化因素。从社会的角度来看，我们可能希望实现统计和人口统计学上的平等，这样我们的模型就不会反映或放大我们的数据或社会本身中存在的任何不公平。这些重叠任务的成功对一系列更具体的下游任务具有影响，包括属性转移[80，81，33，39，94]，人员重新识别[8，27]，变化检测[32]，对抗鲁棒性[37]和基于机器学习的决策过程[55，9，63]。本工作的贡献如下：• 对先前关于偏见、分离、公平、域/属性不变性和共同原因的工作的统一解释。• 一种称为嵌套变分自动编码器（NestedVAE）的新型深度潜在变量模型（图1），结合了深度、摊销变分推理 [43] 和信息瓶颈（IB）理论[82，83]。• NestedVAE实现显著通过学习改进分类和回归找出域之间的共同因素。• 一种用于评估跨域回归和分类奇偶性的新度量，称为调整后奇偶校验指标，用于说明预测性能和跨域性能的变化。2. 制剂2.1. 问题公式化我们考虑的问题，编码的一个信息，潜在的表示zp（z）来自观测值x<$p（x|z，c），使得z对于某些不相关/干扰/混杂协变量c是不变的[58]。从统计平价的角度来看，我们希望能够利用潜在表示标签y的某些任意下游预测，使得p（y=y|c，z）=p（y=y|z）y，c，z[56]. 因此，我们希望zc和yc。从域不变性的角度来看，我们希望学习尽可能多地迁移尽可能在不同的领域之间，其中每个领域都与其自己的混杂因素或协变量相关。换句话说，学习的潜在表征应该独立于滋扰或混淆因素，从而导致下游任务性能对这些因素不变。此外，所得到的表示将代表每个域共有的潜在因素。对于NestedVAE的开发，我们考虑了弱监管的合并，其中监管采取数据对的形式[75]。自然配对发生或可直接导出的情况包括：时间序列数据，其中出现在来自同一场景的帧中的个体在姿势和表情方面有所不同，但保持身份[23，26];域内的配对，其中域可以是医院或患者，数据可以是医学图像[54];由对话等二元互动产生的配对[40];以及表示对象图像的数据对（例如，手语数据的手）从多个视点。在不失去一般性的情况下，我们主要考虑计算机视觉与人脸图像的应用，其中图像根据性别配对。对于下面的形式化，我们假设两个域，尽管模型可以扩展到包括任何数量的域，我们可以形成对。与我们的世界模型相对应的概率图形模型（PGM）如图2a所示我们假设每个人-年龄xi∈X1和xj∈X2具有各自领域X1或X2特有的潜在因素/原因zi和zj，以及两个领域共有的共享因素/原因zs从学习域不变性的角度来看，zi和zj分别表示混杂因素ci和cj，并且X1和X2表示表示zs应该是不可知/不变的不同域。从因果建模的角度来看，zi和zj是领域特定的潜在原因，zs是共同的潜在原因[50]。这类似于混淆加性噪声模型[38，50]，其中xi=fi（zi）+gi（zs）+i和xj=fj（zj）+gj（zs）+j，f和g是任意函数，并且f是加性噪声。对于每一对图像，我们希望学习一个表示zs，它只表示图像对中为了做到这一点，我们利用从特定配对中获得的信息增益，以便从zi和zj推断zs，并从信息瓶颈的角度获得灵感[82，83，65，2]。为此，我们将共享因子和公共因子建模为马尔可夫链：zi−→zs−→zjs.t. p（zj|zi，zs）=p（zj|zs）（1）数据处理不等式[20]意味着zs不能包含比z i更多的关于z j的信息[2]。的n∈[1，N]xizizni，j，s∈[1，N]zsxjzjXn9204φ因此，关于z s中的z j的信息只能是zi和zj两者共有的信息。图像配对被形成为无序组合，使得我们将xi与xj配对，并且将xj与xi配对。因此，我们的任务就变成了（ELBO），其用作对数似然的代理然后我们可以最大化ELBO如下[43，47]：maxEx[LELBO（x）]=θ，φ通过zs从zi口述zj。最后，如果我们假设（尽管很强）zi<$zj+<$，其中<$i表示特定于相应域的随机扰动，则我们可以将VAE应用于学习最小值的任务，最大Exθ，φΣzq φ（z|x）[logp θ（x|z）]−βKL（q φΣ（z|（x）p（z））（四）充分的表示zs通过寻求从zj生成zi，反之亦然。充分性描述了方程中的马尔可夫链条件。 1，其中I（zs;zj）= I（zi; zj），最小性描述了在表示[2，20]中存在最小冗余信息的事实。换句话说，zs只包含zj中的信息，而zj中的信息也在z i中。2.2. 维斯现在我们把注意力转向VAE。有关该理论的详细综述，感兴趣的读者可以参考[24，43，70]。图2b中示出了用于VAE的推断和生成（或等效地，编码和解码）过程的PGM 遵循变分推理[12]对于潜变量z的分布，我们从采样zp（z）开始，并生成具有重建/生成分布p θ（x）的图像x ∈ RN的数据集X|z）。我们可能第一项的RHS方程。4鼓励重建精度，Kullback-Liebler发散项（由参数β [33]加权）充当先验正则化器，惩罚q φ（z）的近似|（x）不像先前的。因此，目标是最大限度地x在潜在分布z上的边际对数似然的下限[33]，假设其为高斯分布，单位协方差为z<$N（0，I）。如果样品质量不是首要问题，解码器容量以便保持压力以在潜在空间中编码有用信息（即，增加I（x;z）），并防止解码器与编码器解耦[59]。Gaussianity的假设意味着Eq。4可以使用KL发散项的分析约化来写[47]：Σ为条件潜在分布推导推断后验，maxEx[LELBO（x）]=maxExEz <$qφ（z|x）[logp θ（x|z）]−如q φ（z|x）近似真实条件-参考分布p θ（z|X）。 q φ（z|x）和p θ（x|z）是θ，φβ。Σ。θ，φΣΣ¨ ¨2 Σ参数化的神经网络编码器和解码器PA-参数φ和θ[85，24，93]。选择近似分布q以规避棘手性2[φ（x）]ii−ln[φ（x）]ii我+<$φ（x）<$2（五）计算（为了最大化）边际似然p（x）=p θ（x）时的积分|z）p（z）dz，并根据恒等式技巧引入：p（z）logp（x）= log p θ（x|z）q（z|x）q φ（z|x）dz（2）由方程式5[φφ（x）]ii表示对角协方差，μφ（x）是平均值。均值和协方差均由网络编码器和参数学习对形成推断的潜在分布q φ（z）的多变量高斯进行量化|X）。解码器网络从这可以被进一步操纵以建立边际对数似然logp（x）的下限：zqφ（z|x）使用重新参数化技巧[24]，z=μφ（x）+μφφ（x）这里我们重新定义了μ φ=N（0，I）。一种解释认为，logpθ（x）=E z <$qφ（z|x）[logp θ（x|z）]−KL [q φ（z）|x）||p（z）] +.... + KL[q φ（z|x）||p θ（z|x）]（三）如果q φ（z）=q φ（z|x）p（x）dx=iq i（zi）[47]。将VAE应用于我们的任务：我们可以分别学习图像xi<$X1和xj<$X2的潜在因素zi和zj下一节介绍了利用这些嵌入来学习共享因子。最后一项在等式的右手边3表示我们的真实推理分布和我们选择的近似分布之间的分歧，并形成真实对数似然和其估计之间的所谓“近似差距”[61]。一旦我们选择了近似分布并对其进行了优化，我们就无法进一步减少这种差异。这个术语通常被省略，这样我们就只剩下所谓的变量下限（VLB）或证据下限1在这里，我（. ;。是Shannon互信息。2.3. 结合VAE和信息瓶颈VAE通过信息瓶颈拉格朗日量与信息瓶颈理论密切相关[85，5，4，65]：L（p（z|x））=H（y|z）+ βI（z; x）（6）请注意，条件分布的香农熵H相当于等式中的交叉熵反射项。4，除了在VAE中，目标y是x，E9205→XS网络生成重建x，p（x|z）。福-我们已经确定了实现域的问题-因此，注意I（z;x）=ExKL [q φ（z|x）||p（z）]，这是等式中的先验正则化器。4.第一章最后提出了β项通过拉格朗日优化[2]学习，尽管对于VAE，它也可以在训练期间退火[16]或作为超参数[33]进行评估。在假定zi<$zj+<$z的条件下，我们可以将VAE模型应用于这一问题. 因此，我们申请对于学习z i和z j的问题的“外部”VAE和对于学习公共因子z s的在xi<$X1和xj<$X2上的全损失函数仅仅是外部和嵌套VAE ob的组合在一对中的每个图像，并提出了在方程。7.第一次会议。这里，φ1、θ1和φ2、θ2分别是“外部”和“嵌套”VAE的编码器和解码器参数我们假设外部和嵌套VAE具有相同的先验分布p（z）和相同的近似分布族q。方差，这是在域之间转移学习，同时对每个域唯一的混杂因素和协变量保持不变。当这些混杂因素被认为是“敏感”属性时，实现领域侵入也可以被认为是实现偏倚减少、公平或人口统计学均等;当这种混杂因素引起分布偏移时，可以认为实现不变性就是实现模型泛化。这样的任务要么要求混淆信息被“遗忘"或忽略，要么要求它从域不变量（即，任务相关）因素。然而，遗忘的任务通常被视为与分离不同。我们认为，这些任务是相辅相成的：一个研究人员的解开，生成属性可能是另一个例如，在面部识别中，应该以预测对于图像不变性的方式从图像预测个体的身份。Maxθ1，φ1，θ2，φ2Exi<$X1，xj<$X2[LNested]=头部姿势和面部表情;它并不有利于Maxθ1，φ 1，θ2，φ 2EijX1，X2[γ（L（xi，zi）+L（xj，zj））+.... λ（L（zi，zs）+L（zj，zs））]（七）模型来提供不同的身份表示，不同的头部姿势对于这样的应用，方法可以在这里，γ和λ是分别加权外部和嵌套VAE ELBO函数的超参数。请注意，我们对所有参数φ1，θ1，φ2和θ2进行了联合优化。总之，我们建议使用VAE来同时学习图像xi的潜在因子zi和潜在因子z i。对于图像xj的潜在因子zj，同时确保在这些潜在因子之间存在充分且最小的表示zs网络架构如图1所示请注意，在实践中，我们发现向嵌套VAE提供潜在代码µi和µj而不是zi和zj偶尔会产生更好的性能。此外，我们还发现，嵌套VAE的βKL权重应该设置为接近或等于零，以获得最佳结果。这与IB应用于推导公因子是一致的，因此与以下公式并不矛盾：zs是从潜随机变量zi和z j的参数μ i和μj之间的共性导出的，它们已经由外部VAE正则化。因此，我们可以调整方程式中NestedVAE的IB方面1至：实体独立于信息，pose的。在解纠缠和域不变性中，任务相关信息需要与任务无关信息分离。此外，许多用于去缠结的模型都是深度潜变量模型[33，46，16，26，93，47，56]。这些模型旨在推断观察到的数据背后的生成或因果因素。因此，使用这些模型来识别领域之间的共同因素（如NestedVAE所做的），就等同于识别共同原因以及识别跨领域概括的因素。因此，许多关于无监督解纠缠的先前工作[33，73，75，26，16，93，47，56]也间接地有助于域不变性和公平性领域。事实上，最近的工作[55]专门探讨了解纠缠和公平之间的先前的研究已经试图通过将监督与学习相结合来解开和/或学习不变表示。q（z|（i）µi−z−p−（µ−j−|z→）µ（八）全监督VAE [46，21]，半监督VAE3. 以前的工作：统一的观点以前的工作旨在实现一系列看似不同的目标，包括解纠缠、主/属性不变性、公平编码和减少偏差、泛化和共同原因。在本节中，我们重新审视了这些工作的例子，同时提请注意这些目标之间的重要共性。我们注意到这些共同点，希望可以利用一个领域的进展来推动其他领域的进展。[57，65，54，76]，对抗训练[30，31，27，74，90，88，48，60，69，94，3]、香农互信息正则化[44，68]和具有辅助分类器的配对图像[14，8]。在其他情况下，我们可能只能访问c的间接监督，例如。以分组或成对图像的形式[81，25，1]或成对相似性[19，18]。在这种情况下，以前的工作已经将这种弱监督纳入VAE [72，23，13，19，87]，周期一致性网络，作品[39，51]，自动编码器[25]和带有对抗训练的自动编码器[80]。在没有监督的情况下，J9206尽管可以使用非监督方法来帮助学习不变嵌入，但可以使用非监督方法，这可能涉及对解纠缠和干预鲁棒性的测试[79，56]。因此，旨在实现域不变性和/或解纠缠的现有方法在监督的并入水平上变化。获取高质量的标记数据集既耗时又昂贵，并且监督方法，诸如需要类、域和/或协变量的标签的那些方法（例如，[354]可能并不总是可行的。去纠缠可以允许学习嵌入，使得不期望的协变量在稍后的时间对于特定的下游任务是可识别的或可提取然而，最近已经证明，完全无监督的解缠方法的有效性因随机种子而异，因为架构和设计而异[56]。考虑到完全监督和完全无监督方法的缺点，考虑将最低程度的弱监督纳入其中的方法是恰当的尽管定义之间存在一些重叠[29]，但弱监督通常用于描述标签可用但标签仅与有限数量的因素相关的情况[80]。相比之下，半监督描述了这样一种情况，即完全信息化的标签是可用的，但仅适用于数据的子集[42]。虽然对抗性方法已被证明在“获取”信息方面效果良好，但它们也非常难以训练且不可靠[65，52，26]。此外，以前的工作已经强调对抗性训练是不必要的，并且非对抗性训练可以达到相当或更好的结果[65，26]。鉴于对抗训练的缺点和VAE的可比成功，我们考虑开发一种以VAE为基础的新方法。VAE是潜变量模型的一种形式[43]，因此适用于从有限监督的观测中获得不变表示的任务。在架构相似性方面，与我们最接近的先前工作可能是用于解缠的联合自动编码器（JADE）[8]。JADE根据共同标签对图像进行配对，通过单独的VAE馈送每个图像，并使用来自每个VAE潜在空间的分区来预测共享标签，从而尝试将标签相关信息与标签无关信息分开。JADE根据其从一个数据丰富的域（完整的MNIST数据集[49]）到数据稀缺域（选择为简化版本SVHN 数据集 [67] ）的转移学习能力进行评估。NestedVAE的不同之处在于，我们不使用指示域的标签，从而显著削弱了显式监督的水平。Work by [23]根据图像是否来自相同的视频序列对图像进行配对，研究人员将其归类为无监督方法。我们通过配对图像对NestedVAE采取类似的方法，但是将输入配对从来自相同视频序列的那些扩展到来自两个域但共享某个（多个）公共属性的那些。其结果是一个网络，4. NestedVAE的评价鉴于域/属性不变、公平性和偏差减少之间的重叠，我们在一系列任务上评估了NestedVAE。NestedVAE首先在具有地面真实因子的合成数据集上评估域/属性不变性和变化检测：旋转MNIST [28，49]。对于第一次评估，将NestedVAE与β-VAE [33]（增加KL发散损失的压力）进行比较，infoVAE[93]（使最大平均差异最小化）和DIP-VAE-I和DIP-VAE-II [47]。对于非合成评估，我们使用UTKFace数据集[92]测试了不同种族个体的生物性别预测的公平性和偏倚减少，并与β-VAE和DIP-VAE-I进行比较。其他结果可以在柔软的材料中找到。4.1. 调整后的奇偶校验指标对于域不变性的评估，我们提出了一个（据我们所知）新的奇偶性度量，占域之间的准确性以及分类器的准确性或归一化回归性能的差异该度量在本工作中被称为经调整的奇偶校验度量（针对准确性进行了调整），并且定义如下：adj=S<$（1−2σacc）（9）这里，S<$是分类器在域上的平均精度例如，如果我们有相同的机会预测10个中的任何一个，MNIST数字是随机的，基线是0.1。σacc是标准化分类器准确度的标准偏差。任何最小一致性或最小准确性的分类器都将具有adj= 0，并且任何最大一致性和最大准确性的分类器都将具有adj = 0。1.这个度量的动机是这样一个事实，即尽管表示可能是域或属性不变的，ant，这并不意味着它也是一个好的分类器：它还必须为预期的任务提供信息。4.2. 模型为了在这项工作中进行评估，构成NestedVAE的VAE不偏离2或者，可以使用F1分数，其已经被归一化为落在[0，1]之间。92079NestedVAE（按数字）NestedVAE（按旋转）5874653423211009β-VAE（数字）β-VAE（旋转）587465342321100图3.通过NestedVAE和βVAE从旋转的MNIST数据集学习的表示的UMAP投影这些表示根据数字类别（左）和旋转域（右）进行着色可以看出，NestedVAE表示包含的关于旋转的信息比βVAE表示少得多。最好用彩色观看。转让域嵌套（我们的）β-VAEinfoVAEDIP-VAE-IDIP-VAE-II数字分类0◦0.708±0.2110.551±0.2620.629±0.1410.561±0.2130.519±0.274（越高越好）15◦0.696±0.2020.546±0.2610.633±0.1320.597±0.1890.527±0.27030◦0.714±0.1520.555±0.2510.657±0.0760.602±0.2060.539±0.24445◦0.738±0.1240.575±0.2120.681±0.0560.587±0.2080.510±0.27560◦0.721±0.1270.573±0.2030.682±0.0570.577±0.2240.487±0.27875◦0.647±0.2500.509±0.2490.588±0.1830.417±0.2030.488±0.253parity，parityn/a0.6640.5250.6030.4860.492轮换分类0◦0.373±0.0290.530±0.0110.523±0.0050.511±0.0120.541±0.007（越低越好）15◦0.343±0.0080.534±0.0050.516±0.0080.493±0.0070.547±0.00530◦0.295±0.0500.534±0.0070.546±0.0050.494±0.0050.538±0.00645◦0.316±0.0250.532±0.0060.540±0.0010.493±0.0070.541±0.00360◦0.321±0.0140.534±0.0050.542±0.0060.495±0.0070.549±0.00775◦0.347±0.0570.517±0.0120.509±0.0100.496±0.0160.518±0.012表1.数字分类（越高越好）和旋转域（越低越好）分类的10次运行的平均F1分数和标准误。将NestedVAE与β-VAE [33]、infoVAE [93]和DIP-VAE-II [47]进行比较。对于数字分类，域0平均值该网络已在15- 75个域上进行了训练，并正在对来自0个域的数据进行测试。对于旋转分类，设置为类似之处在于它表示在训练期间不使用的训练域，尽管所有域都用于测试（即，domain0表示网络已在domain 15- 75上训练，并正在所有domain的数据上进行测试我们看到，NestedVAE学习更多的信息表示的数字分类比alternat iv es，以及'为了获得'更多的领域特定的信息。是的在等式中给出的平均奇偶性度量9.最佳结果以粗体显示。‘vanilla’外部VAEβ KL权重从零开始逐渐增加，然后在训练期间退火[78，33，16]。VAE的其他更外来的制剂当然可以在NestedVAE制剂内实施（例如，参见[5，34，84，58，93，22，47]）。然而，这项工作的重点是适应一般的VAE框架的域不变性的目的，而不是VAE本身的最优性用于实验的NestedVAE网络架构的完整细节可以在supp.材料4.3. 旋转MNIST旋转的MNIST训练数据集如下生成：低[28，54]：对于每个数字类，绘制100个随机样本，并应用{0×15×30× 45 ×45×60×75}的6次旋转，得到（100×10×6）= 6000个图像（原始MNIST训练集大小的十分之一）。这是重复以产生相同结构的非重叠测试集。对于每个训练对，选择一个随机数字类，并在随机选择的一对（不同的）旋转中选择两个具有该数字类的图像。每个ro-9208站群被视为学习的嵌入应该是不变的域。该网络在6个旋转域中的5个旋转域的数据上进行训练，并使用随机森林分类算法在剩余域上测试数字分类性能（对于剩余域，网络在训练期间没有看到来自相同分布的样本）然后重复这一过程，直到网络在所有域组合上都经过训练和测试。如果网络实现了域转移，我们应该在测试域上看到良好的如果网络实现了属性不变性，我们应该看到所有域的旋转分类性能都很差。然后使用与[32]相同的方法评估NestedVAE在变化检测中的有用性图像根据共享或不共享的数字类交替配对。如果该对共享数字类，则生成“0”地面实况标签，表示没有变化。如果该对不共享相同的数字类，则生成“1”标签，表示更改。在每对图像的表示之间计算L2范数，并且在L2距离上训练k均值聚类算法，并针对标签进行评估。最后，应用均匀流形近似投影（UMAP）[62]算法来可视化地评估域不变性。UMAP是一种比众所周知的t分布随机邻域嵌入（tSNE）更新、更有效的流形投影算法[86]。将结果与定量评估的最佳替代方案进行比较。在模型参数值方面，对于β-VAE，β = 4并且在训练期间退火（如[33，16] 所建议的），对于DIP-VAE-I ，λ od= 10和λ d= 100，对于DIP-VAE-II ，λod=λ d= 250，并且对于InfoVAE α= 0和λ v= 500（如[93]所建议的），其中所有α，λ参数表示相应分量的权重模型的目标函数。所有模型都使用Adam优化器训练了100个epoch，学习率为0.0008，批量大小为64。嵌套VAE具有8的内部潜在维度，而外部VAE具有10的潜在维度嵌套和外部VAE权重γ = δ =0。五、所有替代模型的潜在维度均为10。旋转MNIST结果：旋转MNIST数据集上的域和属性不变性的结果如表1所示。结果表明，NestedVAE在学习领域无关信息（数字类）方面明显优于其他方法，在遗忘领域特定信息（旋转）方面也要好得多。调整后的奇偶校验结果显示在标有adj. 注意，因为F1的范围是[0，1]，所以我们不需要需要根据随机预测的F1标准化，在计算调整后的奇偶校验之前。调整后的奇偶性度量的结果表明，嵌套-VAE优于替代品。UMAP预测如图3所示。该图表明，旋转的MNIST嵌入的2D投影然而，当投影根据旋转标签（右）着色时，可以看出β-VAE垂直编码旋转，而NestedVAE如预期的那样学习了对旋转不变的嵌入。变化检测任务的结果如表2所示。嵌套VAE与其他7种方法进行了对比评估，其中一些方法是专门为变化检测而设计的，并且使用了比我们更强大的网络架构[32，13，60]。可以看出，Nest- edVAE优于最佳替代方案。方法准确度[89]第89话VAE [43] 0.5495[7]第七话0.5514重建概率VAE [6]0.5724[60]第六十话0.5834[13]第十三话0.6072[32]第三十二话0.7166NestedVAE（我们的）0.7380表2.更改旋转MNIST的检测精度。L2 distances之间的代表，其中图像配对，根据他们是否包含相同的（无变化）或不同的- ent（变化）的数字。然后使用K-means聚类对表示距离进行分组。其他结果来自[32]。最佳结果以粗体显示。4.4. UTKFaceUTKFace数据集[92]包括+20k个带有种族（白人，黑人，亚洲人，印度人或其他）和性别（男性或女性）标签的图像。先前的工作已经注意到性别预测软件中的偏差[15，45，64]，特别是与白人个体的性别预测准确性相比（显著较低）的黑人个体的准确性。我们注意到生物性别和性别之间的区别，并假设UTKFace中的任何标签实际上都是生物性别。这是因为，尽管UTK- Face指的是性别，但实际的标签是方法女（女）AdjParity（男）β-VAE0.4100.537DIPVAE-I0.3940.547NestedVAE（我们的）0.6410.699表3.此表显示了使用UTKFace数据集从F1分数计算的调整后奇偶校验。具有高调整奇偶性的方法是对于生物学性别预测具有高F1得分并且在人种间一致的方法最佳结果以粗体显示。NestedVAE优于替代品。9209数据集首先被限制为仅包括白人和黑人个体。这样做是为了减少与种族定义相关的歧义，如UTKFace中所应用的那样，UTKFace使用诸如“印度人”或“印第安人”之类的标签。接下来，数据集被分成训练集和测试集，并且训练集的大小进一步减小，使得白人个体的数量等于黑人个体的数量。然后，我们创建了5个版本的训练数据集，其中白人个体的比例从50%增加到100%。该模型在这些版本中的每一个上进行训练，并且通过将测试集图像传递通过训练模型来生成测试集的嵌入。梯度提升分类器用于预测白人和黑人个体的性别，我们给出了相应的F1分类评分和受试者操作特征下面积（AU-ROC）评分。就模型参数值而言，对于β-VAE，β= 4，并且在训练期间退火（如[33，16]所建议的），对于DIP-VAE-I，λod= 10，λd= 100。这些模型使用ADAM优化器训练了1000个epoch，学习率为0.001，批量大小为64。嵌套VAE具有50的内部潜在维度，而外部VAE 具有256的潜在维度。嵌套和外部VAE 权重γ=δ= 0。五、所有替代模型的潜在维数均为50。超参数搜索产生如下的梯度提升分类器参数：最大特征=50; maximum depth=5;学习率=0.25，估计器的数量=300，每次分裂的最小样本=0.7。在5次运行中获得Δ和标准差UTKFace结果：调整后的奇偶校验结果见表3。这些结果提供了一个测量的considerability和性能（F1得分）的分类器的预测跨种族域的生物性别。可以看出，NestedVAE优于替代方案，并且还显示出女性和男性分类性能之间的调整奇偶性的最小差异（男性为0.699，女性为0.641）。值得注意的是，使用其他模型的嵌入预测性很差。预测结果不佳可能是因为替代模型将性别作为一个连续变量（例如，男性气质/女性气质的程度），其与其他外观维度纠缠在一起，而NestedVAE已经使用性别的二元配对进行了明确的训练，从而提供了显著的归纳偏差。受试者操作特征下面积（AU-ROC）评分的结果见图4。这些结果证明了使用来自在白人和黑人个体的比例不同的数据上训练的模型的嵌入来预测黑人个体和白人个体的生物性别的分类器性能有趣的是，我们在训练集上没有看到很大的变化，这表明网络嵌入中编码的性别信息并没有被细分。基本上被种族混淆了。尽管如此，NestedVAE在隔离公共因素（即，与性有关的因素）。图4.受试者操作特征下的面积（AU-ROC）评分，用于在具有不同比例的白人和黑人个体的数据集上训练的模型。NestedVAE显著优于替代品。最好用彩色观看。5. 结论和进一步工作NestedVAE提供了一种方法来学习对特定于域的协变量不变的表示，同时能够隔离跨域的常见原因。该方法结合了深层潜变量VAE模型理论和信息瓶颈原理，并在具有公共因子的图像对上进行训练，其中一对中的两幅图像是从不同的域采样的。结果表明，NestedVAE我们还提出了一个新的（据我们所知）NestedVAE背后的原理可以应用于更奇特的VAE，甚至非VAE。今后的工作应探讨将这些原则应用于不同的模式。6. 确认这项工作得到了SNSF Sinergia项目“SMILE”（CRSII2 160811）的资助，该项目是欧盟的Horizon 2020研究和创新计划。 762021“Content 4All” 和 EPSRC 项目“ExTOL”（EP/R 03298 X/1）。本作品仅反映作者9210引用[1] A. Abid和J. Zou.对比变分自编码器增强haces显着特点。arXiv：1902.04601v1，2019.[2] A. Rumle和S.索阿托深层表象中不变性与去纠缠的出现.机器学习研究杂志，2018年18日。[3]E. Adeli，Q.Zhao，中国粘蝇A.Pfefferbaum，E.诉沙利文湖飞飞J. C. Niebles和K. M.波尔偏置弹性神经网络arXiv：1910.03676v1，2019.[4] A. A.阿莱米岛Fischer，J. V. Dillon和K.墨菲深层次的变信息瓶颈。arXiv：1612.00410v7，2017.[5] A. A.阿莱米湾普尔岛Fischer，J. V.狄龙河A. Saurous和K.墨菲修理坏掉的ELBO arXiv：1711.00464v3，2018.[6] J. An和S.小周基于变分自动编码器的重构概率异常检测。 SNU数据挖掘中心技术。报告，2015年。[7] C. Aytekin，X. Ni，F. Cricri和E.阿克苏。使用L2归一化深度自动编码器表示进行聚类和无监督异常检测arXiv：1802.00187，2018。[8] E. Banijamali，A. H. Karimi，A. Wong和A. Gh- odsi。Jade ：用于解纠缠的联合自动编码器。 arXiv ：1711.09163v1，2017.[9] S.巴罗卡斯湾Hardt，和A.纳拉亚南公平和机器学习。fairmlbook.org，2019年。[10] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新观点。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2013。[11] Y. Bengio，T. Deleu，N. Rahaman，N. R. Ke、S. 拉沙佩尔，O. Bilaniuk，A. Goyal和C.伙计学习解开因果机制的元迁移目标。arXiv：1901.10912v2，2019.[12] C. M.主教模式识别与机器学习。Springer，New York，2006.[13] D.布沙库尔河Tomioka和S. 诺沃津多级变分自动编码器：从分组的观察中学习分离的表示。 arXiv ：1705.08841v1，2017.[14] K. Bousmalis，G.Trigeorgis，N.Silberman ，D.Krishnan和D.二汉域分离网络。arXiv：1608.06019，2016年。[15] J. Buolamwini和T. Gebru性别阴影：商业性别分类中的交叉准确性差异。机器学习研究，81：1[16] C. P. 伯吉斯岛希金斯，A.帕尔湖Matthey，N.Watters，G.Desjardins，和A. Lerchner理解Beta-VAE中的解缠。arXiv：1804.03599v1，2018.[17] Y. T. Cao和H.道姆三世争取解决性别包容性的核心问题。arXiv：1910.13913v2，2019.[18] J.Chen和K. Batmanghelich稳健有序VAE：采用噪声成对比较来解纠缠。arXiv：1910.05898v1，2019.[19] J. Chen和K.Batmanghelich 基于两两相似性的弱监督去纠缠arXiv：1906.01044v1，2019.[20] T. M. Cover和J.A. 托马斯信息原理。约翰威利父子公司纽约，2006年。[21] E. Creager，D.马德拉斯，J-H。Jacobsen，M.A. Weis，K.斯韦尔-斯基，T。Pitassi和R.泽梅尔灵活的公平表示学习。arXiv：1906.02589v1，2019.[22] C. Cremer，Q. Morris和D.杜弗诺重新解释重要性加权自动编码器。arXiv：1704.02916v2，2017.[23] E.丹顿和V。比罗德卡无监督学习从视频中分解表示。NIPS，2017年。[24] C. Doersch教程对变分自动编码器arXiv：1606.05908v2，2016.[25] Z. Feng，X. Wang，C. Ke，A. Zeng，等，中国粘蝇D.Tao和M.歌双交换解开。第32届神经信息处理系统会议（NeurIPS），2018年。[26] A. Gabbay 和 Y.Hosen. 揭开阶级分化的

下载后可阅读完整内容，剩余1页未读，立即下载