MCFlow：数据插补的蒙特卡罗流模型

193 浏览量更新于2023-10-25 收藏 848KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1MCFlow：用于数据插补的蒙特卡罗流模型特雷弗·W理查森文成吴磊林蓓蕾徐埃德加A。伯纳尔罗切斯特数据科学联盟，罗切斯特260 E.地址：Main St. Suite 6108，Rochester，NY 14604{trevor.richardson，wencheng.wu，lei.lin，beilei.xu，edgar.bernal}@ rochester.edu摘要我们考虑数据填补的主题，这是机器学习中的一项为此，我们提出了MCFlow，一个利用归一化流生成模型和蒙特卡洛采样的深层次插补框架。我们通过引入一种迭代学习方案来解决因果关系困境，该方案我们提供了广泛的经验验证所提出的方法对标准的多元和图像数据集的有效性，并基准其性能对国家的最先进的替代品。我们证明了MCFlow在估算数据的质量方面优于竞争方法，以及其保留数据语义结构的能力。1. 介绍缺失数据是现实机器学习问题中普遍存在的问题。由于大多数现有的数据分析框架都需要完整的数据集，因此植入方法对于该领域的从业者来说是不可或缺的因此，数据插补一直是近几十年来广泛研究的焦点[30，45]。此外，最近在数据填补方面的许多研究已经影响了先进的机器学习技术。这导致了许多浅层[44，46，42]和深度学习框架[40，49，29，33]的发展传统的基于学习的估算方法的普遍缺点是它们的训练依赖于完全观察到的数据[15，40]。然而，一个更合理的假设是，训练数据本身可能有缺失的条目，最近提出的方法解决了这一限制[49，29，33]。在本文中，我们提出了一个数据填补框架，该框架利用深度生成模型，并结合了提供更准确的错过估计的与现有框架相比，与基于生成对抗网络（GAN）[49，29]和深度潜在变量模型（DLVM）[33]的竞争方法相比，我们的框架利用了规范化流模型[10，11，23]。Inparticular, we take advan- tage of the exact log-likelihoodevaluation, latent variable inference, and data samplereconstruction afforded by nor- malizing flow models inorder to explicitly learn complex, high-dimensional datadistributions.我们解决了因果关系的困境，出现时-试图通过采用基于模型的多重插补方法[31]（例如基于期望最大化[8]和蒙特卡洛马尔可夫链[43]技术的方法）相关交替技术的最新示例包括训练生成器网络的应用 [19 ， 14] 。 The overarching idea be- hind theproposed framework is to alternately sample the data andupdate the density estimate until a good approxi- mation ofthe true empirical distribution is attained. 该迭代过程通过由上述标准化流动模型框架提供的精确采样和密度评估方面来实现我们注意到，尽管准确的密度估计是我们框架的核心，并且自回归模型在该领域实现了最先进的性能[47，5，38]，但其缓慢的采样时间将严重阻碍我们的算法。为了解决缺失数据的问题，我们引入了一种新的插补算法MCFlow。所提出的迭代学习方案要求交替优化两个不同的目标函数：（i）传统的对数似然损失涉及训练流模型，需要基于包括插补值的完整数据更新密度估计;以及（ii）最大似然准则，其涉及对潜在流空间进行采样，以便在给定数据分布的当前估计的情况下找到缺失数据的最佳值。虽然前者可以通过实现已知的反向传播技术来实现，但我们引入了一种新的非迭代方法来解决后者，1420514206m（i）m（i）其依赖于被训练以识别潜在空间中的点的神经网络，该点最大化密度值，同时最小化根据所观察到的数据条目计算的重构误差。这种方法可以被视为学习优化[28，1]的算法的实例，尽管不如迭代[22]或基于采样的方法[43，20]有效，但它在计算上更有效。这项工作的主要贡献可以总结如下：• 基于深度生成规范化流模型的数据填补框架;• 一种交替学习算法，能够对不完整、复杂和高密度的数据进行准确的密度估计，通过利用流动模型的有效采样和密度评估属性来获取三维数据;• 一个神经网络，学习优化在嵌入-流动空间;以及，• 在标准多元和图像数据集上对所提出的框架进行了广泛的实证验证，包括对最先进的估算进行基准测试，处理方法2. 相关工作插补方法分为单一或多重插补方法，具体取决于它是估计每个缺失条目的一个值还是多个值[30]。尽管文献中提出了多种单一插补方法[44，42，50]，但通常首选多重插补方法，因为它们可以评估不确定性[30，45，35]。多重插补框架通常依赖于为数据建立统计模型，然后从中抽取样本以执行插补。建立多重插补框架的早期尝试依赖于简单的参数模型，如贝叶斯模型[3，41]以及高斯混合模型[30，9]。最近，随着复杂的深层生成模型的出现，重点已经转移到研究更有效的方法来利用表达，在插补任务中显式学习数据的概率密度模型的优势能够实现近似密度学习的模型依赖于估计变分边界[25，40，4]。虽然建立这样的模型需要完整数据的观测，但缺失数据重要性加权自动编码器（MI- WAE）框架[33]将变分下限原理扩展不幸的是，这样的一系列方法本质上仍然局限于学习数据密度的近似值，因此优化[24]具有挑战一般来说，能够实现易处理的密度学习的模型可以被分类为基于完全可见的生存网络（FVBNs）的框架FVBNs依赖于概率的一般乘积规则，该规则能够使用条件概率的乘积计算一组随机变量的联合分布[13，37]。然而，由于所涉及的操作的顺序性质非线性ICA方法定义了两个空间之间的一组连续和可逆的非线性映射[7，6，10，11，23]。它们的主要局限性源于映射需要可逆的事实，这可能限制它们的表达能力。3. 框架在本文中，我们考虑了数据完全随机缺失（MCAR）的情况[31]。一般来说，假设完全可观察的数据点x∈ X <$Rn根据p X（x）分布，二进制掩码的集合m ∈ {0，1}n指示丢失数据条目的位置，并且掩码条目根据p M（m）分布|X）。当缺失与数据无关时，即当p M（m）|x）=pM（m）。假设我们用相应的掩码m（i）观察到v个数据点x_i（i），这意味着如果m（i） =0，则观察到x（i），记为x（i），如果m（i）=0，则缺失，K K模型处理数据估算情景的能力。（一）K=1时。通常，使用利用深度模型进行估算的初步努力依赖于完全可观察的训练数据的可用性[40]。最近的工作已经克服了这个缺点。两个这样的出版物依赖于对生成对抗网络（GAN）架构的修改[17]。生成对抗性归因网络（GAIN）框架[49]采用了一个经过对抗性训练的归因器，该归因器在区分假归因和真归因方面进行了优化。虽然GAN for Missing Data（MisGAN）方法[29]也实现了一个经过逆向训练的插补器，但它还包括一个针对缺失数据的显式模型Un-掩码m（i）的补数，记为m（i）。我们使用符号x（i）以及x∈ （i），关于iv el y，表示x∈ （i）g iv enm askm（i）中的观察到的和未观察到的条目的集合。注意，总是可以确定x（i）中哪些条目缺失，哪些条目存在，这意味着m（i）可以从x（i）中唯一确定。假设x（i）是未知数据点x（i）的部分观测值，其中根据掩码m（i）观测到条目，我们将恢复x（i）的数据填补任务表述为最大似然问题，即：幸运的是，作为GAN的近亲，这些模型可以（i）、、、（一）（一）（一）很难训练[39，2]。此外，我们认为，x= argmaxx（i）pX（x）s.t. xm（i）=x<$m（i）（1）M14207m（i）....因为log是一个单调函数，等式1相等到设置在考虑的情况下，然而，直接估计的数据分布根据方程。3x（i）x=argmaxx（i）、日志.ΣpX（x（i））S.T. x（i）（一）m（i）（二）4是不可能的。这种情况构成了一个因果关系困境。从Expecta等交替算法中汲取灵感注意，一般来说，pX（·）是未知的，但如果不是这种情况，则从等式（1）求解优化任务1假设任何感兴趣的数据的分布可能是高度非凸的和高维的，则2将是具有挑战性的。这项工作的目标之一是使这个优化任务可行。为此，为了便于讨论，假设存在一个易于处理的、明确的密度模型pX（x）。让这个模型以生成网络G映射感兴趣的样本x∈pX（x），在空间X中的一个嵌入表示z<$pZ（z）在空间Z<$Rn中。此外，假设网络G影响连续、可微且可逆的映射g：X → Z，使得z=g（x），并且最大化（EM）[8]，MCFlow迭代地填充根据Eq. 2（即，基于密度的当前估计），并根据等式（1）更新生成5（即，基于生成的样本）。这种方法背后的直觉是，根据最大似然条件找到数据中缺失条目的值需要数据分布的知识，并且学习数据分布的模型需要数据的完整知识。正如稍后将变得明显的那样，在这个迭代过程中填充缺失值从这个意义上说，MCFlow框架与蒙特卡罗版本的..p X（x）= p Z（g（x））。det.Σ。g（x）。埃克斯湾（三）的EM算法[48，36]比其香草版本。在在MCEM实现中，E步骤包括基于预测条件分布的当前估计生成潜变量的样本，而M步骤包括基于预测条件分布的当前估计生成潜变量的样本。这个模型是易处理的，如果pZ（z）是易处理的，如果[1][2][3][4][5][6][7][8][9][10]由于 g （ ·）是不确定的，通过绘制样本z p Z（z）并计算x=g−1（z），可以从密度p X（x）生成精确的样本。另外，计算x上的密度向量，然后按比例缩放结果的雅可比行列式，minant在方程。3[11]。变换的形式为Eq。3属于非线性独立分量分析的范畴。在文献[10，11，23]中已经提出了这种类型的各种方法在本文中，我们实现了网络G的形式规范化流模型，并修改现有的架构，以支持从数据与丢失条目的学习。使用对数似然函数通常在计算上是方便的。取方程两侧的对数。3results instep估计使观测后验最大化的参数。这种相似性变得更加明显，如果我们解释的插补任务，从方程。1和2作为从缺失数据的条件预测分布的当前近似生成样本，观测数据和当前模型参数pX（x|θ，xθ）（E步骤）。此外，从方程的优化任务。5可以可解释为在给定观测值和插补值p（θ）的情况下更新模型参数后验的当前近似值|x，x<0）（M阶）。4. 模型架构MCFlow架构利用由归一化流网络G（在本文中称为流网络或模型）组成的混合框架，该归一化流网络G在非归一化流网络中训练log（pX（x））= log（pZ（g（x）+log....det.g（x）T型Σ。Σ...（四）监督的方式，和前馈神经网络，在监督下接受培训。流网络提供了一个不可调映射gθ（·），其中θ是可调的给定一组完整的训练数据（即，没有缺失条目的数据），并假设g（·）由一组参数θ参数化，学习网络G对应于找到一组最佳参数θθ，使得网络的参数，在数据空间X和em之间，空间Z，反之亦然。前馈网络H通过映射输入em在嵌入空间中操作，嵌入向量，通过函数输出嵌入向量hφ（·），其中φ是网络的可调参数θ*=arg maxθ.log（pZ（gθ（x）+log....det.θ（x）T型Σ。ΣΣ...（五）=x~14208一般来说，流模型的作用是学习分布，数据的分布前馈网络的作用是找到具有最大可能密度估计的嵌入向量（即，最可能的嵌入向量）映射到如果网络G是可用的，那么数据输入的任务，如公式中所述。二是切实可行。例如，可以应用标准的基于梯度的优化技术。因为缺少数据会影响训练其条目与观测值匹配的数据向量（即，由掩码的补数索引的位置处的值该模型的高级概述如图所示1.一、与传统的流实现一样，14209m（i）θθ θφ1N−1−log（pZ（gθ（xstec（一）））+log....det.gθ（xstec（一））Σ。ΣΣ..Ni=0时.Stex s t ec（i）T.（七）图1.MCFlow架构的高级视图框架的生成部分涉及找到集合这是Eq的批量版本。五、换句话说，网络G的最佳参数是使插补数据的对数似然最大化的参数，其中插补机制被迭代地更新。图中的黑色箭头。图2示出了当训练生成模型时梯度反向传播的方向。一旦初始密度估计可用，通过训练前馈网络H来学习嵌入空间中hφ（·）上的最佳映射函数i。H的输入是输入训练集的嵌入，即zstec （i），i=0，1，. -是的-是的，N−1，其中zstec （i）=gθ（xs t e c （i））。将输入zstec（i）映射到输出zstec（i）的反馈网络H通过找到hφ（·）中使以下目标函数化的一组参数φ来训练的参数θe，其根据等式（1）优化映射gθ（·）五、因为Eq. 5本身不支持不完整数据，具体插补1N−1Ni=0时MSE（xs t e c（i）（一）m（i）Σ）−λlog（pX（x<$（i）（八）方案在初始化时实施。该方案涉及在多变量、表格数据的情况下对包含缺失数据的变量的边缘观测密度进行采样，以及在图像数据的情况下对最近邻采样在如上所述对数据进行预处理之后，存在初始密度估计，并且模型现在能够执行数据填补。在定义的后续训练迭代期间，使用模型的输出x更新x中缺失值的估计值。这在图中用虚线箭头表示1.一、图中更清楚地说明了训练过程的交替性质图2示出了如何使用来自先前时期的训练模型来更新缺失值估计以用于当前时期。框架的生成部分的训练阶段可以形式化如下：假设N个训练样本，x∈（i），i=0，1，. -是的-是的，N-1，具有相应的掩码m（i）是可用的。对于每个不完全样本x∈（i），a通过根据x s t e c （i）=xstec（i）m（i）+xstec（i）m（i）将观测值与来自估算样本xstec（i）的估算值组合来计算完整训练数据样本xstec（i）。在这里，表示Hadamard，或之间的元素乘积两个向量。在构建完整训练集的情况下，通过最小化以下成本函数来完成学习参数θ的最佳集合θ（·）1N−1其中 xs t e c （ i ） =g−1 （ zstec （ i ））， x（ i ） =g−1 （ z（i）），z（i）=h（zstec（i）），MSE（x，y）表示向量x和y之间的均方误差算子。在Eq中的第一个成本项8鼓励，使网络H输出一个嵌入，其反射率g−1（z（i））与观测项处的训练样本xs t e c （i）相第二成本项鼓励网络H根据当前密度估计输出具有最高密度值的向量两项合并以与观测值匹配的最可能嵌入向量的形式产生估计，有效地解决了来自等式2的最大似然目标。1和2.图中的红色箭头。图2说明了方程中不同项的计算。8. 箭头的实线部分表示框架中包含受计算影响的权重的部分，而虚线部分表示计算发生的位置以及它们如何在不影响任何参数的情况下通过框架传播。更具体地说，MSE项在数据空间中计算，但它只在反向传播时影响神经网络H中的权重。另一方面，在流模型G的嵌入空间中计算对数似然项，并将其用于更新H中的权重。我们注意到，优化成本函数从方程。8需要重复的对数似然评估（例如，在10g（pX（x∈））的计算中，潜在的变量推断（例如，在z_（tec）（x_ （tec））的计算，以及数据样本的重构，动作（例如，在从z计算x的过程中，其中的ll可以-否i=0时l〇g（pX（xs t e c （i）（6）可以有效地计算流网络G。而其他生成模型可能在一项任务或另一项任务上优于流方法，我们发现流模型构成了最好或者等效地，使用Eq.四是适应我国体制的需要伪代码，x14210θθm（i）m（i）图2.架构和反向传播过程的展开视图。在算法1中提供了用于训练过程的方法。注意，我们同时更新G和H的参数，通过前馈神经网络对z_stec进行预测，得到z_stec，通过对z_stec进行解码，重构数据样本x_stec。为了节省计算量：更新G最终插补样本xtec通过填写首先，然后H将需要将ward传递的缺失条目与x中的对应条目分开通过G（一个更新G本身，一个计算更新H中涉及的映射）。算法1培训程序数据：N个数据点x（i），i=0，1，. -是的-是的，N-1，其中对应的掩码m（i）指示观察到的和缺失的条目的位置将缺失数据简单插补到x中以得出xs t e c：xstec←xm+xm对于n=1到nEpochs，向前传球：zstec<$gθ（xs t e c）z<$hφ（zstec）x<$<$g−1（z<$）z<$gθ（x<$）反向传播：算法2插补程序数据：测试数据点x，具有相应的掩码m将缺失数据简单插补到x中以得出xs t e c：xtec←xtecm+xtecmztec←gθ（xt e c）z←h（zstec）x<$g−1（z<$）xstec←xm+xm4.1. 实现细节MCFlow架构由各种神经网络层、多个优化器和竞争损失函数组成，可以以本节中描述的方式实现。MCFlowal-出租m的Pytorch实现可在线获得。1预处理每个数据集根据等式计算损失。5根据等式计算损失。8W是在两个步骤中完成的：1）初始化x_i（i），以及2）缩放。通过反向传播损耗更新θ和φxstec←xm+xm将数据用于训练。每个数据点x（i）需要对x的初始估计的构造（i）。该初始一旦模型被训练，MCFlow将对缺失值进行插补。14211可以使用简单策略容易地执行步骤，零归因然而，我们采用了两种不同的初始化策略，这两种策略都估计初始值。根据算法2使用。该程序涉及-将原始估算的数据样本x转换为z，1https://github.com/trevor-richardson/MCFlow14212m（i）u∈x（i）基于数据集中的可观察值需要为hφ（·）对于数值型多变量数据集，每个缺失元素通过对包含缺失数据的变量的最大观测密度进行采样来代替对于图像数据集，通过从缺失像素的最近可观察近邻集合中随机选择一个条目完成缺失数据点的值选择后，通过最小值-最大值归一化将数据缩放至区间[0，1]对于多变量数据集，仅使用每个变量的观察值来确定该变量的最大值和最小值。对于图像数据集，每个像素可能使用的最大值为255，最小值为0。这些步骤是构造x tec的初始实例化所必需的。对于所有数据集和实验，使用Adam优化器。对于多变量数据集，我们使用学习率1×10- 4，批量为128。引入仿射耦合层，建立规范化流网络G真正的NVP框架[11]。我们的实现G使用六个仿射耦合层和一个随机掩蔽策略，而不是真正的NVP中使用的确定性掩蔽策略在每个仿射耦合变换的前向传递中涉及的操作在等式中描绘。第九章：以及在根据等式更新x stec之后的gθ（·）。10butbefore重置gθ（·）中的模型参数：xstec=xm+xm（10）基于该指数调度方案，如算法2中所述，MCFlow架构中的推理需要在训练期间保存的所有模型。保存的模型和通过架构的次数是训练的时期数M的函数。更具体地说，训练MCFlow涉及保存参数，hθ（·）和gθ（·）在每一个时期都是2的幂，最终需要10g2（M）的模型，以便正确地估算新样本的缺失数据。最长的一模型收敛需要500个epoch，这需要9个保存的模型才能正确推断测试数据点。在测试数据集中插补缺失数据涉及执行初始朴素插补，然后完全通过每个保存的架构。在该过程结束时，返回来自MCF1的x在x中的w的最终预测，并且记录性能度量5. 实验结果yD=xD，y<$D=x<$D<$exp（s（xD））+t（xD）（九）5.1. 数据集我们评估MCFlow的性能以及由方程式在图9中，D（-D）表示随机选择的索引的集合，其将不会（将）在当前仿射变换中被缩放或平移。使用二项分布初始化D中的指数，成功率为50%。这些索引在初始化后保持不变。在我们的G的实现中，每个cou的s和t应用层由4层全连接神经网络定义。s和t网络都使用Leaky ReLu作为隐藏层的激活函数。s和t的最终输出层分别使用激活函数tanh和linear网络H有五个线性层，每层的神经元数量与数据的维数相同。选择Leaky ReLu作为层间激活函数。由于资源限制，对图像数据集进行了以下更改：首先，用于MNIST、CIFAR-10和CelebA的批量分别为128、128和512;第二，对于缺失数据率在60%以上，采用1 ×10- 3MCFlow培训过程的详细描述可以在算法1中看到。MCFlow定期更新训练数据中的缺失条目，并重置流量模型函数gθ（·）中的θ参数。为此，我们使用了一种指数更新机制，其中数据更新和参数重置发生在2的幂的每一个历元。这意味着，为了对任意数据点执行推断竞争的方法在三个标准，多变量数据集从UCI存储库[12]和三个图像数据集。考虑的UCI数据集是信用卡客户违约本研究中使用的图像数据集是MNIST[27]、CIFAR- 10 [32]和CelebA [26]。 MNIST数据集包含手写数字的28×28像素灰度图像;我们使用标准的60，000/10，000训练/测试集划分。CIFAR-10包含来自10个类别的32×32像素RGB图像;我们使用标准的50，000/10，000训练/测试集分区。CelebA包含178 ×218像素的名人脸部RGB图像。它使用前162，770张图像进行分割，训练集和最后19，962张用于测试的图像。使用双三次插值将CelebA图像居中裁剪并调整大小为32 ×325.2. 实验装置使用均方根误差（RMSE）测量多变量和图像数据的插补性能我们报告了训练过程收敛时获得的模型的每个测试集上的性能数字，其中收敛是基于G（Eq.7）和H（等式（八）。我们强调，训练集本身有缺失的数据，训练损失仅在观察到的数据点上计算，以便尽可能忠实地模拟真实世界的场景。UCI数据集14213m（i）表1.UCI数据集的插补结果-RMSE（越低越好，0.2缺失率）信用卡在线新闻人气字母识别小鼠.1763 ±.00070.2585 ±0.0010.1537 ±.0006森林小姐.1623 ±.0120.1976 ±.0015.1605 ±.0004矩阵0.2282 ±0.0005.2602 ±.0073.1442 ±.0006自动编码器.1667 ±.00140.2388 ±0.0005.1351 ±.0009EM.1912 ±.0011.2604 ±.0015.1563 ±.0012增益.1441 ±.00070.1858 ±0.0010.1198±.0005MCFlow.1233±.0012.1760±.0032.1033±.0017表2.图像数据集的插补结果-RMSE（越低越好）缺失率→.1.2.3.4.5.6.7.8.9MNIST增益MisGANMCFlow.11508.11740.07464.12441.10997.07929.13988.11377.08508.14745.11297.09187.16281.12174.10045.18233.13393.11255.20734.15445.12996.24179.19455.15806.27258.27806.20801CIFAR-10增益MisGANMCFlow.10053.18923.06012.12700.15223.06232.13248.14746.06686.11785.12947.07215.12451.13027.08311.13130.14746.10048.13832.17335.13132.18728.24060.15015.53728.31722.16939CelebA增益MCFlow.06752.05733.07493.06243.08367.06266.08479.06946.09292.07261.10608.07890.11720.08487.14042.11073.52050.12225表3.插补MNIST数据的FID结果（越低越好）缺失率→.1.2.3.4.5.6.7.8.9增益.0696.40351.243.2776.33712.4422.9143.6992.74MisGAN.0529.1015.2085.2691.3634.88701.3242.3346.325MCFlow.0521.0779.2295.6097.8366.90821.9516.76515.11表4.插补MNIST数据的分类准确性（越高越好）缺失率→.1.2.3.4.5.6.7.8.9增益.989.988.985.978.969.931.852.629.261MisGAN.989.988.986.980.968.945.872.690.334MCFlow.991.990.990.988.985.979.963.905.705使用五重交叉验证，以20% 我们报告了六种竞争方法所有倍数的插补准确度的平均值和标准差：MICE[46]，MissForest [42]，矩阵完成（矩阵）[34]，自动编码器[16]，期望最大化（EM）[15]和GAIN [49]。对于MNIST、CIFAR-10和CelebA，在10%至90%的缺失率范围内报告了检验插补准确度，步长为10%。考虑的竞争方法包括GAIN [49]和MisGAN [29]。所有报告的数字都是在整个缺失数据，即x（i）。尽管MisGAN在CelebA上实现了合理的性能数字，但我们无法基于当前发布的代码对其进行没有其他版本的代码可直接从作者。我们还使用Fre' chet感知距离（FID）[21]测量了估算的MNIST图像的质量，该距离已被证明与人类感知良好最后，我们测量了算法保留语义内容的能力，方法是使用在完全观察到的数据上预训练的网络对估算的图像执行分类任务。5.3. 定量结果表1和表2描述了MCFlow对于所有数据集和缺失率，MCFlow框架在插补准确性方面优于所有其他方法，从所讨论模型的预测与地面真值之间的RMSE的角度来看对于UCI数据集，MCFlow14214与现有技术的GAIN相比，产生11%的平均平方误差减少。此外，与MNIST、CIFAR-10和CelebA上的下一个最佳执行方法相比，MCFlow分别使RMSE平均降低19%、38%和27%秒补充材料中的1包含训练数据集和PSNR方面的插补结果。表2中的结果说明了输入图像的像素级质量;相反，表3包括FID性能，其意味着指示人类所感知的质量。可以看出，MisGAN在大多数缺失范围内优于竞争方法。如将在Sec. 5.4，虽然这意味着输入的图像更接近于目标图像群体的属性，但是它们不一定保留部分观察到的输入的原始语义内容。为了说明这些方法在图像质量指标方面的性能，我们在更大的数据处理管道的背景下测试了它们的插补为此，我们测量了基于LeNET的手写数字分类器对具有不同程度缺失的估算 MNIST数据的分类性能。LeNET网络在没有缺失值的MNIST数据上进行了预训练表4包含这些结果。可以看出，MCFlow产生的输入结果对图像的语义内容的影响最小，因为使用我们的方法输入的图像的分类结果始终较高随着缺失数据率的增加，这种现象变得更加明显：在MCFlow输入的图像上操作的分类器能够实现良好的分类精度，直到测试的最高丢失率，并且即使在这种极端情况下也能够执行可接受的操作。5.4. 定性结果图3说明了MNIST数据集上90%缺失数据率的竞争方法沿着列（a）和（b）的图像分别包含未观察到的像素被分配值0以用于可视化目的。插补模型只能看到观察到的图像;完整图像仅供参考。列（c）、（d）和（ e ）中的图像分别包括使用 GAIN 、 MisGAN 和MCFlow后的插补结果。可以看出，MCFlow在保留和恢复预期图像的语义内容方面在竞争方法中做得最好，这进一步支持来自表4的结果。GAIN估算图像中的数字大部分难以辨认。相比之下，MisGAN估算的图像在视觉上令人印象深刻，这与表3的结果一致。然而，MisGAN的一个缺点是，(a)（b）（c）（d）（e）图3.缺失率为0.9时MNIST的样本插补结果：（a）原始图像，（b）观测图像，（c）GAIN估算图像，（d）MisGAN估算图像，（e）MCFlow估算图像。无法表示原始图像中包含的数字。秒补充材料中的第2节包含MNIST和CIFAR-10的其他定性结果。6. 结论我们提出了MCFlow，一种利用归一化流模型作为底层密度估计器的数据填补方法。我们用交替学习方案增强了传统的生成框架，使其能够准确地从具有不同程度缺失的不完整数据集中学习分布。我们empiri-cally证明了所提出的方法相对于国家的最先进的替代品在插补和原始数据之间的RMSE方面的优越性。实验结果进一步表明，MCFlow在保留数据的语义结构方面优于竞争方法。这一点通过在完整数据上训练的分类器在插补数据上实现的卓越分类性能得到了证明，该分类器在评价的缺失数据比率的整个范围内均成立。该方法在每个测试的缺失率下理解和恢复数据的语义内容的能力表明，即使在极端缺乏的情况下，它也能有效地学习数据的基本统计特性。鸣谢。作者要感谢罗切斯特大学健康与技术中心（CHET）的Charles Venuto和Monica Javidnia，感谢他们富有成效的见解和支持。14215引用[1] 放大图片作者：Marcin Andrychowicz，Misha Denil，Sergio Gomez Col- menarejo ， Matthew W. Hoffman ，David Pfau，Tom Schaul，and Nando de Freitas.通过梯度下降来学习。CoRR，abs/1606.04474，2016。2[2] 我的天Arj o vs k y和L e'onBottou。这是训练生成对抗网络的原则性方法。ArXiv，abs/1701.04862，2017年。2[3] 文森特·奥迪吉，弗朗索瓦·胡森，朱莉·何塞。采用主成分分析法对连续变量进行多重插补。 Journal ofStatistical Computation and Simulation ， 86 （ 11 ）：2140-2156，2016. 2[4] 尤里·布尔达，罗杰·B. Grosse, and Ruslan Salakhutdinov.重要性加权自动编码器。CoRR，abs/1509.00519，2015年。2[5] XI Chen ， Nikhil Mishra ， Mostafa Rohaninejad ， andPieter Abbeel. PixelSNAIL：一种改进的自回归生成模型.在Jennifer Dy和Andreas Krause，编辑，第35届机器学习国际会议的首席执行官，机器学习研究论文集第80卷，第864PMLR。1[6] Pierre Comon和Christian Jutten。盲源分离手册：独立分量分析及其应用Academic Press，Inc.美国佛罗里达州奥兰多，第1版，2010年。2[7] 古斯塔沃·德科和威尔弗里德·布劳尔高阶统计去相关，无信息损失。In G.特绍罗角S. Touretzky和T. K. Leen，编辑，神经信息处理系统进展7，第247麻省理工学院出版社，1995年。2[8] A. P. Dempster，N. M. Laird和D. B.鲁宾通过EM算法从不完整数据中获得最大似然《皇家统计学会学报》，B辑，39（1）：1-38，1977年。第1、3条[9] Marco Di Zio，Ugo Guarnera，and Orietta Luzi.有限高斯混合模型的插补。Comput. Stat.数据分析，51（11）：5305-5316，2007年7月。2[10] Laurent Dinh ， David Krueger ， and Yoshua Bengio.Nice：非线性独立分量估计。CoRR，abs/1410.8516，2014年。一、二、三[11] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Bengio.使用Real NVP的密度估计。2017. 一、二、三、六[12] 迪鲁·杜瓦和凯西·格拉夫。UCI机器学习存储库，2017年。6[13] 布兰登·J·弗雷。机器学习和数字通信的图形模型。麻省理工学院出版社，马萨诸塞州剑桥，USA，1998. 2[14] Ruiqi Gao，Yang Lu，Junpei Zhou，Song-Chun Zhu，and Ying Nian Wu.通过多重网格建模和采样学习生成式卷积网络。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第9155-9164页。IEEE计算机学会，2018年。1[15] Pedro J. Garcia-Laencina ， Jose-Luis Sancho-Gomez 和Anibal R.菲格拉斯-维达尔模式分类与错过-ing data：A review. 神经元计算Appl. ，19（2）：2632010年3月。1、7[16] 我爱迪普·冈达拉和王可。使用深度去噪自动编码器进行多重填补ArXiv，abs/1705.02737，2017年。7[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani ， M. 威灵角 Cortes ， N. D. Lawrence 和 K. Q.Weinberger ，编辑， Advances in Neural InformationProcessing Systems 27，第2672柯伦联合公司股份有限公司、2014. 2[18] 伊恩·J·古德费洛。NIPS 2016教程：生成性对抗网络。CoRR，abs/1701.00160，2017。3[19] 田汉，杨璐，朱松春，吴英念。发电机网络的交替反向传播算法。InAAAI，2017. 1[20] W. K.黑斯廷斯马尔可夫链蒙特卡罗抽样方法及其应用。Biometrika，57（1）：972[21] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统的进展，第6626-6637页，2017年7[22] C.T.凯利最优化的迭代方法。应用数学前沿。工业和应用数学学会，1999年。2[23] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。In S.Bengio，H.Wal-lach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展，第10215-10224页Curran Associates，Inc.2018. 一、二、三[24] Durk P Kingma，Tim Salimans，Rafal Jozefowicz，XiChen，Ilya Sutskever，and Max Welling.用逆自回归流改进变分干扰。In D. D.李，M。Sugiyama，U.卢克斯堡岛Guyon和R. Garnett，editors，Advances in NeuralInformation Processing Systems 29 ， pages 4743CurranAssociates，Inc. 2016. 2[25] Diederik P Kingma和Max W

下载后可阅读完整内容，剩余1页未读，立即下载