基于多峰先验分布的深度生成模型的分布外检测

68 浏览量更新于2023-12-04 收藏 510KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于多峰先验分布的深度生成模型的似然估计的分布外检测鸭井亮、小林圭日本庆应义塾大学鹿井亮st@keio.jp，kei@math.keio.ac.jp摘要现代机器学习系统可能会表现出不期望的和不可预测的行为，以响应分布外的输入。因此，应用分布外检测来解决这个问题是安全AI的一个活跃子领域概率密度估计是一种流行的低维数据分布外检测方法。然而，对于高维数据，最近的工作报告称，深度生成模型可以将更高的可能性分配给分布外数据，而不是训练数据。我们提出了一种新的方法来检测分布外的输入，使用具有多峰先验分布的深度生成模型。我们的实验结果表明，我们在Fashion-MNIST上训练的模型成功地将较低的可能性分配给MNIST，并成功地用作分布外检测器。1介绍机器学习领域在包括计算机视觉和自然语言处理的各个领域中然而，现代机器学习系统即使对于分布外的输入也可以返回具有高置信度的预测（Goodfellow，Shlens和Szegedy 2015; Gal 2016）。这是机器学习安全性方面的一个严重问题举一个真实的例子，2016年，一辆自动驾驶汽车在高速公路上与一辆拖拉机拖车相撞，没有任何警告（自然公路交通安全管理局2016）。他们报告说，这种情况超出了系统的预期性能为了避免这个问题，分布外检测是安全AI中的一个重要研究领域对于低维数据，在过去的几十年中已经进行了许多研究。Pimentel等人（2014）的综述论文将检测方法分为五组：概率方法、基于距离的方法、基于重建的方法、基于域的方法和信息论方法。然而，众所周知，这些方法不能直接应用于高维情况，因此最近提出了新的高维数据检测方法（Theis，Van Den Oord和Bethge 2016;Hendrycks和Gimpel 2017; Liang，Li和Srikant 2018）。在这项工作中，我们专注于概率方法，通过概率模型估计训练数据的分布，并基于直觉，假设分布外输入位于低密度区域（Bishop 1994）。对于高维数据，最近的工作（Choi，Jang和Alemi2019; Nalisnick et al. 2019 a）报告说，深度生成模型无法通过分配的似然度检测分布外的输入。已经从不同的角度提出了缓解这一问题的方法（ Hendrycks ， Mazeika ， and Dietterich 2019; Choi ，Jang，and Alemi 2019; Nalisnick et al.2019年b）。我们建议使用具有多模态先验分布的深度生成模型尽管先验的典型选择是标准正态分布，但各种研究提出了使用替代方案（Dilokthanakul等人，2016;Chen等人，2017; Tomczak和Welling 2017）。先前关于深度生成模型先验分布选择的工作具有基于代表性能力、对数据集的自然拟合以及分布输入的可能性或重建质量的标准。据我们所知，这是第一个专注于先验分布和分配给分布外数据的可能性之间的关系的工作在这里，我们考虑可以自然地划分为集群的数据集，因此其底层分布可以近似为多峰分布，其中组件彼此远离。这种假设对于在野外发现的许多数据集是合理的，例如Fashion-MNIST包含不同类型的图像，例如T恤，鞋子和包。如果使用单峰先验分布来在这样的数据集上训练生成模型，则模型被迫学习单峰和多峰分布之间的映射。我们认为这种不一致性是导致将高可能性分配给分布外区域的重要因素。我们在Fashion-MNIST上评估了我们的方法，并表明具有多模态先验分布的模型将较低的可能性分配给分布外的输入。在我们的实验中，我们使用不可训练的高斯混合分布，并根据数据集中的标签将每个数据手动分配给先验分布的一个分量。虽然很难将这种方法应用于更复杂的数据集，但我们的观察激发了对先验分布和分布外似然之间关系的进一步研究。版权所有© 2020本文由其作者。在知识共享许可署名4.0国际（CC BY 4.0）下允许使用。2相关工作我们的工作直接受到最近观察到的深度生成模型可以将更高的可能性分配给分布外输入（Nalisnick et al.2019 a; Choi，Jang和Alemi 2019）的启发2.1基于深度生成模型的Nalisnick等人（2019a）报告说，深度生成模型，如变分自动编码器（ VAE ），基于流的模型和PixelCNN可以为分布外输入分配更高的可能性。已经从不同的角度提出了解决方案。Hendrycks等人（2019）提出了另一个研究方向是使用替代指标。Choi等人（2019）建议使用Watanabe-Akaike信息标准（WAIC）。Nalisnick等人（2019 b）提出使用假设检验来检查输入是否存在于模型 Grathwohl 等人（2020）提出使用对数似然的梯度的l2范数据我们所知，没有以前的工作集中在先验分布和分布外的可能性之间的关系。2.2先验分布标准高斯分布通常用作深度生成模型（如VAE和基于流的模型）的先验分布然而，各种研究提出了不同的选择。一项研究表明了更有意义的先验分布：多峰分布（John- son et al. 2016; Dilokthanakul et al.2016; Tomczak and Welling 2017; Nalisnick and Smyth2017）、随机过程（Nalisnick and Smyth 2017; Goyal etal.2017; Casale et al.2018 ）和自回归模型（ Chen etal.2017; van den Oord ， Vinyals ， and Kavukcuoglu2017）。3该方法动机如果数据分布是单峰的，则两个分布中数据的中间图像应该具有高似然性。然而，这种假设对于包括Fashion-MNIST在内的许多数据集是不合理的，这些数据集包含不同的图像，例如T恤和袋子，其中间图像可能不是分销数据。因此，我们假设数据分布可以近似为多峰分布。假设数据分布是多峰的，组件彼此远离，如果先验分布是单峰的，先验和数据分布的高似然区域具有不同的拓扑结构。因此，如果我们假设深度生成模型学习先验分布和数据分布之间的拓扑保持映射，则先验分布中的一些高似然区域将映射到数据分布中的分布外区域。虽然先验分布中潜变量的概率密度不是影响模型分配的似然性的唯一因素，但我们模型我们替换了深一般的先验分布-K混合分布模型i=1pi/K，不可训练，并且为了简单起见，我们假设所有分量都是均匀加权的。我们根据数据集中的标签手动将每个输入分配给先验分布的一个分量。在训练过程中，每个输入的似然性用不同的单峰先验分布pi（每个输入的i检验似然性在混合物先验分布上进行评估，Ktioni=1pi/K，不使用所使用在训练中。评估我们通过将输入的对数似然解释为分类器得分来评估生成模型作为分布外检测器。在这里，我们将分布外数据视为负类。我们用四个不同的指标来评估我们的模型：95%真阳性率（TPR）下的假阳性率（FPR），95% TPR下的检测误差，受试者操作特征曲线下的面积（AUROC）和精确度-召回曲线下的面积（AUPR）。检测误差被定义为Pe= 0。5（1−TPR）+0。5FPR。我们的评估假设分布内和分布外输入在测试集中出现的概率4实验我们评估了具有多模态先验分布的深度生成模型，作为在 Fashion-MNIST 上训练的分布外检测器（Xiao，Rasul，and Volllen 2017），并在MNIST上评估（LeCun et al. 1998）作为分布外输入。4.1模型结构和培训细节VAE我们的实现基于（Rosca，Lakshminarayanan和Mohamed 2018; Nalisnick等人2019 a）中描述的架构。编码器由5个卷积层组成，具有5× 5内核。输出通道为[8， 16， 32， 64， 64]，步幅为[2， 1， 2， 1，2]，填充是[1，1，1，1，1]。在卷积层之后，两个完全连接的层投影成50维均值和对数方差。潜变量被投影到3,136个维度中，并具有完全连接的层，并重新成形为7× 7× 64。解码器由五个卷积层组成。前四层使用5× 5内核，最后一层使用4× 4内核。输出通道为[64，32，64，256]，步幅为[2，2，1，1]，paddings是[2，1，1，1]。我们假设身份证。像素上的分类分布。我们使用Adam优化器（Kingma and LeiBa 2014）训练了1,000个epoch，参数β1= 0。5，β2=0。9，恒定的学习率为1 e-3。我们使用5，000个样本来近似测试可能性。Glow我们的实现基于OpenAI的开源存储库1中托管的代码我们使用1个32的块我认为这种不一致性是一个重要因素，分布现象。第1https://github.com/openai/glow(a) VAE(b) 辉光图1：在Fashion-MNIST上训练的VAE和Glow分配的对数似然直方图（标签1和7）。“uni”表示标准高斯先验分布，“multi”表示双峰高斯混合先验分布。对于Fashion-MNIST，我们报告了在测试数据上评估的可能性。使用多峰先验分布的模型缓解了分布外问题。仿射耦合层，压缩第16层以后的空间维数。为了减轻对潜变量的空间依赖性，我们不使用多尺度架构，该架构在挤压后拆分潜变量（ Dinh ， Sohl-Dickstein和Bengio 2017）。此外，我们在编码器之后对宽度、高度和通道进行1×1卷积，并在解码器之前进行逆运算我们根据OpenAI的代码使用Adam优化器训练了1,000个epoch。我们使用1e−3的学习率，在前10个epoch中从零开始线性退火。4.2评价在这里，我们评估仅在Fashion-MNIST的标签1（裤子）和7（运动鞋）上训练的深度生成模型。我们比较了两种类型的先验分布：标准高斯分布和双峰高斯混合分布。双峰先验的平均值为[±75，0，. . . ，0]，以及[±50，0，. . . ，0]表示发光。方差是diag（[1，. . . ，1]）。在训练阶段，具有不同标签的图像被分配到不同的组件。图1显示，使用多峰先验分布的模型成功地将较低的似然性分配给MNIST（分布外数据），而使用单峰先验分布的模型将较高的似然性分配给MNIST。我们评估模型的分布检测器。图2显示了检测器的ROC曲线、AUROC和AUPR。使用多模态先验分布的模型增加了VAE和Glow的AUROC和AUPR。图3显示了TPR为95%时的FPR和检测器的检测误差。我们的模型在VAE和Glow上显著降低了这两个指标。所有评估指标的改进(a) ROC曲线(b) AUROC和AUPR图二：使用具有单峰和多峰先验分布的模型分配的对数似然的分布外检测器的ROC曲线、AUROC和AUPR。AUROC和AUPR的值越高越好图3：95%真阳性率（TPR）时的假阳性率（FPR）和检测误差Pe= 0。5（1 − TPR）+0。5FPR在分布外检测器的95%TPR处，使用由具有单峰和多峰先验分布的模型分配的对于这两个指标，值越低越好。证明了使用多模态先验分布的模型改善了作为分布外检测器的性能。5结论与讨论我们提出了一种使用具有多模态先验分布的深度生成模型进行分布外检测的新方法。最近的工作（Nalisnick et al. 2019 a; Choi，Jang和Alemi 2019）表明，深度生成模型可以将更高的可能性分配给分布外输入而不是训练数据，并且报告的结果表明它们不能用作分布外检测器。我们表明我们的模型降低了分布外的可能性，并作为一个分布外检测器的功能对时尚- MNIST与MNIST。据我们所知，这是第一次对作品之间的关系进行选择，先验分布和分配给分布外输入的可能性。然而，很难将我们的方法应用于复杂的数据，因为它需要大量的组件，更好的数据分配策略，以及更复杂的先验分布。我们的观察激发了对深层生成模型的潜变量空间和先验分布设计的确认本文受益于Masayuki Takeda的建议和英语编辑。本工作得到了 JSPSKAKENHI （ JP19K03642 ，JP19K00912）和RIKEN的支持AIP日本。引用毕晓普角M. 1994.新颖性检测和神经网络验证。IEEProceedings ： Vision ， Image and Signal Processing141（4）：217-222.卡萨莱湾P的; Dalca，A.五、Saglietti，L.; Listgarten，J.;和Fusi，N. 2018.高斯过程先验变分自动编码器。神经信息处理系统（NeurIPS）陈 X.; Kingma ， D. P 的 ; Salimans ， T.; 段， Y.;Dhariwal，P.; Schulman，J.; Sutskever，I.;和Abbeel，P.2017。可变损耗自动编码器。国际学习与表征会议（InternationalConferenceonLearningandRepresentation，ICLR）Choi，H.;张，E.;和Alemi，A.A. 2019年。WAIC，但为什么？用于鲁棒异常检测的生成集成arXiv预印本arXiv：1810.01392。Dilokthanakul，N.;梅迪亚诺山口A. M.; Garnelo，M.;李，M. C. H. 的 ; Salimbeni ， H.; Aruldaran ， K.; 和 Shana-han，M. 2016.使用高斯混合变分自编码器的深度无监督聚类。arXiv预印本arXiv：1611.02648。Dinh，L.; Sohl-Dickstein，J.;和Bengio，S. 2017.使用Real NVP 进行密度估计国际学习与表征会议（InternationalConferenceonLearningandRepresentation，ICLR）Gal，Y.2016年。深度学习的不确定性博士剑桥大学博士学位古德费洛岛J.道：Shlens，J.;和Szegedy，C.2015年。解释和利用敌对的例子。国际学习表征会议（ICLR）戈亚尔，P.;Hu，Z.;梁某;王，C.;和Xing，E.P. 2017年。用于分层表示学习的非参数变分自动编码器。IEEEInternationalConferenceonComputerVision（ICCV）Grathwohl ， W.; 王， K.- C. 的 ; 雅各布森， J. H. 的 ;Duvenaud，D.; Swersky，K.;和Norouzi，M. 2020. 你的分类器其实是一个基于能量的模型，你应该像对待一个模型一样对待它。国际学习与表征会议（InternationalConferenceonLearningandRepresentation，ICLR）Hendrycks，D.，和Gimpel，K. 2017.神经网络中检测错误分类和分布外示例的基线。国际学习与表征会议（ InternationalConferenceonLearningandRepresentation，ICLR）Hendrycks，D.; Mazeika，M.;和Dietterich，T. 2019.具有离群值暴露的深度异常检测国际学习与表征会议（InternationalConferenceonLearningandRepresentation约翰逊，M。 J.道： Duvenaud，D.; Wiltschko，A. B.人; 达塔S.的R.;和Adams，R. P. 2016.使用神经网络组合图形神经信息处理系统会议（NIPS）Kingma，D. P.，and Lei Ba，J. 2014. 亚当：一种方法随机最优化国际学习表征会议（ICLR）LeCun，Y.;博图湖; Bengio，Y.;和Haffner，P. 1998.基于知识的学习应用于文献检索。Proceedings of the IEEE86（11）：2278Liang，S.;李，Y.;和Srikant，R. 2018.增强神经网络中分布外图像检测的可靠性。国际学习与表征会议（InternationalConferenceonLearningandRepresentation，ICLR）Nalisnick，E.，Smyth，P. 2017. Stick-Breaking Varia-tionalAutoencoders. 国际学习表征会议（InternationalConference onNalisnick，E.; Matsukawa，A.; Teh，Y. W的; Gorur，D.;和Lakshminarayanan，B. 2019年a。深度生成模型知道他们不知道的吗？国际学习与表征会议（InternationalConferenceonLearningandRepresentation，ICLR）Nalisnick ， E.; Matsukawa ， A.; Teh ， Y. W 的 ; 和Lakshmi-narayanan，B. 2019年b.使用典型性检验检测深度生成模型的分布外输入arXiv 预印本arXiv ：1906.02994。自然公路交通安全管理局。2016. PE 16-007。Pimentel，M.一、Clifton，D.一、克利夫顿湖;和塔拉先科L. 2014.新颖性检测综述。信号处理99：215-249。Rosca ， M.; Lakshminarayanan ， B.; 和 Mohamed ， S.2018.变分推理中的分布匹配。arXiv预印本arXiv：1802.06847。泰斯湖; Van Den Oord，A.;和Bethge，M. 2016.关于生成模型评价的注记。国际学习与表征会议（InternationalConferenceonLearningandRepresentationTomczak，J.M.，和Welling，M. 2017. VAE with a Vamp-Prior的相关歌曲人工智能与统计国际会议（AISTATS）van den Oord ， A.; Vinyals ， O.; 和 Kavukcuoglu ， K.2017. 神经离散表示学习神经信息处理系统会议（NIPS）肖， H.;Rasul ， K.; 和 Volllavis ， R.2017 年。 Fashion-MNIST：一种用于基准机器学习算法的新型图像数据集arXiv预印本arXiv：1708.07747。

下载后可阅读完整内容，剩余1页未读，立即下载