基于频率正则化的分布外检测

36 浏览量更新于2023-10-16 收藏 791KB PDF 举报

生成模型

机器学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5521×基于频率正则化生成模型的分布外检测私募菜威斯康星大学麦迪逊分校计算机科学系mucai@cs.wisc.edu威斯康星大学麦迪逊分校计算机科学系sharonli@cs.wisc.edu摘要现代深度生成模型可以将高可能性分配给从训练分布外部提取的输入，从而对开放世界部署中的模型构成威胁虽然许多研究关注于定义OOD不确定性的新测试时间度量，但这些方法并没有从根本上改变生成模型在训练中的正则化和优化程度。特别是，generative模型过度依赖于背景信息来估计可能性。为了解决这个问题，我们提出了一种新的频率正则化学习（FRL）框架用于OOD检测，该框架将高频信息纳入训练并引导模型专注于语义相关特征。FRL有效地提高了各种生成架构的性能，包括变分自动编码器，GLOW和PixelCNN++。在一个新的大规模评估任务中， FRL 实现了最先进的性能，比强大的基线Likelihood Regret（AUROC）高出10.7%，同时实现了147的推理速度。广泛的消融表明，FRL提高了OOD检测性能，同时保持图像生成质量。代码可在https://github.com/mu-cai/FRL上获得。1. 介绍现代深度生成模型在已知的背景下取得了特别是，Nalisnick等人。 [31]表明，生成模型可以对分布外（OOD）数据样本产生异常高的似然估计，其语义在训练数据分布之外。理想情况下，在MNIST上训练的模型不应该为动物图像产生高的相似度分数，因为语义明显不同于手写数字。这个有趣而又令人困惑的观察引发了大量的文献来解决生成建模中的OOD检测问题。很多前期工作都是为了--基于定义OOD不确定性的更合适的测试时间度量，例如似然比[35]，输入复杂度[38]和似然后悔[45]。尽管性能有所提高，但这些方法并没有从根本上改变生成模型的训练和优化深度客观地说，OOD检测的持续研究进展要求改进学习方法的设计，除了推理时间统计测试。本文弥合了这一关键差距。在本文中，我们提出了一种新的频率正则化学习框架OOD检测（被称为FRL）。我们的工作受到Ren等人的观察的激励。[35]，这表明生成模型对背景信息的依赖不期望地导致OOD样本的高度相似性。事实上，最近的几项研究[52，30，20]表明，当前的生成模型过度拟合训练数据，特别是背景像素。为了缓解这个问题，我们的关键思想是引导模型更多地关注高频信息，这些信息代表对象的轮廓和语义细节，而不是低频图像背景。如图2所示，尽管OOD和分布数据具有相似的背景，但它们的高频信息很好地代表了语义特征差异我们的框架以经典信号处理为基础[39，3，13]，这证明了高频分量捕获语义内容的功效特别地，FRL将高频分量作为附加通道添加到输入图像，这将深度生成模型正则化以具有对背景信息的较少依赖性，从而改进测试时OOD检测。FRL提供了一种通用的即插即用机制，适用于常见的生成模型，包括变分自动编码器（VAE）[19，14]，GLOW [18]和PixelCNN++ [34，37]。重要的是，我们的方法对现有的训练架构进行了最小的更改，并且只需要修改输入通道的数量。FRL是直接的，在实践中实现起来相对简单。在测试期间，我们将原始图像与高频分量连接，并估计5522.××∈X连接输入上的OOD得分。我们在各种生成建模架构和数据集上广泛评估了我们的方法，其中FRL建立了最先进的性能。在基于流的模型GLOW上，与最佳基线输入复杂度相比，FRL将CIFAR-10的性能提高了7.5%（AUROC）[38]。虽然之前的文献主要评估了简单数据集（如CIFAR-10和Fashion-MNIST）的性能，但我们进一步将评估扩展到大规模环境，并测试了我们方法的极限。在具有更高分辨率的CelebA数据集上，FRL在AUROC中比竞争性方法LikeRegret（LR）[45]的性能高出10.7%，同时在VAE上实现了147更快的推理速度。与LR不同的是，FRL在推理时间内简化了对在线优化的需求，这是阻止LR执行实时OOD检测的主要瓶颈我们的主要贡献及成果概述如下：• 我们提出了一个新的频率正则化OOD检测框架FRL，它通过强调高频信息来正则化深度生成模型的训练。FRL有效地提高了常见生成建模方法的性能，包括VAE，GLOW和PixelCNN++。• 我们广泛评估FRL的共同基准，随着一个新的大规模的高分辨率图像的评估任务FRL实现了最先进的性能，比强基线Likeli-hood Regret [45]高出10.7%（AUROC），同时实现了CelebA的推理速度快147。到达贝斯特据我们所知，这是第一个工作，证明了基于生成的OOD检测的有效性的数据集以外的CIFAR基准。• 我们进行了广泛的消融，以提高对我们方法有效性的理解，强调高频的重要性。我们表明，FRL提高OOD检测性能，同时提高图像生成质量。2. 预赛我们考虑无监督学习的设置，其中X表示输入空间。训练集D={xi}n是可以通过阈值机制做出决定：G（x）= IDS（x）≤λ，λOODS（x）> λ其中具有较低得分S（x）的样本被分类为ID，反之亦然。阈值λ通常被选择为使得高比例的ID数据（例如，95%的人被正确分类。评分函数的自然选择是使用生成模型直接估计输入的负对数似然，我们将在下面描述。3. 方法我们的新型频率正则化分布外检测框架如图1所示。在下文中，我们首先介绍从图像中提取高频信息的机制（3.1节）.我们的训练对象有助于在生成建模过程中保存频率信息（第3.2节）。3.1. 高频信息我们的工作受到Ren等人的先前工作的激励。[35]，其表明生成模型例如，在CIFAR-10上训练的深度生成模型可以为来自MNIST的OOD数据分配更高的可能性为了更好地理解这一现象，最近的几项研究[52，30，20]表明，当前的生成模型对训练数据过拟合，特别是对确定图像语义不重要的背景像素。相比之下，人类可以将MNIST图像区分为OOD w.r.t.基于语义信息的动物图像。受此启发，我们的框架的关键思想是开发高频信息，以增强基于生成的OOD检测。特别地，我们通过引导生成模型更多地关注图像的高频分量来减轻生成模型高频分量在捕获高级语义内容方面是有效的，如在I.I.D. 来自分销i=1PX. 这种设置要求经典信号处理文献[39，3，13]。相比图像的颜色空间，高频特征可以过滤掉比基于判别的OOD检测方法更弱的数据假设，其需要标记信息。OOD检测可以被看作是一个二元分类问题。在测试时，面向对象检测的目标是判断样本x∈ X是否来自内部分发PX（ID）或非（OOD）。实际上OOD通常由一个分布定义，该分布模拟非-底层背景信息，并维护关键语义信息，如图2所示。我们现在介绍如何将输入图像x变换为高频对应物xH的细节。整个过程如图3所示。注意，xH与x具有相同的空间维度。具体来说，我们采用高斯核Kσ：在部署期间遇到的已知，例如SAM-1−1，m2+n2，e（一）来自不相关语义的PLE（例如，MNIST与猫）。的Kσ[m，n]=22πσ2σ2，5523−−ΣΣ|||22∈ −|ΣΣ输入重建输出高频输入条件编码器是说潜在向量HY概率编码器像素空间输入（ |）标准偏差��=��∼ N (��, I)（| ）图1：用于OOD检测的拟议频率正则化学习框架（FRL）概述。我们使用VAE架构进行编程。其核心思想是从原始图像中提取高频信息，并将其用于正则化生成模型。高频信息捕捉对象的轮廓，而不是背景。其中[m，n]表示相对于图像批次的中心的空间位置，并且σ2表示高斯函数的方差。在[13]之后，方差与高斯核大小成比例地增加。通过使用Kσ对输入x进行卷积，我们获得低频（模糊）图像xL：k1k12 2学习语义信息，因为不能恢复高频分量将导致重构损失。我们的方法只需要修改输入通道的数量，就可以对架构进行最小的更改。在下文中，我们考虑三种常见的生成建模方法，包括 VAE ， GLOW 和PixelCNN++。3.2.1 变分自动编码器xL[i，j]=Kσ[m，n]·x[i+m，j+n]，m=−k−1n=−k− 1VAE是一种广为人知的生成式建模方法[19，14]。VAE由一个编码器2 2（二）其中k表示核大小，并且m，n表示2D高斯核的索引，即，，m，n[k-1，k-1].为了获得高频图像xq（z xF）以及解码器pθ（xFz），如图1所示。给定潜在码z及其先验p（z），似然pθ（xF）为建模为：H我们先皈依彩色图像转换为灰度图像，然后减去低频信息：pθ（xF）=Zp θ（xF|z）p（z）dz.（四）xH=rgb2gray（x）-[rgb2gray（x）]L，（3）其中RGB2Gray函数将彩色图像转换为灰度图像。此操作将删除与身份和结构无关的颜色和照明信息所得到的高频图像xH包含原始图像的对象轮廓。我们通过引入可以利用高频信息的训练目标来3.2. 高频信息的生成式建模在训练过程中，变分推理用于最小化对数似然的证据下限，其用作真实似然的代理[19]：logpθ（xF）≥ Eq<$（z|xF）[log pθ（xF|z）] − DKLq（z）|xF）p（z）L（xF;θ，θ），其中q（z xF）是真实后验分布pθ（z xF）的变分近似。在推理过程中，不容易直接得到对数似然logpθ（xF）。相反，对数似然近似于重要性加权下限LK（xF;θ，θ）：加强深层生成模型，以支付更多-θFE1KΣlog 1Σpθ。XF|zkp.zk注意力集中在高频上，即，语义特征，我们logp（x）≥z，…zq|xF）K k=1q。zK |xF建议通过添加高-频率分量到输入。换句话说，我们通过通道级联使用输入xF=[x，xH]（参见图1）。通过这种方式，深层生成模型得到激励LK（xF;θ，θ），其中，zk是来自变分后验q∈（z）的高斯样本|xF）。ZHY∫K5524Y◦◦···◦f1F2fK···−K×K灰度减去⊝ZH(a) 配送中(b) 分布外图2：原始RGB图像的可视化和具有类似背景的相应高频特征。分发中数据包含猫和狗，图3：提取高频信息的过程说明。高斯模糊用于获得低频图像。高频分量是灰度图像和模糊灰度图像之间的差。3.2.3 PixelCNN++PixelCNN和PixelCNN++[34，37]属于自回归模型家族给定一个2D图像xF，PixelCNN++逐像素生成输出图像。因此，图像上像素的联合分布xF可以分解为以下条件概率的乘积：n2p（xF）= p（x i|x1，. . . ，x i−1），（7）i=1与分布外的数据建筑不同。其中xi是每个位置的像素值的排序3.2.2发光GLOW [18]采用可逆网络[36]，而不使用编码器-解码器架构。具体地说，f由一系列变换组成：f=f1f2fK，使得xF和潜在代码z之间的关系可以被建模为：像素依赖性是光栅扫描顺序：在每一行内逐行和逐像素。因此，每个像素都依赖于它上面和左边的所有像素，而不依赖于任何其他像素。3.3. OOD检测评分虽然一个简单的想法是采用负对数似然分数，但最近的工作[38]表明，xF←→ h1←→ h2···←→z，（5）更有利的是减去输入复杂度，得到以下函数：其中hi（i=1，，K1）是中间变量。这样的可逆变换序列也称为（正规化）流。潜在变量z被生成为输入xF的描述符。然后给定一个数据点xF，由θ参数化的模型的对数概率密度函数可以写为：logp θ（xF）= log p θ（z）+log |det（dz/dxF）|=logp θ（z）+Δlog|det（dhi/dhi−1）|.S（x）=−logpθ（x）−L（x），（8）其中复杂度得分L（x）由从数据压缩器导出的代码长度表示[38]。这个分数函数也可以从似然比检验的角度来解释。受此启发，我们采用基于频率的对数似然项来导出用于OOD检测的新评分函数SF（x）i=1（六）SF（x）=−logpθ（xF）−L（x），（9）换句话说，对数似然logpθ（xF）是使用z的似然和可逆的11卷积模导出的。负对数似然（每维比特数）可用于下游任务，如OOD检测。5525其中SF（x）捕获用于OOD检测的频率信息。表示代码长度L（x）的图像压缩算法基于可移植网络图（PNG）[11]格式。5526×××4. 实验在本节中，我们首先描述实验细节（第4.1节），然后在各种生成建模架构和数据集上评估我们的方法FRL（第4.2节第4.3节）。进一步消融研究见第4.4节。大量的实验结果表明，FRL不仅保留了图像生成能力，而且增强了OOD检测。4.1. 实验细节我们使用CIFAR-10 [21]，Fashion- MNIST [43]作为分布数据集。对于这两个数据集，我们总共考虑了9个OOD数据集，它们都被调整为32 32。OOD数据集包括SVHN[32] ，LSUN[51] ，MNIST[8] ，KMNIST[24]，[22]第22话：不信，不信，不信。在CIFAR-10评估中，OOD数据集还包括时尚-MNIST，反之亦然。此外，我们还在大规模高分辨率数据集CelebA上评估了我们的方法[28]。在[16]之后，我们采用了四个高分辨率OOD数据集：[40]，地方[44]，太阳[53]和纹理[6]。所有图像的大小调整为128 ×128。培训详细信息我们提供了每个架构的培训详细信息：VAE、GLOW和PixelCNN++。(1) VAE针对CIFAR-10和Fashion-MNIST训练了100个epoch，针对CelebA训练了110个epoch高斯核大小设置为5，我们在第4.4节中提供了进一步的消融。(2) GLOW针对CIFAR-10和Fashion-MNIST进行了50个epoch的训练，批量为32。学习率为510-4。(3) PixelCNN++ 训练了 110 个 epoch ，学习率为510−4。对于PixelCNN++的编码部分，模型使用由5个残差层组成的3个残差块。根据文献[31，35]，我们主要使用AUROC作为OOD检测的评估指标。所有实验都在NVIDIA GTX 2080TiGPU上进行4.2. 共同基准在这一节中，我们将在通用基准测试中评估我们的方法，并将其与基于生成的OOD检测方法进行我们考虑以下基线：负对数似然比（NLL）[31]，似然比（LRatio）[35]，输入复杂度（IC）[38]，以及两个Likelihood Regret（LR）的变体[45]：LR（E）优化编码器，LR（Z）优化潜在变量。为了公平比较，所有基线方法都在一致设置1下进行训练和评估。我们报告的结果是5次独立运行的平均值。基于GLOW模型的CIFAR-10的OOD检测结果如表1（左）所示。基于流的模型使用可逆卷积来估计相似度，因此编码器和解码器的参数是相同的。因此，可能后悔（LR）在此不FRL建立了最先进的性能，在AUROC中比最佳基线输入复杂度（IC）高出7.5%。我们的方法和IC之间的比较请注意，Likelihood Ratio（LRatio）在GLOW模型上表现不佳。接下来，我们将在PixelCNN+和VAE上将我们的方法与LRatio进行对比，其中LRatio更有效。PixelCNN++表1（右）显示了使用PixelCNN++ [34]的OOD检测结果，其中FRL优于基线。在所有基线中，LRatio [35]还试图使用Likestival Ratio统计来减轻背景信息的影响。与LRa- tio相比，FRL显示出28.6%的AUROC改善。这表明，使用频率信息进行模型正则化可以更有效地减轻背景的影响。请注意，由于自回归模型中的顺序预测属性，因此没有潜在变量和编码器。因此，可能后悔（LR）在这里不适用。VAE表2显示了CIFAR上的OOD检测结果-10. 我们与竞争性基线进行比较，Likestival Regret（LR）[45]。请注意，LR采用在线估计，这在其优化中会导致过多的推理时间。最好的变体，即 LR（E），只能处理2.6每秒的图像。相比之下，FRL计算效率高（根据推理速度测量，每秒169.3张图像），同时实现了相当的性能。此外，与IC相比，使用我们的方法FRL的LSUN和噪声的故障情况显着减少。例如，当使用噪声作为OOD数据时，FRL将AUROC从0.167（IC）提高到0.922。这是因为图像代码长度只是复杂度分数的近似值。我们还在附录中显示，FRL为ID数据（绿色阴影）产生更集中的分数分布，有利于OOD检测。1我们的实现基于代码库：https：//github.com/XavierXiao/Likelihood-遗憾55270.906 ±0.0010.925 ±0.0021.000 ±0.0000.988 ±0.0010.990 ±0.0000.985 ±0.000.px|zθ F.Σ。 Σ。px|zp zq z|xθF.Σ|表1：当CIFAR-10是分布数据集时，GLOW和PixelCNN++中OOD检测的AUROC值0.114±0.0020.874± 0.0030.987± 0.0001.000± 0.0000.569±0.004表2：当CIFAR-10是分布数据集时，VAE主动模型可以过拟合分布内数据，因此，允许LikeRegret学习很大的可能性在线似然优化期间的偏移。但在OOD数据集NLLLRatioLR（Z）LR（E）KMNIST 0.011 0.918 0.755 0.999 0.9810.993 ±0.0010.000 0.937 0.637 0.996 0.9880.030 0.492 0.737 0.994 0.988噪音1.000 1.000 0.703 0.999 0.167固定0.299 0.353 0.833 0.995 1.000平均值0.264 0.697 0.6960.9260.798最大值（↑）240.8 133.2 1.3 2.6 238.8 169.3T推断（↓）0.00420.00750.7438 0.37830.0042 0.0059当使用Fashion-MNIST作为ID数据集时，FRL在所有OOD数据集上都实现了强大的性能，平均AUROC得分为0.976。这可以归因于Fashion-MNIST数据的简单结构，在这种情况下，VAE确实更容易估计可能性全部结果见附录。4.3. 高分辨率数据集虽然以前的文献主要评估OOD检测性能的简单数据集，如CIFAR-10和时尚MNIST，我们扩展我们的评估，以大规模的设置和测试我们的方法的限制。特别是，我们考虑在CelebA [28]上训练的模型，CelebA是一个大规模的人脸数据集。表3显示了VAE的OOD检测结果。FRL实现了AUROC 0.984的最佳性能，平均超过四个不同的OOD测试数据集。值得注意的是，Likelihood Regret家族在这种情况下表现不佳-最佳变体LR（E）达到AUROC 0.877。这种行为与CIFAR-10等小型数据集形成鲜明对比。第4.2节），其中gener-在大规模设置中，生成模型（如VAE）可能不再过拟合分布数据，并且在使用LR时变得不那么有效。我们的研究结果表明，FRL可以灵活地用于小规模和大规模的数据集，并显示出更稳定的性能比基线方法，如LikesthetRegret。据我们所知，这是第一个证明基于生成的OOD检测在大规模数据集上（相对于CIFAR）的有效性的工作。表3：当CelebA是分布数据集时，VAE中OOD检测的AUROC值。OOD数据集NLLLRatio[31][35] [36] [37] [38] [39]]自然主义者0.993 0.969 0.415 0.808 0.955 0.995± 0.000地点0.933 0.847 0.744 0.928 0.976 0.991± 0.000太阳能0.945 0.884 0.726 0.929 0.959 0.987± 0.001纹理0.938 0.891 0.465 0.842 0.918 0.965± 0.001平均值0.952 0.898 0.588 0.877 0.9520.984±0.000最大值（m/s）99.3 6.3 0.6 0.3 44.3 41.2T推断（↓）0.01010.15861.56433.58430.0226 0.02434.4. 消融和进一步分析高频信息至关重要。我们表明，频率信息是至关重要的推理时间OOD检测。在这里，我们使用VAE框架来解决这个问题。回想一下，VAE在评估期间的重要性加权下限中具有三个分量：k，k，k.特别地，pθxFzk表示以下情况的重建可能性：输入xF=[x，xH]。由于重建是逐像素操作的，我们可以将k分成两部分：p θ。X|zkθ和p θ。XH|zk，代表控制器，数据集辉光PixelCNN++NLLL比率ICFRLNLLLRatio ICFRL[三十一][35]第三十五届[38个]（我们的）[三十一][35][38个]（我们的）公司简介0.0700.8900.1610.7300.8830.2130.915± 0.0010.1290.8520.949 0.7370.785 0.6400.831± 0.002MNISTFMNISTKMNISTOmniglotNotMNIST噪声恒定0.0010.0070.0070.0000.0061.0000.0100.0030.0070.0080.0010.0090.4260.0530.8580.7120.3800.9550.5391.0001.0000.961± 0.0020.645± 0.0020.720± 0.0051.000± 0.0000.0000.0030.0020.0000.0031.0000.0420.092 0.9670.494 0.9070.341 0.8260.951 0.9890.718 0.826一千一千0.428 1.0000.999± 0.0000.979± 0.0010.980± 0.0011.000± 0.0000.979± 0.0011.000± 0.0001.000± 0.000平均0.2210.1550.7270.802± 0.0010.2260.640 0.8770.926± 0.001img/s（↑）40.120.338.633.720.010.7 19.316.2[三十一][35]第三十五届[45个][45个][38个]（我们的）SVHNLSUN0.0810.9260.0330.0500.9520.6650.6550.4560.7320.9590.4030.9910.9070.1740.9920.854 ±0.0020.449 ±0.0030.984 ±0.0005528.Σ|×××分别从原始图像和高频信息中提取为了隔离高频信息的影响，我们改变p θ的权重XH zK 从0v到2的对数似然形式的推理时间。的表4：当CIFAR-10是分布内数据集时，VAE、GLOW和PixelCNN++中三种高频表示形式下 OOD 检测的AUROC值，此处结果是所有OOD数据集的平均值。平均AUROC显示在图4（上）中。当高频重构部分被完全去除（对应于0），OOD检测性能显著降低。这相当于IC基线。当我们进一步将高频权重增加到1.5时，FRL实现了0.927的AUROC值，这与使用昂贵的在线优化的LR（E）的性能相为了进一步验证，当从源图像中去除高频信息时，当CIFAR-10用作分布数据时，VAE的AUROC将从0.906降低到0.834。该消融研究再次证明了高频重建在基于生成的OOD检测中的重要性。另一个例子是，对于VAE中的时尚MNIST，高频信息的均方反射误差从二、1210-3比1。34 10−3采用FRL，其中我们的方法在所有面向对象设计中实现了强大的性能平均AUROC为0.976。请注意，GLOW和PixelCNN++中没有重建过程，它们直接产生似然。因此，我们专注于VAE，因为从原始图像和高频图像中分离可能0.950.900.850.800.75电话：+86-0515 - 8888888传真：+86-0515 - 8888888重量(a)高频消融重要性0.906对高斯核大小的消融。回想一下，采用高斯核来诱导cf第3.1节）。内核大小控制高级结构和纹理细节之间的权衡我们在CIFAR-10上训练了不同高斯核大小的VAE，并分别评估了所有OOD数据集的平均AUROC如图4所示（下）。结果表明，当核大小足够大时，FRL对核大小的选择不敏感。FRL与其他高频表示兼容。在FRL中，高斯核旨在利用高频信息来增强OOD检测性能。除了高斯核之外，我们还证明了提取高频信息的其他机制也可以用于我们的框架中，例如使用FFT的傅立叶变换[4]和使用Haar小波的小波变换[50]。表4显示了利用高频信息的所有三种方法的性能都大大超过了基线输入复杂度。在GLOW上，小波变换显示出比高斯核略有改进。FRL通过高效的推理实现了强大的结果。我们在表2中显示了当CIFAR- 10用作ID数据集时，在VAE的不同方法下每秒处理的图像数量。具体来说，FRL可以处理0.900.850.800.750.8990.8980.896 0.8961 5 9 13 17 21高斯核大小(b)高斯核尺寸169.3张图像/秒，而目前最好的生成方法LR（E）每秒只能处理1.3张图像，这与实时推理的要求相去甚远。此外，LR（E）在部署到具有更高分辨率的真实世界数据集中时可能会慢得多。例如，如我们在4.3节中所示，LR（E）在更大的数据集CelebA上每秒处理0.3张图像，比我们的方法慢1475. 相关工作图 4 ： VAE 中高频重要性和高斯核大小的消融。CIFAR-10是分布中数据。结果是所有OOD测试数据集的平均值。分布外检测机器学习模型通常假设训练和测试数据分布匹配。然而，这种假设在现实世界中很少成立，在现实世界中，0.9190.9270.9230.9060.8890.8670.805AUROC0.802AUROC高频形式VAE辉光PixelCNN++无（输入复杂度）0.7980.7270.877高斯核0.9060.8020.920傅立叶变换0.8600.8090.893小波变换0.8940.8260.9055529可能会遇到分布外的数据。因此，OOD检测对于实现安全的模型部署至关重要。OOD检测的思想是拒绝来自不熟悉分布的样本，并谨慎处理那些样本。[49]中提供了关于OOD检测的全面调查。现有的面向对象设计方法可以大致分为基于生成的方法和基于判别的方法。两者之间的关键区别是标签信息的存在或不存在。下面我们分别回顾这两类文献。基于生成的OOD检测生成式建模旨在估计给定输入的可能性[19]。生成式模型可以大致分为三种类型：自动编码器[19]，基于流的模型[36]和自回归[34，37]模型。基于自动编码器的模型[1]旨在使用编码器-解码器架构重构输入。基于流的模型[36]，如GLOW [36]，采用可逆网络架构从潜在变量中导出可能性。PixeCNN[34]和PixelCNN++ [37]等自回归模型依次预测每个元素的可能性，并优化所有元素的联合可能性。生成模型是OOD检测的自然选择。直觉上，分布内样本的可能性应高于分布外样本的可能性然而，Nalisnick等人[31]发现，在CIFAR-10上训练的深度生成模型意外地为某些OOD数据集（如MNIST）分配了更高的可能性。随后的工作提出了不同的测试时间测量，如似然比[35]，输入复杂性[38]和相似遗憾[45]。为了更好地理解这一现象，最近的几项研究[52，30，20]表明，当前的生成模型过拟合训练集，特别是当图像结构简单时。在本文中，我们建议使用高频信息来规则化深度生成模型的训练，这反过来又大大提高了测试时的OOD检测基于判别的OOD检测OOD检测方法的平行线依赖于基于判别的模型，该模型利用标签信息。Nguyen等人首次揭示了神经网络对分布外数据的过度自信现象。随后的工作试图通过使用OpenMax评分[2]，深度集成[23]，ODIN评分[15，26]和能量评分[27]来改善OOD不确定性估计。除了基于模型的OOD检测外，一些工作探索了使用特征信息来区分ID和OOD数据.例如，马氏距离[25]使用多变量高斯模型来估计特征空间，然后应用在特征空间中的距离分数来检测OOD样本。最近，基于判别的OOD检测也被应用于对象检测[9]。然而，基于判别的OOD检测方法的缺点是它们不直接对输入p（x）的可能性进行换句话说，从可能性的角度来看，OOD分数可能不太可解释。深度学习中的频率分析频率域分析广泛用于传统图像处理[13，7，41，17，12]。频率分析的核心思想是根据像素在空间域的变化速度，将像素从欧氏空间映射到一些研究试图在深度学习和频率分析之间建立联系[46，5，47，48，42，29]。Du- rall等。[10]观察到GANs生成的图像最近的工作FDIT [4]表明，高频信息更好地增强了图像生成过程中的身份保持。据我们所知，没有先前的工作探索使用频域分析的分布外检测任务。在这项工作中，我们提出了一种新的频率正则化OOD检测框架，这表明它在OOD检测性能和计算效率方面的优越性6. 结论在这项工作中，我们提出了一种新的频率正则化学习（FRL）框架的分布外检测，联合估计像素空间的输入和高频信息的可能性与现有的生成建模方法不同，FRL引导模型在训练期间专注于语义相关的特征，其中高频信息有助于在训练中正则化模型。FRL可以灵活地用于常见的生成模型架构，包括VAE，GLOW和Pix-elCNN ++。在公共基准测试和大规模评测上的实验表明，FRL在保持生成能力的同时，有效地提高了OOD检测性能.广泛的消融研究进一步验证了我们的方法在定性和定量方面的有效性我们希望我们的工作将增加对基于频率的方法的不确定性估计的更广泛的观点的7. 致谢研究是由副 Chancel- lor 研究和研究生教育（OVCRGE）的办公室与威斯康星校友研究基金会（WARF）的资金支持5530引用[1] 安镇元和赵成俊基于变分自动编码器的重构概率异常检测。IE专题讲座，2（1）：1[2] Abhijit Bendale和Terrance Boult。开放深度网络。在计算机视觉和模式识别（CVPR），2016年IEEE会议上。IEEE，2016.[3] Ronald Newbold Bracewell和Ronald N Bracewell 傅立叶变换及其应用，第31999卷。McGraw-Hill纽约，1986年。[4] Mu Cai，Hong Zhang，Huijuan Huang，Qichuan Geng，Yixuan Li，and Gao Huang.频域图像转换：更逼真，更好地保持身份。在 IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第13930-13940页，2021年10月。[5] Yunpeng Chen，Haoqi Fan，Bing Xu，Zhicheng Yan，Yan-nis Kalantidis，Marcus Rohrbach，Shuicheng Yan，and Jiashi Feng.降低八度音：用倍频程卷积减少卷积神经网络中的空间冗余。IEEEInternational Conference onComputer Vision，2019。[6] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。在IEEE计算机视觉和模式识别会议（CVPR）上，2014年6月。[7] 詹姆斯 ·W· 库利快速傅立叶变换算法的再发现。Microchimica Acta，93（1）：33[8] 李登。用于机器学习研究的手写数字图像数据库IEEE信号处理杂志，29（6）：141[9] Xuefeng Du，Zhaoning Wang，Mu Cai，and Yixuan Li.Vos：通过虚拟离群值合成学习你不知道的东西。2022年学习表征国际会议论文集[10] Ricard Durall，Margret Keuper，and Janis Keuper.注意你的上卷积：基于CNN的生成式深度神经网络无法再现光谱分布。在IEEE/CVF计算机视觉和模式识别会议上，2020年。[11] 博尔科·弗尔特，编辑。便携式网络图形（Png），第729-729页。Springer US，Boston，MA，2008.[12] W Morven Gentleman和Gordon Sande 快速傅立叶变换：为了乐趣和利益在1966年11月7日至10日秋季联合计算机会议的会议记录中，第563-578页，1966年。[13] 迈克尔·海德曼唐·约翰逊查尔斯·伯勒斯高斯与快速傅立叶变换的历史。IEEE ASSP Magazine，1（4）：14[14] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。在2017年国际学习表征会议[15] Y. C. Hsu，Y. Shen，H. Jin和Z.吉良广义odin：不从分布外数据学习而检测分布外图像。2020年IEEE/CVF会议计算机视觉和模式识别（CVPR），第10948-10957页，2020年。[16] Rui Huang和Yixuan Li。Mos：Towards scaling out of-distributiondetectionforlargesemanticspace.在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集中，第8710-8719页，2021年6月[17] Steven G Johnson和Matteo Frigo。一种具有较少算术运算的改进分裂基 fft 。 IEEE Transactions on SignalProcessing，55（1）：111[18] Diederik P. Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流在NeurIPS，第10236-10245页[19] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。在Yoelvic Bengio和Yann LeCun，编辑，第二届学习表征国际会议，ICLR 2014，Banff，AB，加拿大，2014年4月14日至16日，Conference Track Proceedings，2014年。[20] 宝琳娜·基里琴科，帕维尔·伊兹梅洛夫，安德鲁·戈登·威尔森.为什么规范化流无法检测分布外数据。在Hugo Larochelle、Marc’Aurelio Ranzato、Raia Had-sell、Maria-Florina Balcan和Hsuan-Tien Lin的编辑中，Advances inNeural Information Processing Systems 33：2020年神经信息处理系统年度会议，NeurIPS 2020，2020年12月6日至12日，虚拟，2020年。[21] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。硕士[22] Brenden M Lake，Ruslan Salakhutdinov，and Joshua BTenenbaum.通过概率程序归纳的人类水平概念学习。Science，350（

下载后可阅读完整内容，剩余1页未读，立即下载