有效无偏的FID和InceptionScore及其获取方法

21 浏览量更新于2023-10-24 收藏 12.75MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

60700有效无偏的FID和Inception Score及其获取方法0Min Jin Chong和DavidForsyth伊利诺伊大学香槟分校0{ mchong6, daf } @illinois.edu0摘要0本文表明，用于生成模型的两个常用评估指标，FréchetInception Distance（FID）和InceptionScore（IS），存在偏差-有限样本集计算的分数的期望值不是分数的真实值。更糟糕的是，本文表明，偏差项取决于被评估的特定模型，因此模型A可能比模型B得分更高，仅仅是因为模型A的偏差项较小。这种效应不能通过在固定数量的样本上进行评估来修复。这意味着目前使用FID或IS进行的所有比较都是不可靠的。然后，我们展示了如何外推分数，以获得用无限数量的样本计算的有效无偏分数估计，我们称之为FID ∞和IS∞。反过来，这种有效无偏估计需要对有限数量样本的分数进行良好的估计。我们展示了使用准蒙特卡洛积分可以显著改善有限样本集的FID和IS估计。我们的外推分数是有限样本分数的简单替代品。此外，我们还展示了在GAN训练中使用低差异序列可以稍微改善生成器的结果。计算FID ∞和IS∞的代码位于https://github.com/mchong6/FID_IS_infinity。01. 引言0深度生成模型已成功用于生成超真实的图像[18, 19,7]，在无监督的情况下在领域之间映射图像[42,23]，以及从文本生成图像[40,39]。尽管它们被广泛采用，但对生成模型进行简单、一致和类似人类的评估仍然是困难的，多个特定的启发式方法都有其缺点。FréchetInception Distance（FID）[15]被证明具有很高的偏差[4]；InceptionScore（IS）[33]没有考虑类内多样性，并且被证明是次优的[3]；HYPE[41]需要人工评估，这使得大规模评估变得困难；Kernel InceptionDistance（KID）[4]没有被广泛采用，可能是因为其方差相对较高[32]。将FID N和ISN用于FID和IS的有限样本集计算。FID的评估过程各不相同：一些作者使用FID 50 k [7, 19, 18]，而其他作者使用FID 10 k [37, 25]。0Kernel InceptionDistance（KID）[4]尚未被广泛采用，可能是因为其方差相对较高[32]。将FID N和ISN用于FID和IS的有限样本集计算。FID的评估过程各不相同：一些作者使用FID 50 k [7, 19, 18]，而其他作者使用FID 10 k [37, 25]。0在本文中，我们展示了FID和InceptionScore都会因生成器的不同而产生偏差。通常情况下，偏差估计器比无偏估计器更受青睐，因为它们更高效（一个强烈的应用示例是渲染中的光子图[16]）。然而，在这种情况下，偏差是不可容忍的，因为对于FID和IS，偏差是N和被测试的生成器的函数。这意味着我们不能比较生成器，因为每个生成器都有一个不同的偏差项（仅仅修复N是不够的，参见[4]中的过程）。为了解决这个问题，我们提出了一种对FIDN和IS N进行外推的方法，以获得一个有效的无偏估计FID∞和IS∞（在生成的图像数量无限时进行评估的估计）。此外，FID ∞和IS ∞最好使用FID N和ISN的低方差估计进行估计。我们展示了准蒙特卡洛积分在这些估计中提供了有用的方差减少。结果是一种用于模型之间无偏比较的简单方法。方便的是，FID ∞可以直接替换FIDN；IS ∞可以直接替换InceptionScore。我们的主要贡献如下：01. 我们展示了FID N和ISN是有偏的，不能用于比较生成器。02. 我们展示了FIDN的外推是可靠的，并展示了如何获得FID∞，这是FID的一个有效无偏估计。使用准蒙特卡洛积分方法可以得到更好的FID ∞估计。03. 我们展示了Inception Score也是如此，并获得了IS∞，这是InceptionScore的有效无偏估计。04.我们展示了准蒙特卡洛积分方法在GAN训练中的小幅改进。0所有图形最好以彩色和高分辨率查看。(3)Figure 1: 2d scatter plots of 1000 random points vs Soboland Scrambled Sobol points.Sobol sequences give usevenly spaced samples while random sampling results inclusters and empty spaces due to their IID property.�f(xi) = ˆI(4)is bias.Consider an estimate of FID, estimated with N samples.The terms Mg and Cg are estimated with an MC integra-607102. 背景02.1. Fréchet Inception Distance0为了计算Fréchet InceptionDistance，我们通过ImageNet[9]预训练的InceptionV3[36]模型将生成的和真实的数据传递，以获得与视觉相关的特征。设(M t, C t)和(M g, Cg)分别表示真实特征和生成特征的均值和协方差，然后计算0FID = ||M t - M g||^2 + Tr(C t + C g - 2(C t Cg)^{1/2}) (1)0FID似乎与人类对图像质量和多样性的判断相吻合[38]。02.2. Inception Score0将g(z)表示为要评估的图像生成器，y表示标签，p(y|x)表示使用InceptionV3模型在图像x上计算的标签的后验概率，p(y) =∫p(y|g(z))dz表示边际类分布，D(p||q)表示两个概率分布p和q之间的KL散度。生成器的Inception Score为0exp(E_z�p(z)[D(p(y|g(z))||p(y))]) (2)0请注意，边际类分布是使用相同的样本进行估计的。这在我们证明IS存在偏差的证明中非常重要。InceptionScore考虑了两个属性。1）有意义的对象图像的条件标签分布应具有低熵。2）如果模型能够生成多样化的图像，则边际分布p(y)应具有高熵。同时满足这两个属性的模型将具有较高的IS。02.3. 蒙特卡洛和准蒙特卡洛方法0用于估计FIDN的均值和协方差是积分（相关期望）的蒙特卡洛估计。在真实图像上计算的M t和Ct是固定的，因为适当的比较会固定使用的真实图像集。然而，M g和Cg是随机的——如果使用不同的样本来评估这些术语，将得到不同的值。使用N个IID样本进行蒙特卡洛（MC）估计积分的方法，其真实值为I(h)，得到的估计值为ˆ I = I +ξ，其中0E[ξ] = 0，var(ξ) = C(h)0其中C(h) ≥ 0是∫(h(x) -I(h))^2p(x)dx[6]。请注意，直接估计C的值通常非常困难，但C是非负的，并且强烈依赖于被积函数。一个关键的算法问题是确定能够得到积分方差估计较低的过程。Paskov[30]表明，准蒙特卡洛方法（QMC）使用低差异序列（如Sobol[35]和Halton[14]序列）比蒙特卡洛（MC）收敛速度快5倍，并且具有更低的误差率。MC和QMC都是对0[0, 1]^d f(u)du ≈ 10N ∫0N �0对于MC估计，xi是来自单位区间上均匀分布的IID样本；对于QMC，xi来自确定性准随机序列。QMC可以实现更快的收敛（接近O(N^{-1})），并且具有较低的方差。这是因为IID样本倾向于不均匀分布（见图1中的“间隙”和“聚类”）。QMC点不是独立的，因此可以均匀分布。标准的QMC构造是Sobol序列（在Dick等人[11]中进行了回顾），它逐渐细化每个维度的均匀分区，然后重新排序坐标以确保良好的分布。03. 使用 FID 评估生成模型03.1. FID N 是有偏的0现在考虑一个 Monte Carlo 积分 I(h) 的某个函数 G，其中G 足够光滑。我们有0G(ˆI) = G(I + ξ) ≈ G(I) + ξG′(I) + ξ^2G′′(I)^2 + O(ξ^3)(5) 所以0E[G(ˆI)] = G(I) + K0N + O(1/N^2) (6)0其中 K = C(h)G′′(I)^2 和 K0N + O(1/N^2)。注意，C_F 必须依赖于生成器 g（第 2.3节）。Binkowski 等人 [4] 指出，由于偏差的存在，比较具有不同 N的两个生成器是不可靠的，并且可能存在一个取决于生成器的效应。1N� �ip1i�log p1i − log ˆP1N�(10)+�i(1 − p1i)�log (1 − p1i) − log (1 − ˆP1N)��= 1N� �ip1i log p1i + (1 − p1i) log (1 − p1i)�+ 1N�− log ˆP1N�ip1i − log (1 − ˆP1N)�i(1 − p1i)�G( ˆP1N) = G(P1N + η)≈ G(P1N) + η�log (1 − P1N) − log P1N�− η22�1P1N(1 − P1N)�+ O(η3)(12)G( ˆP1N) = G(P1N) − C2N�1P1N(1 − P1N)�+ O� 1N 2�(13)60720可能存在一个依赖于生成器的效应（但没有证据）。实验证实了 (a) FID N 是有偏的，(b) 偏差取决于生成器（图 2）。03.2. FID ∞ 作为一个有效无偏的估计0FID N 的偏差在 N → ∞ 时消失。图 2 表明 O(1/N^2)项在实际 N 值上很小，因此我们可以通过 1/N的外推来获得 FID ∞（FID ∞ 的估计值）。虽然 FID ∞仍然可能受到 FID N偏差的高阶项的影响，但我们的实验表明这些影响非常小（线性拟合效果良好，参见图4）。因此，偏差及其对生成器的依赖性很小，FID ∞实际上是无偏的。虽然 [4] 的附录 D.3暗示了没有一个估计器能够对所有分布的样本大小 N无偏，但我们的构造消除了偏差项对生成器的非常大的依赖性，因此可以进行比较。然而，我们的外推精度取决于 FID估计值的方差。这些估计值是 Monte Carlo 积分 I的一个光滑函数 G。从第 3.1 节可以得到0G(ˆI) = G(I) + K0N + O(1/N^2) (7)0其中 K 取决于 C 和 G 的一阶导数，因此0var(G(ˆI)) = K10N + O(1/N^2) (8)0其中 K1 取决于 C 和 G的一阶和二阶导数。注意，这意味着对于我们的情况（G 在I 上单调），使 G (ˆI)的偏差估计较低的积分器也将使方差估计较低。这使我们能够确定要使用的积分器-我们可以通过寻找使 G (ˆI)的均值最低的积分器来找到一个能够产生 G (I)低方差估计的积分器。对于FID，最好的积分器是对于给定生成器产生最低估计 FID值的积分器，对于IS，最好的积分器是对于给定生成器产生最高估计 IS值的积分器。准蒙特卡洛方法使用低差异序列来估计积分。Koksma-Hlawka 不等式 [28] 给出了0|I_g - ˆI| ≤ V[f ◦ g]D�N (9)0其中 V [ f ◦ g ] 取决于要积分的函数，很难确定，而 D � N是序列的差异。通常很难估计差异，但对于 Sobol序列，它是 O((logN) d N − 1)，其中 d是维数的数量；对于随机序列，它是 O((log log N/N) 0.5)[28]。因此，低差异序列的积分估计在相同数量的点上具有更低的误差，尽管维数效应可能会显著减轻这种改进。注意，Sobol 序列估计的方差降低表现为0在表 1 中可以看到 Sobol 序列在减小 FID N 和增大 IS N方差方面的效果更好。因此，Sobol序列是更好的积分器。随机化 Sobol 序列：对于 FID评估来说，获得多个积分的估计值是有用的，因为这样可以估计 QMC的方差，从而帮助我们构建积分的近似置信区间。然而，像Sobol序列这样的低差异序列是确定性的。将序列的基本数字进行混淆是将随机性重新引入 QMC 的一种方法[29]。得到的序列仍然具有 QMC结构，积分的期望值保持不变。03.3. IS N 有偏0我们展示了对数InceptionScore存在负偏差，偏差项取决于生成器。由于指数函数是单调和解析的，这意味着InceptionScore也有负偏差，偏差取决于生成器。假设我们有 N0其中 p (1 | x i ) 和 p 1 i = p (1 | x i)。样本的对数Inception Score为0第一项是蒙特卡洛积分，因此是无偏的。第二项简化为样本标签的熵。1 N0令 G ( u ) = − u log u − (1 − u ) log (1 − u)。根据泰勒级数展开，0其中 P 1 N 是真实积分。当我们对样本进行期望时，我们有Q(p) =√2 erf−1(2p − 1),p ∈ (0, 1)(14)−2ln(ueven) cos(2πuodd)−2ln(ueven) sin(2πuodd), z1)(15)60730因为 E [ η ] = 0，E [ η 2 ] 如第3.1节所述。注意，C必须依赖于生成器，因为 p (1 | x ) 是p (1 | g ( z ))的简写。熵是凸函数的事实保证了IS存在一个负偏差，因为凹函数的二阶导数是非正的。多类别情况类似。FID分析的所有定性特征都得到保留。特别地，偏差取决于生成器（因此与IS N 没有可比性）；可以通过外推来纠正偏差（因为IS N 相对于1是线性的）0N，见图8）；积分器方差的改进减小了IS N的偏差和方差，见表1。03.4. 从均匀分布到标准正态分布0低差异序列通常被设计用于在单位超立方体中生成点。为了使我们的工作成为当前使用 N (0 , 1) 作为 z先验的生成器的直接替代品，我们探索了两种将均匀分布转化为标准正态分布的方法。转化后我们想要保留的主要特性是生成点的低差异性。逆累积分布函数(ICDF)给出了随机变量的值，使得它小于或等于给定概率的概率等于该给定概率。具体来说，0其中 Q ( p )是逆累积分布函数(ICDF)，erf是误差函数。在我们的情况下，由于我们的低差异序列生成U [0 , 1]，我们可以将它们视为概率，并使用 Q ( p ) 将它们转化为 N (0 ,1)。Box-Muller变换(BM) [ 5 ]：给定 u ∈ (0 , 1) d0其中 d 是一个偶数，令 u even 为 u 的偶数分量，u odd 为u 的奇数分量。0z 0 = -2 ln ( ueven ) cos(20z 1 = -2 ln (u even ) sin(2πu odd )0这两种方法的计算量都可以忽略不计，对于我们的使用场景来说非常高效。Okten [ 27]提供了理论和实证证据，证明BM与ICDF相比具有可比或更低的QMC误差。我们的实验包括使用这两种方法，我们称之为Sobol BM和SobolInv。我们表明，与随机抽样相比，两者都能更好地估计FID∞和IS ∞，但通常情况下，Sobol Inv对FID ∞和IS∞的估计更好。03.5. 使用Sobol序列训练0我们探索使用Sobol序列训练生成对抗网络（GANs）[ 12]。GANs以在正态分布的尾部生成低质量图像而闻名，这些区域的密度在训练过程中很难被准确表示0训练。有几种方法，如截断技巧[ 7 , 19]，可以避免这些尾部区域，以提高图像质量，但会牺牲图像的多样性。我们假设，在GAN训练过程中使用Sobol序列而不是正态抽样，可以更好地表示分布的密度，从而提高整体的生成质量。此外，我们可以将GAN的训练视为估计一个积分，因为它涉及对一个小批量的z进行采样，并计算其上的无偏损失估计。虽然我们选择了一个小的N（在我们的情况下是批量大小），但使用准蒙特卡洛积分仍然可能降低损失估计的方差。我们注意到，之前已经尝试过使用Sobol序列训练GAN。这次尝试失败是因为高维Sobol点没有正确生成并且没有被洗牌。我们将在第4.7节中描述一次成功的使用Sobol序列训练GAN的尝试。04. 实验0在我们的实验中，我们发现1. FID与1N成线性关系，不同的生成器具有非常不同的K，因此不能将生成器与FID N进行比较（第4.1节）02.使用Sobol序列积分器可靠地得到估计FID的较低偏差（以及较低的方差）（第4.2节）03. 从较小的N推断出FID 100k的值与真实估计非常接近。因此，可以使用Sobol点有效地估计FID∞，并且具有较低的方差（第4.3节和第4.4节）04. FID ∞ 也可以有效地估计其他模型，如VAEs [ 21]（第4.5节）05. Inception Score的行为类似于FID，但具有负偏差。我们可以准确地估计ISN（第4.6节）06. 使用Sobol序列训练GAN可以得到更好的结果0FID∞在不同模型之间具有较低的方差（第4.7节）。我们的实验主要集中在GAN上，因为它们是当今最流行的深度生成模型之一。我们在DCGAN [ 31 ]，ProGAN [ 18 ]，Style- GAN[ 19 ]和BigGAN [ 7]上进行了评估。对于Sobol序列的实现，我们使用BoTorch[ 2 ]中的QMC采样器。我们使用TTUR [ 15 ]，AdamOptimizer [ 20 ]和Spectral Normalization [ 26]在64×64分辨率的CelebA [ 24]上训练了一个DCGAN，共训练了50个epochs。对于ProGAN，我们使用预训练的CelebA模型生成1024×1024分辨率的图像。对于StyleGAN，我们使用预训练的Flickr-Faces-HQ模型生成1024×1024分辨率的图像01 https://github.com/deeptechlabs/sobol_noise_ gan12360740DCGAN0ProGAN0StyleGAN0BigGAN0图2：在相同的比例尺下，不同模型使用不同的采样方法时的FID与1N的关系图。每个FID点对应一个FID估计。在所有实验中，FID与1N成线性关系，当N较小时，方差较大（更多的尖峰）。最重要的是，斜率对应于方程7中的K项，不同模型的斜率非常不同。尽管这些模型不能直接进行比较，因为它们生成不同的数据集，但这表明不同模型具有非常不同的K项。在固定的N下，使用FIDN对不同模型进行比较是不可靠的，因为它们被偏差所主导。0我们还对 BigGAN 进行了评估，它是一种有条件的GAN。我们使用预训练的 ImageNet BigGAN 模型生成128 × 128 分辨率的图像。我们还在 CIFAR10 上训练了BigGAN，并将其用于我们的评估。04.1. FID N 偏差0在不同模型之间，我们比较了不同 1/N 值下的FID，并展示了它们之间的线性关系，如图 2所示。正如方程 8 所预期的那样，当 N 较小时，FID的方差较大。重要的是，我们观察到在不同模型之间，斜率变化显著。斜率对应于方程 7 中的 K 项，它对 FID偏差起到贡献。实际上，GAN 之间的排名严重依赖于N，因为不同的 GAN 会有不同的偏差，并随着 N的变化而变化。即使在具有相同架构的两个模型中也可以看到这一点，如图 3 所示。[4] 的附录 D.2 也给出了 FID N在某种程度上可靠地给出错误的模型排名的实证示例。没有一个适用于每个比较的 N，因为它取决于每个模型的 K项。使用 FID N 进行比较是不可靠的。0图 3：所使用的 N 的选择严重影响比较。图表比较了 FID N 与 10在两个独立训练的相同架构的 DCGAN 之间的 N上比较。在标记 1 处，DCGAN 1 优于 DCGAN 2；在标记2 处，它们大致相同；在标记 3 处，DCGAN 2 优于DCGAN 1。这表明在固定 N的情况下，模型之间的比较是不可靠的。04.2. 使用不同的采样方案进行评估0FID 通常使用 50k 个样本进行计算，IS 使用 5k个样本进行计算。回顾第 3.2节，我们可以得出一个结论，即产生较低偏差估计（无法观察到）的积分器也会产生较低方差估计（可以观察到）。表1 比较了使用 IID 正态样本或 Sobol 序列（使用Box-Muller 变换或 ICDF）估计的各种模型的 FID 50k 和IS 5k，每个模型运行 50 次，清楚地表明 GAN评估应始终使用低差异性序列，因为使用 Sobol BM 和Sobol Inv 可以获得更好的 FID 和 InceptionScore，并且具有较低的标准差。04.3. FID 可以外推0利用 FID 对 1/N 的线性性质，我们测试了仅给定 50k张图像时估计 FID 100k的准确性。我们首先从生成器中生成一个 50k张图像的池子，然后随机有放回地对它们进行采样以计算15 个 FID。然后我们拟合一个线性回归模型，可以用来外推FID 100k。我们尝试了两种选择评估 FID的图像数量的方式。1. 在 N 上选择规则间隔02. 在 1 上选择规则间隔0N 对于我们的每个测试模型，我们运行了 6个不同的实验，每个实验运行 50 次。有三种采样 z的方式（正态采样，Sobol BM，Sobol Inv）和两种选择 N进行评估的方式。计算在 N 上均匀间隔的 FID 值DCGAN14.61 ± 0.0579-14.59 ± 0.0471-1.5114.58 ± 0.0439-1.74ProGAN9.94 ± 0.0411-9.94 ± 0.0384-1.149.94 ± 0.0404-1.03StyleGAN4.33 ± 0.0413-4.33 ± 0.0406-1.034.33 ± 0.0354-1.36BigGAN9.94 ± 0.056492.96 ± 2.1359.92 ± 0.057692.89 ± 1.9611.199.93 ± 0.041993.21 ± 1.6401.69BigGAN (CIFAR10)8.26 ± 0.04678.44 ± 0.12238.25 ± 0.04558.48 ± 0.11721.098.26 ± 0.04468.45 ± 0.10181.44Since we showed that simple linear regression gives usgood prediction accuracy for FID100k, we can then extendto estimating FID∞. Following previous setup, we obtainFID∞ estimate using 50k samples. Though we do not havethe groundtruth FID∞, our FID∞ estimates (Figure 6) havesimilar means across different sampling methods and havesmall variances. This together with our experiments in sec-tion 4.3 suggests our FID∞ estimates are accurate."1"60750正态 Sobol BM Sobol Inv0模型 FID 50 k IS 5 k FID 50 k IS 5 k F Value FID 50 k IS 5 k F Value0表 1：使用 Sobol 序列始终可以获得更好的 FID 和 Inception Score（IS），并具有较低的标准差。表格显示了不同模型在Normal 和 Sobol 序列上评估的 FID 50k（较低为更好）和 IS 5k（较高为更好）值，每个模型运行 50 次。F 值是 Normal序列和 Sobol序列方差之间的比率（它越高，它们的方差越不同）。粗体数值表示最佳得分或标准差。更好的得分意味着更低的偏差，这意味着更低的积分器方差。01/N会得到一个均匀的图形，但外推效果较差，参见图4。这是因为大多数估计值将位于N较小的区域，该区域的噪声较大。这导致FID100k的估计不准确，因为根据公式8，这些点处的FID具有较高的方差。在N个正常间隔上计算分数在实践中效果更好。为了确保我们计算的FID可靠，我们使用至少5k个点。从图5可以看出，在所有实验中，FID100k非常准确。总体而言，正常随机采样可以得到一个不错的估计，但估计的方差较高，而使用Sobol序列可以降低方差。SobolBM的方差最低，但估计不够准确。总体而言，SobolInv给出了最好的结果，提供了一个准确的FID100k估计和较低的方差。这符合我们的预期，因为从Sobol序列评估的FID具有较低的方差，给我们提供了更好的线性拟合，从而得到更准确的预测。更仔细地调整超参数（图像的总数和拟合线的FID数量）可能会得到更好的FID 100k估计。0由于我们证明了简单的线性回归可以给我们提供FID100k的良好预测准确性，因此我们可以扩展到估计FID∞。按照之前的设置，我们使用50k个样本获得FID∞的估计。虽然我们没有地面真实值FID∞，但我们的FID∞估计（图6）在不同采样方法下具有类似的均值，并且方差很小。这与我们在第4.3节的实验结果表明，我们的FID∞估计是准确的。04.4. FID∞04.5. VAE的FID∞0我们的FID结果适用于任何生成模型。我们对VAE的实验结果显示了FID的相同线性特性，使用QMC改善了偏差和方差，并成功进行了外推。为简洁起见，我们仅在图7中显示了64×64 CelebA数据集上训练的普通VAE的FID∞图。0Normal Sobol Inv0(a) (b)0(c) (d)0图4：FID N的估计给出了非常好的线性拟合，特别是使用SobolInv（右侧），表明外推将成功（确实如此，参见图5）。图中显示了随机DCGAN的预测FID 100k的线性拟合。绿点是目标FID100k，蓝叉是我们计算的FID用于进行线性回归的点。列代表我们用于生成图像的采样器，行代表我们选择的N来计算FID。第1行：在N个正常间隔上选择；第2行：在1个间隔上选择。0对于正常采样器，存在更多的异常值，预测结果不够准确。使用SobolInv并在N个正常间隔上计算FID（图(b)）可以得到更好的线性拟合，用于预测FID 100k。04.6. 估计IS∞0Inception Score的趋势与FID相同，即它与1/N成线性关系0ISN的估计结果与N成反比（参见图8），因此可以进行外推以获得IS∞的估计。然而，不同生成器的ISN估计的方差差异很大，参见表1。这导致我们的IS∞估计具有较大的方差，QMC可以帮助减小方差，参见图60760DCGAN ProGAN0StyleGAN BigGAN0ProGAN0BigGAN0图5：使用50k张图像，FID100k的预测与地面真实值（水平线）相比非常准确且方差较低。这表明预测FID∞是可靠的。图中显示了FID100k的误差图，y轴刻度相同。点表示均值，误差线表示50次运行的标准差。最左边的点是我们正在估计的目标FID100k。对于每种采样方法，我们通过在N个正常间隔或在1个间隔上拟合点来估计FID100k。0N个间隔（三角形）。我们还对最低的3个标准差进行了颜色标记。总体而言，具有N个间隔的SobolInv表现最佳，具有良好的准确性和较低的方差。最好以彩色和高分辨率查看。0DCGAN ProGAN0StyleGAN BigGAN0ProGAN0BigGAN0图6：在50次运行中预测FID∞的误差图。FID∞具有较低的方差且一致。结合图5，这表明它们是准确的。这些图的标记与图5相同。0图8：估计的ImageNet上BigGAN的IS100k非常准确，与实际的IS100k估计具有可比较的方差。对于CIFAR10BigGAN，0VAE0图7：在50次运行中预测VAE的FID∞的误差图。FID∞对于所使用的模型都有效，例如VAE。这些图的标记与图5相同。0(a) 1份 (b) 50份0图8：ISN具有负偏差。对于3种采样方法的BigGAN的ISN与1/N的比较，其中每个点是在（a）：1份，（b）：50份上的平均值。对于（b），误差线表示标准差，线连接ISN估计的SobolInv的均值。与FIDN不同，ISN随着N的增加而增加，表明存在负偏差。从（b）可以看出，普通点的ISN估计的方差明显高于Sobol序列的方差，这也可以从表1中得到证明。图（b）最好以彩色和高分辨率查看。0CIFAR100ImageNet0图9：使用50k张图像进行100k个IS预测结果非常准确且方差较低。该图显示了在ImageNet和CIFAR10上训练的BigGAN进行50次运行的IS100k的误差图。SobolInv具有最佳的准确性和较低的标准差。这些图的标记与图5相同。0我们的SobolInv与IS100k非常准确且方差较低。总体而言，使用QMC进行外推是有效的，我们可以获得具有良好准确性和较低方差的有效无偏估计IS∞。This paper serves as an introduction of using Quasi-Monte Carlo methods to estimate high dimensional inte-grals in the ﬁeld of generative models for bias reduction.However, there has been a substantial amount of work inthe area of estimating high dimensional integrals such assparse grids [34], higher order scrambled digital nets [10],randomized lattice rules [17] which we have yet to touchupon. Furthermore, using a closed quasi-random sequence(where we know N beforehand) for evaluation could giveus better error bounds on the integral [11]. We reserve thesefor our future work. Also, FID∞ could well correlate withHYPE and we plan to investigate these correlations.6077064 x 64 128 x 1280图10：使用Sobol序列训练GAN会得到更好或相当的FID∞和训练运行之间的方差较低的结果。这些图显示了使用不同采样方法训练的12个GAN在CelebA的两个分辨率上排序的FID∞。每个FID∞是50次计算的平均值。04.7. 使用Sobol序列训练0我们使用与之前相同的设置在64×64和128×128分辨率下训练了CelebA上的DCGAN。对于GAN，我们需要为生成器和判别器分别使用两个独立的采样器，以确保序列的“均匀”属性不会在它们之间分割。由于Sobol点即使在不同的混淆下也高度相关，使用两个Sobol采样器会导致不稳定的GAN训练。相反，我们缓存了100万个点，并将它们打乱以打破它们之间的相关性。对于每种采样方法，我们训练了12个模型，并在50次运行中评估它们的FID∞得分。对于FID∞，我们使用具有N个常规间隔的SobolInv。从图10可以看出，使用Sobol序列训练的GAN在64×64上的FID∞通常较低，并且在128×128上与正常采样相当。然而，对于两种分辨率，使用SobolInv训练的GAN在不同运行之间具有显著较低的FID∞方差，这些改进是一致的，并且计算开销几乎可以忽略不计。我们相信进一步使用更多模型和数据集进行实验可能会得到有趣的结果。05. 相关工作0揭秘MMDGANs：Binkowski等人[4]表明，FID没有无偏估计量。然而，Stone-Weierstrass定理允许通过足够高次的多项式对单位区间上的函数进行任意好的均匀逼近。因此，虽然无法达到零偏差，但非常小的偏差并未被排除。我们的FID∞和IS∞得分清楚地显示了非常小的偏差，因为（如图所示）10N项主导高阶项。通过重要性加权进行去偏：Grover等人[13]通过使用分类器估计重要性权重来减少使用增强数据集计算的MC估计误差。通过这样做，他们展示了改进的IS N，FID N和KIDN分数。我们相信这些改进是增加了有效样本量的结果。然而，与我们的工作相反，他们没有确定FID N或ISN中的正式统计偏差，也没有指出这种偏差对生成器的依赖性使得在固定N下的比较不可靠。QMC变分推断：Buchholz等人[8]建议使用QMC来减少蒙特卡罗变分推断的梯度估计的方差。在他们的附录D中，他们建议在VAEs和GANs中使用QMC。然而，他们没有提供关于这样做的解释或结果。HYPE：注意[41]计算了在不同ImageNet类别上训练的生成器的HYPE和FID N之间的相关性。由于FIDN得分存在偏差，并且这种偏差取决于特定的生成器，因此不能依赖这些相关性。将FID∞与HYPE相关联将是有趣的。0本文介绍了在生成模型的偏差减少领域中使用准蒙特卡罗方法来估计高维积分的方法。然而，关于估计高维积分的方法已经有了大量的工作，例如稀疏网格[34]、高阶混乱数字网[10]、随机格点规则[17]，我们尚未涉及。此外，使用封闭的准随机序列（我们事先知道N）进行评估可以给出更好的积分误差界限[11]。我们将这些保留给我们的未来工作。此外，FID ∞可能与HYPE相关，并且我们计划研究这些相关性。06. 未来的工作07. 最佳实践07.1. 用于评估具有FID或IS的生成器0不要使用FID N或ISN来比较生成器；这些比较是不可靠的。1. 使用SobolInv来计算FID N和IS N。02. 使用定期间隔获得的估计值进行外推，以获得FID∞和IS ∞的估计值。03. 多次重复以获得方差估计。这对于FID ∞和IS∞的估计结果的可靠性非常重要。07.2. 用于训练GANs0我们有适度的结果表明，使用Sobol序列进行训练可以得到更好或相当的FID∞和模型间更低的方差。我们相信应该进行大规模实验来验证使用Sobol序列进行训练的有效性，这留待未来的工作。60780参考文献0[1] Søren Asmussen和Peter W Glynn. 随机模拟: 算法与分析,卷57. Springer Science & Business Media, 2007. 20[2] Maximilian Balandat, Brian Karrer, Daniel R. Jiang, SamuelDaulton, Benjamin Letham, Andrew Gordon Wilson, andEytan Bakshy. BoTorch: 可编程的PyTorch贝叶斯优化. arxive-prints, 2019. 40[3] Shane Barratt和Rishi Sharma. 关于Inception Score的注释.arXiv预印本arXiv:1801.01973, 2018. 10[4] Mikołaj Bi´nkowski, Dougal J Sutherland, Michael Arbel,and Arthur Gretton. 解密MMD GANs.arXiv预印本arXiv

下载后可阅读完整内容，剩余1页未读，立即下载