基于CNN的生成深度神经网络无法再现光谱分布

71 浏览量更新于2023-10-23 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7890注意你的上卷积：基于CNN的生成深度神经网络无法再现光谱分布Ricard Durall1，3，Margret Keuper2，Janis Keuper1，41高性能计算能力中心，Fraunhofer ITWM，Kaiserlestern，Germany2德国曼海姆大学数据与网络科学小组3德国海德堡大学IWR4德国奥芬堡大学机器学习与分析研究所摘要生成卷积深度神经网络，例如流行的GAN体系结构依赖于基于卷积的上采样方法来产生非标量输出，如图像或视频序列。在本文中，我们表明，常见的上采样方法，即。称为上卷积或转置卷积，导致这种模型不能正确地再现自然训练数据的频谱分布。这种效果与底层架构无关，我们证明它可以用于轻松检测生成的数据，如deepfakes，在公共基准测试中的准确率高达100%。为了克服当前生成模型的这一缺点，我们建议在训练优化目标中添加一个新的谱正则化项我们表明，这种方法不仅可以训练避免高频错误的频谱一致性GAN。此外，我们表明，频谱的正确近似对生成网络的训练稳定性和输出质量有积极影响1.00.80.60.40.20.01.00.80.60.40.20.00 20 40 60 80空间频率0 20 40 60 80空间频率1. 介绍生成卷积深度神经网络最近已被用于各种计算机视觉任务：生成逼真的图像[29，6]，图像到图像[45，26，61，9，42，30]和文本到图像转换。tions [48，11，58，59]，style transfer [27，60，61，25]，image修复[45，54，33，26，56]，迁移学习[5，10，15]甚至用于训练语义分割任务[35，53]，仅举几例。最突出的生成神经网络架构是生成对抗网络（GAN）[18]和变分自动编码器（VAE）[46]。这两种基本方法都试图近似一个潜在的空间模型的联合国，图1：常见的上卷积方法会在生成的图像中引入严重的光谱失真。上图显示了在真实图像和GAN生成图像的功率谱（参见第2.1节）上进行方位积分后的统计数据（均值和方差）。在CelebA[34]数据集上进行评估，这里所有的GAN（DCGAN [47]，WGAN-GAN [32]，LSGAN [37]，WGAN-GP [20]）都使用“posed convolutions”（见第2.2节）进行上采样。下图：与上面相同的实验结果，在GAN训练期间添加了我们提出的频谱损失。从训练数据样本中提取（图像）分布。在这样一个潜在的空间模型中，人们可以绘制新的（arti-实DCGANDraganLSGANWGAN-GP功率谱房DCGAN（我们的）DRAGAN（我们的）LSGAN（我们的）WGAN-GP（我们的）功率谱7891在不同的维度上对它们的语义属性进行采样和操作。虽然GAN和VAE方法已经以许多不同的变体发布，例如，不同的损失函数[18，4，20]，不同的潜在空间约束[41，13，13，21，30]或生成器网络的各种深度神经网络（DNN）拓扑[47，43]，所有这些方法都必须遵循基本的数据生成原则：它们必须将样本从低维（通常是1D）和低分辨率潜在空间变换到高分辨率（2D图像）输出空间。因此，这些生成的神经网络必须提供某种（可学习的）放大属性。虽然所有这些生成方法都通过优化一些损失函数来引导其模型参数的学习，但最常用的损失只关注输出图像空间的属性，例如。使用卷积神经网络（CNN）作为卷积网络-适用于生成GAN的图像中的隐式损失。这种方法已经被证明是足够的，以产生视觉上的声音输出，并能够捕捉图像空间中的数据（图像）分布在一定程度上。然而，众所周知，放大操作不会改变信号的频谱特性[28]，导致输出中的高频失真。在本文中，我们研究了发电机网络中常用的上采样技术的影响。图1的上图说明了我们最初实验的结果，支持我们的工作假设，即当前的生成网络无法重现光谱分布。图1还表明，这种影响是独立的实际发电机网络。1.1. 相关工作1.1.1Deepfake检测我们展示了我们的发现对Deepfake检测任务的实际影响。术语deepfake[22，8]描述了最近人们通过深度生成神经网络[7]滥用人工面部生成的进步来制作名人和政治家的虚假图像内容由于这些假货的潜在社会影响，Deepfake检测已成为其自身的一个重要研究课题文献中报道的大多数方法，如[38，3，57]，本身依赖于CNN，因此需要大量注释的训练数据。同样，[24]引入了一个具有对比损失函数的深度伪造模型，[19]通过在CNN之上采用递归神经网络（RNN）来合并时域信息。1.1.2GAN稳定化为了促进更稳定的训练并避免模式崩溃，对GAN进行规则化虽然[40]通过展开来稳定GAN训练的优化，[50]提出了通过噪声以及有效的基于梯度的方法进行调节。最近在[16]中提出了一种基于倍频程卷积的稳定GAN训练这些方法中没有一种然而，最近，在[17]中提出了带限CNN，用于压缩模型的图像分类。在[55]中，已经进行了第一次观察，提示功率谱对模型鲁棒性的重要性，再次用于图像分类。相比之下，我们建议利用GAN生成的频谱上的观察结果进行训练稳定。1.2. 贡献我们工作的贡献可以概括如下：• 我们的实验表明，目前的gener- ative神经网络架构无法正确地近似训练数据的频谱分布。• 我们利用这些光谱失真，提出了一个非常简单，但高度准确的检测器生成的图像和视频，即。DeepFake检测器，在公共基准测试中达到100%的准确率。• 通过理论分析和进一步的实验表明，常用的上采样单元，即上卷积，导致了观察到的效果。• 我们提出了一种新的光谱正则化项，它能够补偿光谱失真。• 我们还通过实验证明，在GAN训练中使用光谱正则化可以获得更稳定的模型，并提高视觉输出质量。本文的其余部分组织如下：第2节介绍了常见的放大方法，并分析了它们对图像光谱特性的负面影响。在第3节中，我们介绍了一种新的频谱损失，它允许训练生成网络，这些网络能够补偿放大误差并生成正确的频谱分布。我们在第4节中使用公共基准上的当前架构评估我们的方法。2. 上卷积的谱效应2.1. 用DFT功率谱为了分析对光谱分布的影响，我们依赖于一个简单但有特征的1D表示，7892傅立叶功率谱我们根据大小为M×N的2D（图像）数据I的离散傅立叶变换F计算该谱表示，M−1N−1F（I）（k，k）=m=0n =0−2πi·jkeM e−2πi·jN·I（m，n），（1）对于k = 0，. - 是的- 是的，M − 1，n = 0，. - 是的- 是的，N-1，通过径向频率φ上的方位角积分∫2πAI（ωk）=<$F（I）（ωk·cos（φ），ωk·sin（φ））<$2dφ0对于k = 0，. - 是的- 是的，M/2 − 1，（2）假设正方形图像1.图2给出了该处理步骤的示意图。图2：方位积分（AI）的示例（左）图像的2D功率谱。（右）1D功率谱：每个频率分量是2D频谱上的径向积分（红色和绿色示例）。2.2. 生成DNN生成神经架构，如GAN，产生高维输出，例如，图像，从非常低维的潜在空间。因此，所有这些方法在通过网络传播数据时都需要使用某种升级机制。在文献和流行的实现框架（如TensorFlow [2]和PyTorch[44]）中最常用的两种升级技术如图3所示：通过插值的上卷积（上+卷积）和转置卷积（transconv）。我们使用一个非常简单的自动编码器（AE）设置（见图4）进行上卷积单元对上采样后2D图像光谱特性的影响的初步研究。图5显示了两种方法对频谱的不同但巨大的影响。图6给出了重建图像的定性结果，并表明频谱中的错误与视觉外观有关。图3：两个最常见的上卷积单元的示意图。左：低分辨率输入图像（此处为2×2）;中：通过插值进行上卷积（up+conv）-输入通过插值（双线性或最近邻）进行缩放，然后与标准可学习滤波器内核（大小为3 × 3）进行卷积以形成5x 5输出（绿色），右：转置卷积（transconv）-输入使用“钉床”方案（灰色网格）进行填充点为零），然后与标准滤波器内核卷积以形成5 × 5输出（绿色）。图4：简单的自动编码器（AE）设置的示意图，用于演示图5中上卷积的效果，仅使用标准MSE重建损失（底部）在真实图像上训练AE。我们将输入缩小2倍，然后使用不同的上卷积方法来重建原始图像大小。在第3节中，我们使用额外的频谱损失（顶部）来补偿频谱失真（见图7）.2.3. 理论分析对于理论分析，我们考虑，不失一般性，一维信号a及其离散FT变换a1→M=N。我们知道这个符号是滥用的，因为F（I）是离散的。然而，完全正确的离散表示法只会使我们工作的一个方面过于复杂。在 https://github.com/cc-hpc-itwm/UpConv上提供了AI的离散实现。ak=NΣ−1j=0−2πi·jkeN ·aj，f或k=0，. -是的-是的，N-1。（三）789322J2Σ¯k¯1.0其中，对于“钉床”插值，bj=0tr ansconv）和bj =aj−1+aj 对于双线性插值（如0.80.60.40.20.00 20 40 60 80 100 120 140 160空间频率使用up+conv）。让我们首先考虑bj=0的情况，即“钉床”插值。在这里，第二项在Eq。（6）为零。第一项类似于原始傅立叶变换，但参数k被k′代替。因此，将空间分辨率增加2倍导致频率轴缩放1倍。现在让我们从基于抽样理论的观点来考虑效果是2·N−1up−2πi·jkup图5：单个上卷积单元的效果（设置请参见阿 =ej=02·N·aj（6）图4）对输出图像频谱（方位积分）的影响。这两种上卷积方法都对输出的光谱分布有很大的影响，2·N−1=j=0−2πi·jk<$e2·N·Σ∞t=−∞aup·δ（j−2t）（7）推杆转置卷积增加了大量的高频噪声，而基于插值的方法（上+卷积）缺乏高频。因为与狄拉克脉冲梳的逐点乘法仅去除αup=0的值。假设一个周期信号并应用卷积定理[31]，我们得到我的天 Σ1(7)=· Σ Σe−2πi·jk¯向上2t=−∞j=−∞2·Najk−，（8）2比肩∞ ∞。Σ·e−2πi·jkt2t=−∞j=−∞N ·ajk−2（九）由等式（六）、因此，“ 钉床上采样 ” 将以叠加的方式产生信号的高频再现。为了消除这些频率副本，上采样信号需要被适当地平滑。所有观察到的空间频率超越N 是潜在的上采样伪影虽然图6：在我们简单的AE设置中，光谱失真对图像输出的影响。左：原始图像;中心：AE输出图像;右：过滤后的差异图像。上一行显示了在（up+conv）情况下丢失高频的模糊效果;下一行显示了由（transconv）引起的从理论的观点来看，我们还在图8中实际证明，用常用的3×3卷积滤波器校正如此大的频带（假设中到高分辨率图像）是不可能的在双线性插值的情况下，我们有avebj=aj−1+aj2由方程式 (6)，这相当于一个平均的文件-如果我们想把aa的值与bj相邻。这是一种均衡通过它们的对偶性和卷积定理，将UP谱与sinc函数逐点相乘，这抑制了人为的然而，重新-2·N− 1aup=ej=0−2πi·jk<$up2·N·aj（4）预期所产生的频谱在高频域中过低。NΣ−1=j=0−2πi·2·jke2·N ·aj+NΣ−1j=0−2πi·2·（j+1）k<$e2·N·bj，（5）3. 学习生成正确的光谱分布为k<$=0，. -是的-是的，2N−1。我们的研究结果的实验评价，在前-可见部分及其应用，以检测所产生的通信，房transconv（内核3x3）transconv（内核5x5）transconv（内核7x7）transconv（内核11x11）up+conv（内核3x3）up+conv（内核5x5）up+conv（内核7x7）up+conv（内核11x11）功率谱17894tent（见4.1节），提出了一个问题，即是否有可能纠正生成网络中使用的上卷积单元引起的频谱失真。毕竟，通常的网络拓扑结构包含可学习的卷积滤波器，这些滤波器遵循上卷积，并可能纠正此类错误。3.1. 谱正则化由于常见的生成网络架构大多专门使用基于图像空间的损失函数，因此不可能捕获和校正频谱失真1.00.80.60.40.20.00 20 40 60 80 100 120 140 160空间频率直接.因此，我们建议在发电机损耗中增加一个额外的频谱项：L最终=L发生器+λ·L光谱，（10）其中λ是对频谱损失的影响进行加权的超参数由于我们已经在使用方位角积分AI测量光谱失真（参见等式1）。（2）），图7：自动编码器（AE）结果，光谱损失为λ。即使频谱损失具有很高的权重，频谱失真也不能用单个3×3卷积层来校正该结果与第2.3节的结果一致而AI是可微的，光谱是1.0二进制之间的交叉熵生成输出AIout以及从实际样本获得的平均AIreal：0.81M/2−1房出来0.60.4L光谱：=−（M/2−1）i=0时AIi·log（AIi）0.2+（1−AIreal）·log（1−AIout）（11）i i0.0请注意，M是图像大小，我们使用第0个系数（AI0）进行归一化，以便将方位角积分的值缩放到[0，1]。在AE设置中加入光谱损失的影响对于不同的λ值，从第2.2节得到的结果如图7所示正如我们在第二节中的理论分析所预期的那样2.3，观察到的效果不能通过单个学习的3×3滤波器来校正，即使对于大值λ。因此，我们需要重新考虑架构参数。3.2. 上卷积的在图8中，我们评估了第2.2节中关于滤波器大小和卷积层数量我们考虑从3×3到11×11的不同解码器滤波器大小和1或3个卷积层。虽然上采样的频谱失真不能用一个甚至三个3×3卷积来消除，但当学习更多更大的滤波器时，它可以通过所提出的损失来校正4. 实验评价我们在三个不同的实验中评估了前几节的发现第4.1节显示，常见的人脸生成网络产生的输出具有0 20 40 60 80 100 120 140 160空间频率图8：上采样步骤后卷积滤波器大小的光谱损失AE结果。结果在很大程度上取决于选择的滤波器大小和卷积层的数量利用三个5 × 5卷积滤波器，AE可以使用所提出的频谱损失来大大减少频谱失真。可以用来检测人工或“假”图像的强光谱失真。在第4.2节中，我们证明了我们的频谱损失足以补偿相同数据的频率域中的伪影。最后，我们在第4.3节中经验性地表明，谱正则化对GAN的训练稳定性也有4.1. Deepfake检测在本节中，我们展示了最先进的GAN中的上卷积引起的光谱失真可以用来轻松识别“假”图像数据。仅使用少量带注释的训练数据，甚至是未监督的设置，我们就能够以近乎完美的准确度从公共基准中检测生成的人脸。真实声发射AE（= 0.05）AE（= 0.1）AE（= 0.5）AE（= 1.0）房1层（内核3x3）1层（内核5x5）1层（内核7x7）1层（内核11x11）3层（内核3x3）3层（内核5x5）3层（内核7x7）3层（内核11x11）功率谱功率谱7895图9：我们的方法的处理管道概述它包含两个主要块，一个使用DFT的特征提取块请注意，输入图像在DFT之前转换为灰度。4.1.1基准我们在三个不同的面部图像数据集上评估我们的方法，提供具有不同空间分辨率的注释数据：• FaceForensics++[49] 包含 DeepFake 检测数据集，其中包含16个不同场景中28名付费演员的363个原始视频序列，以及超过3000个带有面部操作及其相应二进制掩码的视频。所有视频都包含可跟踪的、主要是正面的面部，没有遮挡，这使得自动篡改方法能够生成真实的面部。提取的人脸图像的分辨率各不相同，但通常在80×80×3像素左右• CelebFaces Attributes（CelebA）数据集[34]包含202，599张名人面部图像，其中包含40种面部属性。人脸图像的尺寸为178×218×3，在我们的上下文中可以认为是中等分辨率• 为了评估高分辨率1024×1024×3图像，我们提供了新的Faces-HQ2数据集，这是来自CelebA-HQ[29]，Flickr的40 k公开可用图像的注释集合。Faces-HQ数据集[30]，100 K Faces项目[1]和www.thispersondoesnotexist.com网站。4.1.2方法图9说明了我们的简单处理管道，通过方位角积分（见图2）从样本中提取光谱特征，然后使用基本SVM [51]分类器3进行监督和K-Means [36]进行无监督假检测。对于每个实验，我们随机选择不同大小的训练集，并使用剩余的数据进行测试。训练集和测试集在其一致的类标签中是平等的。所有报告的结果均为102Faces-HQ数据的大小为19 GB。下载：https://cutt.ly/6enDLYG。参见[14]。3SVM超参数可以在源代码独立实验为了处理不同尺寸的输入图像，我们通过第0个系数对1D功率谱进行归一化，并将得到的1D特征向量缩放到固定尺寸。4.1.3结果图10显示了真实和表1中的实验结果证实，由上采样单元引起的功率谱的失真是常见的问题，并且允许容易地检测所生成的内容。这个简单的指标甚至优于使用大型注释训练集的复杂DNN检测方法4。3002502001501000 100 200 300 400 500 600 700空间频率图10：来自每个Faces-HQ子数据集的1000个样本的显然，真实和4.2. 应用谱正则化在本节中，我们将评估在CelebA基准测试中正则化方法的有效性，如4注：所有其他方法的结果见[57]。方法的直接比较可能会有偏差，因为[57]使用相同的真实数据，但使用不同的GAN独立生成假数据。thispersondoesnotexist（fake）100K Faces（fake）Flickr-Faces-HQ（real）CelebA-HQ（real）功率谱7896(a)DCGAN。（b）DRAGAN。LSGAN。（d）全球网络工作组。图11：来自不同类型GAN的样本及其1D功率谱。顶行：由标准拓扑生成的示例。底行：由标准拓扑和我们的谱正则化技术产生的样本。30025020015010050图12：在训练运行期间，CelebA上的DCGAN基线的FID值和GAN输出之间的相关性。低FID分数对应于多样化但视觉上健全的面部图像输出。高FID分数表示质量差的输出和实验前基于我们的理论分析（见第2.3节）和第3节中的第一个AE实验，我们以两种方式扩展现有的GAN架构：首先，我们增加一个频谱损失项（见等式10）。（11）对发电机的损耗。我们使用来自数据集的1000个未注释的真实样本来估计AI真实值，这是计算频谱损失所需的（参见等式2）。（11））。其次，我们将最后一个上卷积单元之后的卷积层更改为三个内核大小为5×5的滤波器层。图1底部的图显示了该实验的结果，并与原始GAN架构进行了直接比较。若干定性结果图11给出了没有和有我们提出的正则化的情况下产生的结果。4.3.光谱正则化通过正则化频谱，我们实现了产生合成图像的直接好处，这些图像不仅看起来真实，而且还模仿了频域中的行为。通过这种方式，我们更接近真实分布的样本图像。此外，这种正则化还有一个有趣的副作用。在我们的实验中，我们注意到带有频谱损失项的GAN似乎02468历元10121416FID7897transconv向上+转换transconv+光谱损失400350300250表1：测试准确度。我们的方法在不同的数据设置下使用SVM（监督）和k-means（无监督）A）在单个帧上进行评估。B）通过单帧检测的多数表决对完整视频序列的准确性。200150100500 2 4 6 8 10 12 14 16历元在避免“模式崩溃”方面更加稳定[18]更好的融合。众所周知，GAN可能会遭受挑战和不稳定的训练过程，并且几乎没有理论解释这种现象。这使得尝试新的生成器变体非常困难，或者在新的领域中使用它们，这大大限制了它们的适用性。为了研究谱正则化对GAN训练的影响，我们进行了一系列实验。通过采用一组不同的基线架构，我们评估了我们的谱正则化的稳定性，在CelebA数据集上提供了定量结果。我们的评估指标是FrechetInceptionDistance （ FID ） [23] ，它使用在ImageNet [12]上预训练的Inception-v3 [52]网络从中间层提取特征。300250200150100500 2 4 6 8 10 12 14 16历元图13：对于有和没有频谱损失的DC-GAN基线（这里λ=2），FID（越低越好）随训练时间的变化。虽然DCGAN的up+conv变体未能改善，但transconv版本中训练时间内的FID分数只有我们的光谱损失变体能够实现低而稳定的FID分数。图13和14显示了FID在训练时期的演变，使用基线GAN实现，图14：对于有和没有频谱损失的LS- GAN基线，FID（越低越好）随训练时间的变化（这里 λ=0 ）。（五）。至于DCGANS，LSGAN的上+卷积变体在训练时间内未能提高FID分数transconv版本正在收敛但不稳定。同样，只有我们的光谱损失达到低和稳定的FID分数。不同的上卷积单元和具有频谱损失的对应版本。这些结果在FID测量方面显示出明显的积极效果，其中频谱正则化在整个训练中保持稳定和低FID，而未正则化的GAN倾向于图12显示了高FID值与GAN图像生成失败之间的相关性5. 讨论和结论我们发现，常见的“最先进的”卷积生成网络，如流行的GAN图像生成器，无法近似真实数据的光谱分布。这一发现具有很强的实际意义：这不仅可以用于轻松识别生成的样本，还意味着所有用于训练数据生成或迁移学习的方法都存在根本性缺陷，并且不能期望当前方法能够正确地近似真实数据分布然而，我们发现有一些简单的方法可以解决这个问题：通过将我们提出的谱正则化添加到生成器损失函数，并将最终生成器卷积的滤波器大小增加到至少5× 5，我们能够补偿谱误差。在实验中，我们发现了强烈的迹象表明，谱正则化对GAN的训练稳定性有非常积极的影响。虽然这种现象需要进一步的理论研究，但直观上这是有意义的，因为众所周知，高频噪声可能对基于CNN的神经网络产生强烈影响，这可能导致生成器的过拟合源代码：https://github.com/cc-hpc-itwm/UpConvtransconv上转换+转换transconv+频谱损失FIDFID数据集80%（列车）- 20%（试验）方法样本数量监督无监督Faces-HQ我们1000百分百百分之八十二Faces-HQ我们100百分百百分之八十一Faces-HQ我们20百分百百分之七十五CelebA我们2000百分百百分之九十六CelebA[五十七]100000百分之九十九点四三-7898引用[1] 生成100，000张面孔。https：//generated.照片/。[2] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖 - 马瓦特岛。 Goodfellow ， A.Harp ， G.Irving ，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens ， B. 施泰纳岛 Sutskever ， K. Talwar ， P.Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[3] D. 阿夫查尔河谷Nozick，J.山岸和我。越前Mesonet：一个紧凑的面部视频伪造检测网络。2018年IEEE信息取证与安全国际研讨会（WIFS），第1-7页。IEEE，2018年。[4] M. Arjovsky，S.Chintala和L.博图Wasserstein ganarXiv预印本arXiv：1701.07875，2017。[5] S. Bartunov和D.维特洛夫使用生成匹配网络的少镜头生成建模。在人工智能和统计国际会议上，第670[6] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模 gan 训练。 arXiv 预印本 arXiv ：1809.11096，2018。[7] M. Brundage，S.Avin，J.Clark，H.Toner，P.埃克斯利，B. Garfinkel、A.达福山口Scharre，T.Zeitzoff湾人工智能的恶意使用：预测，预防和缓解。arXiv预印本arXiv：1802.07228，2018。[8] R. Chesney和D.香橼Deepfakes和新的信息战：后真相地缘政治时代的到来。为了外国人。，98：147，2019。[9] Y.崔，M。崔，M。金，J. - W.哈，S。金和周杰伦Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议集，第8789-8797页[10] L. Clou aaustre和M. 德默斯图：用爬行动物拍摄的arXiv预印本arXiv：1901.02199，2019。[11] B. Dai，S.菲德勒河Urtasun和D.是林书通过条件性的根来实现多样化和自然的图像描述在IEEE计算机视觉国际会议的Proceedings中，第2970-2979页[12] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。 2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[13] J. 多纳休山口 Kr aühenbuühl和T. 达雷尔。adversarialfeature-ture learning.arXiv预印本arXiv：1605.09782，2016。[14] R. Durall，M. Keuper，F.- Pfreundt和J.库伯用简单的特征揭露深度伪造。arXiv预印本arXiv：1911.00686，2019。[15] R. Durall，F. Pfreundt和J.库伯半个镜头的致敬翻译。arXiv预印本arXiv：1910.03240，2019。7899[16] R. Durall，F. Pfreundt和J.库伯八度回旋稳定甘斯。arXiv预印本arXiv：1905.12534，2019。[17] A. Dziedzic，J.帕帕里索斯岛 Krishnan，A. 埃尔默，以及M.富兰克林卷积神经网络的带限训练和推理。在K.Chaudhuri和R. Salakhut- dinov，编辑，第36届国际机器学习会议论文集，机器学习研究第 97 卷，第1745PMLR。[18] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页[19] D. Guera和E. J. 德尔普使用递归神经网络的深度帧视频检测2018年第15届IEEE高级视频和基于信号的监视（AVSS）国际会议，第1-6页。IEEE，2018年。[20] I. Gulrajani， F. 艾哈迈德， M 。阿尔约夫斯基河谷Dumoulin，以及A. C.考维尔改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年[21] S.古鲁穆尔蒂，R.KiranSarvadevabhatla，和R.文卡特什先生Deligan：针对多样化和有限数据的生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第166-174页[22] D.哈里斯Deepfakes：虚假色情在这里，法律无法保护你。杜克湖&Tech. Rev. ，17：99，2018。[23] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年[24] C.- C.徐角Y.李和Y X.庄。学习在野外检测虚假人脸图像。2018年国际计算机、消费者和控制研讨会（IS3C），第388-391页。IEEE，2018年。[25] X. 黄文Y. Liu，S.Belongie和J.考茨多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[26] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics（ToG），36（4）：107，2017。[27] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页[28] A. K.贾恩。数字图像处理基础。Englewood Cliffs，NJ：Prentice Hall，1989年。[29] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞arXiv预印本arXiv：1710.10196，2017。[30] T. Karras ， S. Laine 和 T. 艾拉 A style-based generatorarchitecture for generative adversarial networks. 在IEEE计算机视觉和模式识别会议上，第4401-4410页，2019年7900[31] Y.卡茨尼尔森谐波分析导论。剑桥大学出版社，2004。[32] N.作者声明：J. Hays和Z.吉良gans的收敛性和稳定性。arXiv预印本arXiv：1705.07215，2017。[33] Y. Li，S.刘，J.杨和M.-H. 杨面部生成完成。在IEEE计算机视觉和模式识别会议论文集，第3911-3919页[34] Z. Liu，P.Luo，X.Wang和X.唐深度学习在野外面临挑战在IEEE计算机视觉国际会议论文集，第3730-3738页[35] P. Luc，C. Couprie，S. Chintala和J.维贝克使用对抗网络的语义分割。 arXiv 预印本 arXiv ： 1611.08408 ，2016。[36] J. MacQueen等人多元观测值分类与分析的若干方法第五届伯克利数学统计与概率研讨会论文集，第1卷，第281-297页。美国加利福尼亚州奥克兰，1967年。[37] X. 茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z.Wang和S.保罗·斯摩利。最小二乘生成对抗网络。在IEEE计算机视觉国际会议的Proceedings中，第2794-2802页[38] F. Marra ， D. Gragnaniello ， D. Cozzolino 和 L. Verdo-liva。社交网络上gan生成的虚假图像的检测。2018年IEEE多媒体信息处理和检索会议（MIPR），第384-389页。IEEE，2018年。[39] F. Marra，D.格拉尼亚涅洛湖Verdoliva和G.波吉甘斯会留下人工指纹吗？CoRR，abs/1812.11842，2018。[40] L.梅斯湾Poole，D. Pfau 和J. 索尔-迪克斯汀Unrolledgenerative adversarial networks，2016.[41] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[42] S.莫，M。Cho和J. Shin。实例感知的图像到图像转换。在2019年学习代表[43] A. 阮 A. 多索维茨基 J. Yosinski T. 布洛克斯，还有J. Clune通过深度生成器网络合成神经网络神经信息处理系统的进展，第3387-3395页，2016年[44] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017年。[45] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议论文集，第2536-2544页[46] Y. Pu，Z.甘河，巴西-地Henao，X.袁角，澳-地Li，长穗条锈菌A.史蒂文斯和L.卡琳用于图像、标签和标题深度学习的可变自动编码器。神经信息处理系统的进展，第2352-2360页，2016年[47] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。[48] S. Reed，Z.Akata，X.延湖，澳-地洛格斯瓦兰湾schiele和H. 李你生成对抗文本到图像合成。arXiv预印本arXiv：1605.05396，2016。[49] A. R ¨ ssle r，D. 科佐利诺湖 Verdo liv a，C. Riess ，J.Thies和M.尼斯纳FaceForensics++：学习检测被篡改的面部图像。在2019年计算机视觉国际会议（ICCV）[50] K. Roth， A. Lucchi ， S. Nowozin 和 T. 霍夫曼在 NIPS2017，05 2017.[51] B. Scholkopf和A.杰·斯莫拉。使用kernel学习：支持向量机，正则化，优化，和未来。MIT Press，2001.[52] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构在IEEE计算机视觉和模式识别会议论文集，第2818-2826页[53] Y. 薛，T.Xu，H.张丽R. Long和X.煌Segan：用于医学图像分割的具有多尺度l1损失的对抗网络。神经信息学，16（3-4）：383-392，2018。[54] R. A. 耶角，澳-地Chen，T.Yian Lim，A.G. 施温，M. Hasegawa-Johnson和M. N.做具有深层生成模型的语义图像绘画.在IEEE计算机视觉和模式识别会议论文集，第5485-5493页[55] D. 因河，巴西-地G. Lopes，J.Shlens，E.D. Cubuk和J.吉尔默计算机视觉中模型鲁棒性的傅立叶透视。CoRR，abs/1906.08988，2019。[56] J. Yu，Z.Lin，J.Yang，X.Shen，X.Lu和T.S. 煌具有上下文注意的生成图像修复。在IEEE计算机视觉和模式识别会议上，第5505-5514页，2018年[57] N.于湖，加-地Davis和M.弗里茨将虚假图像归因于gans：学习和分析gan 指纹。国际计算机视觉会议（ICCV），2019年10月。[58] H. Zhang，T. Xu，H. Li，S. Zhang，X. Wang，X. Huang和D. N. Metaxas Stackgan：使用堆叠生成对抗网络的文本到照片级真实感图像合成。在IEEE计算机视觉国际会议的Proceedings中，第5907-5915页[59] H. Zhang，T.

下载后可阅读完整内容，剩余1页未读，立即下载